Aller au contenu principal

Dossier Physical Intelligence — π0 — page 6

1221 articles · page 6 sur 25

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques
251arXiv cs.RO RecherchePaper

Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques

Une équipe de chercheurs a déposé le 25 juin 2026 sur arXiv (réf. 2606.25629) un cadre algorithmique baptisé EAMP (Event-Adaptive Motion Planning) pour la navigation robotique en environnements logistiques à criticité sécurité. Le système repose sur trois modules imbriqués : un déclencheur sémantique configurable par prompt, le PC-SET, qui surveille en continu de courtes séquences vidéo pour détecter des anomalies comportementales ; un modèle vision-langage allégé, le SemNav-VLM, activé uniquement lors d'une anomalie avérée, qui produit des décisions stratégiques discrètes ; et un module de contrôle prédictif sémantique (SMPC) qui traduit ces décisions en reconfiguration des objectifs d'optimisation et des références géométriques du planificateur bas niveau. Le SemNav-VLM est obtenu par distillation d'un grand modèle vision-langage (VLM), guidée par des vérifications de cohérence physique, ce qui préserve le raisonnement de bon sens du modèle parent tout en réduisant drastiquement la latence d'inférence. Les expériences sont menées dans des scénarios logistiques simulés. L'enjeu adressé est structurel pour la robotique mobile industrielle : dans les entrepôts et environnements mixtes, la majorité des collisions ne provient pas d'obstacles statiques inédits, mais du comportement imprévisible d'agents dynamiques, opérateurs humains, chariots élévateurs, autres robots autonomes. Les VLMs, capables d'un raisonnement contextuel robuste sur ces situations, sont jusqu'ici incompatibles avec la boucle de contrôle temps-réel en raison de leur latence computationnelle, qui déstabilise l'exécution physique. EAMP résout cette contradiction par déclenchement conditionnel : le modèle allégé n'est invoqué qu'en présence d'une anomalie, préservant l'efficacité temps-réel sans sacrifier la capacité de raisonnement sémantique. Les résultats indiquent une amélioration significative des marges de sécurité dynamiques par rapport aux baselines existantes. Il s'agit néanmoins d'une démonstration en simulation ; aucune validation sur robot physique réel n'est rapportée dans cette version du preprint. Ce travail s'inscrit dans une tendance de fond de 2025-2026 : intégrer les capacités de raisonnement des grands modèles dans des architectures de planification classiques (MPC, RRT) sans sacrifier la réactivité temps-réel. Les approches concurrentes incluent les modèles VLA (Vision-Language-Action) de bout en bout comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui fusionnent différemment raisonnement et action à l'échelle. La distillation supervisée par contraintes physiques est une direction active pour compresser ces modèles sans dégradation critique. Côté déploiement, des acteurs comme Exotec (France, système Skypod) opèrent déjà dans des entrepôts mixtes humains-robots où la problématique des agents dynamiques est centrale ; un cadre comme EAMP pourrait constituer une brique de planification adaptative pour ces systèmes, à condition d'une validation physique que les auteurs n'ont pas encore fournie.

UEExotec (France, système Skypod) est explicitement cité comme cas d'usage potentiel pour ce cadre de planification adaptative, mais l'absence de validation sur robot physique réel reporte tout impact industriel concret.

1 source
ArtiTwinSplat : reconstruction de jumeaux numériques interactifs par Gaussian Splatting à partir de vidéos RGB-D
252arXiv cs.RO 

ArtiTwinSplat : reconstruction de jumeaux numériques interactifs par Gaussian Splatting à partir de vidéos RGB-D

ArtiTwinSplat, présenté dans un preprint arXiv (arXiv:2606.24628) daté du 30 juin 2026, est un framework de reconstruction automatique de jumeaux numériques articulés depuis des vidéos RGB-D, sans modèles CAO, assets de simulation ni annotations manuelles. La méthode combine le 3D Gaussian Splatting (3DGS), une représentation 3D par primitives gaussiennes reconnue pour sa fidélité géométrique et son rendu temps réel, avec un pipeline non supervisé de détection d'articulations qui infère la structure en parties et la cinématique des joints (axes de rotation, translations) depuis le mouvement observé seul. Les jumeaux numériques produits supportent rendu interactif, contrôle de point de vue et manipulation temps réel, et sont conçus pour être directement consommables par des systèmes de planification et d'apprentissage robotiques en aval. L'enjeu est direct pour les intégrateurs : modéliser des objets articulés (portes, tiroirs, outils industriels) reste un goulot d'étranglement coûteux dans le déploiement de systèmes robotiques. Les approches classiques exigent des modèles CAO fournis par le fabricant ou des sessions de capture très structurées en environnement contrôlé. Un pipeline vidéo RGB-D non supervisé réduit drastiquement ce coût d'onboarding. En opérant sur des observations réelles plutôt que des données synthétiques, ArtiTwinSplat vise à réduire le sim-to-real gap dans les pipelines de manipulation, une promesse importante si elle se confirme à l'évaluation sur des scènes industrielles variées. La méthode s'inscrit dans la vague post-2023 du 3DGS, décliné en variantes articulées comme PARIS (CMU/MIT, 2023) ou REACTO. La revendication d'ArtiTwinSplat est d'être le premier pipeline entièrement non supervisé opérant sur vidéos réelles dans ce registre. Le preprint ne mentionne ni affiliation institutionnelle explicite, ni benchmark chiffré sur des datasets standards comme PartNet-Mobility, ni partenariat industriel : c'est une contribution académique à valider, pas un produit déployé. Des équipes comme Physical Intelligence, Anybotics ou des groupes de Stanford et CMU travaillent sur des problématiques adjacentes de manipulation généraliste en monde ouvert, ce qui situe ArtiTwinSplat dans un champ très compétitif.

IA physiquePaper
1 source
RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés
253arXiv cs.RO 

RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés

Une équipe de chercheurs a publié fin juin 2026 un preprint arXiv (2606.24338) présentant RoBoSR, un cadre de représentation intermédiaire structurée pour la manipulation robotique en monde ouvert. L'approche modélise chaque tâche comme une séquence de transitions d'états sur des graphes de scène orientés objet, sémantiquement ancrés. Concrètement, le système segmente l'environnement perçu en entités discrètes (objets, relations spatiales, états) avant de raisonner sur les préconditions et effets de chaque sous-tâche. Pour entraîner ce raisonnement, les auteurs publient simultanément Manip-Cognition-1.6M, un jeu de données de 1,6 million d'exemples couvrant la compréhension de scène, l'interprétation d'instructions et la planification de sous-tâches sur des manipulations variées. Sur plusieurs benchmarks et démonstrations réelles, RoBoSR revendique des performances supérieures aux méthodes par prompting et aux pipelines TAMP classiques (Task and Motion Planning), notamment en généralisation zéro-shot et sur des tâches longue-portée. Ce que pointe cette publication, c'est l'une des frictions centrales des architectures VLA (Vision-Language-Action) actuelles : leur biais séquentiel issu des données de démonstration les rend fragiles dès que la tâche sort du scénario d'entraînement. En intercalant une représentation graphique explicite entre la perception brute et l'action, RoBoSR tente de rendre le raisonnement causal modulaire et réutilisable, ce qui améliore théoriquement la robustesse aux variations d'environnement. Pour un intégrateur industriel, c'est le problème du "demo-to-reality gap" qui est visé : un robot qui comprend les dépendances entre sous-tâches peut récupérer d'un échec partiel sans replanifier depuis zéro. Le dataset Manip-Cognition-1.6M, s'il est effectivement rendu public, constitue également une ressource d'entraînement non négligeable pour la communauté. RoBoSR s'inscrit dans une vague de recherches cherchant à dépasser les limites des modèles d'imitation pure, dans un secteur où Physical Intelligence (pi0), Google DeepMind (GR00T N2) et Figure AI travaillent sur des architectures hybrides mêlant apprentissage et planification symbolique. Le papier reste un preprint non évalué par les pairs, et les résultats en "démonstrations réelles" ne sont pas détaillés quantitativement dans le résumé disponible. Les prochaines étapes naturelles seraient une soumission en conférence (CoRL, ICRA) et la mise à disposition publique du dataset annoncé.

IA physiquePaper
1 source
Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique
254Interesting Engineering 

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

MindOne Robotics, startup chinoise fondée à Shenzhen en 2025, a présenté une démonstration de son framework robotique Mind-0, capable de piloter simultanément des robots humanoïdes Unitree G1 et des systèmes bras-double fixes à partir d'un unique modèle d'IA. Le scénario illustré couvre un workflow logistique complet: récupération d'objets, transport, emballage et fermeture de caisses, avec une flotte mixte opérant sous la même intelligence centralisée. L'entreprise revendique une précision de manipulation inférieure au centimètre sur la plateforme Unitree G1 en conditions réelles. L'architecture Mind-0 sépare le raisonnement de haut niveau (perception, planification, décision) du contrôle moteur bas niveau, ce qui permet de déployer le même cerveau logiciel sur des morphologies différentes sans pipeline d'entraînement séparé par plateforme. Particularité notable: le modèle est entraîné exclusivement sur des données humaines capturées par motion capture corps entier, caméras égocentrées et dispositifs manuels, et non sur de la téléopération robot directe, ce que MindOn présente comme un moyen de préserver les comportements naturels de résolution de problèmes. L'enjeu industriel est double. D'abord, l'agnosticisme matériel: si un seul modèle orchestre humanoïdes et bras fixes sur une même tâche, les intégrateurs n'ont plus à développer des pipelines d'IA distincts par plateforme, ce qui réduit le coût d'entrée dans les déploiements multi-robots. Ensuite, MindOn s'attaque frontalement au sim-to-real, l'un des verrous les plus persistants de la robotique moderne: son Real-World Execution Compensation Model utilise un volume réduit de données réelles pour corriger les dérives dues aux différences de dynamique entre simulation et environnement physique. Les métriques annoncées (précision sub-centimétrique sur une démonstration sélectionnée) restent toutefois à valider dans des conditions de déploiement industriel répétable, avec cadences et taux d'erreur documentés. Le système de raisonnement hiérarchique compensant les délais d'actuation répond par ailleurs à un problème souvent sous-estimé: contrairement aux démonstrations humaines, les robots subissent des latences de capteur, de calcul et d'actionneur que le modèle doit continuellement corriger en temps réel. MindOne Robotics évolue dans un espace concurrentiel très chargé. Sur l'agnosticisme matériel et les modèles unifiés cross-embodiment, elle fait face à GR00T N2 de NVIDIA (conçu pour humanoïdes multiples), à pi0 de Physical Intelligence (modèle généraliste pour la manipulation), ainsi qu'aux stacks maison de Fourier Intelligence et d'Unitree. En Europe, Enchanted Tools avec son robot Miroka et Wandercraft positionnent des approches verticales différentes. MindOne reste une très jeune société, et cette démonstration constitue à ce stade un teaser technologique, non un produit commercialement déployé: aucun client pilote ni délai de mise en production n'ont été annoncés publiquement. L'entreprise indique vouloir étendre ses datasets humains et industrialiser son pipeline cross-embodiment, sans préciser de calendrier.

UELa montée en puissance de l'approche cross-embodiment chinoise (Mind-0) crée une pression concurrentielle indirecte sur les acteurs français Enchanted Tools et Wandercraft, qui développent des approches verticales différentes sans modèle unifié cross-morphologie.

Chine/AsieOpinion
1 source
Unitree Robotics : domination des coûts face au défi de l'IA dans la course aux robots humanoïdes
255Pandaily 

Unitree Robotics : domination des coûts face au défi de l'IA dans la course aux robots humanoïdes

Unitree Robotics, fabricant chinois de robots humanoïdes fondé en 2016 par Wang Xingxing, ancien ingénieur chez DJI, affiche une rentabilité que ses concurrents peinent à atteindre. Le robot G1 coûte 8 976 dollars en pièces détachées, ce qui permet de dégager une marge brute de 67 % sur un prix de vente supérieur à 20 000 dollars, quand la plupart des acteurs du secteur peinent à l'équilibre sur des tarifs similaires de 20 000 à 30 000 dollars. Avec plus de 1 000 employés et un chiffre d'affaires annuel dépassant 1,7 milliard de yuans, Unitree revendique deux exercices consécutifs bénéficiaires. Cette structure de coûts repose sur trois piliers : une intégration verticale à plus de 90 % des composants clés (moteurs, réducteurs, encodeurs) fabriqués en interne à 30-40 % du coût occidental équivalent ; une chaîne d'approvisionnement rodée par des années de production de robots quadrupèdes, du Laikago à 45 000 dollars en 2018 au Go2 à 1 400 dollars en 2023, soit une baisse de 94 % ; et un écosystème manufacturier chinois permettant de recevoir des prototypes personnalisés en une semaine, contre plusieurs trimestres pour les concurrents américains. L'avantage en coût est réel, mais il ne couvre pas encore le spectre complet du marché industriel. Environ 70 % du chiffre d'affaires provient de la recherche et de l'enseignement, signal clair que le fossé entre démonstration et déploiement n'est pas comblé. Les capacités de contrôle du mouvement sont indéniables : backflips documentés, chorégraphies coordonnées à grande échelle. En revanche, l'investissement en IA incarnée (embodied AI) accuse un retard structurel. Lors d'une collaboration avec NVIDIA, c'est une main dextre tierce qui a été utilisée plutôt que la série DEX d'Unitree, ce qui révèle des lacunes en perception tactile. La croissance du chiffre d'affaires, qui dépassait 300 % en glissement annuel, est tombée à 68 % au premier trimestre 2026, tandis que le bénéfice net non-GAAP a chuté de plus de 50 % sur la même période. L'IPO en préparation prévoit d'allouer près de la moitié des 4,2 milliards de yuans levés à la R&D sur les modèles de robots intelligents, confirmant que la compétitivité IA reste le point faible à combler en priorité. Unitree s'est construit sur une base quadrupède, catégorie dans laquelle il a compressé les coûts sur plusieurs générations avant de pivoter vers l'humanoïde. La concurrence s'intensifie sur plusieurs fronts simultanément : Tesla avec Optimus, Xiaomi avec CyberOne, XPeng avec le PX5, et plus de 150 rivaux domestiques chinois, sans compter les acteurs américains comme Figure Robotics, Physical Intelligence ou Boston Dynamics. Les trois prochaines années seront déterminantes : l'avantage de coût actuel constitue une position défendable, mais seulement si Unitree parvient à combler son retard sur les modèles VLA (vision-language-action) et à convertir ses démonstrations en déploiements industriels réels et récurrents.

UELa structure de coûts d'Unitree (humanoïdes à ~20 000 $ avec marges de 67 %) constitue une pression indirecte sur les industriels européens et les startups françaises d'humanoïdes, contraints de se positionner face à des offres chinoises structurellement moins chères.

Chine/AsieOpinion
1 source
Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information
256arXiv cs.RO 

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.19998), une méthode appelée Tri-Info (Triple Information-theoretic signals) pour détecter automatiquement les défaillances des modèles VLA (Vision-Language-Action) avant qu'ils ne causent des dommages irréversibles dans des environnements physiques. Testée sur six modèles VLA distincts et trois environnements de benchmark, Tri-Info atteint 83 % de précision sur des tâches en conditions réelles, là où les détecteurs existants s'effondrent au niveau du hasard. La méthode repose sur trois signaux dérivés de la théorie de l'information : la diversité des actions générées par le modèle, leur cohérence temporelle, et leur couplage aux transitions d'état observées dans l'environnement. Cruciale pour les déploiements industriels, Tri-Info ne nécessite aucun réentraînement pour fonctionner sur de nouvelles architectures ou dans de nouveaux environnements, y compris lors du passage simulation-vers-réel (sim-to-real). Ce résultat est directement pertinent pour les intégrateurs qui déploient des robots manipulateurs ou humanoïdes pilotés par des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). L'opacité de ces modèles constitue un risque opérationnel concret : un VLA peut échouer silencieusement, entraînant une collision, une chute d'objet ou l'interruption d'un cycle de production. Tri-Info ajoute une couche de supervision interprétable capable de distinguer trois classes de défaillances (manque de diversité, incohérence temporelle, découplage état-action), ce qui facilite le diagnostic post-incident. Sa transférabilité sans réentraînement est stratégiquement importante : elle permet d'intégrer la détection sur des systèmes déjà déployés sans modifier le pipeline existant. Ce travail s'inscrit dans une course à l'industrialisation des VLA accélérée depuis fin 2024 avec les sorties de Pi-0 et d'OpenVLA, et les travaux de Google DeepMind sur RT-2 et ses successeurs. Le sim-to-real gap reste l'un des principaux freins à leur généralisation, la plupart des systèmes de détection entraînés en simulation perdant leur efficacité en conditions réelles. Tri-Info est à ce stade un preprint non encore revu par les pairs, et ses performances n'ont pas été reproduites de manière indépendante. Si elles se confirment, la méthode pourrait s'imposer comme une brique de sécurité standard dans les pipelines de déploiement robotique fondés sur des VLA.

RechercheOpinion
1 source
DADP : politique de diffusion adaptative au domaine
257arXiv cs.RO 

DADP : politique de diffusion adaptative au domaine

Des chercheurs ont publié le 19 juin 2026 la troisième version de DADP (Domain Adaptive Diffusion Policy), un framework de contrôle robotique conçu pour généraliser à des dynamiques physiques inconnues sans nécessiter de réentraînement. Le problème central adressé est la capacité d'une politique apprise en simulation ou dans un environnement donné à fonctionner dans un autre contexte aux propriétés mécaniques différentes, friction, masse, compliance des articulations, ce que l'on appelle l'adaptation zéro-shot. Les auteurs identifient un défaut structurel dans les approches existantes de domain representation learning : lorsqu'un modèle extrait sa représentation du domaine à partir d'un contexte temporel adjacent à l'étape courante, il mélange involontairement des informations statiques (les constantes du domaine physique) avec des propriétés dynamiques transitoires (la vitesse ou la posture instantanée). DADP répond par deux contributions techniques : d'abord le Lagged Context Dynamical Prediction, qui conditionne l'estimation d'état futur sur un contexte historique décalé dans le temps, augmenter ce délai force le modèle à filtrer les propriétés transitoires et à extraire uniquement les invariants du domaine, sans supervision explicite. Ensuite, les représentations de domaine ainsi disentangled sont injectées directement dans le processus génératif du diffusion model, en biaisant la distribution a priori et en reformulant la cible de diffusion. Les résultats sur des benchmarks de locomotion et de manipulation dépassent les méthodes antérieures sur ces axes combinés. L'intérêt pour les intégrateurs robotiques et les équipes R&D est double. Premièrement, DADP aborde directement le sim-to-real gap en proposant une séparation non supervisée entre ce qui appartient à la physique du robot (masse, friction) et ce qui relève de la trajectoire en cours, une distinction que les approches précédentes laissaient au réseau à résoudre implicitement, avec des résultats fragiles. Deuxièmement, l'injection de la représentation domaine dans le processus de diffusion plutôt qu'en simple conditionnement de politique représente un changement architectural notable : cela signifie que la politique génère des actions dont la distribution est intrinsèquement calibrée sur le domaine courant, et non pas simplement corrigée a posteriori. Pour les équipes travaillant sur des déploiements multi-sites ou sur des flottes hétérogènes de manipulateurs industriels, cela ouvre une voie pour réduire le coût de calibration par site. Il convient de nuancer : les benchmarks présentés restent des environnements simulés standardisés (MuJoCo-type), et aucune validation hardware sur un robot physique n'est revendiquée dans l'abstract, un gap classique entre publication académique et déploiement terrain. DADP s'inscrit dans un courant de recherche actif qui cherche à combiner les diffusion policies, popularisées par les travaux de Chi et al. (2023) sur le Diffusion Policy et désormais intégrées dans des systèmes comme pi-zéro de Physical Intelligence ou les pipelines GR00T de NVIDIA, avec des mécanismes d'adaptation contextuelle au domaine physique. Les approches concurrentes incluent les méthodes de domain randomization (entraînement sur une large distribution de dynamiques) et les architectures méta-RL comme PEARL ou MAML, qui supposent un accès à quelques épisodes d'adaptation. DADP se positionne en zéro-shot sans rollouts d'adaptation, ce qui est une contrainte opérationnelle réaliste pour des déploiements industriels où le temps de mise en service est limité. La présence d'un site de visualisation dédié (outsider86.github.io/DomainAdaptiveDiffusionPolicy) et l'itération en version 3 suggèrent une réponse active à la communauté ; une validation expérimentale sur hardware physique constituerait la prochaine étape logique pour ancrer ces résultats dans la réalité industrielle.

RecherchePaper
1 source
CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle
258arXiv cs.RO 

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Des chercheurs ont publié sur arXiv (référence 2505.17006, version 3) une méthode baptisée CoMo, pour "Continuous Motion", conçue pour extraire automatiquement des représentations continues du mouvement à partir de vidéos issues d'Internet, et les réutiliser comme étiquettes d'action pour entraîner des politiques robotiques. CoMo repose sur deux mécanismes distincts : une différence temporelle précoce (Td) appliquée en amont de l'encodeur pour rendre plus difficile l'apprentissage par raccourcis visuels (les modèles ont tendance à coder l'arrière-plan statique plutôt que le mouvement lui-même), et un apprentissage contrastif temporel (Tcl) qui construit des paires positives avec un décalage temporel réduit vers le futur, et des paires négatives en inversant la direction du temps. Le résultat est un espace latent continu, entraîné sur des vidéos à grande échelle, capable de générer des pseudo-étiquettes d'action pour des vidéos jamais vues en phase d'inférence. Des expériences en simulation et en conditions réelles montrent des gains de performance par rapport aux approches discrètes, aussi bien avec des architectures diffusion que autorégressives. L'enjeu industriel est direct : l'un des goulots d'étranglement du robot learning est la rareté des démonstrations téléopérées, coûteuses à collecter. Si une méthode peut extraire un signal d'action utilisable depuis des vidéos YouTube ou des caméras industrielles non étiquetées, elle réduit mécaniquement le coût de constitution des datasets. La contribution principale de CoMo face aux méthodes discrètes par quantification vectorielle (VQ) est de supprimer la perte d'information liée à la projection dans un codebook de petite taille, et surtout de combler le fossé de distribution entre un espace discret de tokens visuels et un espace d'actions continues à valeurs réelles, fossé qui pénalise l'apprentissage conjoint d'une politique unifiée. La généralisation zéro-shot annoncée est la prétention la plus forte : elle signifie que CoMo pourrait étiqueter des vidéos de nouveaux environnements ou tâches sans ré-entraînement, ce qui reste à valider sur des benchmarks standardisés ; l'abstract ne cite pas de métriques numériques précises. Ce travail s'inscrit dans un axe de recherche très actif depuis 2023, qui cherche à exploiter Internet comme source de supervision pour les robots, aux côtés de méthodes comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, ou encore les travaux sur les VLA (Vision-Language-Action models) d'UC Berkeley et du MIT. Les approches discrètes concurrentes (type GROOT ou méthodes VQ-VAE appliquées à la vidéo) souffrent précisément des limitations que CoMo prétend résoudre. La prochaine étape naturelle serait une validation sur des benchmarks robotiques communautaires comme RLBench, LIBERO ou BridgeData V2, et un test à l'échelle de données réellement "internet-scale" pour confirmer si la généralisation zéro-shot tient face à la diversité des distributions visuelles du monde réel.

RecherchePaper
1 source
Apprentissage robotique ludique à base d'agents
259arXiv cs.RO 

Apprentissage robotique ludique à base d'agents

RATs (Robotics Agent Teams) est un système d'apprentissage robotique agentic présenté dans le preprint arXiv 2606.19419 qui introduit une phase de "jeu" auto-dirigé avant toute tâche explicite. L'agent, basé sur le paradigme Code-as-Policy (CaP), propose lui-même des tâches exploratoires, exécute des politiques en code, vérifie les progrès intermédiaires, diagnostique les échecs avec un feedback dense à chaque étape et distille les exécutions réussies dans une bibliothèque de compétences persistante. À l'inférence, cette bibliothèque gelée est réutilisée par d'autres agents pour résoudre des tâches inédites, sans fine-tuning du modèle sous-jacent. Sur les benchmarks LIBERO-PRO et MolmoSpaces, RATs surpasse la baseline CaP-Agent0 de 20,6 et 17,0 points de pourcentage respectivement ; les compétences acquises sont également transférables à d'autres agents CaP, avec des gains de 8,9 points sur RoboSuite et 8,8 points en déploiement réel. La portée industrielle de cette approche tient principalement à deux éléments. La séparation entre phase d'acquisition de compétences et phase d'exécution crée une bibliothèque réutilisable partageable entre agents hétérogènes sans réentraînement, ouvrant la voie à des bibliothèques de primitives robotiques mutualisées sur des flottes entières. Les gains en transfert réel (+8,8 points) suggèrent par ailleurs que l'apprentissage par jeu améliore la robustesse sim-to-real, défi persistant pour les systèmes VLA (Vision-Language-Action) déployés hors simulation. Il convient toutefois de nuancer : le preprint ne détaille ni les conditions de déploiement réel ni le profil précis des tâches testées, ce qui limite l'évaluation en contexte industriel non contrôlé. Le paradigme Code-as-Policy, introduit par Google DeepMind avec SayCan et Code as Policies entre 2022 et 2023, utilise des LLMs pour générer du code Python interprétable comme politique robotique. RATs y greffe un mécanisme d'exploration issu de la robotique développementale, prolongeant une lignée de travaux sur les agents curieux et l'apprentissage non supervisé de compétences. Dans un paysage dominé par des architectures VLA end-to-end, comme Pi-0 et Helix de Physical Intelligence ou Figure 03 de Figure Robotics, cette approche code-first se distingue par sa modularité et sa moindre dépendance aux données d'annotation denses. Le travail reste à ce stade non revu par des pairs, et des validations à plus grande échelle dans des environnements variés et non structurés seront nécessaires pour confirmer sa portée opérationnelle.

💬 La vraie idée ici, c'est pas le "jeu" (ça fait bien dans un abstract), c'est la bibliothèque de compétences gelée et partageable entre agents sans ré-entraînement. Si ça tient hors labo, tu peux imaginer des flottes entières qui mutualisent leurs primitives robotiques comme des développeurs partagent des packages. Les +8,8 points en déploiement réel sont le seul chiffre qui compte, et il est là.

IA physiqueOpinion
1 source
Soutien politique et production de masse propulsent les ETF de robots humanoïdes à l'aube d'une phase critique
260Pandaily 

Soutien politique et production de masse propulsent les ETF de robots humanoïdes à l'aube d'une phase critique

La Chine accélère sa stratégie dans la robotique humanoïde : le ministère de l'Industrie et des Technologies de l'Information (MIIT), en coordination avec la SASAC (Commission de supervision des actifs d'État), a fixé un objectif contraignant de plus de 10 000 unités humanoïdes déployées d'ici fin 2026, signalant un passage de l'incitation à la R&D vers une obligation de déploiement industriel. Sur le plan production, le Centre d'innovation en robotique humanoïde de Pékin a confirmé que le Tiangong 3.0 entrera en fabrication en série au second semestre 2026, avec des réductions de coûts attendues supérieures à 50 %. UBTECH a formalisé une coentreprise pour développer des puces d'intelligence incarnée, avec un capital enregistré de 100 millions de yuans. Côté chaîne d'approvisionnement, Wanma et Langxin Electric ont commencé des livraisons en volume de composants critiques. À l'international, GenesisAI, soutenu par l'ex-PDG de Google Eric Schmidt, a lancé son robot industriel Eno, tandis que Faraday Future affirme avoir livré 157 unités réparties sur quatre modèles. Dans ce contexte, l'ETF Robot d'Invesco Great Wall (code 159559), indexé sur le Guozheng Robot Industry Index (980022), affiche une exposition de plus de 73 % aux valeurs du secteur humanoïde, avec une allocation sectorielle dominée par les équipements mécaniques à 47,23 % (réducteurs, vis à billes, moteurs) et les équipements électriques à 14,68 %. Ce moment marque une inflexion structurelle : la Chine ne pilote plus la filière par subventions symboliques mais par objectifs de déploiement chiffrés et datés, ce qui force les intégrateurs et les acheteurs industriels à anticiper des volumes réels dès 2026. La maturité affichée de la chaîne d'approvisionnement, notamment autour des composants à haute valeur (actionneurs, chips embarqués), réduit un des principaux goulets d'étranglement identifiés lors des phases pilotes. Toutefois, il convient de rester prudent : l'article source est en grande partie un texte promotionnel pour le fonds 159559 lui-même, dont la performance de 60,81 % sur deux ans est mise en avant face aux 34,02 % du CSI 300. Les chiffres de déploiement restent des objectifs politiques, pas des confirmations de livraisons effectives, et les vidéos de démonstration des robots ne constituent pas une preuve de passage à l'échelle industrielle. La trajectoire de la robotique humanoïde chinoise s'inscrit dans un effort stratégique accéléré depuis 2023, avec des acteurs comme Unitree, AgiBot et UBTECH qui avancent en parallèle. À l'international, Tesla (Optimus Gen 3), Figure (Figure 03), Physical Intelligence (pi0), Agility Robotics et Boston Dynamics maintiennent une pression concurrentielle forte, principalement sur les cas d'usage logistique et manufacture. Le second semestre 2026 et l'année 2027 sont désignés comme la première fenêtre de réalisation de revenus réels pour le secteur, sous réserve que les objectifs de déploiement se confirment en commandes fermes plutôt qu'en annonces de pilotes.

UELa montée en puissance industrielle chinoise dans les humanoïdes (objectif 10 000 unités d'ici fin 2026, passage aux mandats de déploiement) crée une pression concurrentielle indirecte sur les fabricants et intégrateurs européens de composants robotiques critiques (actionneurs, réducteurs, chips embarqués).

Chine/AsieActu
1 source
Guava : un cadre efficace et universel pour la manipulation incarnée
261arXiv cs.RO 

Guava : un cadre efficace et universel pour la manipulation incarnée

Des chercheurs ont publié en juin 2026 sur arXiv (identifiant 2606.18363) Guava, un cadre de harness pour agents robotiques de manipulation. Le système repose sur trois ingrédients identifiés après une exploration systématique de l'espace de conception : des boucles itératives perception-raisonnement-action, des abstractions d'action sémantiques et des observations multimodales. À partir de ces principes, les auteurs ont entraîné un modèle open-source de 4 milliards de paramètres en utilisant moins de 2 000 trajectoires collectées entièrement en simulation, sans aucune donnée réelle. Les évaluations en environnement simulé et en conditions réelles montrent des performances comparables aux modèles propriétaires de pointe, avec une généralisation robuste à des objets non vus en entraînement, des instructions inédites et des tâches longues à plusieurs étapes. Le résultat le plus significatif est qu'un modèle compact peut atteindre des performances compétitives avec des systèmes propriétaires massifs à condition que l'architecture de harness soit bien conçue, et non que le modèle soit immense. Cela conteste directement l'hypothèse dominante selon laquelle les systèmes VLA (Vision-Language-Action) end-to-end nécessitent des millions de trajectoires réelles pour franchir le sim-to-real gap. L'approche par tool use découple le raisonnement de haut niveau des modules de perception et de contrôle, rendant le cadre agnostique au modèle sous-jacent, un avantage concret pour les intégrateurs industriels souhaitant substituer les composants sans réentraîner l'ensemble du système. Ce travail s'inscrit dans un débat structurant de la manipulation robotique qui oppose les VLA end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aux approches modulaires par harness, qui misent sur la composabilité et le raisonnement émergent des LLM. L'approche rappelle SayCan (Google/Everyday Robots) ou Code as Policies, mais avec une validation sim-to-real plus explicite et sur modèle open-source. Le modèle 4B utilisé n'est pas nommé dans le papier, et aucun déploiement industriel ni partenariat commercial n'est mentionné : Guava demeure pour l'instant un résultat de recherche, sans timeline de productisation annoncée.

UELes laboratoires de recherche et intégrateurs robotiques européens peuvent s'appuyer sur ce cadre open-source pour développer des systèmes de manipulation compétitifs sans infrastructure de données réelles à grande échelle.

RechercheOpinion
1 source
DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent
262arXiv cs.RO 

DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent

DREAM-Chunk (arXiv:2606.18589, juin 2026) est une méthode d'inférence conçue pour corriger une fragilité structurelle des modèles vision-language-action (VLA) : l'exécution en boucle ouverte lors de l'action chunking. Ce paradigme, devenu standard dans les VLA actuels, consiste à inférer à basse fréquence un bloc d'actions (un "chunk") que le robot exécute séquentiellement à haute fréquence, sans rétroaction intermédiaire. Dès qu'un chunk est lancé, le robot le suit à l'aveugle, vulnérable aux perturbations dynamiques, aux erreurs matérielles et à l'observabilité partielle. DREAM-Chunk adresse ce problème sans modifier ni réentraîner la politique sous-jacente : à l'inférence, il génère plusieurs chunks candidats, simule leurs trajectoires dans un espace latent via un world model léger, et sélectionne celui dont l'état prédit correspond le mieux à l'observation réelle. La méthode est validée sur le benchmark Kinetix et sur quatre tâches de manipulation couvrant deux plateformes robotiques et deux architectures VLA distinctes. L'intérêt pratique est direct pour les intégrateurs industriels qui déploient des VLA pré-entraînés sans accès au pipeline d'entraînement : DREAM-Chunk s'insère comme une couche plug-and-play, sans fine-tuning requis. La méthode s'inscrit dans la tendance du test-time compute scaling, bien établie côté LLM mais encore naissante en robotique physique, où dépenser davantage de calcul à l'inférence peut compenser les limites d'un modèle sans passer par un nouveau cycle d'entraînement coûteux. Les résultats montrent que les gains augmentent avec le nombre de chunks candidats échantillonnés, et que l'avantage est particulièrement marqué lorsque les démonstrations contiennent des comportements correctifs, ce qui soulève une question pratique sur la composition des datasets de démo. Les world models latents en robotique ont une longue tradition (DREAMER, TD-MPC2, DreamerV3), mais leur couplage avec des VLA basés sur le chunking reste récent. Physical Intelligence avec pi-0, Figure AI et des équipes de Stanford, CMU et Berkeley explorent simultanément comment améliorer la robustesse en déploiement sans réentraînement complet. DREAM-Chunk se distingue par son caractère agnostique au modèle sous-jacent, ce qui facilite son adoption sur des architectures hétérogènes. La prochaine étape logique serait une validation sur des plateformes commerciales à manipulation dextre (Fourier GR1, Unitree G1) et des tâches à dynamiques hautement stochastiques comme l'assemblage de précision. Le papier ne mentionne ni partenaires industriels ni pilotes commerciaux annoncés.

💬 Le test-time compute scaling arrive enfin en robotique physique, et DREAM-Chunk en est un premier signal propre : générer des trajectoires candidates, simuler dans un espace latent, choisir la meilleure, sans toucher au modèle sous-jacent. Le chunking en boucle ouverte, c'est le point faible silencieux de tous les VLA actuels (ça marche dans 80% des cas, alors on n'en parle pas trop). Pour les intégrateurs qui déploient sans accès au pipeline d'entraînement, une couche qui corrige à l'inférence sans réentraîner, c'est la pièce manquante.

IA physiqueOpinion
1 source
R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique
263arXiv cs.RO 

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

Des chercheurs ont publié sur arXiv en octobre 2024 (arXiv:2510.18085v2) une méthode baptisée R2BC (Round-Robin Behavior Cloning), conçue pour entraîner des systèmes multi-robots à partir de démonstrations réalisées par un seul opérateur humain. Le principe : l'humain téléopère un robot à la fois, de façon séquentielle en "round-robin", sans jamais avoir à contrôler plusieurs agents simultanément ni à fournir des démonstrations dans l'espace d'action conjoint. La méthode a été évaluée sur quatre tâches simulées multi-agents, puis déployée sur deux tâches physiques avec des démonstrations humaines réelles. Résultat : R2BC atteint, voire dépasse dans certains cas, les performances d'une approche oracle de behavior cloning entraînée sur des démonstrations synchronisées privilégiées, c'est-à-dire des données idéales rarement disponibles en pratique. L'intérêt de R2BC tient à son approche de la collecte de données d'imitation learning. En robotique collaborative multi-bras ou en manipulation industrielle coordonnée, constituer des démonstrations synchronisées entre plusieurs agents représente un goulot d'étranglement logistique majeur : cela exige plusieurs opérateurs, une coordination temporelle précise, et multiplie les coûts d'instrumentation. R2BC supprime cette contrainte en permettant à un seul technicien de construire progressivement un dataset multi-agent, ce qui rend la méthode directement applicable aux déploiements à budget contraint. Que R2BC tienne la comparaison face à un oracle entraîné sur des données idéales constitue une validation empirique solide, même si les tâches physiques testées restent relativement simples et que les détails sur les configurations matérielles ne sont pas communiqués dans le préprint. L'imitation learning par clonage comportemental s'est imposé comme une voie centrale pour l'apprentissage robot depuis les travaux fondateurs de DAgger (Ross et al., 2011) et, plus récemment, avec les architectures VLA (Vision-Language-Action) portées notamment par Physical Intelligence (pi0) et Google DeepMind. Son extension au multi-agent reste néanmoins peu explorée : la plupart des travaux existants supposent des démonstrations conjointes ou une coordination centralisée, là où des méthodes de renforcement multi-agent comme MAPPO ou QMIX opèrent sans contrainte de collecte humaine. R2BC occupe ce blanc de la littérature avec une approche pragmatique. Les suites naturelles seraient de tester la méthode sur des équipes de robots plus nombreuses, dans des environnements dynamiques proches des standards industriels, et d'évaluer sa robustesse sur des tâches longue-horizon.

RecherchePaper
1 source
Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde
264arXiv cs.RO 

Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde

Une équipe de recherche a publié sur arXiv (arXiv:2606.19297) un protocole d'évaluation baptisé Act2Answer, conçu pour mesurer objectivement combien de connaissances de sens commun et de savoirs factuels les modèles Vision-Language-Action (VLA) conservent après leur fine-tuning sur des données robotiques. Le protocole transforme les benchmarks classiques d'évaluation de modèles de langage visuels (VLM) en épisodes tabulaires courts : l'agent doit répondre à une question en plaçant physiquement un objet parmi plusieurs candidats sur une surface, ce qui ancre l'évaluation dans une action réelle plutôt que dans un output textuel. L'étude couvre 7 modèles VLA et 9 modèles VLM de référence, testés sur une suite de scénarios couvrant plusieurs catégories de connaissances. À cela s'ajoute une technique de sondage couche par couche (layerwise intent probing) pour localiser où l'information pertinente à la réponse est encodée dans le backbone VLM et la tête d'action. Les résultats révèlent une dégradation systématique, mais inégale, des connaissances après adaptation robotique. Les VLA maintiennent des performances solides sur les concepts simples, mais accusent des écarts significatifs sur les catégories sémantiquement plus riches par rapport à leurs VLM d'origine. Autrement dit, le fine-tuning robotique érode préférentiellement les représentations de haut niveau, celles qui portent le raisonnement nuancé. Le probing couche par couche montre que les signaux pertinents culminent dans les couches intermédiaires du réseau, puis s'atténuent dans les couches supérieures, ce qui suggère que la tête d'action interfère avec la propagation des connaissances sémantiques. Fait notable : l'entraînement conjoint avec des données VQA (Visual Question Answering) est associé à une meilleure rétention des connaissances, ouvrant une piste concrète pour les architectures futures. L'outil résout aussi un problème méthodologique persistant : il devient difficile de distinguer un échec dû à une connaissance absente d'un échec de contrôle moteur de bas niveau. Act2Answer s'inscrit dans un débat plus large sur le sim-to-real gap et la robustesse des VLA en déploiement industriel. Les modèles VLA actuels, comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de modèles comme LLaVA et Qwen-VL, héritent de VLMs préentraînés sur des corpus massifs, puis sont spécialisés sur des datasets robotiques relativement restreints. La question de la rétention des connaissances est directement pertinente pour les intégrateurs qui misent sur ces modèles pour des tâches impliquant une compréhension contextuelle du monde réel, au-delà du simple pick-and-place. Aucun acteur européen n'est mentionné dans l'étude. Le code et les environnements Act2Answer sont disponibles publiquement, ce qui permettra à d'autres équipes de compléter les comparaisons avec d'autres architectures et de tester l'impact de stratégies d'entraînement alternatives.

UELes équipes de recherche et les intégrateurs européens travaillant sur les VLA peuvent exploiter le benchmark Act2Answer (code public) pour évaluer la rétention de connaissances de leurs modèles et tester la stratégie d'entraînement conjoint VQA.

RechercheOpinion
1 source
WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles
265arXiv cs.RO 

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

Une équipe de recherche a publié sur arXiv (ref. 2606.18097) WireCraft, un benchmark de simulation dédié à la manipulation industrielle d'objets linéaires déformables (DLO), typiquement les câbles et faisceaux électriques omniprésents dans les lignes d'assemblage. Le benchmark couvre trois familles de tâches représentatives du câblage industriel réel : l'insertion de connecteurs, le routage de clips et la mise en place de goulottes (channel seating). Il intègre deux modèles physiques complémentaires pour simuler le comportement des câbles, l'un articulé et l'autre véritablement déformable, et les trajectoires de référence proviennent à la fois de la simulation et d'un bras UR5 physique. Les auteurs ont évalué trois familles de politiques de contrôle : apprentissage par renforcement (RL), apprentissage par imitation (IL) et politiques vision-langage-action (VLA). Sous conditions de RL avec état privilégié (accès direct aux variables d'état internes de la simulation), chaque famille de tâches est résolue avec un taux de succès supérieur à 82 %, confirmant que les tâches sont bien posées et non artificiellement impossibles. Ces résultats exposent un écart critique entre manipulation sous état privilégié et manipulation guidée uniquement par la vision, un problème central pour tout intégrateur cherchant à déployer des cellules robotisées sur des opérations de câblage. Le vrai verrou identifié par WireCraft n'est pas la phase d'approche, mais la transition entre atteindre un connecteur et exécuter l'alignement en contact riche, où les politiques visuelles (RL vision, IL et VLA) échouent de façon significative. Cela contredit implicitement plusieurs narratifs optimistes autour des VLA polyvalents : malgré des performances impressionnantes sur des objets rigides, ces architectures peinent dès que la géométrie est déformable et que le retour d'état est limité à la perception visuelle. Pour un COO industriel ou un intégrateur, le message est pragmatique : les câbles ne sont pas encore un problème résolu, même en simulation propre avec des benchmarks bien construits. Le manque de benchmarks partagés et reproductibles pour les DLO freine depuis longtemps la comparaison objective des approches dans ce domaine. Les benchmarks existants sont généralement liés à du matériel propriétaire ou traitent des objets déformables génériques sans les contraintes de fixation propres au câblage industriel. WireCraft comble cette lacune avec des assets configurables en difficulté et des protocoles d'évaluation communs. Le code, les données et les outils seront mis en open source après acceptation de l'article. Côté concurrence, des acteurs comme OpenAI (avec ses travaux sur la manipulation déformable) ou des laboratoires comme Physical Intelligence (pi) avec Pi-0 poussent également sur la manipulation généraliste, mais aucun benchmark industriel câble de ce type n'était encore disponible publiquement. La prochaine étape naturelle sera le sim-to-real transfer systématique : WireCraft pose les rails, mais la question de savoir quelle architecture franchira le gap reste entièrement ouverte.

RecherchePaper
1 source
DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine
266arXiv cs.RO 

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.17418) les spécifications techniques de la DexLink Hand, une main robotique anthropomorphe à 16 degrés de liberté intégrant 20 articulations commandées par 16 actionneurs indépendants. Le prototype, de la taille d'une main humaine, pèse 320 grammes et affiche un coût total inférieur à 400 dollars, un seuil rarissime pour ce niveau de polyvalence. L'architecture mécanique repose sur un système hybride de mécanismes à liaisons planes et spatiales, permettant des mouvements multidirectionnels découplés, des synergies articulaires biomimétiques et une forte capacité de charge passive sans actionnement. Le pouce intègre des caractéristiques biomimétiques supportant les mouvements de reconfiguration et d'opposition propres à la main humaine. Lors des évaluations expérimentales, la main a atteint le score de Kapandji maximal (référence standard en chirurgie et robotique pour évaluer l'amplitude de mouvement du pouce) et a reproduit les 33 types de préhension du catalogue Feix, couvrant l'intégralité des prises répertoriées sur des sujets humains. L'intérêt industriel du travail réside principalement dans le ratio coût/dextérité : les mains robotiques commerciales atteignant un niveau comparable (Shadow Dexterous Hand, Allegro Hand) se situent entre 5 000 et 70 000 dollars, rendant leur déploiement en série peu viable. Un module à moins de 400 dollars change les calculs pour les intégrateurs de robots humanoïdes ou de cellules de téléopération. La masse de 320 g est également compatible avec les bras des humanoïdes de nouvelle génération, dont les payloads distaux sont souvent contraints à moins de 500 g. La reproduction de l'intégralité des types Feix constitue une donnée concrète pour le robot learning : les datasets entraînés sur des démonstrations humaines deviennent directement exploitables sans remapping cinématique, ce qui réduit le gap sim-to-real pour les approches VLA (vision-language-action). Le défi de la main dextère est structurel dans le secteur : la majorité des plateformes humanoïdes commerciales (Figure 03, Tesla Optimus Gen 3, Agility Digit, Unitree H1) utilisent encore des mains simplifiées à 2 à 6 DOF pour des raisons de robustesse et de coût. Ce prototype reste pour l'heure un démonstrateur académique sans annonce de commercialisation ni partenariat industriel déclaré. Les chercheurs le positionnent explicitement pour la manipulation dextère, la téléopération et le robot learning en environnements centrés sur l'humain, des cas d'usage directement alignés avec les feuilles de route de Boston Dynamics, de 1X Technologies ou des équipes travaillant sur Pi-0 (Physical Intelligence). Aucune timeline d'intégration sur un bras complet ni d'évaluation en conditions industrielles n'est communiquée.

HumanoïdesPaper
1 source
Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives
267arXiv cs.RO 

Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives

Une équipe de chercheurs publie sur arXiv (2606.17408) LeaP, un Learnable source Prior qui modifie le point de départ de la génération d'actions dans les politiques robotiques génératives. Là où les approches classiques comme les diffusion policies ou le flow-matching initialisent la génération depuis un bruit gaussien standard indépendant de l'état du robot, LeaP le remplace par une gaussienne diagonale conditionnée sur la proprioception, paramétrée par un MLP léger qui prédit conjointement moyenne et variance adaptative sur des action chunks. Évalué sur 15 tâches de manipulation du benchmark RoboTwin, LeaP atteint 81,6 % de taux de succès moyen, surpassant quatre baselines de référence de 6,5 à 25,5 points de pourcentage. La méthode s'applique indifféremment aux générateurs flow-matching et diffusion-bridge, avec moins de paramètres, une convergence plus rapide, et des gains confirmés en déploiement réel. L'intérêt industriel de LeaP tient à sa nature modulaire : il s'agit d'un composant drop-in qui améliore toute politique générative existante sans modifier l'architecture du générateur ni le solveur d'inférence. Pour les équipes R&D travaillant sur la manipulation robotique en contexte industriel, qu'il s'agisse d'assemblage, de tri ou de logistique, cela signifie qu'un prior appris sur l'état interne du robot réduit la charge computationnelle à l'inférence tout en améliorant la précision des gestes. La publication valide une hypothèse jusque-là sous-explorée : la distribution source est un axe de conception indépendant, au même titre que le choix du type de générateur. Initialiser la génération depuis un bruit "informé" réduit la distance que le modèle doit parcourir dans l'espace des actions, ce qui se traduit directement en précision sur des tâches millimétriques. Les politiques génératives pour la manipulation ont émergé avec les diffusion policies (Chi et al., 2023) et le flow-matching appliqué à la robotique, popularisé notamment par Pi-0 de Physical Intelligence et les architectures VLA (Vision-Language-Action). Ces approches héritent toutes du même point aveugle : une initialisation gaussienne standard issue des modèles génératifs d'image, sans justification propre à la robotique. Dans l'espace des politiques génératives pour la manipulation, les concurrents directs incluent Diffusion Policy de Columbia et MIT, les variantes flow-matching de Physical Intelligence, ainsi que les architectures embarquées dans les humanoïdes de Figure AI et Agility Robotics. Les suites attendues portent sur l'intégration de ce prior dans des architectures VLA multimodales et son évaluation sur des benchmarks industriels de plus grande diversité.

RechercheOpinion
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
268arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
269TechNode 

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
270arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
Pilotage de politique d'inférence par vision et toucher
271arXiv cs.RO 

Pilotage de politique d'inférence par vision et toucher

Des chercheurs ont publié sur arXiv (réf. 2606.14981, juin 2026) ViTaL, un framework de pilotage à l'inférence combinant vision et toucher pour affiner les politiques de manipulation robotique. Le principe : plutôt que de ré-entraîner un modèle génératif pré-entraîné, ViTaL intervient au moment de l'exécution en vérifiant et corrigeant les séquences d'actions candidates avant qu'elles ne soient jouées. Le système repose sur une optimisation bi-niveaux, un niveau haut visuel qui sélectionne le comportement global à longue portée, et un niveau bas tactile qui édite en diffusion la séquence retenue pour satisfaire les contraintes de contact locales. Un monde latent visuo-tactile appris permet d'évaluer des récompenses tactiles futures via un verifieur conditionné en texte, sans avoir besoin de capteur physique au moment de la prédiction. Sur trois tâches réelles de manipulation à contact riche (assemblage, insertion, dépose sous contrainte), ViTaL améliore le taux de succès global de 51 % par rapport à la politique de base, dépasse les approches unimodales (vision seule) d'au moins 33 %, et surpasse la fusion multimodale naïve d'au moins 20 %. Ces résultats pèsent dans un débat central de la robotique de manipulation : la vision seule suffit-elle à piloter des robots en environnement de contact ? ViTaL répond non, et quantifie l'écart. Pour les intégrateurs et les équipes R&D travaillant sur l'assemblage industriel ou la manipulation d'objets déformables, la démonstration que l'information tactile peut être injectée à l'inférence sans retraining complet est directement exploitable, elle ouvre une voie vers des politiques génériques adaptables à de nouveaux contextes de contact via du "steering" léger. L'édition par diffusion guidée par le toucher est particulièrement notable : elle permet de préserver le comportement global appris tout en rectifiant les micro-interactions, ce qui réduit le risque de régression comportementale souvent observé lors du fine-tuning. ViTaL s'inscrit dans la vague des approches "inference-time compute" appliquées à la robotique, popularisées par les travaux sur les VLA (Vision-Language-Action models) et les politiques de diffusion de type π0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'idée de vérifier les actions à l'exécution plutôt qu'au train-time est également explorée par des équipes comme Covariant et Figure AI, mais sans capteurs tactiles intégrés dans la boucle de correction. La spécificité de ViTaL est de traiter le retour tactile comme une source de supervision temporelle courte portée, complémentaire à la vision longue portée. L'article reste un preprint et les tâches testées sont de complexité modérée ; une validation sur des scénarios industriels réels (tolérance sub-millimétrique, variabilité de pièces) sera nécessaire pour confirmer la généralisation.

IA physiqueOpinion
1 source
Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés
272arXiv cs.RO 

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

Un preprint arXiv (identifiant 2606.04046, publié début juin 2026) présente SceneDiver, une méthode visant à réduire les hallucinations visuelles dans les modèles de vision-langage (VLM) et les modèles vision-langage-action (VLA) appliqués à la manipulation robotique et à la navigation incarnée. Le problème central : ces modèles peinent à distinguer les objets pertinents pour la tâche des distracteurs environnants, ce qui dégrade leurs décisions dans des scènes encombrées. SceneDiver adopte une approche grossière-à-fine en deux temps : construction d'abord d'un graphe de scène global pour saisir l'environnement dans sa totalité, puis décomposition itérative de la tâche en sous-problèmes via un cycle reconnaissance-compréhension-analyse. Pour les VLA, qui opèrent en contrôle réactif à faible latence, un adaptateur léger (lightweight adapter) distille cette capacité de focalisation sans pénaliser les temps d'inférence. Les auteurs rapportent une réduction substantielle des hallucinations sur les benchmarks standards d'IA incarnée, et publient le code en open source. Ce travail pointe un blocage fondamental pour le déploiement industriel des VLA : même des modèles performants en planification ou en contrôle moteur échouent face à des scènes encombrées parce qu'ils focalisent sur les mauvais objets. La solution naïve, pointer directement sur l'objet critique en une seule étape, s'avère insuffisante selon les auteurs, car identifier quoi regarder requiert d'abord une compréhension globale de la scène. Pour les intégrateurs, l'adaptateur léger proposé offre une voie d'amélioration de la robustesse sans nécessiter de ré-entraîner le modèle de base, ce qui constitue un argument pratique non négligeable. Ce goulot d'étranglement perceptuel est un sujet de recherche actif depuis que des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ont commencé à être déployés hors laboratoire. Ces modèles restent fragiles face à la variabilité des environnements réels, ce que le secteur désigne comme le "demo-to-reality gap". SceneDiver demeure une contribution académique préliminaire, non encore évaluée par les pairs, et l'absence de détails précis sur les benchmarks utilisés dans le résumé rend la comparaison directe difficile avec d'autres approches comme OpenVLA ou SpatialVLM. La mise à disposition du code en open source est toutefois un signal positif pour la reproductibilité ; une validation sur matériel réel et une intégration dans des stacks comme LeRobot de Hugging Face constitueraient les prochaines étapes naturelles.

UEL'intégration potentielle dans LeRobot (HuggingFace, France) représente un bénéfice indirect pour l'écosystème open-source robotique européen.

RechercheOpinion
1 source
Des scientifiques montrent qu'un entraînement structuré surpasse les données d'apprentissage complexes en robotique
273Interesting Engineering 

Des scientifiques montrent qu'un entraînement structuré surpasse les données d'apprentissage complexes en robotique

Des chercheurs de la NYU Tandon School of Engineering et du Robotics and AI Institute ont publié dans IEEE Robotics and Automation Letters une étude montrant qu'un robot apprend à manipuler des objets complexes plus efficacement lorsqu'on lui fournit des démonstrations cohérentes plutôt que variées. L'équipe a évalué cette hypothèse sur deux tâches de manipulation à haute dextérité : deux bras robotiques devant faire pivoter un cylindre de 180 degrés en repositionnant leurs prises, et une main robotique devant réorienter un cube dans sa paume vers des positions cibles. Plutôt que de recourir à la téléopération humaine, les chercheurs ont généré des exemples d'entraînement via des algorithmes de planification de mouvement dans des simulateurs physiques. La méthode classique, les arbres aléatoires à exploration rapide (RRT), produisait des trajectoires très disparates d'une démonstration à l'autre. En développant deux alternatives, l'une optimisant la progression vers l'objectif et l'autre s'appuyant sur une bibliothèque de mouvements prédéfinis, l'équipe a obtenu des données à faible entropie. Avec seulement 100 démonstrations consistantes, le système dual-bras a atteint une performance quasi parfaite en simulation. Le transfert sim-to-real, sans ré-entraînement sur matériel physique, s'est soldé par 90 % de succès pour les deux bras et 62 % pour la main dextre. Ces résultats remettent en question une intuition dominante dans le machine learning : plus de données égale meilleure performance. Ici, la qualité structurelle des exemples prime sur la quantité. Pour les équipes qui développent des systèmes d'apprentissage par imitation (imitation learning), cela change le problème de collecte de données : il ne s'agit plus d'accumuler des démonstrations humaines coûteuses et difficiles à standardiser, mais de concevoir des générateurs de données synthétiques pilotés par des planificateurs déterministes. Le taux de 90 % en déploiement réel sans fine-tuning est un résultat concret sur le sim-to-real gap, souvent présenté comme le verrou majeur de la robotique de manipulation, bien que les conditions de laboratoire ne constituent pas un environnement industriel, et que ces chiffres restent à valider en conditions non contrôlées. Cette recherche s'inscrit dans une tendance de fond qui voit planification classique et apprentissage automatique converger, plutôt que s'opposer. Les approches de type VLA (vision-language-action) et les pipelines basés sur la diffusion de politiques, portés par des acteurs comme Physical Intelligence (pi0) ou des équipes académiques liées à Berkeley et Stanford, affrontent le même défi : générer des données d'entraînement fiables pour des tâches contact-rich. L'angle exploré ici, contrôler l'entropie des démonstrations synthétiques plutôt que leur diversité, pourrait influencer les pipelines de génération de données pour la prochaine génération de manipulateurs, notamment dans les contextes industriels où la répétabilité prime sur la généralisation.

UELes équipes européennes en apprentissage par imitation (manipulation industrielle, main robotique) peuvent directement adopter cette approche de génération de données synthétiques à faible entropie pour réduire leur dépendance à la téléopération humaine coûteuse.

RecherchePaper
1 source
VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)
274arXiv cs.RO 

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié VLA-Arena, un framework open-source de benchmark conçu pour évaluer les modèles Vision-Language-Action (VLA), ces politiques robotiques généralisées capables d'interpréter commandes en langage naturel et observations visuelles pour générer des actions motrices. La version 2 du preprint (arXiv 2512.22539v2) présente un protocole structuré autour de 170 tâches, organisées selon quatre dimensions orthogonales : sécurité (Safety), gestion des distracteurs (Distractor), extrapolation hors-distribution (Extrapolation) et planification longue portée (Long Horizon). Chaque tâche existe en trois niveaux de difficulté (L0 à L2), le fine-tuning étant exclusivement réalisé sur L0 afin de tester la capacité de généralisation. En parallèle, des perturbations linguistiques (W0-W4) et visuelles (V0-V4) s'appliquent indépendamment à chaque tâche, permettant une analyse découplée de la robustesse. Les auteurs publient également les datasets VLA-Arena-S/M/L ainsi qu'un leaderboard public. Les résultats de l'évaluation des VLA de l'état de l'art sont sévères et contre-intuitifs pour ceux qui suivent les démonstrations marketing du secteur. Les modèles testés exhibent une forte tendance à la mémorisation plutôt qu'à la généralisation réelle : leurs performances s'effondrent dès que la tâche sort légèrement de la distribution d'entraînement. La robustesse est asymétrique selon l'axe perturbé (visuel vs. linguistique), les contraintes de sécurité sont quasi-ignorées, et la composition de compétences pour les tâches longue portée reste hors de portée de tous les modèles testés. Pour les intégrateurs industriels et les équipes R&D qui envisagent de déployer des VLA en production, ces résultats constituent un signal d'alerte : le "sim-to-real gap" n'est pas résolu, et les capacités affichées en démo ne tiennent pas face à des conditions réelles variables. VLA-Arena arrive dans un contexte de prolifération rapide des VLA généralistes : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2, Gemini Robotics) et OpenVLA font tous état de progrès importants, mais sur des benchmarks hétérogènes et souvent propriétaires, rendant toute comparaison directe impossible. L'absence d'un protocole d'évaluation standardisé est depuis longtemps identifiée comme le principal obstacle à la progression scientifique rigoureuse du domaine. VLA-Arena n'est pas encore un standard industriel adopté, mais sa publication en open-source avec toolchain complet (définition de tâche, évaluation automatisée, datasets) le positionne comme candidat sérieux. Les prochaines étapes dépendront de l'adoption par les équipes qui développent ces modèles, et d'une éventuelle intégration dans les pipelines de validation avant déploiement réel en atelier.

RechercheOpinion
1 source
De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles
275arXiv cs.RO 

De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles

Un article de synthèse publié sur arXiv (réf. 2604.04974, version 2) dresse un état de l'art structuré des méthodes permettant d'exploiter des vidéos temporelles non annotées en actions pour apprendre des interfaces de contrôle en manipulation robotique. Les auteurs ne s'appuient sur aucun label d'action : la vidéo seule, en captant comment les objets se déplacent, comment les contacts se déroulent et comment les scènes évoluent, constitue la source d'apprentissage. Le survey introduit une taxonomie centrée sur l'interface, organisée selon trois familles : les politiques vidéo-action directes, qui maintiennent l'interface implicite dans le réseau neuronal ; les méthodes à actions latentes, qui acheminent la structure temporelle via un espace intermédiaire compact appris ; et les interfaces visuelles explicites, qui prédisent des cibles interprétables (poses, waypoints, affordances) pour un contrôle aval découplé. Ce cadre de classification comble un vide méthodologique réel : la littérature traitait jusqu'ici ces trois familles de façon dispersée, sans analyser comment chacune ferme la boucle de contrôle, ce qui peut être vérifié avant exécution, et à quel stade les défaillances apparaissent. Pour les intégrateurs et les équipes R&D, cet angle est directement opérationnel : une interface latente est plus difficile à inspecter qu'une interface explicite à base de keypoints, ce qui modifie les stratégies de débogage et de déploiement. La synthèse inter-familles pointe un défi commun : la couche d'intégration robotique, les mécanismes qui relient les prédictions issues de la vidéo à un comportement robot fiable, reste le maillon faible indépendamment de la famille choisie. Ce survey s'inscrit dans une dynamique portée par les modèles VLA (Video-Language-Action) : RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI exploitent tous, à des degrés divers, des données vidéo à grande échelle pour conditionner le contrôle moteur. Le fossé identifié dans le papier, entre prédiction vidéo et comportement physique fiable, correspond précisément au "sim-to-real gap" de cette nouvelle génération de modèles : une démonstration convaincante en vidéo ne garantit pas la robustesse en déploiement réel. Les auteurs proposent des pistes de recherche pour combler ce décalage, sans livrer de pipeline opérationnel, ce qui positionne ce travail comme une ressource de cartographie pour orienter la communauté plutôt que comme une solution clé en main.

RechercheOpinion
1 source
Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA
276arXiv cs.RO 

Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA

Une équipe de chercheurs a publié début juin 2026 sur arXiv (2606.01095) un cadre diagnostique pour comparer deux grandes familles de politiques robotiques : les Vision-Language-Action (VLA) et les World-Action Models (WAM). La question posée est directe : la prédiction du futur, propre aux WAM, produit-elle des comportements réellement différents, ou n'ajoute-t-elle que du calcul superflu ? Les auteurs ont évalué sept politiques (VLA directes et WAM en configurations jointes, séquentielles et auxiliaires) sur les benchmarks LIBERO et RoboTwin2.0. Le protocole combine une analyse comportementale (cohérence des dynamiques d'action, progression vers l'objet cible, perturbations par distracteurs, coût d'inférence) et une analyse des représentations internes via des autoencodeurs épars, classifiant chaque représentation comme mémorisée, réactive ou prédictive. Les résultats contredisent l'usage courant du taux de réussite comme seul critère de comparaison : cette métrique masque des différences architecturales substantielles. Les WAM améliorent souvent le comportement au niveau objet et la sélectivité vers la cible, mais ces gains varient selon l'architecture et s'accompagnent d'un surcoût d'inférence. Les WAM séquentiels exhibent la structure prédictive la plus nette et la plus exploitable pour le contrôle. Les WAM auxiliaires compriment l'information future, les WAM joints l'enchevêtrent avec d'autres représentations, dans les deux cas, elle devient moins actionnable. Pour un intégrateur ou une équipe R&D, ce résultat est concret : un benchmark de succès seul ne suffit pas pour choisir une architecture, il faut auditer comportement et représentations internes. Les VLA, portées par Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, ont prouvé leur robustesse croissante en sim-to-real mais restent aveugles aux états futurs de la scène. Les WAM, inspirés des architectures world-model comme Dreamer ou RSSM, visent à combler ce gap en intégrant une prédiction explicite du monde. Ce travail s'inscrit dans un courant académique cherchant à dépasser les métriques de surface : le cadre proposé est agnostique au modèle, applicable à d'autres politiques, et oriente les prochains travaux vers des architectures WAM qui préservent des représentations futures actionnables plutôt que de les noyer dans la capacité globale du réseau.

RechercheOpinion
1 source
Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent
277arXiv cs.RO 

Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent

Une prépublication arXiv déposée le 2 juin 2026 (arXiv:2606.01847) identifie une erreur géométrique structurelle dans les politiques robotiques de type Vision-Language-Action (VLA) à base de diffusion, désormais l'approche dominante pour la manipulation dextère. Les auteurs nomment ce défaut l'"Euclidean Fallacy" : ces modèles représentent les poses 3D en coordonnées SE(3) comme de simples vecteurs plats dans R¹², traitant rotations et translations comme s'ils vivaient dans un espace euclidien ordinaire. Cette approximation engendre trois pathologies concrètes : une dérive de variété qui viole les contraintes SO(3) (les matrices de rotation générées ne restent plus orthogonales), une rupture d'équivariance sous changements de repère (le même objet vu depuis un angle différent produit des trajectoires incohérentes), et des trajectoires non géodésiques générant un surcoût cinématique inutile. Pour corriger cela, les chercheurs proposent le Lie Diffuser Actor (LDA), un framework de diffusion qui opère intrinsèquement sur SE(3) : le bruit est injecté via des équations différentielles stochastiques (SDE) invariantes à gauche, les scores sont prédits dans l'espace tangent, et les échantillons sont rétractés sur la variété via la carte exponentielle de Lie. Sur le benchmark CALVIN ABC→D, référence standard pour la généralisation en manipulation multi-tâches, LDA fait progresser la longueur de tâche moyenne de 3,27 à 3,51, soit un gain de 7,3%. Des expériences sur robot réel confirment que la méthode surpasse la ligne de base sur la majorité des tâches testées. L'enjeu dépasse la géométrie abstraite. Les politiques VLA, désormais au coeur des robots manipulateurs commerciaux et des travaux académiques les plus cités, souffrent d'un biais systématique qui s'aggrave dès que la diversité des poses augmente : variation de prise, rotation hors plan, scénarios multi-vue. En forçant le processus de diffusion à rester sur la variété SE(3) par construction plutôt que par régularisation post-hoc, LDA élimine la dérive sans coût d'inférence supplémentaire. L'équivariance garantie signifie concrètement qu'un intégrateur industriel peut monter une caméra dans n'importe quelle orientation sans requalifier le modèle, ce qui réduit un verrou majeur au déploiement en cellule flexible. Le gain de 7,3% sur CALVIN reste modeste en valeur absolue, mais le benchmark est conçu pour mesurer la généralisation hors distribution, ce qui lui confère plus de poids qu'une amélioration sur un jeu de test in-distribution. Ce travail s'inscrit dans la lignée des politiques de diffusion pour la robotique popularisées par Diffusion Policy (Chi et al., 2023) et intégrées ensuite dans pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, deux VLA de référence qui partagent la même représentation euclidienne incriminée. La correction géométrique proposée est orthogonale à l'architecture backbone et pourrait s'appliquer directement à ces systèmes. Côté compétiteurs académiques, des approches comme RiemannianFlow ou les travaux de Chirikjian sur la convolution sur groupes de Lie avaient posé des bases théoriques similaires, mais sans les intégrer dans un pipeline de diffusion end-to-end fonctionnel sur robot réel. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (manipulation bimanuelle, tâches d'assemblage) et une intégration dans un des frameworks VLA open-source existants pour mesurer l'impact à plus grande échelle. Il s'agit pour l'instant d'une prépublication non encore soumise à révision par les pairs.

RechercheOpinion
1 source
Les dynamiques prédites peuvent-elles exister dans le monde physique ?
278arXiv cs.RO 

Les dynamiques prédites peuvent-elles exister dans le monde physique ?

Un preprint déposé le 1er juin 2026 sur arXiv (identifiant 2606.00089) introduit le concept d'admissibilité physique pour les politiques de robotique apprise, qu'il s'agisse de modèles VLA (Vision-Language-Action), de diffusion policies ou d'Action Chunking Transformers. Ces systèmes génèrent des trajectoires d'état, des séquences d'actions et des plans en espace latent, mais le problème central est le suivant : un faible RMSE (Root Mean Square Error) de prédiction ne garantit pas qu'une proposition soit physiquement exécutable sur un robot réel. Les auteurs formulent une interface prédiction-contrôle qui évalue chaque proposition candidate via des conditions cinématiques, dynamiques et des horizons composés, avant toute exécution. Sur le benchmark Hugging Face LeRobot PushT, les résidus RMSE et dynamiques standardisés atteignent des AUC (aire sous la courbe ROC) de 0,982 et 0,972, la porte complète atteint 0,957, et le système bloque 87 à 89 % des propositions invalides tout en préservant un progrès de tâche moyen de 0,998. Point notable : les conditions cinématiques seules n'atteignent que 0,592 d'AUC. Pour les intégrateurs et les équipes qui déploient des politiques apprises sur du matériel réel, l'apport est concret : une couche de validation interposable entre la sortie d'un modèle et le contrôleur bas niveau, avec attribution de cause au rejet (dépassement de couple, violation de limites articulaires, incohérence cinématique). Ce n'est pas un certificat de succès de la tâche, mais un filtre qui réduit le fossé sim-to-real sans nécessiter de retraining. Le faible AUC des conditions cinématiques seules contredit une hypothèse parfois avancée dans le secteur : vérifier la cohérence géométrique ne suffit pas, les contraintes dynamiques sont indispensables pour filtrer les trajectoires non exécutables. Ce travail s'inscrit dans un contexte où des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) et les politiques de Figure affichent une généralisation croissante mais aussi des échecs caractéristiques au contact du déploiement réel. La question de la vérifiabilité formelle des sorties de politiques apprises est un axe de recherche actif dans plusieurs laboratoires, dont MIT, CMU et ETH Zurich. Ce preprint n'est pas encore évalué par les pairs et les expériences restent confinées à un benchmark de manipulation 2D relativement simple (PushT) ; la validation sur des manipulateurs industriels 6 DOF en boucle temps réel reste entièrement à démontrer.

RechercheOpinion
1 source
RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA
279arXiv cs.RO 

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Un article pré-publié sur arXiv (2606.02277, juin 2026) introduit RoboSemanticBench (RSB), un benchmark conçu pour tester si les modèles vision-langage-action (VLA) exploitent réellement la compréhension sémantique dans leurs prédictions de mouvement. Le protocole est délibérément simple : un robot reçoit une question à choix multiples, arithmétique ou de culture générale, observe des blocs physiques correspondant aux réponses candidates, et doit saisir le bloc associé à la bonne réponse. RSB propose deux configurations, à quatre et dix choix, couvrant l'arithmétique contrôlée, la compréhension mathématique de niveau primaire, ainsi que le raisonnement de bon sens et factuel. Les résultats obtenus sur plusieurs modèles VLA représentatifs sont sévères : si la majorité des politiques testées parviennent à saisir des blocs de manière fiable, le taux de sélection du bloc sémantiquement correct se situe, après correction du succès de préhension, à des niveaux proches du hasard, voire inférieurs. Ce résultat remet en question une hypothèse fondatrice de l'architecture VLA : l'idée que la compréhension sémantique acquise lors du pré-entraînement du backbone (modèle de langage ou vision-langage) se transfère naturellement vers la prédiction d'action. Ce que RSB révèle, c'est que le fine-tuning par imitation sur des distributions d'actions spécifiques à une tâche suffit à masquer ce transfert : les modèles apprennent des raccourcis visuels ou des associations instruction-action sans ancrer leurs gestes dans la signification réelle des instructions. Pour les intégrateurs et industriels qui déploient des systèmes VLA dans des environnements à haute variabilité sémantique (picking, tri, assemblage configurable), ce diagnostic a des implications directes : la performance en évaluation standard ne garantit pas une généralisation sémantique robuste en conditions réelles. Les modèles VLA ont connu une montée en puissance rapide depuis RT-2 (Google DeepMind, 2023), avec des successeurs comme OpenVLA, Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), tous reposant sur l'hypothèse que des backbones vision-langage pré-entraînés fournissent une compréhension du monde directement exploitable pour la manipulation robotique. RSB constitue le premier benchmark structuré autour de la dissociation entre compétence sémantique au niveau du backbone et compétence sémantique au niveau de l'action, une distinction que les évaluations classiques par taux de succès en manipulation ne capturent pas. Les auteurs ne proposent pas de correctif immédiat, mais leur protocole ouvre la voie à des méthodes de fine-tuning ou d'évaluation capables de préserver, voire de restaurer, la capacité sémantique dans la chaîne décision-action.

UELes équipes R&D et intégrateurs européens déployant des systèmes VLA en picking, tri ou assemblage configurable doivent réévaluer leurs métriques de validation : RSB démontre que le taux de succès en manipulation ne garantit pas la généralisation sémantique en conditions réelles.

RechercheActu
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
280arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques
281arXiv cs.RO 

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.02274) un article décrivant Dexterity-BEV, un cadre méthodologique visant à corriger deux limitations structurelles des politiques de manipulation robotique basées sur des modèles de vision-langage (VLM) pré-entraînés à grande échelle. La première limitation : ces modèles héritent d'une représentation purement 2D de la vision par ordinateur, inadaptée à la nature intrinsèquement tridimensionnelle de la manipulation. La seconde : il n'existe pas d'alignement spatial cohérent entre les espaces d'entrée et de sortie des politiques, ni entre différents robots, configurations de caméras et jeux de données de trajectoires. Pour y remédier, les auteurs introduisent deux représentations inédites : l'aligned vertex map et le vertex spectrum, des cartes pixel-à-pixel qui élèvent les entrées RGB en coordonnées 3D via la calibration de caméra et la profondeur optionnelle. Ils proposent ensuite un cadre canonique Bird's-Eye-View (BEV), une vue du dessus invariante aux variations de pose de caméra, dans lequel les informations 3D de chaque vue et les actions du robot sont exprimées dans un repère commun. Un pipeline de traitement de données à grande échelle et un schéma d'alignement temporel pour des trajectoires provenant de robots hétérogènes, d'opérateurs humains et de datasets variés complètent l'approche. L'enjeu industriel est direct : les VLA (Vision-Language-Action models) de type π0, OpenVLA ou GR00T N2 souffrent précisément de ce décalage spatio-temporel quand on les déploie sur des robots différents de ceux utilisés à l'entraînement, ou avec des caméras repositionnées. Dexterity-BEV tente de combler ce gap sans abandonner la généralisation offerte par les VLM entraînés sur des données web. La vue BEV, empruntée à l'industrie automobile (perception de véhicules autonomes), est ici réinterprétée pour la manipulation, ce qui constitue un transfert conceptuel non trivial. Si les gains de généralisation annoncés se confirment à l'évaluation réelle, cela réduirait le coût de redéploiement d'une politique sur un nouveau site industriel ou une nouvelle configuration de cellule robotique, une friction majeure pour les intégrateurs. L'article s'inscrit dans une dynamique de recherche intense autour des politiques de manipulation end-to-end, portée par des laboratoires comme Physical Intelligence (π0), Google DeepMind (RT-2, GR00T), et des équipes académiques chinoises et américaines. L'approche BEV pour la robotique terrestre est par ailleurs explorée en parallèle par des groupes travaillant sur les robots mobiles et les AMR d'entrepôt. Les auteurs rendent disponibles le checkpoint pré-entraîné, le code source et le pipeline de données sur leur page projet, ce qui facilite la réplication et l'adoption par la communauté. Aucun partenariat industriel ni déploiement réel n'est mentionné : il s'agit à ce stade d'une contribution de recherche, pas d'un produit commercialisé.

RechercheOpinion
1 source
Mélange d'horizons dans le découpage en actions
282arXiv cs.RO 

Mélange d'horizons dans le découpage en actions

Des chercheurs ont publié sur arXiv (réf. 2511.19433v2) une approche baptisée Mixture of Horizons (MoH) qui s'attaque à un verrou technique dans les modèles vision-langage-action (VLA) utilisés pour la manipulation robotique. Le problème identifié est le suivant : la longueur du "chunk d'action" (le nombre de pas d'action prédits en une seule passe, appelé horizon) conditionne fortement les performances, mais aucune valeur fixe n'est optimale. Un horizon long donne une meilleure prévision globale du mouvement mais dégrade la précision fine ; un horizon court améliore le contrôle local mais échoue sur les tâches longues. MoH découpe le chunk d'action en plusieurs segments à horizons différents, les traite en parallèle via un transformeur d'action partagé, et fusionne les sorties avec une porte linéaire légère. Appliqué aux politiques pi-0, pi-0.5 (Physical Intelligence) et pi-reg, MoH atteint 99 % de taux de succès moyen sur le benchmark LIBERO en seulement 30 000 itérations d'entraînement, un nouveau state-of-the-art. Le mode d'inférence dynamique, qui sélectionne les actions stables par consensus inter-horizons, délivre un débit 2,5 fois supérieur aux baselines. L'intérêt principal de MoH est sa nature plug-and-play : il s'intègre sans modification architecturale majeure dans tout module d'action à attention complète, avec un surcoût d'entraînement et d'inférence minimal. Pour les équipes qui déploient des VLA en manipulation industrielle ou sur des plateformes humanoïdes, cela signifie qu'elles peuvent améliorer significativement la robustesse sur des tâches mixtes (gestes fins + séquences longues) sans changer leur infrastructure. Le gain de débit est particulièrement pertinent pour le temps réel embarqué, où la latence de prédiction est un facteur limitant concret. Ce travail s'inscrit dans l'essor des VLA issus des travaux de Physical Intelligence (pi-0, sorti fin 2024) et d'OpenVLA, qui ont démontré que le préentraînement multimodal peut accélérer la généralisation en manipulation. Le benchmark LIBERO, issu de recherches en imitation learning, sert de référence standard pour évaluer la transfer et la composition de tâches. Les concurrents directs dans l'espace VLA incluent RoboVLMs de Google DeepMind, OpenVLA-OFT, et les travaux de Carnegie Mellon sur ACT/Diffusion Policy. MoH reste à ce stade une contribution de recherche académique, sans déploiement industriel annoncé, mais sa compatibilité plug-and-play le rend directement utilisable par les équipes qui entraînent déjà sur pi-0 ou des architectures dérivées.

💬 Le problème de l'horizon d'action, c'est un classique en robotique, et personne n'avait vraiment trouvé de sortie propre avant ça. MoH répond avec la bonne idée au bon moment : plusieurs horizons en parallèle, une porte de fusion légère, et tu gardes toute ton infra existante. 99 % sur LIBERO, 2,5x de débit, plug-and-play sur pi-0, bon, sur le papier c'est difficile de trouver à redire.

IA physiqueOpinion
1 source
Sous-espaces primitifs et transfert en quelques exemples dans les VLA
283arXiv cs.RO 

Sous-espaces primitifs et transfert en quelques exemples dans les VLA

Une équipe de recherche publiée en mai 2026 sur arXiv (2605.30695) démontre qu'entraîner des politiques VLA (vision-language-action) avec une segmentation explicite en sous-compétences primitives permet un transfert en quelques démonstrations, sans mise à jour des poids du modèle. Les chercheurs ont comparé deux architectures aux biais inductifs distincts, OpenVLA et π₀.₅ (de Physical Intelligence), sur le jeu de données REASSEMBLE, qui couvre des tâches d'assemblage à contact riche, en appliquant un protocole strict : mêmes recettes LoRA, mêmes hyperparamètres, trois seeds d'entraînement indépendantes. Les modèles entraînés avec des épisodes segmentés en primitives annotées par des prompts linguistiques spécifiques atteignent 78 % des performances du modèle fine-tuné complet avec seulement trois démonstrations d'une tâche jamais vue à l'entraînement. Les modèles entraînés sur des trajectoires plates nécessitent dix démonstrations pour atteindre le même niveau, soit un écart de 3× en efficacité d'échantillon, répliqué sur les deux architectures et validé sur un second jeu de données (LIBERO-Long). Ce résultat s'attaque directement au principal frein à l'industrialisation des VLA : aujourd'hui, introduire une nouvelle tâche en production implique un cycle coûteux de collecte de données et de fine-tuning. Réduire ce besoin à trois démonstrations représente un gain opérationnel concret pour les intégrateurs et les équipes de déploiement terrain. La rigueur causale est notable : les auteurs ablate le sous-espace décodable par les primitives dans les états cachés du modèle et mesurent une chute de 32 points de pourcentage sur le transfert few-shot, alors qu'ablater un sous-espace aléatoire de même dimensionnalité n'a aucun effet statistique. Cela établit que les représentations de primitives sont causalement nécessaires, et non simplement corrélées aux bonnes performances, une distinction importante que beaucoup d'études comparatives ne prennent pas la peine de vérifier. Dans le paysage concurrentiel, Physical Intelligence (π₀, π₀.₅) et le projet OpenVLA (Berkeley) sont les deux familles de VLA généralistes les plus actives, avec des approches très différentes sur la question de la généralisation. Ce travail s'inscrit dans la course à résoudre le problème sim-to-real et zero/few-shot, où RT-2 (Google DeepMind), Octo ou encore RoboFlamingo restent des références. Les auteurs signalent également un biais méthodologique systématique dans l'évaluation des politiques à actions groupées (chunked policies) : une inflation par famille des seuils de validation d'actions produit des taux de faux-échecs jusqu'à dix fois supérieurs lorsqu'on compare à des démonstrations humaines réelles, ce qui invalide silencieusement de nombreuses évaluations publiées dans ce sous-domaine.

💬 Trois démos au lieu de dix pour transférer une tâche jamais vue, sans toucher aux poids du modèle. C'est exactement le verrou qui bloquait l'industrialisation des robots généralistes, et là on a enfin des chiffres reproductibles sur deux architectures distinctes. Le bonus : ils prouvent la causalité par ablation, pas juste une corrélation, ce qui est trop rare dans ce domaine pour ne pas le signaler.

IA physiqueOpinion
1 source
Stratégies de préhension pratiques pour la manipulation mobile en environnement réel
284arXiv cs.RO 

Stratégies de préhension pratiques pour la manipulation mobile en environnement réel

Des chercheurs ont publié en avril 2025 sur arXiv (référence 2504.12512) une étude de terrain portant sur SHOPPER, une plateforme de manipulation mobile conçue pour évaluer des stratégies de préhension dans un supermarché réel. L'environnement choisi n'est pas anodin : un magasin d'alimentation impose une diversité extrême d'objets (formes irrégulières, emballages souples, produits réfléchissants), de configurations d'étagères et de layouts changeants. L'équipe a conduit des centaines de tentatives de saisie distinctes et documente en détail les modes de défaillance observés, sans annoncer de taux de réussite global, ce qui tranche avec la communication habituelle du secteur. Ce travail apporte une valeur rare dans la littérature robotique actuelle : une analyse honnête des échecs en conditions non structurées réelles, plutôt qu'une démonstration soigneusement sélectionnée en laboratoire. Le fossé demo-to-reality reste le principal obstacle au déploiement commercial des manipulateurs mobiles, et les auteurs cherchent précisément à le cartographier. Pour un intégrateur ou un décideur industriel, ce type d'inventaire des cas limites est plus exploitable qu'un benchmark contrôlé : il permet de calibrer les attentes sur ce que les pipelines VLA (Vision-Language-Action) et les approches de grasp planning généraliste peuvent réellement délivrer aujourd'hui hors laboratoire. La recherche en manipulation mobile s'est intensifiée ces deux dernières années, portée par des acteurs comme Apptronik, Agility Robotics (Digit) ou Boston Dynamics (Spot avec bras), mais aussi par des startups spécialisées dans le picking retail comme Symbotic ou des robots de supermarché tels que ceux de Focal Systems. Les approches fondées sur l'apprentissage end-to-end (pi0 de Physical Intelligence, RT-2 de Google DeepMind) promettent une généralisation, mais leur robustesse en environnement chaotique reste peu documentée de façon indépendante. SHOPPER s'inscrit dans une démarche de recherche ouverte visant à fournir à la communauté robotique un référentiel de problèmes concrets non résolus, ce qui suggère des publications de suivi et potentiellement un benchmark partagé.

RecherchePaper
1 source
Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé
285arXiv cs.RO 

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé

Une équipe de recherche publie sur arXiv (2605.26478, mai 2026) une méthode d'apprentissage par renforcement visuel appelée SDPG (Stochastic Decoupled Policy Gradient), capable d'entraîner des politiques visuomotrices end-to-end en quelques heures sur un seul GPU NVIDIA RTX 4080. La clé : estimer les gradients de politique via des perturbations stochastiques de trajectoires, plutôt que via des centaines d'environnements rendus en batch, réduisant drastiquement mémoire et temps de calcul. Sur les benchmarks visuels MuJoCo, référence standard pour l'évaluation des politiques de contrôle à entrées visuelles, SDPG surpasse les méthodes concurrentes sur les trois critères mesurés : temps d'entraînement, empreinte mémoire et récompenses obtenues. L'article inclut également un premier transfert sim-to-real démontré sur matériel physique, couvrant des tâches de manipulation dextère et de locomotion en terrain difficile. L'enjeu touche directement à l'accessibilité du RL visuel pour la robotique. Jusqu'ici, les méthodes on-policy visuomotrices exigeaient des clusters GPU pour rester compétitives, concentrant de fait la recherche dans quelques grands laboratoires. Ramener le coût d'entraînement à un seul GPU grand public ouvre potentiellement la voie aux équipes académiques moins dotées et aux startups. La publication simultanée d'une suite de benchmarks de robotique visuelle réaliste tente de combler un autre manque structurel : la fragmentation des protocoles d'évaluation dans le domaine. Le transfert sim-to-real annoncé reste cependant à confirmer à plus grande échelle, un résultat sur hardware physique dans un preprint n'équivalant pas à une validation industrielle. Ce travail s'inscrit dans une dynamique de démocratisation du RL pour la robotique. Des approches comme DrQ-v2 (DeepMind) ou DreamerV3 ont progressivement amélioré l'efficacité en entrées visuelles, mais restent lourdes pour les environnements réalistes. Les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) contournent entièrement la boucle RL via des architectures de fondation préentraînées. SDPG choisit une troisième voie : rester dans le paradigme RL pur tout en réduisant radicalement le coût computationnel. La prochaine étape observable sera l'adoption ou le rejet de leurs benchmarks par la communauté comme référence standard de comparaison.

UEL'accessibilité réduite à un seul GPU grand public pourrait bénéficier aux équipes académiques européennes moins dotées en infrastructure de calcul, réduisant leur dépendance aux clusters HPC pour la recherche en RL visuel.

RecherchePaper
1 source
Attribution et contrôle des artefacts aux frontières de segments dans l'espace du bruit
286arXiv cs.RO 

Attribution et contrôle des artefacts aux frontières de segments dans l'espace du bruit

Une équipe de chercheurs publie sur arXiv (2506.11642v2) une analyse mécaniste des discontinuités d'exécution aux frontières de blocs d'actions dans les politiques visuomotrices génératives à action chunking. Cette technique, adoptée dans des systèmes comme Diffusion Policy (MIT/Columbia) ou ACT (Action Chunked Transformers, Stanford), consiste à prédire et exécuter plusieurs actions futures en un seul bloc plutôt qu'action par action. Les auteurs montrent d'abord que les métriques d'artefacts de frontière permettent de séparer de façon stable les épisodes réussis des épisodes en échec. Dans des politiques stochastiques, maintenir fixe le contexte d'observation et varier uniquement le bruit latent suffit à moduler systématiquement l'intensité de l'artefact. Sur un même checkpoint Diffusion Policy, la comparaison entre DDPM, DDPM à variance nulle et DDIM confirme que cette contrôlabilité locale dépend de l'intégrité du chemin d'information du bruit initial vers la sortie d'action. Dans un contexte clé favorisant les artefacts élevés, sélectionné par validation matched-continuation sur données tenues à l'écart, le taux de succès passe de 0,033 à 0,717. Ce résultat remet en cause une hypothèse tenace dans la communauté de la robotique apprenante : l'artefact de frontière de bloc n'est pas un simple sous-produit d'exécution à minimiser systématiquement, mais une variable dans l'espace bruit qui peut être attribuée, contrôlée et liée mécanistiquement au résultat de la tâche. Plus troublant encore, la direction préférentielle s'inverse selon le contexte d'exécution local : certains états obtiennent de meilleurs résultats sous artefact faible, d'autres sous artefact élevé, au sein d'une même tâche. Pour les intégrateurs robotiques, cela ouvre la voie à des stratégies d'inférence adaptatives où la sélection du bruit latent devient un levier de performance sans modifier ni réentraîner les modèles. L'action chunking équipe aujourd'hui de nombreuses politiques de manipulation en recherche, dont pi-0 (Physical Intelligence), et commence à apparaître dans des contextes de production. Le débat sur la robustesse à l'exécution et le sim-to-real gap reste central pour les équipes industrielles. Cette analyse fournit un outil diagnostique concret -- les métriques d'artefact comme signal pronostic d'échec -- et suggère que l'optimisation à l'inférence plutôt que la seule modification architecturale pourrait améliorer la fiabilité sur des tâches de manipulation fine. Les prochaines étapes naturelles incluent la généralisation à d'autres architectures VLA (vision-language-action) et la validation sur des plateformes matérielles réelles hors contexte de laboratoire.

💬 Passer de 3% à 72% de succès sur le même checkpoint juste en variant le bruit latent, sans toucher au modèle, c'est pas un détail de recherche. Ce que la communauté traitait comme un artefact à minimiser devient un levier d'optimisation à l'inférence, et ça change la façon dont on va aborder le débogage en prod. Bon, faut encore que ça tienne sur du matériel réel hors labo.

IA physiqueOpinion
1 source
Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée
287arXiv cs.RO 

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Key-Gram (arXiv:2605.18556, mai 2026) est un preprint qui propose un cadre de mémoire conditionnelle séparant explicitement la connaissance linguistique du raisonnement visuel dans les politiques de manipulation robotique. Là où les architectures VLA (Vision-Language-Action) actuelles fusionnent langage et vision dans un backbone partagé, Key-Gram décompose une instruction en "key-grams" (unités sémantiques propres à la tâche), récupère des priors linguistiques via un lookup déterministe O(1) dans une table externe, puis injecte ces entrées dans des couches cachées sélectionnées via gating contextuel et fusion convolutive légère. Appliqué aux modèles π₀ et π₀.₅ de Physical Intelligence, le système enregistre des gains relatifs de 29,5 %/9,9 % sur le benchmark de simulation RoboTwin2.0, de 35,8 %/4,5 % sur LIBERO-Plus en transfert sans fine-tuning sur le domaine cible, et de 15,4 %/8,1 % sur des tâches longues en manipulation bimanuelle réelle. Ces résultats quantifient un problème structurel rarement isolé dans la littérature VLA : la compétition de modalités dans le backbone partagé, où raisonnement visuel et compréhension linguistique se disputent la capacité de calcul. Le gain de 35,8 % sur LIBERO-Plus sans réentraînement cible est la donnée la plus exploitable pour les intégrateurs industriels : il suggère qu'une mémoire externe améliore la généralisation entre tâches sans fine-tuning complet, réduisant directement le coût de déploiement sur des lignes de production variées. La table de mémoire, extensible sans mise à jour du backbone et chargeable en mémoire hôte à l'inférence, permet d'ajouter de nouveaux vocabulaires de tâches sans redéploiement de l'ensemble du modèle. Physical Intelligence (Pi), fondée en 2023 par d'anciens chercheurs de Google et de l'UC Berkeley, a développé π₀ en 2024 comme VLA généraliste pour la manipulation bimanuelle. Key-Gram s'appuie sur ce backbone sans le modifier, ce qui constitue son atout principal : la séparation de la composante linguistique est architecturalement propre et non-destructive. Sur ce créneau de la généralisation compositionnelle, Google DeepMind, Figure AI (architecture Helix) et 1X Technologies proposent des approches concurrentes à base de transformers multi-modaux. La principale limite du papier est l'absence de validation sur des backbones autres que π, ce qui laisse ouverte la question de la généricité de la méthode.

💬 35% de gain sur LIBERO-Plus sans réentraînement, c'est le chiffre à retenir. L'idée de sortir le vocabulaire de tâche dans une table externe (plutôt que de tout enfouir dans le backbone partagé), c'est architecturalement propre et ça permet d'ajouter de nouvelles tâches sans redéployer l'ensemble du modèle. Reste que pour l'instant ça n'a été validé que sur π₀, donc faut voir si ça tient sur d'autres architectures avant de crier victoire.

IA physiqueOpinion
1 source
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
288arXiv cs.RO 

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

IA physiqueOpinion
1 source
TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques
289arXiv cs.RO 

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

Une équipe du Weird Lab de l'Université de Washington a publié en mai 2026, sur arXiv (2605.12236), un cadre unifié baptisé TMRL (Timestep-Modulated Reinforcement Learning) pour accélérer le fine-tuning par apprentissage par renforcement (RL) de politiques robotiques pré-entraînées. Le système repose sur deux composantes : Context-Smoothed Pre-training (CSP), qui injecte du bruit de diffusion directe dans les entrées de la politique lors du pré-entraînement, et TMRL lui-même, qui apprend à moduler dynamiquement le pas de temps de diffusion pour contrôler explicitement l'exploration lors du fine-tuning. Les résultats présentés incluent des tâches de manipulation réelle complexes, avec un fine-tuning en conditions réelles achevé en moins d'une heure. Le cadre est compatible avec des entrées hétérogènes : états proprioceptifs, nuages de points 3D ou politiques VLA (Vision-Language-Action) basées sur des images. Le verrou technique adressé est structurel : le pré-entraînement par clonage comportemental (BC), dominant dans la robotique d'apprentissage, produit des distributions d'actions étroites centrées sur les démonstrations existantes, ce qui prive le RL aval de la couverture nécessaire pour explorer efficacement l'espace d'états. TMRL casse ce goulot en faisant du niveau de bruit de diffusion un paramètre entraînable : à fort timestep, la politique explore largement ; à faible timestep, elle exploite avec précision. Le résultat annoncé est une amélioration de l'efficacité en données lors du fine-tuning RL, ce qui est critique pour les déploiements réels où chaque essai coûte du temps machine et de l'usure mécanique. Les métriques précises de sample efficiency et les benchmarks utilisés ne sont pas détaillés dans l'abstract, ce qui rend l'évaluation indépendante difficile sans consulter l'article complet. Ce travail s'inscrit dans une dynamique active autour des politiques de diffusion pour la robotique, popularisées par π0 de Physical Intelligence et les travaux GR00T N2 de NVIDIA. Le problème exploration-exploitation en RL robotique réel reste un obstacle majeur à la commercialisation : les approches existantes comme la perturbation d'action aléatoire ou l'exploration guidée par curiosité peinent à passer à l'échelle sur du matériel réel. TMRL propose une solution intégrée au pipeline de diffusion existant, sans modifier l'architecture de la politique. Le code et les vidéos sont disponibles en open source, ce qui facilitera l'évaluation par la communauté ; les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes et une intégration dans des frameworks comme LeRobot ou OpenVLA.

UELe cadre TMRL, open-source et compatible avec LeRobot (Hugging Face, France), pourrait directement accélérer le fine-tuning RL de politiques robotiques dans les labos et startups européens.

RechercheOpinion
1 source
Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique
290arXiv cs.RO 

Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique

Une étude soumise sur arXiv le 8 mai 2025 (arXiv:2605.06388) remet en question le choix dominant des espaces latents dans les modèles de monde pour la robotique. Les auteurs comparent six encodeurs, répartis en deux familles, selon un protocole d'évaluation commun sur le dataset BridgeV2, référence de manipulation robotique généraliste. Les encodeurs de reconstruction testés sont VAE (standard actuel) et Cosmos (NVIDIA) ; les encodeurs sémantiques incluent V-JEPA 2.1 (Meta), Web-DINO et SigLIP 2 (Google). Le cadre évalué est celui des modèles de diffusion latente conditionnés par l'action (LDM), utilisés comme proxy de simulation pour tester des politiques de contrôle robot sans déploiement physique. L'évaluation repose sur trois axes : fidélité visuelle pixel-level, performance en planification et évaluation de politiques en aval, et qualité intrinsèque des représentations latentes. Les résultats invalident une hypothèse implicite courante dans le domaine : une bonne reconstruction pixel ne suffit pas à produire un bon modèle de monde opérationnel. VAE et Cosmos atteignent les meilleurs scores de fidélité visuelle, mais V-JEPA 2.1 domine sur l'axe le plus critique, la performance des politiques, tandis que Web-DINO et SigLIP 2 excellent sur les deux axes restants, et ce à toutes les échelles de modèles testées. Pour un intégrateur ou un labo qui construit des pipelines sim-to-real, cela implique que le choix de l'encodeur dans la stack LDM n'est pas un détail d'implémentation : il conditionne directement la qualité des politiques apprises. La fidélité visuelle, souvent retenue comme métrique de validation principale, s'avère un indicateur trompeur du potentiel d'un modèle de monde pour le contrôle robotique. Ce travail s'inscrit dans une course de fond autour des modèles de monde pour la robotique, impliquant des acteurs comme Physical Intelligence (pi-0), Figure AI et des équipes académiques autour des RoboVLMs. L'adoption des LDMs comme infrastructure d'évaluation de politiques s'est accélérée depuis 2023 avec l'essor des VLAs (Vision-Language-Action models). Le VAE reste l'encodeur par défaut dans la majorité des implémentations ouvertes, héritage direct des pipelines de diffusion image (Stable Diffusion, LDM de Rombach et al., 2022). Ce preprint, non encore évalué par des pairs, plaide pour un pivot vers les encodeurs à représentations sémantiques, une direction qui converge avec les travaux de Meta sur V-JEPA 2 et de Google sur SigLIP. Les étapes suivantes naturelles incluraient une validation sur des datasets robotiques plus diversifiés et des expériences en déploiement physique réel pour confirmer le transfert sim-to-real.

RechercheOpinion
1 source
Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA
291arXiv cs.RO 

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

Début mai 2026, une équipe de chercheurs a publié (arXiv:2605.02757) un framework d'augmentation de données pour les modèles vision-language-action (VLA), visant le fossé visuel persistant entre simulation et données réelles. Le pipeline, nommé "Seeing Realism from Simulation", convertit des vidéos simulées en séquences d'apparence réaliste via trois étapes: segmentation sémantique vidéo pour extraire des conditions structurées, réécriture de légendes pour diversifier les environnements, puis application d'un modèle de transfert vidéo conditionnel. Pour rendre l'approche scalable, les auteurs introduisent un mécanisme de réutilisation de features de diffusion (recycler les tokens vidéo entre timesteps adjacents) et un coreset sampling qui sélectionne un sous-ensemble compact sous contrainte computationnelle. Sur les benchmarks Robotwin 2.0 et LIBERO-Plus, le framework améliore RDT-1B de 8% et le modèle pi-0 de Physical Intelligence de 5,1%. Le code est disponible en open source sur GitHub. Ces gains pointent un goulot d'étranglement réel de l'industrie: collecter des vidéos de manipulation réelles à grande échelle est coûteux et lent, alors que la simulation offre une scalabilité quasi-illimitée mais dégrade systématiquement les performances en déploiement. Si l'on peut transformer des données simulées en données visuellement réalistes en préservant les labels d'action, on dispose d'un levier de scaling à faible coût. Le fait que pi-0, déjà entraîné sur des millions de trajectoires réelles, gagne encore 5,1% indique une complémentarité avec les pipelines de collecte existants plutôt qu'une substitution. Cela dit, les auteurs ne publient aucun chiffre concret sur la réduction du temps de génération, ce qui laisse ouverte la question de viabilité à l'échelle industrielle. Ce travail s'inscrit dans la course aux modèles fondation pour la robotique, où Physical Intelligence (pi-0, pi-0.5) et les équipes derrière RDT-1B font figure de références. LIBERO et Robotwin 2.0 sont devenus les benchmarks standard pour comparer ces architectures VLA en conditions contrôlées. Contrairement aux approches de domain randomization ou au style transfer image par image, l'utilisation d'un modèle vidéo diffusion-based préserve la cohérence temporelle, critique pour les tâches de manipulation multi-étapes. Les prochaines étapes naturelles incluent l'extension à des environnements moins structurés et des horizons de tâche plus longs, là où le fossé sim-to-real reste le plus prononcé et où la diversité des légendes réécrites sera la plus déterminante.

IA physiqueOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
292arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source
VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative
293arXiv cs.RO 

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Une équipe de chercheurs a publié en mai 2026, via arXiv (2605.01194), VLA-ATTC, un framework visant à doter les modèles Vision-Language-Action (VLA) d'un mécanisme de délibération adaptatif à l'inférence. Les VLA, qui couplent perception visuelle, langage et génération d'actions pour piloter des robots manipulateurs, reposent jusqu'ici sur un mode d'exécution réflexif : rapide, mais aveugle face à l'ambiguïté. VLA-ATTC introduit un "embrayage cognitif" basé sur l'incertitude : lorsque le modèle détecte une situation complexe, il bascule vers une phase de calcul délibératif (test-time compute, TTC) dans laquelle un composant inédit, le Relative Action Critic (RAC), évalue des candidats d'actions par comparaisons par paires plutôt que par estimation absolue de valeur. Un pipeline automatisé génère les paires de préférence sans annotation manuelle. Sur le benchmark LIBERO-LONG, VLA-ATTC réduit le taux d'échec du modèle SOTA PI0.5 de Physical Intelligence de plus de 50 %. Le code et les poids seront publiés en open source. Ce résultat cible directement le "demo-to-reality gap" : les VLA actuels performent bien en conditions contrôlées mais échouent sur des tâches longues et ambiguës. Diviser par deux le taux d'échec sur LIBERO-LONG, un benchmark de manipulation séquentielle longue portée, sans retrainer le modèle de base est un gain concret pour les intégrateurs industriels. Le choix du RAC est également instructif : abandonner l'estimation de valeur absolue, instable en pratique, au profit d'un mécanisme relatif plus simple à apprendre suggère que la fiabilité des VLA peut progresser via du compute supplémentaire à l'inférence plutôt que par des cycles de fine-tuning coûteux. Les VLA constituent la ligne de front actuelle en robotique de manipulation. Pi-0 et Pi-0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) ont établi une course à la généralisation zero-shot, mais partagent le même défaut structurel : une inférence déterministe et non délibérative. L'approche TTC appliquée aux VLA s'inscrit dans un mouvement plus large, déjà visible chez les LLM avec o1, o3 et DeepSeek R1, qui cherche à "acheter" de la qualité de décision via du compute d'inférence supplémentaire. Pour les déploiements industriels en temps réel, la question restante sera de quantifier le surcoût de latence du mode TTC dans des environnements contraints, comme les lignes d'assemblage ou les cellules de picking à cadence élevée.

UEL'open-source annoncé pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur la manipulation VLA, mais aucune institution ou entreprise FR/EU n'est directement impliquée.

IA physiqueOpinion
1 source
Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse
294arXiv cs.RO 

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse

Une étude publiée sur arXiv (référence 2603.22078) compare les performances de deux familles d'architectures pour la planification d'actions robotiques : les modèles vision-langage-action (VLA), aujourd'hui dominants dans la recherche, et les world action models (WAM), une approche plus récente fondée sur la prédiction d'états futurs. Les chercheurs ont soumis plusieurs systèmes à des perturbations visuelles et linguistiques sur deux bancs d'essai standardisés, LIBERO-Plus et RoboTwin 2.0-Plus. Les résultats chiffrés montrent que LingBot-VA, un WAM, atteint 74,2 % de taux de succès sur RoboTwin 2.0-Plus, tandis que Cosmos-Policy, développé dans l'écosystème NVIDIA, obtient 82,2 % sur LIBERO-Plus. Le VLA pi-0.5, produit par Physical Intelligence, parvient à des niveaux de robustesse comparables sur certaines tâches, mais au prix d'un entraînement sur des jeux de données robotiques très diversifiés et avec des objectifs d'apprentissage multiples. L'enjeu central de cette comparaison est la généralisation hors distribution : les systèmes robotiques déployés en environnement industriel réel rencontrent des variations d'éclairage, de fond visuel et de formulations d'instructions que leurs données d'entraînement ne couvrent pas. Les WAM tirent leur robustesse de préentraînements massifs sur des vidéos web, qui leur confèrent des priors spatiotemporels sur la dynamique du monde physique. L'étude confirme que cette capacité de prédiction explicite des états futurs améliore effectivement la tenue aux perturbations, sans nécessiter autant de données de démonstration robotique que les VLA. Elle identifie également une classe intermédiaire, les approches hybrides qui intègrent partiellement la prédiction vidéo, et montre qu'elles obtiennent une robustesse intermédiaire, soulignant que la manière d'intégrer ces priors vidéo est aussi importante que leur présence. Les VLA comme pi-0 et pi-0.5 (Physical Intelligence), OpenVLA ou RoboVLMs ont dominé la recherche en manipulation robotique depuis 2023, profitant de la maturité des grands modèles vision-langage. Les WAM s'inscrivent dans un courant plus récent, porté notamment par NVIDIA avec sa famille Cosmos et par plusieurs laboratoires académiques, qui revisitent les world models comme substrat d'action plutôt que comme outil de simulation. Cette étude apporte une validation empirique contrôlée à une hypothèse jusqu'ici surtout théorique, et devrait peser dans les choix d'architecture pour les prochaines générations de systèmes robotiques polyvalents, notamment dans les contextes industriels où la robustesse aux variations non anticipées est un critère de qualification prioritaire.

IA physiqueOpinion
1 source
Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle
295arXiv cs.RO 

Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle

Des chercheurs ont présenté un système hybride baptisé Learning-Augmented Robotic Automation (LARA), déployé sur une ligne de production réelle de moteurs électriques pour automatiser deux tâches jusqu'alors confiées à des opérateurs humains : l'insertion de câbles déformables et la soudure. Le système combine des contrôleurs de tâches appris par imitation et un moniteur de sécurité neuronal 3D, intégré directement dans les workflows industriels existants. Entraîné avec moins de 20 minutes de données réelles par tâche, LARA a fonctionné en continu pendant 5 heures 10 minutes, produisant 108 moteurs sans barrière physique de protection, avec un taux de conformité de 99,4 % aux tests de contrôle qualité au niveau produit. Le takt time atteint est comparable à celui d'un opérateur humain, avec une réduction mesurée de la variabilité des joints de soudure et des temps de cycle. Ce résultat s'attaque directement au fossé entre démonstration laboratoire et déploiement industriel effectif, l'obstacle principal qui freine l'adoption de la robotique apprenante en production. L'entraînement en moins de 20 minutes par tâche abaisse considérablement la barrière à l'intégration pour les industriels et les intégrateurs système. Pour un COO de ligne d'assemblage, le point le plus structurant est l'absence de caging physique : le moniteur neuronal remplace les protections mécaniques classiques, ouvrant la voie à des cellules collaboratives sans les coûts de reconfiguration d'atelier associés aux robots industriels traditionnels. La manipulation de câbles déformables et la soudure figurent parmi les tâches les plus résistantes à la robotisation classique, du fait de la déformation matière et de la non-répétabilité des poses. Sur ce segment, Physical Intelligence (Pi-0.5) et Figure AI (Helix sur Figure 02) poussent des VLA généralistes pour la manipulation multi-tâches, tandis que Wandercraft et Enchanted Tools, tous deux français, ciblent respectivement la mobilité humanoïde et les robots de service. LARA se distingue par son pragmatisme : pas d'humanoïde, pas de modèle fondationnel, mais une hybridation ciblée sur des cellules industrielles existantes. Les auteurs évoquent comme suites naturelles l'extension à d'autres tâches de câblage et la validation sur des lignes multi-produits.

UELa fabrication de moteurs électriques est un segment clé de la transition EV en Europe ; LARA démontre qu'un système appris en moins de 20 minutes peut atteindre le takt time humain sur des tâches résistantes à la robotisation classique, abaissant directement la barrière d'adoption pour les intégrateurs et industriels européens sans reconfiguration lourde d'atelier.

IndustrielActu
1 source
DeepThinkVLA : renforcer les capacités de raisonnement des modèles VLA
296arXiv cs.RO 

DeepThinkVLA : renforcer les capacités de raisonnement des modèles VLA

Des chercheurs de l'équipe OpenBMB ont publié en avril 2026 DeepThinkVLA, un nouveau modèle Vision-Language-Action (VLA) qui intègre un raisonnement explicite de type Chain-of-Thought (CoT) pour améliorer les performances de manipulation robotique. Sur le benchmark LIBERO, le modèle atteint 97,0 % de taux de succès, 79,0 % sur LIBERO-Plus (contre 61,6 % pour pi0-FAST de Physical Intelligence), et 59,3 % sur RoboTwin 2.0, soit 21,7 points de plus que le meilleur concurrent testé. L'architecture repose sur un décodeur hybride à double mécanisme d'attention : attention causale pour la génération du langage, attention bidirectionnelle pour le décodage parallèle des actions. L'entraînement suit un pipeline en deux étapes, fine-tuning supervisé puis reinforcement learning avec récompenses éparses liées au succès de la tâche. Des expériences en conditions réelles sur robot physique complètent les résultats en simulation. L'apport principal n'est pas le modèle lui-même, mais le diagnostic rigoureux qu'il repose sur. Les auteurs identifient deux conditions nécessaires et suffisantes pour que le CoT soit utile dans un VLA. Première condition : l'alignement de décodage, c'est-à-dire que le texte de raisonnement et les commandes motrices ne peuvent pas partager le même décodeur autorégressif sans dégradation active des performances, quantifiée à -4,2 points de pourcentage. Deuxième condition : l'alignement causal, le raisonnement doit être optimisé en lien direct avec le succès de la tâche. Sans cela, un VLA entraîné avec CoT supervisé chute de 32,0 points sous distribution shift, quasi identique à la chute de 31,6 points d'un modèle sans raisonnement du tout. Ce résultat contredit l'hypothèse implicite de nombreux travaux récents : ajouter du CoT à un VLA sans ces deux conditions n'apporte rien, voire nuit. Le champ VLA connaît depuis 2024 une accélération intense, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA (Berkeley), et RoboFlamingo. La plupart exploitent des fondations multimodales pré-entraînées mais traitent le raisonnement et l'action dans le même flux autorégressif, une limite que DeepThinkVLA adresse explicitement. OpenBMB est le groupe à l'origine de MiniCPM et CPM-Bee, actif dans les LLM compacts et les agents embarqués. Le code est disponible publiquement sur GitHub. La prochaine étape naturelle sera de valider ces gains sur des tâches de manipulation longue durée et en environnements non structurés, là où l'écart sim-to-real reste le vrai obstacle à la commercialisation.

IA physiqueActu
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
297arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source
Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert
298arXiv cs.RO 

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.15814) un framework d'étalonnage main-oeil continu (continual hand-eye calibration) destiné aux robots manipulateurs déployés dans des environnements ouverts et changeants. Le problème adressé est précis : les modèles de calibration basés sur le deep learning perdent leur précision sur les scènes précédemment apprises dès qu'ils s'adaptent à un nouvel environnement, un phénomène connu sous le nom d'oubli catastrophique (catastrophic forgetting). Le framework proposé repose sur deux composants distincts. Le premier, SARS (Spatial-Aware Replay Strategy), construit un buffer de rejeu géométriquement uniforme qui couvre l'espace de poses de chaque scène sans redondance, en sélectionnant les points de vue les plus informatifs plutôt que les frames adjacentes. Le second, SPDD (Structure-Preserving Dual Distillation), décompose la connaissance de localisation en deux niveaux, la structure grossière de la scène et la précision fine de pose, puis applique une distillation séparée pour préserver les deux dimensions lors des adaptations successives. Les expériences sur plusieurs datasets publics confirment que le modèle maintient la précision sur les scènes passées tout en s'adaptant aux nouvelles. L'enjeu industriel est réel : un bras manipulateur recalibré pour une nouvelle cellule de production ne devrait pas perdre sa précision sur les postes précédents. C'est le problème quotidien des intégrateurs qui déploient des robots dans des lignes flexibles ou multi-produits. La plupart des approches actuelles imposent soit un recalibrage complet à chaque changement de scène, soit acceptent une dégradation progressive des performances sur les configurations antérieures. Ce travail propose une voie intermédiaire via l'apprentissage continu structuré, sans recourir à un replay naïf qui ne suffit pas à enrayer l'oubli. L'approche par distillation duale est notamment pertinente car elle distingue deux types d'erreur, positionnement global et précision locale, ce que les méthodes monolithiques ne font pas. Ce travail s'inscrit dans un champ de recherche en forte activité depuis 2022, où la robustesse de la calibration visuelle en conditions réelles est identifiée comme l'un des goulots d'étranglement pour le passage à l'échelle des manipulateurs autonomes. La localisation visuelle pour la calibration main-oeil emprunte aux techniques de Visual Place Recognition (VPR) et de relocalisation utilisées en navigation mobile, mais les contraintes de précision sous-millimétrique propres à la manipulation y ajoutent une difficulté spécifique. Parmi les acteurs qui travaillent sur des problèmes adjacents figurent des équipes comme Physical Intelligence (pi) avec Pi-0, ou des laboratoires comme le Stanford AI Lab et ETH Zurich sur la sim-to-real calibration. En France, des acteurs comme Enchanted Tools et Pollen Robotics, qui développent des plateformes d'interaction physique, sont directement concernés par ce type de verrou. La prochaine étape naturelle pour ce framework serait une validation sur des données industrielles réelles et une intégration dans des pipelines de déploiement multi-cellules, que les auteurs n'ont pas encore annoncée.

UEEnchanted Tools et Pollen Robotics, qui développent des plateformes de manipulation physique en France, sont directement concernés par ce verrou de calibration continue, susceptible de réduire les coûts de redéploiement en production flexible.

RecherchePaper
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
299arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
300MarkTechPost 

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques. L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique. Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

UELes capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

HumanoïdesOpinion
1 source