Aller au contenu principal

Dossier NVIDIA GR00T — page 6

786 articles · page 6 sur 16

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

BIFROST : transfert de représentation de caractéristiques invariantes pour le passage simulation-réel dans l'espace d'observation
251arXiv cs.RO RecherchePaper

BIFROST : transfert de représentation de caractéristiques invariantes pour le passage simulation-réel dans l'espace d'observation

Des chercheurs ont publié sur arXiv (référence 2607.01410v1) un nouveau système appelé BIFROST (Bridging Invariant Feature Representation for Observation-space Sim2Real Transfer), destiné à résoudre l'un des obstacles centraux de l'apprentissage robotique par renforcement : le fossé entre simulation et réalité. Le principe consiste à entraîner un encodeur partagé sur des données appariées provenant des deux domaines, via un objectif de bisimulation cross-domaine qui rapproche, dans un espace latent commun, les séquences observation-action menant aux mêmes résultats à long terme, indépendamment des différences de rendu visuel ou de physique. L'équipe a testé l'approche sur trois tâches : navigation visuelle en sim2sim, manipulation à contact riche en sim2real, et asservissement visuel. Selon le papier, les politiques entraînées dans cet espace latent partagé transfèrent en zero-shot vers la réalité, sans réentraînement sur données réelles, là où les méthodes de référence en adaptation de domaine et en co-entraînement échouent face à des écarts à la fois visuels et dynamiques. Pour l'industrie robotique, le sim2real reste le goulot d'étranglement entre démonstration en laboratoire et déploiement en usine : entraîner en simulation coûte peu, mais transférer une politique vers un robot physique sans perte de performance exige d'habitude des mois de randomisation de domaine ou de fine-tuning gourmand en données réelles. Si les résultats se confirment à plus grande échelle, la promesse est de réduire nettement le coût de mise en production de politiques de manipulation et de navigation, un enjeu clé pour les intégrateurs déployant bras robotiques ou AMR sur des sites variés. C'est aussi un signal dans le débat sur les architectures VLA : l'idée d'une structure invariante exploitable directement depuis l'observation brute pourrait simplifier la conception des politiques génériques que recherchent des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T). À noter que, publication arXiv non encore relue par les pairs, la portée reste limitée aux trois tâches testées en environnement contrôlé. Le problème est documenté depuis les débuts du RL appliqué à la robotique : les approches historiques traitent séparément l'écart visuel (randomisation de domaine, transfert de style) et l'écart dynamique (identification de système, randomisation physique), les deux modules étant ensuite empilés quand les problèmes coexistent, une approche jugée limitée par les auteurs car elle traite les symptômes plutôt que la structure commune sous-jacente. BIFROST s'inscrit dans la lignée des travaux sur la bisimulation en apprentissage par renforcement, appliquée ici explicitement au transfert cross-domaine. Aucune entreprise ni calendrier de commercialisation n'est mentionné : le travail reste une contribution académique, dont les suites attendues sont une validation sur des tâches plus complexes et une comparaison directe avec les politiques VLA déployées par les acteurs commerciaux du secteur humanoïde et manipulation.

1 source
Point Completion 3D pour les modèles du monde : une méthode plus précise d'apprentissage de la dynamique
252arXiv cs.RO 

Point Completion 3D pour les modèles du monde : une méthode plus précise d'apprentissage de la dynamique

Les faits d'abord : une équipe de recherche présente sur arXiv (juillet 2026) 3DPWM, un modèle de monde en 3D conçu pour la planification robotique. Contrairement aux modèles de dynamique fondés sur la vidéo, largement utilisés aujourd'hui pour prédire les conséquences d'une action avant de l'exécuter, 3DPWM travaille directement dans l'espace 3D : il complète d'abord les nuages de points partiels captés par les capteurs (souvent incomplets à cause des occlusions), puis apprend une dynamique conditionnée par l'action sur cette géométrie reconstituée. Le modèle est qualifié de "task-agnostic", c'est-à-dire réutilisable d'une tâche à l'autre sans réentraînement complet. Testé sur plusieurs incarnations robotiques et plusieurs bancs d'essai de manipulation sur table, il produit des trajectoires prédictives fiables sur 100 à 300 pas de temps et plus, fonctionne en boucle ouverte comme en boucle fermée, et démontre un transfert réussi de la simulation vers le réel. L'enjeu porte sur un problème central de la robotique fondée sur l'apprentissage : les modèles de monde vidéo, bien que puissants pour générer des scènes plausibles, dérivent géométriquement sur les horizons longs, accumulant des erreurs qui rendent la planification peu fiable au-delà de quelques dizaines de pas. Les modèles 3D à base de nuages de points partiels corrigent en partie ce défaut mais restent vulnérables aux occlusions et à la dérive de prédiction. En comblant explicitement les trous de la géométrie observée avant de simuler la dynamique, 3DPWM attaque directement ce goulot d'étranglement. Pour les équipes qui travaillent sur la planification par modèle (model-based planning), c'est un signal que la fiabilité sur le long terme, condition nécessaire pour improviser des solutions sur des tâches nouvelles, reste atteignable sans reposer uniquement sur des modèles vidéo massifs coûteux à entraîner. Ce travail s'inscrit dans la lignée des recherches récentes sur les modèles de monde pour la robotique, une famille qui inclut aussi bien les approches génératives vidéo que les architectures VLA (vision-langage-action) type Pi-0 ou GR00T N2, davantage orientées vers l'exécution directe que vers la planification explicite. La démonstration d'un transfert sim-to-real réussi est le test classique pour juger la maturité d'une méthode de ce type, avant toute adoption industrielle. À ce stade, il s'agit d'une publication de recherche accompagnée de résultats expérimentaux sur bancs d'essai standards, sans déploiement produit ni partenariat industriel annoncé ; la suite logique serait une validation sur des plateformes robotiques réelles au-delà des configurations de laboratoire testées.

RecherchePaper
1 source
Distribution contractive RL : maîtriser une compétence, du modèle a priori au modèle expert
253arXiv cs.RO 

Distribution contractive RL : maîtriser une compétence, du modèle a priori au modèle expert

Des chercheurs viennent de publier une version révisée (v2) de leurs travaux sur arXiv (2603.10263), intitulée "From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning". Ils y présentent DICE-RL (Distribution Contractive Reinforcement Learning), une méthode pour affiner des politiques robotiques génératives pré-entraînées. Le principe : entraîner d'abord une politique de type diffusion ou flow matching sur une large base de démonstrations, pour couvrir un maximum de comportements possibles, puis la raffiner via un apprentissage par renforcement hors politique (off-policy), résiduel et peu gourmand en données. Cette phase de finetuning combine une régularisation comportementale sélective avec une sélection d'actions guidée par la fonction de valeur, l'objectif étant de transformer une politique généraliste ("prior") en politique experte ("pro") en amplifiant les comportements qui réussissent le plus souvent. Les auteurs rapportent des résultats stables et efficaces en échantillons, validés à la fois en simulation et sur un robot réel, sur des tâches de manipulation complexes et longues, directement à partir d'images brutes en pixels. L'enjeu dépasse la simple curiosité académique : c'est le problème central des politiques génératives apprises par imitation, comme les modèles de diffusion ou les architectures vision-langage-action popularisées ces deux dernières années. Ces politiques couvrent bien la diversité des comportements de démonstration, mais peinent à devenir fiables sur des tâches longues et exigeantes, un écart bien connu entre performance en démo et robustesse en conditions réelles. Si le renforcement post-entraînement proposé ici tient ses promesses de stabilité et d'efficacité, cela offrirait aux équipes de R&D robotique un chemin plus praticable pour faire passer un modèle du stade "ça marche parfois en labo" au stade "déployable de façon fiable", sans devoir tout réentraîner depuis zéro ni collecter des volumes massifs de données réelles. Ce travail s'inscrit dans une tendance de fond du secteur : combiner pré-entraînement génératif à grande échelle (diffusion policies, flow matching, modèles VLA type Pi-0 ou GR00T) avec des phases de renforcement plus ciblées pour gagner en fiabilité. Les auteurs ne mentionnent pas de partenariat industriel ni de calendrier de déploiement ; il s'agit à ce stade d'une contribution de recherche, avec un site de projet dédié pour consulter démonstrations et détails techniques.

RecherchePaper
1 source
Modèle vision-langage-action pour le reciblage robotique multi-corporel via diffusion guidée
254arXiv cs.RO 

Modèle vision-langage-action pour le reciblage robotique multi-corporel via diffusion guidée

Des chercheurs publient une version retravaillée sur arXiv (2505.20857v2) d'un framework de retargeting de mouvement basé sur un modèle de diffusion conditionné par graphe, conçu pour transférer des mouvements de référence vers des robots à la morphologie différente. Le problème ciblé est connu du secteur : un jeu de données de mouvement capturé pour un robot donné ne se transpose pas directement à un autre, à cause des écarts de structure topologique, de paramètres géométriques et de correspondance entre articulations. La méthode encode chaque robot sous forme de graphe capturant sa topologie et sa géométrie, exploité par un mécanisme d'attention développé spécifiquement au niveau articulaire. Faute de mouvements de référence "vérité terrain" pour l'embodiment cible, les auteurs entraînent le modèle de diffusion via un guidage énergétique, formulé comme des fonctions de perte de retargeting, plutôt que par apprentissage supervisé classique. L'enjeu dépasse l'exercice académique : la pénurie de données de démonstration spécifiques à chaque plateforme reste un goulot d'étranglement majeur pour l'entraînement des modèles VLA (vision-language-action) qui équipent les humanoïdes actuels, de Figure à Optimus en passant par les architectures type GR00T ou Pi-0. Une méthode capable de recycler un même corpus de mouvements humains ou robotiques vers plusieurs morphologies réduirait potentiellement le coût de collecte de données propre à chaque robot. Les auteurs présentent leur travail comme l'une des premières approches de retargeting cross-embodiment en robotique, mais restent prudents : ils parlent d'une généralisation "à un certain degré" à des structures squelettiques diverses, une formulation qui invite à la retenue plutôt qu'à l'enthousiasme. Il s'agit d'un article de recherche pur, sans affiliation industrielle citée ni produit commercialisé, à situer dans la lignée des travaux sur l'apprentissage cross-embodiment (type Open X-Embodiment) et le problème historique du retargeting en animation et robotique. Aucun acteur français ou européen n'y est associé. Le texte ne mentionne ni pilote annoncé ni calendrier de déploiement : c'est une brique méthodologique, encore loin d'une intégration produit.

RecherchePaper
1 source
Domain Arithmetic : adaptation VLA en un essai face aux changements environnementaux
255arXiv cs.RO 

Domain Arithmetic : adaptation VLA en un essai face aux changements environnementaux

Des chercheurs du SNU MPR Lab (Seoul National University) publient sur arXiv (arXiv:2607.00666v1) une méthode baptisée DART, pour Domain ARiThmetic, qui permet d'adapter un modèle Vision-Language-Action (VLA) à un nouvel environnement à partir d'une seule démonstration, contre plusieurs dizaines habituellement nécessaires. Le problème visé est concret : un modèle VLA entraîné sur un bras Panda avec une caméra à un angle donné échoue souvent dès que la caméra bouge ou que le robot change, par exemple pour un UR5e. DART traite ce décalage comme un problème d'arithmétique de vecteurs de poids, en isolant l'information spécifique au nouveau domaine et en l'ajoutant au modèle d'origine, grâce à un alignement de sous-espaces entre composantes singulières qui filtre le bruit. Les auteurs rapportent de meilleures performances que les méthodes d'adaptation VLA existantes, en simulation comme sur des essais réels, avec du code publié sur GitHub (snumprlab/dart). Pour les intégrateurs et les équipes robotique, l'enjeu dépasse l'exercice académique : le coût de collecte de démonstrations reste l'un des principaux freins au déploiement des politiques VLA hors laboratoire, chaque cellule de production ayant sa propre configuration de caméra, son propre bras et ses propres contraintes. Réduire ce besoin à une seule démonstration attaquerait directement le goulot d'étranglement qui empêche les modèles comme Pi-0, GR00T N2 ou Helix de passer de la démo contrôlée au déploiement multi-site sans réentraînement coûteux à chaque nouvelle installation. DART s'inscrit dans la lignée des travaux sur l'arithmétique de tâches appliquée initialement aux grands modèles de langage, transposée ici aux modèles de fondation robotiques. Le champ de l'adaptation VLA reste actif et concurrentiel, porté par Physical Intelligence, Nvidia ou Figure sur leurs propres architectures. À ce stade, DART demeure une contribution académique validée par ses seuls auteurs, sans acteur français ou européen impliqué ; sa généralisation à d'autres paires de robots et à des VLA tiers reste à démontrer avant toute adoption industrielle.

RechercheActu
1 source
Apptronik dévoile Apollo 2 et une nouvelle installation phare de collecte de données et d'entraînement
256Robotics Business Review 

Apptronik dévoile Apollo 2 et une nouvelle installation phare de collecte de données et d'entraînement

Apptronik a devoilé hier Apollo 2, la nouvelle version de son robot humanoïde, en meme temps que l'ouverture de Robot Park, son centre phare de collecte de donnees et d'entrainement a Austin, au Texas. Apollo 2 se decline en deux configurations modulaires: une version bipede pour se deplacer dans des espaces concus pour des humains, et une version a base roulante offrant stabilite et efficacite dans des environnements a fort debit. La base roulante a ete concue pour respecter les normes de securite existantes des robots mobiles industriels, ce qui facilite son integration dans des operations clients deja en place. Dans le cadre de son partenariat de recherche avec Google DeepMind, les donnees collectees par Apollo 2 alimentent aussi Gemini Robotics, les modeles de fondation pour la robotique de DeepMind. Apptronik affirme qu'Apollo repose sur pres d'une decennie de developpement et quinze robots precedents, dont Valkyrie de la NASA. Issue du Human Centered Robotics Lab de l'Universite du Texas a Austin, l'entreprise compte environ 300 employes et a leve 520 millions de dollars plus tot cette annee, portant son capital total a pres d'un milliard de dollars. Cette annonce illustre un repositionnement plus large de l'industrie humanoide: passer de la demonstration ponctuelle a l'exploitation reelle et repetee sur le terrain. Jeff Cardenas, cofondateur et PDG d'Apptronik, resume l'ambition en opposant explicitement les annees de demos spectaculaires a un objectif de fiabilite quotidienne au travail, une facon de reconnaitre implicitement l'ecart persistant entre les videos promotionnelles du secteur et les deploiements effectifs. La logique mise en avant, une boucle d'apprentissage continue ou le robot travaille, collecte des donnees et s'ameliore a chaque cycle, correspond a un pari repandu chez les acteurs de la robotique generaliste (dans la lignee de Pi-0 ou GR00T N2): la mise a l'echelle des donnees reelles, plutot que la seule simulation, serait la voie vers des modeles VLA veritablement robustes. Pour les integrateurs et decideurs industriels, le choix d'une architecture modulaire bipede/roulante repond a une demande concrete: pouvoir deployer une meme intelligence robotique sous une forme deja conforme aux normes de securite existantes, sans attendre la maturation complete de la locomotion bipede. Le contexte de cette annonce s'inscrit dans une accumulation de Robot Parks chez des clients et partenaires dans le monde, Austin devenant le site vitrine du dispositif. Apollo 2 sert depuis plus d'un an de cheval de bataille pour cette collecte de donnees, et Apptronik presente explicitement tout ce qui en est tire comme la base du developpement d'Apollo 3, son futur produit commercial. Barry Phillips, directeur commercial d'Apptronik, insiste sur le fait que la conception modulaire repond a une demande client pour une automatisation adaptable, un positionnement qui distingue Apptronik d'acteurs concentres sur une seule morphologie, comme Figure avec son humanoide bipede pur ou Boston Dynamics avec Atlas. Face a des concurrents comme Tesla (Optimus), Figure ou Agility Robotics, Apptronik mise sur ce continuum recherche-collecte-produit avec Google DeepMind comme axe de differenciation, sans toutefois preciser de calendrier ferme pour des pilotes clients elargis ni pour la disponibilite commerciale d'Apollo 3.

HumanoïdesOpinion
1 source
IA incarnée : DVG-WM génère des vidéos découplées pour un modèle du monde efficace en manipulation robotique
257arXiv cs.RO 

IA incarnée : DVG-WM génère des vidéos découplées pour un modèle du monde efficace en manipulation robotique

Le laboratoire à l'origine de ces travaux (non précisé dans le résumé, arXiv:2506.32028) présente DVG-WM (Disentangled Video Generation World Model), un modèle du monde vidéo destiné à la manipulation robotique. Le problème ciblé est un compromis connu dans les "world models" embodied: modéliser précisément la dynamique physique nécessite un raisonnement temporel fin image par image, alors que produire des vidéos haute résolution exige une synthèse visuelle coûteuse pilotée par la sémantique globale. Jusqu'ici, les deux étaient entremêlés dans un seul réseau, forçant un choix entre inférence rapide et prédictions grossières, ou rendu détaillé mais trop lent pour de la planification itérative. DVG-WM sépare explicitement les deux tâches: à partir d'une observation initiale et d'une instruction en langage naturel, le modèle génère d'abord une séquence d'états visuels intermédiaires prévisualisant l'interaction physique, puis les raffine en vidéos haute fidélité. Le mécanisme clé est un cascading efficace où le flow matching relie directement la dynamique aux latents vidéo, complété par un mécanisme de dégradation latente qui régénère les détails riches en contacts (préhension, collisions). Testé sur le benchmark LIBERO et sur plateformes réelles, DVG-WM améliore la qualité vidéo tout en accélérant l'inférence jusqu'à 3,97 fois. Pour l'industrie robotique, ce résultat s'attaque directement à un goulot d'étranglement connu des architectures VLA (vision-langage-action) basées sur la prédiction vidéo: la latence d'inférence, rédhibitoire pour du contrôle en boucle fermée temps réel. Un gain de facteur 4 sur la vitesse, sans sacrifier la précision des interactions de contact, rapproche ces world models vidéo d'un usage réellement embarqué plutôt que d'une simple démonstration hors ligne, un point sensible pour les intégrateurs qui évaluent la viabilité de ces approches face aux politiques d'action plus directes. Ce travail s'inscrit dans la lignée des world models vidéo pour la robotique (dans la continuité d'approches type UniPi, iVideoGPT ou GR00T-Dreams), dont la promesse est d'apprendre la physique à partir de vidéo brute plutôt que de simulateurs coûteux à construire. La contribution spécifique de DVG-WM, la désentanglement dynamique/synthèse, ouvre la voie à des variantes combinant d'autres backbones de génération vidéo ou à une extension vers des tâches multi-étapes plus longues, une direction que les auteurs identifient comme suite naturelle de ces travaux.

RecherchePaper
1 source
Labimus : simulation et référentiel pour la manipulation dextérique humanoïde en laboratoire de chimie
258arXiv cs.RO 

Labimus : simulation et référentiel pour la manipulation dextérique humanoïde en laboratoire de chimie

Des chercheurs ont présenté Labimus, premier benchmark évaluant la manipulation dextre de robots humanoïdes dans un laboratoire de chimie organique, selon un article publié sur arXiv (2606.31037v1). Le système reconstruit plus de 30 éléments fidèles fonctionnellement à partir de postes de travail réels de chimie organique, via une modélisation dite "real-to-sim", couvrant les opérations centrales des expériences de routine en laboratoire. Labimus intègre des instruments articulés, une physique de poudre basée sur des particules, et des mesures en boucle fermée reliant manipulation et lecture d'instruments. Le benchmark définit six opérations atomiques et un protocole en sept étapes pour la pesée de solides, directement dérivé de procédures opératoires standard utilisées en laboratoire réel. Les auteurs y associent un protocole d'évaluation "precision-aware", mesurant conjointement la réussite de la tâche, la précision expérimentale et l'exécution sur des horizons longs. Trois politiques de contrôle représentatives ont été testées sous des dispositions procédurales variables et des perturbations environnementales. Le résultat central est ce que les auteurs nomment un "gap de précision" : des politiques capables de mener une tâche à terme échouent malgré tout à respecter les tolérances quantitatives exigées par les protocoles expérimentaux réels. C'est un signal important pour l'écosystème robotique humanoïde, où la plupart des démonstrations publiques (Figure 03, Optimus, GR00T N2, Helix) se concentrent sur la réussite visible d'une tâche plutôt que sur sa validité métrologique. Labimus démontre que "terminer la tâche" et "produire un résultat scientifiquement exploitable" sont deux critères distincts, ce qui questionne la pertinence des benchmarks actuels pour des applications à forte exigence de précision comme l'automatisation de laboratoire. Le travail s'inscrit dans la dynamique plus large d'automatisation scientifique par IA, où les plateformes robotiques et le raisonnement scientifique assisté par IA ont progressé rapidement, mais où des opérations comme le transfert solide-solide restent difficiles à standardiser en raison de leur caractère dynamique. Contrairement aux benchmarks de manipulation généralistes existants, Labimus cible spécifiquement ce contexte de précision critique, ouvrant la voie à des travaux futurs de développement de robots humanoïdes fiables pour les laboratoires scientifiques, un segment encore largement inexploré par les acteurs commerciaux du secteur.

RecherchePaper
1 source
LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action
259arXiv cs.RO 

LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action

Une équipe de recherche propose LARA (Latent Action Representation Alignment), un framework qui entraîne conjointement deux composants jusqu'ici séparés dans les modèles vision-langage-action (VLA) : le modèle d'action latente (LAM), qui apprend des représentations d'actions à partir de vidéos non annotées, et le modèle VLA lui-même. Jusqu'à présent, ces deux briques étaient optimisées indépendamment, ce qui limitait leurs bénéfices mutuels : le LAM restait déconnecté du contexte robotique réel, et le VLA était contraint par des représentations figées, sans possibilité d'ajustement. LARA aligne les deux via un mécanisme de représentation partagée, permettant au LAM d'apprendre à partir de trajectoires d'actions réelles pour éviter de capter de simples changements visuels sans pertinence (comme un déplacement de caméra), tandis que le VLA est régularisé par la dynamique prédictive du LAM pour réduire les hallucinations de trajectoires inefficaces. Les auteurs rapportent des gains moyens d'environ 10% en pré-entraînement, 5% en amélioration post-entraînement de modèles VLA déjà entraînés, et 15% en affinage du LAM seul, mesurés sur trois benchmarks de manipulation en simulation et un benchmark réel conçu spécifiquement pour l'évaluation. L'enjeu pour le secteur est la dépendance chronique des VLA à des jeux de données robotiques réels, coûteux et rares à grande échelle. Exploiter des vidéos humaines non étiquetées comme source de supervision, sans perdre en fiabilité, est une piste suivie par plusieurs laboratoires travaillant sur des modèles comme GR00T N2 ou Pi-0. Ce que suggère LARA, c'est que le goulot d'étranglement n'est pas seulement la quantité de données vidéo disponibles, mais la façon dont les représentations d'action apprises restent ou non ancrées dans la réalité physique du robot pendant l'entraînement conjoint. L'approche s'inscrit dans la lignée des travaux sur les Latent Action Models, qui cherchent depuis plusieurs années à combler l'écart entre l'abondance de vidéos web et la rareté des démonstrations robotiques annotées. Contrairement à une annonce produit, il s'agit ici d'un travail académique (version 2 d'un article déposé sur arXiv), sans déploiement industriel annoncé ni calendrier de commercialisation ; sa portée dépendra de sa reproductibilité et de son adoption par les équipes développant des VLA en conditions réelles.

RecherchePaper
1 source
Chine : UBTech présente un humanoïde à roues pour automatiser les ateliers de production
260Interesting Engineering 

Chine : UBTech présente un humanoïde à roues pour automatiser les ateliers de production

UBTech, fabricant robotique basé à Shenzhen, a présenté le Cruzr Y1, un humanoïde industriel à roues, lors d'une exposition technologique en Chine, où le robot a effectué en démonstration live du déstackage de caisses et de la palettisation de manière autonome. L'engin embarque des puces domestiques chinoises Digua S100P et S600, la plateforme logicielle propriétaire ROSA, et un modèle VLA (Vision-Language-Action) couplant perception, prise de décision et contrôle moteur. Sa mobilité repose sur des roues omnidirectionnelles à 360 degrés combinées à un mécanisme d'élévation verticale, permettant une circulation dans des allées de fabrication étroites. Les bras doubles utilisent des joints harmoniques avec capteurs de couple, tandis qu'un système multi-capteurs composé de lidar et de caméras de profondeur, disposés sur la tête, les poignets et le châssis, assure une couverture situationnelle à 360 degrés. L'autonomie dépasse quatre heures en charge maximale, avec recharge automatique et swap rapide de batterie pour un fonctionnement continu. En parallèle, UBTech a lancé la série U1 sous sa nouvelle marque grand public UWORLD, affiché à environ 30 000 dollars: plus de 2 100 précommandes en une semaine sur JD.com, livraisons annoncées pour mi-septembre, 88 degrés de liberté, revêtement en silicone réaliste, 183 cm pour la version masculine et 168 cm pour la féminine. L'intégration d'un modèle VLA dans un robot logistique à déploiement industriel est techniquement notable: elle substitue la programmation par trajectoire fixe par une perception adaptative, ce qui réduit théoriquement le temps de reconfiguration pour les intégrateurs. La plateforme Cruzr Y1 n'est ni un AMR classique ni un bras industriel fixe, mais une unité hybride combinant mobilité, manipulation bilatérale et levage vertical en un seul système. Pour un COO logistique, cela représente une alternative potentielle aux architectures AMR plus bras dédiés. Cela dit, UBTech n'a publié aucune métrique de cadence de cycle, taux d'erreur ou volume déployé en conditions réelles: la démonstration reste un proof-of-concept en environnement contrôlé, ce qui rend toute comparaison avec des systèmes en production comme ceux d'Exotec (Skypod) ou de Berkshire Grey prématurée. Fondée en 2012, UBTech compte parmi ses clients industriels Airbus, Texas Instruments, NIO, ZEEKR, Dongfeng Liuzhou Motor et FAW-Volkswagen. Le Cruzr Y1 s'inscrit dans une stratégie de diversification face à la concurrence humanoïde croissante, avec Figure AI et son Figure 03, Tesla et l'Optimus Gen 3, Physical Intelligence avec Pi-0, et NVIDIA avec GR00T N2. Le lancement simultané de la gamme U1 grand public signale une bifurcation stratégique: UBTech vise à la fois le B2B industriel et un marché B2C émergent en Chine, où la demande pour des robots compagnons commence à se structurer. Les prochaines étapes clés seront les retours terrain des pilotes industriels du Cruzr Y1 et les premiers usages réels de la U1 après les livraisons de mi-septembre.

Chine/AsieActu
1 source
ReactiveBFM : planification de mouvement réactive en boucle fermée pour le contrôle global des humanoïdes
261arXiv cs.RO 

ReactiveBFM : planification de mouvement réactive en boucle fermée pour le contrôle global des humanoïdes

Des chercheurs ont publié le 30 juin 2026 sur arXiv (identifiant 2606.30362) les travaux ReactiveBFM, un framework de planification-contrôle en boucle fermée temps réel pour humanoïdes, validé sur le robot Unitree G1. L'approche atteint un taux de succès de 93,1 % lors de benchmarks sim-to-sim soumis à des perturbations sévères, surpassant de 28,6 points les baselines en boucle ouverte classiques. Le système permet notamment la poursuite de cibles mobiles en zero-shot, c'est-à-dire sans avoir été entraîné explicitement sur cette tâche, en mobilisant une coordination corps entier fluide et une replanification à la volée. Le verrou technique adressé est le problème dit d'exposition bias : quand un modèle génératif de planification de mouvement est naïvement chaîné avec un contrôleur d'exécution, les écarts de suivi s'accumulent jusqu'à provoquer des effondrements comportementaux. ReactiveBFM répond à cela via un curriculum d'échantillonnage par préfixe planifié (scheduled prefix sampling), qui force le planificateur à apprendre des comportements de récupération d'erreur à partir d'états physiques imparfaits plutôt que de trajectoires de référence idéales. Un second mécanisme d'asynchronisme découple la replanification autorégressive, lente, du tracking haute fréquence, tandis qu'un chunking de trajectoire assure la cohérence spatio-temporelle sans jitter physique. Pour les intégrateurs industriels et les équipes de recherche en contrôle humanoïde, cela valide une piste concrète pour rendre les Behavior Foundation Models (BFMs) exploitables hors conditions laboratoire. Les BFMs sont une classe émergente de modèles pré-entraînés qui fournissent des priors de contrôle pour humanoïdes, analogues aux LLMs pour le texte. Jusqu'ici, leur limitation majeure était l'exécution figée de mouvements pré-définis, sans adaptation à l'environnement. Le Unitree G1, humanoïde chinois à 16 000 dollars commercialisé depuis 2024, s'est imposé comme banc de test standard dans la recherche académique. Les concurrents directs sur le plan scientifique incluent les travaux autour de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et les architectures VLA embarquées chez Figure et Agility Robotics. Ce papier reste à ce stade un preprint non évalué par les pairs : les résultats sim-to-sim sont prometteurs mais aucun déploiement industriel ni transfert sim-to-real robuste n'est encore démontré.

UELes techniques ReactiveBFM (curriculum de préfixe planifié, réplanification asynchrone, chunking de trajectoire) sont directement exploitables par les équipes R&D européennes travaillant sur les Behavior Foundation Models pour humanoïdes, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RechercheOpinion
1 source
Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique
262arXiv cs.RO 

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

Des chercheurs ont publié sur arXiv (2601.21416v2) une étude comparative sur les représentations visuelles utilisées pour entraîner des politiques de manipulation robotique. Le problème central : les robots peinent à généraliser lorsque les conditions visuelles changent, éclairage, textures ou présence d'objets parasites dans la scène. L'équipe a évalué trois familles de représentations extraites d'encodeurs pré-entraînés : les features globales (image résumée en un seul vecteur agrégé), les features denses (embedding par patch issu de la dernière couche de l'encodeur), et une approche intermédiaire baptisée SBOCR (Slot-Based Object-Centric Representations), qui regroupe ces features denses en un nombre fini d'entités "objet-like" via un mécanisme de slots. Testées sur une batterie de tâches de manipulation en simulation et en conditions réelles, allant de scénarios simples à complexes, les politiques SBOCR surpassent les deux autres familles en termes de généralisation, sans pré-entraînement spécifique à la tâche. Ce résultat intéresse directement les intégrateurs et équipes R&D en robotique : la principale cause d'échec en déploiement n'est pas la commande moteur, mais la robustesse perceptuelle aux conditions non vues à l'entraînement. Les features globales sacrifient le détail spatial ; les features denses transmettent trop d'information non pertinente (fond, reflets, distracteurs), dégradant la politique hors distribution. SBOCR agit comme un filtre structuré : en segmentant implicitement la scène en objets discrets, la représentation réduit le bruit transmis à la politique sans perdre les informations nécessaires à l'exécution de la tâche. C'est un signal significatif pour les architectures VLA (Vision-Language-Action), et cela valide empiriquement que la structure objet-centrique améliore la robustesse aux shifts visuels sans supervision supplémentaire. Ce travail s'inscrit dans la lignée des Slot Attention (Locatello et al., Google Brain, 2020). Dans le paysage concurrent, les politiques VLA majeures comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) s'appuient majoritairement sur des features denses issues de ViT ou CLIP, sans structuration objet explicite. La question de l'intégration de SBOCR dans des architectures transformer de grande taille reste ouverte, notamment sur le plan du coût computationnel. Il s'agit d'un preprint arXiv sans évaluation par les pairs publiée à ce jour ; la scalabilité à des environnements industriels complexes, multi-objets et à fortes occlusions, reste à confirmer.

💬 Le problème de généralisation en robotique, c'est pas les moteurs, c'est la perception hors distribution. SBOCR montre qu'en structurant la scène en objets discrets plutôt qu'en features brutes, on gagne en robustesse visuelle sans aucun ré-entraînement spécifique. Pi-0 et GR00T N2 s'appuient encore sur des features denses, et si ce résultat tient à plus grande échelle, c'est un angle mort de design qu'il va falloir corriger.

IA physiqueOpinion
1 source
Modélisation du monde en contexte pour le contrôle robotique
263arXiv cs.RO 

Modélisation du monde en contexte pour le contrôle robotique

Des chercheurs ont publié le 25 juin 2026 un preprint arXiv (2606.26025) présentant ICWM (In-Context World Modeling), un cadre d'adaptation pour les modèles Vision-Language-Action (VLA) appliqués à la robotique. Les VLA actuels échouent dès que le contexte d'exécution change - angle de caméra différent, morphologie de robot modifiée - parce qu'ils supposent un contexte fixe, celui rencontré pendant l'entraînement, et nécessitent un fine-tuning intensif en données pour toute nouvelle configuration. ICWM traite l'identification du système comme un problème d'adaptation en contexte : avant d'exécuter une tâche, le robot génère de courtes interactions autonomes agnostiques à la tâche, dont l'historique est injecté dans la fenêtre de contexte du modèle. Celui-ci infère ainsi implicitement la dynamique du système courant - position de caméra, configuration mécanique - sans mise à jour de poids. Les expériences menées en simulation et sur plateformes réelles montrent que ICWM surpasse significativement les baselines VLA standards sur des configurations de caméra inédites. La généralisation des VLA est le verrou principal qui freine le déploiement industriel de la robotique généraliste. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et les modèles Google nécessitent tous du fine-tuning dès qu'on change la disposition d'une caméra ou la morphologie d'un robot, ce qui rend les pilotes industriels coûteux et longs à mettre en place. ICWM attaque ce problème sans modifier les poids du modèle : l'adaptation passe uniquement par le contexte, à l'image de ce que l'In-Context Learning a apporté aux LLMs. Pour un intégrateur ou un COO industriel, cela signifie potentiellement déployer un même modèle sur plusieurs lignes avec des géométries de capteurs différentes, sans pipeline de re-entraînement. La contribution est conceptuellement distincte : là où l'ICL classique spécifie quelle tâche effectuer, ICWM apprend comment le système fonctionne - une couche d'adaptation complémentaire aux approches existantes. Les modèles VLA ont connu une explosion depuis 2024 : RT-2 (Google DeepMind), Pi-0 de Physical Intelligence, GR00T N2 d'NVIDIA présenté à GTC 2025, et plus récemment Helix (Figure AI) illustrent la convergence entre fondations LLM et contrôle moteur. La fragilité aux variations contextuelles - ce qu'on appelle le "demo-to-deployment gap" - reste une critique récurrente formulée notamment par des acteurs européens comme Enchanted Tools ou Wandercraft, qui misent sur des architectures plus déterministes pour des environnements industriels contraints. ICWM s'inscrit dans une tendance plus large : importer les paradigmes d'adaptation du machine learning directement dans la boucle de contrôle robotique, sans passer par un cycle de collecte de données et de re-entraînement. Le preprint ne mentionne ni partenariat industriel, ni code open-source, ni dataset public : il s'agit d'une contribution de recherche pure, sans déploiement commercial annoncé à ce stade.

UESi ICWM tient ses promesses, les intégrateurs européens pourraient déployer un même modèle VLA sur plusieurs lignes à géométries de capteurs différentes sans pipeline de ré-entraînement, réduisant directement le coût des pilotes industriels, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le vrai frein au déploiement robotique industriel, ce n'est pas la performance brute des VLA, c'est que la moindre caméra déplacée oblige à relancer un fine-tuning complet. ICWM importe dans la boucle de contrôle la même logique qui a rendu les LLMs flexibles, et si ça tient, c'est un changement de calcul économique pour les intégrateurs européens qui tentent des pilotes. Bon, pour l'instant c'est un preprint sans code ni partenaire industriel, donc on verra.

IA physiqueOpinion
1 source
Vers des modèles vision-langage à faible latence avec prédictions doublement correctes pour la compréhension visuelle égocentrique
264arXiv cs.RO 

Vers des modèles vision-langage à faible latence avec prédictions doublement correctes pour la compréhension visuelle égocentrique

Des chercheurs ont publié sur arXiv (réf. 2606.25160v1) une étude sur l'élagage des modèles vision-langage (VLMs) appliqué à la compréhension visuelle égocentrique, c'est-à-dire depuis le point de vue d'un robot ou d'un humain équipé de capteurs embarqués. L'objectif est de réduire la latence d'inférence pour des tâches collaboratives homme-robot (HRC) en temps réel, où chaque milliseconde compte. Les auteurs introduisent le concept de "prédiction doublement correcte" : une sortie du modèle doit être à la fois précise dans sa réponse ET ancrée dans les bonnes preuves visuelles (localisation d'evidence correcte). Leurs expériences montrent un résultat surprenant : les méthodes d'élagage existantes (weight pruning) tendent à préserver la localisation des indices visuels pertinents, mais dégradent la précision de la prédiction finale. Pour corriger cela, ils proposent une stratégie d'élagage informée par le raisonnement (rationale-informed pruning), validée sur des jeux de données vidéo égocentrique, sur lesquels elle surpasse les approches concurrentes en précision et en taux de prédictions doublement correctes. Pour les intégrateurs robotiques et les équipes qui déploient des VLMs sur des robots collaboratifs, ce résultat a des implications directes. La sécurité en HRC exige non seulement que le robot prenne la bonne décision, mais qu'il la prenne pour les bonnes raisons, ce qui est essentiel pour l'auditabilité et la conformité dans des contextes industriels réglementés. La démonstration que les techniques d'élagage standards cassent silencieusement la chaîne preuve-décision est un signal d'alarme pour quiconque compresse des VLMs à des fins de déploiement embarqué sans valider ce couplage. Cette publication s'inscrit dans une vague de travaux visant à rendre les VLMs exploitables sur hardware contraint, en réponse à la montée en puissance des architectures vision-action comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), qui intègrent déjà des capacités de compréhension visuelle pour la manipulation. L'élagage structuré reste une voie active face à la distillation ou la quantification. La prochaine étape naturelle serait de tester cette approche sur des benchmarks de manipulation réelle ou des pipelines de type VLA (Vision-Language-Action), où le gap sim-to-real reste ouvert. Il s'agit pour l'instant d'un preprint non évalué par les pairs.

RechercheOpinion
1 source
Modèles du monde pour la manipulation robotique
265arXiv cs.RO 

Modèles du monde pour la manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.24742) un modèle généraliste de valeur pour la manipulation robotique, le WVM (World Value Model). La proposition centrale consiste à substituer les backbones VLM (Vision-Language Model) habituellement utilisés par un modèle de monde, nativement mieux adapté à la modélisation temporelle nécessaire pour évaluer la progression d'une tâche. Sur les benchmarks standards, WVM atteint les meilleures performances connues en Value-Order Correlation (VOC), la métrique de référence pour les modèles de valeur robotiques. L'équipe introduit également Suboptimal-Value-Bench, un benchmark multi-embodiment composé de 800 trajectoires sous-optimales annotées frame par frame par des humains, comblant un angle mort des évaluations existantes qui ne contenaient que des données expertes. L'enjeu est directement opérationnel pour quiconque entraîne des systèmes de manipulation à grande échelle : les données collectées en conditions réelles sont rarement uniformément expertes. Un modèle de valeur précis permet de pondérer ou filtrer ces trajectoires hétérogènes, améliorant la qualité de l'entraînement sans nettoyage manuel coûteux. WVM démontre des gains de performance sur plusieurs approches d'extraction de politique, en simulation comme en déploiement réel, ce qui renforce la thèse que l'estimation de valeur est un composant orthogonal et complémentaire au choix d'architecture de politique. La robustesse maintenue sur données sous-optimales est l'aspect le plus significatif : c'est précisément dans ce régime que les VLMs classiques décrochent, leurs préentraînements sur observations visuelles statiques ne suffisant pas à capturer les dynamiques temporelles longues. La montée en puissance des VLA comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a rendu critique la question de la qualité des données d'entraînement à grande échelle. L'approche WVM s'inscrit dans une tendance émergente qui consiste à spécialiser les composants : un backbone temporel dédié pour l'évaluation de la valeur, distinct du modèle d'action. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans cet article purement académique. Les prochaines étapes naturelles incluent l'intégration du WVM dans des pipelines d'imitation à grande échelle ou en combinaison avec du reinforcement learning offline (IQL, CQL), et une extension à des environnements multi-tâches plus complexes.

RechercheOpinion
1 source
Guava : un cadre efficace et universel pour la manipulation incarnée
266arXiv cs.RO 

Guava : un cadre efficace et universel pour la manipulation incarnée

Des chercheurs ont publié en juin 2026 sur arXiv (identifiant 2606.18363) Guava, un cadre de harness pour agents robotiques de manipulation. Le système repose sur trois ingrédients identifiés après une exploration systématique de l'espace de conception : des boucles itératives perception-raisonnement-action, des abstractions d'action sémantiques et des observations multimodales. À partir de ces principes, les auteurs ont entraîné un modèle open-source de 4 milliards de paramètres en utilisant moins de 2 000 trajectoires collectées entièrement en simulation, sans aucune donnée réelle. Les évaluations en environnement simulé et en conditions réelles montrent des performances comparables aux modèles propriétaires de pointe, avec une généralisation robuste à des objets non vus en entraînement, des instructions inédites et des tâches longues à plusieurs étapes. Le résultat le plus significatif est qu'un modèle compact peut atteindre des performances compétitives avec des systèmes propriétaires massifs à condition que l'architecture de harness soit bien conçue, et non que le modèle soit immense. Cela conteste directement l'hypothèse dominante selon laquelle les systèmes VLA (Vision-Language-Action) end-to-end nécessitent des millions de trajectoires réelles pour franchir le sim-to-real gap. L'approche par tool use découple le raisonnement de haut niveau des modules de perception et de contrôle, rendant le cadre agnostique au modèle sous-jacent, un avantage concret pour les intégrateurs industriels souhaitant substituer les composants sans réentraîner l'ensemble du système. Ce travail s'inscrit dans un débat structurant de la manipulation robotique qui oppose les VLA end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aux approches modulaires par harness, qui misent sur la composabilité et le raisonnement émergent des LLM. L'approche rappelle SayCan (Google/Everyday Robots) ou Code as Policies, mais avec une validation sim-to-real plus explicite et sur modèle open-source. Le modèle 4B utilisé n'est pas nommé dans le papier, et aucun déploiement industriel ni partenariat commercial n'est mentionné : Guava demeure pour l'instant un résultat de recherche, sans timeline de productisation annoncée.

UELes laboratoires de recherche et intégrateurs robotiques européens peuvent s'appuyer sur ce cadre open-source pour développer des systèmes de manipulation compétitifs sans infrastructure de données réelles à grande échelle.

RechercheOpinion
1 source
Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon
267arXiv cs.RO 

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

Des chercheurs ont soumis le 16 juin 2026 sur arXiv (2606.16178) une architecture transformer nommée PRISM, conçue pour doter les politiques visuomotrices entraînées par imitation learning d'une mémoire à court terme effective. Le système combine deux mécanismes : une attention filtrée (gated attention) qui supprime les corrélations parasites entre l'historique sensoriel et la prédiction d'action, et une architecture hiérarchique qui compresse les informations locales en tokens compacts pour capturer des dépendances temporelles étendues. PRISM maintient ainsi une mémoire opérationnelle sur environ deux minutes. Ses performances : 5 à 12 % de gains absolus sur les baselines les plus solides, et 11 à 15 % de mieux que sa variante sans mémoire sur RoboCasa et LIBERO, dépassant des modèles VLA fine-tunés comme GR00T-N1-3B (NVIDIA) et OpenVLA, sans aucun pré-entraînement à grande échelle. Les auteurs publient aussi ReMemBench, un benchmark de huit tâches de manipulation domestique couvrant quatre catégories mémorielles. La quasi-totalité des politiques visuomotrices actuelles n'exploitent que l'entrée sensorielle instantanée, les rendant incapables de gérer des tâches impliquant des objets temporairement occultés ou des actions à déclencher après un délai défini. PRISM démontre qu'une architecture mémoire soigneusement conçue peut surpasser des VLA massivement pré-entraînés, remettant en question l'hypothèse dominante selon laquelle la taille du corpus de pré-entraînement prime sur les choix architecturaux. Pour les intégrateurs et les décideurs industriels, ce résultat ouvre la voie à des politiques de manipulation longue séquence plus accessibles en calcul. PRISM s'inscrit dans un débat actif entre approches récurrentes (LSTM, Mamba) et architectures transformer pour les politiques de manipulation robotique. Les benchmarks RoboCasa et LIBERO font référence en simulation pour ce type de tâches, et des modèles comme GR00T-N1 de NVIDIA (3B paramètres) ou OpenVLA ont misé sur un pré-entraînement multimodal massif pour y performer. PRISM se positionne comme une alternative architecturale plus légère et sans pré-entraînement. Il faut toutefois souligner que tous les résultats sont obtenus en simulation : aucun transfert sim-to-real ni déploiement physique n'est annoncé, laissant ouverte la question de la robustesse sur robot réel.

RechercheOpinion
1 source
SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné
268arXiv cs.RO 

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

SAPS (Shared Autonomy for Policy Steering, arXiv:2606.15568) est un framework qui combine en temps réel les commandes d'un opérateur humain avec les actions d'un modèle Vision-Language-Action (VLA) préentraîné, au niveau de l'action elle-même. Sans réentraînement, sans modèle auxiliaire, sans modification architecturale, SAPS introduit trois stratégies d'arbitrage dont une basée sur la similarité cosinus: cet indice mesure l'accord géométrique entre la commande humaine et celle du modèle pour distribuer le contrôle de façon dynamique. Testé sur les benchmarks de simulation LIBERO, LIBERO-PRO et CALVIN, et sur du matériel réel, le framework améliore le taux de succès des tâches jusqu'à 82 % par rapport à l'exécution autonome seule, réduit les interventions humaines par rapport à la télé-opération pure, et raccourcit les temps de complétion dans les deux cas. Ce résultat touche au défaut structurel des VLA généralistes: leur fragilité face aux perturbations hors-distribution, qu'il s'agisse d'un objet déplacé de quelques centimètres ou d'une scène atypique. SAPS n'exige pas de modifier le modèle existant, ce qui est l'argument commercial central pour un intégrateur industriel: le framework se greffe indifféremment sur Pi-0, GR00T N2, OpenVLA ou tout autre VLA disponible. La réduction de charge cognitive par rapport à la télé-opération pure est également significative pour des applications d'assistance aux personnes à mobilité réduite et pour la collecte de données d'imitation, où chaque heure d'opérateur est coûteuse. Les métriques présentées sont issues d'un preprint non relu par des pairs, et les vidéos de démonstration réelles restent à évaluer avec prudence. L'autonomie partagée est un champ établi, mais son application agnostique au modèle au niveau action sur des VLA modernes est une voie distincte des approches concurrentes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et HuggingFace (LeRobot) misent sur la robustification des politiques par distillation et augmentation de données; SAPS propose une couche d'intervention humaine plug-and-play plutôt qu'un meilleur modèle. Le preprint n'annonce ni déploiement industriel ni partenariat commercial. Les extensions naturelles visent les plateformes humanoïdes (Figure 03, Unitree G1) et un usage dans des boucles de fine-tuning continu. Aucun acteur français ou européen n'est impliqué dans ce travail.

RechercheOpinion
1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
269arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée
270arXiv cs.RO 

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Une équipe associée à JD Cloud publie DataLadder (arXiv:2606.16776, juin 2026), un pipeline de conversion bidirectionnel entre robots réels, simulation et démonstrations humaines, conçu pour scaler la génération de données d'entraînement et l'évaluation de politiques robotiques généralistes. L'outil repose sur deux flux complémentaires via le simulateur JoySim. Le premier, Robot vers Simulation vers Human, reconstruit des tâches réelles de rangement sur table en jumeaux numériques calibrés, puis mobilise des retours humains pour affiner la naturalité des trajectoires simulées, permettant une évaluation reproductible sans mobiliser de robot physique en continu. Le second, Human vers Simulation vers Robot, projette des démonstrations humaines filmées en vue égocentrique dans JoySim, les confronte aux contraintes physiques du robot cible, et en extrait trajectoires, annotations et observations visuelles directement utilisables en entraînement. Les modules de reconstruction, rendu et augmentation de réalisme sont exposés en services cloud sur JD Cloud. Ce travail adresse une asymétrie bien documentée : les données issues de robots réels restent la source la plus fiable, mais leur collecte est lente et coûteuse, tandis que la simulation seule souffre du sim-to-real gap. DataLadder introduit un filtre de cohérence physique dans la boucle de conversion human-to-robot, ce qui dépasse les approches de retargeting naïves. Pour les équipes développant des architectures VLA (vision-language-action), cette infrastructure pourrait réduire significativement la dépendance aux démos téléopérées, dont le coût est souvent estimé à plusieurs milliers de dollars par heure de collecte. L'accessibilité via API cloud simplifie également le déploiement pour des équipes sans cluster de simulation dédié. DataLadder s'inscrit dans la course au "data flywheel" pour robots généralistes, lancée par RT-2 (Google DeepMind, 2023) et accélérée par des politiques comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). JD.com, conglomérat e-commerce chinois opérant une large flotte logistique autonome, a un intérêt direct à industrialiser cette chaîne pour ses propres lignes de tri et de picking. Aucun benchmark comparatif avec les simulateurs concurrents Isaac Lab (NVIDIA) ou MuJoCo Playground (DeepMind) n'est fourni dans ce preprint, ce qui rend les affirmations de performance difficiles à évaluer pour l'instant. La prochaine étape attendue serait une validation quantitative sur des benchmarks standardisés de manipulation comme LIBERO ou MetaWorld.

IA physiqueOpinion
1 source
ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée
271arXiv cs.RO 

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

Des chercheurs ont publié en juin 2026 un préprint arXiv (2606.14255) présentant ReactVLA, un framework VLA (Vision-Language-Action) conçu pour réduire drastiquement la latence d'inférence des politiques de manipulation robotique. Le problème ciblé est précis : les architectures VLA basées sur la diffusion, comme π₀ (Physical Intelligence) ou SmolVLA (HuggingFace/LeRobot), génèrent des distributions d'action expressives mais exigent un échantillonnage itératif coûteux, qui plombe leur utilisabilité en boucle fermée temps-réel. ReactVLA propose deux mécanismes complémentaires pour y remédier : un générateur d'actions iMF (improved Mean Flow) qui ramène la diffusion multi-étapes à une ou quelques passes seulement, et AttnRes (Attention Residuals), un mécanisme de routage dynamique des features par couche d'attention censé mieux préserver les représentations multimodales liées à la tâche. Sur les benchmarks de simulation LIBERO et RoboIMI, ainsi que sur des tâches de manipulation physique, ReactVLA affiche jusqu'à 1,65× de gain en taux de succès sur les tâches de précision et plus de 4× d'accélération à l'inférence par rapport aux VLA de référence de taille comparable. La latence de politique en conditions réelles tombe sous 38,6 ms. Ce seuil de 38,6 ms est le chiffre à retenir pour un intégrateur ou un ingénieur robotique : il passe sous la barre des 40 ms généralement considérée comme nécessaire pour un contrôle réactif crédible en manipulation dynamique, là où les modèles de diffusion standards restent souvent au-delà de 150 à 300 ms. Si les résultats se confirment hors contexte académique, cela répond à l'une des critiques récurrentes contre les VLA pour l'industrie : la qualité d'action est là, mais la cadence ne suit pas. L'approche Mean Flow (accélération de la diffusion par réduction du nombre d'étapes via un flux de probabilité direct) n'est pas nouvelle en vision générative, mais son application aux espaces d'action robotiques avec maintien des performances sur tâches de précision reste un résultat non trivial. Il faut cependant nuancer : il s'agit d'un preprint non relu, les benchmarks LIBERO et RoboIMI sont des environnements académiques standardisés loin des contraintes industrielles réelles, et les vidéos de démonstration présentées sur le site projet ne constituent pas une validation de déploiement. ReactVLA s'inscrit dans une course dense à l'efficacité des VLA depuis 2024. π₀ (Physical Intelligence) reste la référence en qualité d'action sur tâches bimanuelle complexes mais souffre précisément de cette latence. SmolVLA, publié par HuggingFace début 2025, vise la légèreté et l'accessibilité open-source. Côté industriel, GR00T N2 de NVIDIA et Helix (co-développé par Figure et d'autres partenaires) intègrent leurs propres pipelines VLA dans des architectures humanoïdes avec des contraintes de déploiement très différentes. Aucune affiliation institutionnelle ni source de financement n'est mentionnée dans le preprint, ce qui limite l'évaluation du contexte de transfert technologique. Les prochaines étapes naturelles seraient une validation sur des manipulateurs industriels (6-DOF, scénarios de pick-and-place variables) et une soumission en conférence de référence comme CoRL ou ICRA pour validation par les pairs.

UESmolVLA (HuggingFace, entreprise française) est cité comme référence comparative directe, mais ReactVLA est un preprint sans affiliation institutionnelle connue et sans déploiement démontré en Europe, l'impact reste indirect via l'écosystème open-source LeRobot.

IA physiqueOpinion
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
272arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
273arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur
274arXiv cs.RO 

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées. L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain. L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

UELa validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

IA physiqueOpinion
1 source
Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine
275arXiv cs.RO 

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

Des chercheurs ont publié début juin 2026 Video2Sim2Real (arXiv:2606.08828), un pipeline complet permettant à un robot d'acquérir des compétences de manipulation dextre à partir d'une seule vidéo de démonstration humaine. Le système fonctionne en trois étapes : des modèles de fondation reconstruisent un jumeau numérique prêt pour la simulation, extraient les trajectoires main-objet, puis identifient des keyframes orientés objet pour optimiser les configurations articulaires du robot. Ces configurations servent d'ancres pour recalibrer le mouvement brut, comblant l'écart entre la cinématique humaine et les contraintes d'un end-effector mécanique. Pour le transfert sim-to-real, le framework dissocie deux problèmes distincts : la robustesse aux nuages de points bruités du monde réel, traitée par apprentissage par imitation (IL), et les variations de dynamique doigt-objet, gérées par du RL résiduel local au niveau des phalanges. Un module de planification collision-aware permet enfin la généralisation spatiale à des configurations d'objets inédites. L'intérêt principal pour les intégrateurs et équipes R&D est l'absence de démonstrations téléopérées coûteuses : une seule vidéo d'un humain effectuant une tâche suffit à bootstrapper la politique. C'est une réponse directe au "demonstration bottleneck" qui freine le déploiement des robots manipulateurs en environnements non structurés. La décomposition explicite du gap sim-to-real en deux sous-problèmes indépendants est méthodologiquement solide et contraste avec les approches end-to-end qui peinent à diagnostiquer leurs propres échecs. Sur plusieurs tâches de manipulation quotidienne, le système améliore le taux de succès en simulation, la sécurité et la cohérence des trajectoires face à de nombreuses baselines existantes. Il faut noter cependant que le papier ne publie pas de métriques de succès absolues consolidées en conditions réelles ; les évaluations demeurent comparatives, ce qui limite l'interprétation des gains annoncés. Cette direction s'inscrit dans un mouvement plus large exploitant les vidéos comme supervision faible pour la robotique, à l'instar de π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou UniSim. Video2Sim2Real se distingue en visant la pipeline complète, de la vidéo brute au déploiement réel, sans intervention intermédiaire. Les approches concurrentes comme DexMV ou AnyTeleop requièrent généralement des données supplémentaires (MoCap, téléopération) ou restent limitées à des scènes très contraintes. Aucun déploiement industriel n'est annoncé à ce stade ; les prochaines étapes naturelles seraient une validation sur des end-effectors commerciaux (Allegro Hand, Shadow Dexterous Hand) et une mise à l'épreuve sur des objets articulés ou déformables, là où la dynamique de contact reste un problème ouvert.

UELes équipes R&D françaises et européennes spécialisées en manipulation dextre peuvent intégrer cette approche pour s'affranchir de la téléopération coûteuse, sans partenariat ou initiative EU spécifique annoncé.

IA physiqueOpinion
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
276arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
Adaptation de politique sans mise à jour du modèle par flux normalisant
277arXiv cs.RO 

Adaptation de politique sans mise à jour du modèle par flux normalisant

Des chercheurs du laboratoire RIPL ont publié sur arXiv (2606.06461) GLOVES, une famille de méthodes d'adaptation fondées sur le flow matching permettant de corriger les actions d'agents robotiques non experts, politiques pré-entraînées, modèles de fondation ou opérateurs humains, sans modifier leurs poids ni leur logique de contrôle. Le principe : plutôt que de remplacer l'agent par un système entièrement autonome, GLOVES "transporte" ses actions vers une distribution cible apprise d'un expert, à partir d'un petit nombre de démonstrations ou de segments de compétences réutilisables. Un mécanisme de score par flux inverse (reverse flow evaluation) sert de portail d'intervention sélective : les actions déjà cohérentes avec la distribution experte passent inchangées, seules les actions anomales ou hors distribution (OOD) sont corrigées. Ce travail répond à un problème concret et croissant dans le déploiement des modèles de fondation robotiques de type VLA (Vision-Language-Action) : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA produisent des comportements génériques qui échouent souvent sur des tâches spécifiques ou dans des environnements non vus à l'entraînement. GLOVES propose une couche d'adaptation légère qui ne nécessite pas de réentraîner le modèle de base, quelques démonstrations suffisent, et les segments de compétences réussis sont réutilisables sur plusieurs tâches. L'intervention conditionnelle préserve l'autonomie de l'agent sous-jacent, ce qui est pertinent pour des déploiements industriels où l'opérateur veut conserver le contrôle sémantique du comportement sans tout reconstruire. GLOVES s'inscrit dans un courant actif de recherche sur la correction de politiques et le contrôle partagé (shared autonomy), distinct de l'imitation learning classique ou de l'IRL. Le flow matching est en forte progression depuis son adoption dans Pi-0 (diffusion policies) ; GLOVES l'applique non à la génération d'actions brutes mais à leur correction post-hoc, ce qui est architecturalement plus modulaire et plus facile à greffer sur un système existant. Le code et les démonstrations sont disponibles à ripl.github.io/GLOVES_web. Les suites naturelles incluent l'intégration dans des pipelines de téléopération augmentée, bien que le preprint n'annonce pas encore de déploiements industriels concrets ni de partenariats commerciaux.

RechercheOpinion
1 source
PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée
278arXiv cs.RO 

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Des chercheurs ont publié PiL-World (arXiv:2606.05773), un modèle de monde (world model) en boucle fermée conçu pour évaluer les politiques VLA (Vision-Language-Action) sans exécution physique continue. Le système fonctionne par blocs d'actions (action chunks) : à chaque itération, la politique VLA génère une séquence d'actions, PiL-World simule les observations multi-vues résultantes, et ces observations alimentent le cycle d'inférence suivant. Évalué sur trois tâches de manipulation bimanuelle réelles, PiL-World réduit l'écart entre le taux de succès mesuré sur robot physique et celui estimé en simulation boucle fermée de 63,2 % à 12,0 % par rapport à la baseline, soit plus de cinq fois moins d'erreur d'évaluation. Le modèle conditionne la génération vidéo sur le mouvement du robot en vue de tête et sur un historique latent encodant le contexte d'exécution de la tâche, et apprend à la fois sur des démonstrations téléopérées réussies et sur des trajectoires d'échec. L'évaluation des politiques VLA en boucle fermée est un goulot d'étranglement critique dans le développement robotique : chaque cycle de test sur hardware coûte du temps, de l'usure mécanique et une supervision humaine. Un écart de 63,2 % entre simulation et réalité rend une baseline en boucle ouverte essentiellement inexploitable pour prédire les performances terrain. Ramené à 12,0 %, ce delta commence à être utilisable pour screener des politiques avant validation physique. Le fait que PiL-World apprenne aussi sur des rollouts d'échec est notable : cela corrige un biais classique des world models entraînés uniquement sur démonstrations positives, et rapproche la distribution simulée de celle des exécutions politiques réelles, qui incluent naturellement des tentatives ratées. La demande pour des boucles d'évaluation sans robot s'intensifie depuis que les VLA, notamment Pi-0 de Physical Intelligence, OpenVLA, ou GR00T N2 de NVIDIA, sont devenues les architectures de référence pour la manipulation généraliste. Les simulateurs physiques classiques comme Isaac Lab ou MuJoCo souffrent du sim-to-real gap pour les tâches de contact fin, d'où l'intérêt croissant pour les world models appris directement sur données réelles. PiL-World rejoint une tendance émergente aux côtés de travaux comme UniSim ou IRASim, qui visent à remplacer partiellement l'exécution physique par des modèles génératifs vidéo conditionnés sur les actions. Les résultats sur trois tâches bimanuelles restent limités en diversité de scènes et de morphologies robotiques, et aucun déploiement industriel ni partenariat n'est annoncé à ce stade, ce qui positionne PiL-World comme une contribution de recherche prometteuse plutôt qu'un outil prêt pour l'intégration.

RechercheOpinion
1 source
IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
279arXiv cs.RO 

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert. Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement. Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.

UELa publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.

RechercheOpinion
1 source
IA incarnée fiable : un programme communautaire du test à la vérification formelle
280arXiv cs.RO 

IA incarnée fiable : un programme communautaire du test à la vérification formelle

Un article de position publié sur arXiv (2606.03593) dans le cadre du programme AAAI'26 Bridge sur la fiabilité des IA embarquées pose un constat cru : malgré l'accélération des déploiements en environnements ouverts, l'industrie ne dispose d'aucune méthodologie unifiée pour garantir le comportement sûr et prévisible de ces systèmes. Les auteurs identifient trois axes complémentaires : des tests par scénarios appuyés sur des spécifications validées et des métriques de couverture, une vérification compositionnelle via des représentations symboliques structurées, et des mécanismes d'assurance à l'exécution capables de gérer les incertitudes et les glissements de distribution (distribution shifts) en déploiement réel. Leur thèse centrale : ces trois approches doivent être intégrées dans un workflow d'assurance continu reliant tests, vérification formelle et adaptation runtime via des représentations neuro-symboliques partagées, sur l'ensemble du cycle de vie du système. L'enjeu est direct pour les intégrateurs et les COO industriels. Les systèmes d'IA embarquée, robots humanoïdes, AMR, bras de manipulation autonome, atteignent un niveau de capacité qui autorise des déploiements commerciaux, mais la certification de leurs comportements reste un angle mort. Là où l'automobile dispose de l'ISO 26262 et l'aéronautique de la DO-178C, la robotique IA ne dispose d'aucun cadre équivalent. Ce papier ne propose pas de norme : il trace un agenda de recherche communautaire pour combler cet écart. Prouver formellement les propriétés de sécurité d'un système dont les comportements émergent d'un réseau de neurones reste un problème ouvert, et l'absence de solution freine les déploiements à grande échelle en logistique, en industrie et dans les soins à la personne. Ce travail s'inscrit dans le sillage de l'essor des VLA (Vision-Language-Action models), Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, qui ont rendu les robots plus capables mais aussi moins prédictibles, compliquant d'autant leur vérification. Des acteurs français comme Wandercraft (exosquelette marchant) et Enchanted Tools (robot Mirokaï) se heurtent au même verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics. La suite logique de cet agenda passe par la constitution de benchmarks partagés et d'outils de vérification formelle adaptés aux architectures neuro-symboliques, un chantier que le Bridge Program de l'AAAI'26, prévu pour 2026, entend contribuer à structurer.

UEWandercraft et Enchanted Tools sont cités explicitement comme confrontés à ce verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics en France, cet agenda de recherche pourrait structurer le cadre de certification qui leur fait défaut.

RechercheOpinion
1 source
VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines
281arXiv cs.RO 

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

Des chercheurs ont publié sur arXiv (preprint 2606.03954, juin 2026) VLESA, un cadre de supervision de la sécurité humaine fondé sur la vision et le langage. Le système analyse des flux vidéo égocentrés (caméra portée à la première personne) pour prédire en temps réel si une action humaine imminente présente un risque, et déclenche une intervention avant que le danger se matérialise. Le coeur technique repose sur deux composants : un agent de prédiction d'intention-action qui infère conjointement l'objectif de l'opérateur et ses prochains gestes à partir de la vidéo, et un Q-filter de sécurité conditionné par l'objectif, entraîné via GRPO (Group Relative Policy Optimization). Ce filtre évalue la dangerosité d'une action en fonction du but inféré, sans nécessiter de ré-entraînement. Sur le benchmark ASIMOV-2.0, VLESA surpasse les baselines en précision d'intervention à la frame exacte, et le Q-filter GRPO améliore la sécurité des actions de plus de 41 points de pourcentage via un décodage contraint conditionné à l'intention. Le code est disponible publiquement sur GitHub. L'apport conceptuel central est la notion de "sécurité dépendante de l'intention" : une action physiquement identique peut être sûre ou dangereuse selon le contexte opérationnel. Saisir un couteau pour couper des légumes n'est pas la même chose que le saisir après un conflit verbal. Les approches classiques de détection d'anomalies ignorent cette ambiguïté et génèrent trop de faux positifs pour être industrialisables. En décomposant le problème en inférence d'intention puis évaluation de risque conditionnel, VLESA propose une architecture plus proche des besoins réels de la cobotique, des environnements de soin à domicile assisté, ou de la surveillance d'opérateurs en milieu industriel. Le gain de 41 points sur ASIMOV-2.0 est significatif si les conditions du benchmark reflètent la diversité du terrain, ce que la nature sélective d'un preprint ne permet pas encore de confirmer. Ce travail s'inscrit dans un champ en forte expansion, celui de la sécurité des systèmes embarqués et des agents physiques autonomes, porté par la montée des VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche VLESA se distingue en ciblant non pas le robot mais l'humain en interaction avec son environnement, positionnement plus proche des travaux en human activity recognition que de la robotique pure. Les acteurs établis du monitoring de sécurité industrielle (Pilz, Sick, Keyence côté capteurs) n'ont pas encore intégré de couche sémantique de ce niveau. Aucun déploiement pilote n'est annoncé dans l'article : il s'agit d'une contribution académique, avec dataset et code partagés, dont la trajectoire vers l'industrialisation dépendra de la robustesse des résultats sur des scénarios hors benchmark et de validations en conditions réelles.

UELes acteurs européens de la sécurité industrielle (Pilz, Sick) n'ayant pas encore intégré de couche sémantique de ce niveau, VLESA ouvre une piste concrète pour la cobotique et le monitoring d'opérateurs, applicable dans le cadre de mise en conformité avec la directive machines révisée.

RecherchePaper
1 source
Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable
282arXiv cs.RO 

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

Des chercheurs ont soumis sur arXiv (arXiv:2606.03385) le framework GTP-FA, acronyme de Grasp-Then-Plan with Failure Attribution, une architecture en deux étapes pour la manipulation robotique de précision. L'approche découple explicitement la phase de saisie d'objets du planning de trajectoire: le système génère d'abord des candidats de prise en main, sélectionne le plus adapté à la tâche, puis conditionne la planification aval sur ce choix. Quand une séquence de manipulation échoue, un modèle d'attribution des échecs analyse la trajectoire défaillante pour isoler la source du problème, grasping ou planning, et se généralise à des prises non vues lors de l'entraînement. Sur cette base diagnostique, chaque module est optimisé: côté grasping, des priors orientés tâche et des pénalités de risque filtrent les prises instables ou incompatibles avec la tâche; côté planning, une collecte de données ciblée sur les états initiaux à haut risque affine le module de trajectoire. Les résultats sont validés en simulation et sur robot réel, bien que l'abstract ne détaille pas les chiffres précis de taux de succès obtenus. Ce que GTP-FA résout est un angle mort persistant: dans les pipelines grasping-planning couplés, l'origine d'un échec reste opaque, ce qui transforme l'optimisation en tâtonnement coûteux et peu reproductible. Le framework s'applique indifféremment aux paradigmes d'apprentissage par renforcement (RL), par imitation (IL), par diffusion policy, et aux architectures VLA (Vision-Language-Action), et améliore les taux de succès globaux dans chacun selon les auteurs. C'est une contribution méthodologique transversale: elle ne remplace pas les architectures VLA émergentes mais s'y superpose, ce qui la rend potentiellement intégrable dans des systèmes existants sans refonte architecturale. La manipulation robotique de précision est aujourd'hui l'un des principaux fossés entre les démonstrations en laboratoire et le déploiement industriel. Des acteurs comme Physical Intelligence (modèle pi-0), Google DeepMind (GR00T N2) ou Figure AI investissent massivement dans des architectures VLA généralisables, mais la fiabilité de la prise en main dans des conditions non contrôlées reste un verrou documenté. GTP-FA adresse ce verrou depuis la recherche académique, sans affiliation commerciale identifiée dans ce préprint. Les suites naturelles incluront la validation sur objets déformables ou transparents, catégories où le grasping échoue le plus fréquemment, et l'intégration dans des tâches à horizon long en environnements peu structurés.

UEContribution méthodologique académique publiquement accessible aux équipes de recherche robotique européennes, sans impact institutionnel ou industriel direct identifié en France/UE.

RecherchePaper
1 source
ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play
283arXiv cs.RO 

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

ELAN4D est un cadre d'entraînement pour modèles Vision-Language-Action (VLA) publié en preprint arXiv en mai 2026, conçu pour améliorer la robustesse aux perturbations hors-distribution. Le problème central: les VLA actuels comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) réagissent directement aux observations sans modéliser les dynamiques futures, ce qui dégrade leurs performances dès que les conditions changent. ELAN4D injecte une supervision 4D basée sur l'embodiment: à partir des seuls états proprioceptifs du robot, il calcule des trajectoires 3D de points clés (articulations, effecteur terminal) via cinématique directe, sans tracker externe ni reconstruction. Un décodeur léger est ajouté pendant l'entraînement puis retiré à l'inférence, laissant l'interface du modèle de base inchangée. Sur les benchmarks LIBERO, LIBERO-Plus, RoboTwin2.0 et sur des tâches en conditions réelles, ELAN4D surpasse les baselines VLA avec des gains substantiels sous perturbations de caméra, d'arrière-plan et de disposition d'objets. L'atout principal est pragmatique: améliorer un VLA existant sans reconstruction 3D coûteuse ni modification du backbone vision-langage pré-entraîné (les gradients sont isolés pour le préserver), et sans overhead à l'inférence. Ce mode plug-and-play permet d'appliquer l'approche à des modèles existants sans repartir d'une architecture neuve, un avantage direct pour les équipes R&D et les intégrateurs. Le gap de généralisation hors-distribution est l'un des freins majeurs à l'industrialisation des politiques de manipulation, et les gains annoncés sur benchmarks sont potentiellement significatifs si confirmés en déploiement réel. Il convient cependant de tempérer: les résultats sont établis en conditions de laboratoire, sans validation à grande échelle en production. La dynamique de recherche sur les VLA robustes s'est intensifiée depuis pi-0 (Physical Intelligence, octobre 2024) et la popularisation des architectures diffusion policy et action chunking transformer, avec plusieurs équipes explorant des approches concurrentes basées sur les world models vidéo ou la reconstruction 3D. ELAN4D est une contribution purement académique: le preprint ne mentionne ni partenaire industriel ni déploiement en cours. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou multi-bras en environnement industriel réel, sans qu'aucune timeline ne soit annoncée.

IA physiqueOpinion
1 source
Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire
284arXiv cs.RO 

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Une équipe de chercheurs a publié début 2026 sur arXiv (réf. 2602.21013, version révisée) une approche augmentant les modèles VLA (Vision-Language-Action) d'un module de mémorisation textuelle appelé "scratchpad", littéralement un bloc-notes interne. Le principe : pendant l'exécution d'une tâche, le modèle peut écrire des notes intermédiaires en langage naturel, notamment les positions d'objets détectées, l'état d'avancement du plan et les sous-objectifs restants à accomplir. Les auteurs ont évalué cette méthode sur deux benchmarks spécialisés, ClevrSkills et MemoryBench, ainsi que sur une tâche réelle de pick-and-place. Résultat annoncé : le scratchpad améliore significativement la généralisation sur ces tâches, aussi bien pour les architectures récurrentes que non récurrentes. La problématique adressée est structurelle. La majorité des VLA actuels opèrent de façon "sans état" (stateless) : ils traitent chaque instant de décision de manière indépendante, sans mémoire explicite des étapes précédentes. Or de nombreuses tâches de manipulation dextère sont non-markoviennes par nature, ce qui signifie que la décision optimale à l'instant t dépend de ce qui s'est passé avant t. Ce travail défend qu'un mécanisme aussi simple qu'un bloc-notes textuel suffit à combler une partie de ce gap, sans modifier l'architecture fondamentale du modèle. Pour les équipes R&D développant des solutions sur longue séquence (assemblage multi-étapes, tri conditionnel, manipulation avec gestion d'état), c'est une piste légère compatible avec les VLA open-source existants, à condition que les résultats sur ClevrSkills et MemoryBench se confirment dans des environnements industriels réels plus bruités. Les VLA ont connu une accélération majeure depuis 2023 avec RT-2 de Google DeepMind, OpenVLA de UC Berkeley, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, tous construits sur le principe de la compréhension sémantique à grande échelle transférée au geste robotique. La limite "sans mémoire" était connue des praticiens mais peu formalisée dans la littérature récente. Ce travail s'inscrit dans une tendance visant à doter les VLA de capacités de raisonnement à long horizon, en parallèle d'autres approches comme les architectures récurrentes ou les planificateurs hybrides symbolique-neuraux. Il s'agit d'un preprint académique sans déploiement ni partenariat industriel annoncé, et les benchmarks utilisés (ClevrSkills, MemoryBench) restent des environnements relativement contrôlés dont la transférabilité au terrain est encore à démontrer.

IA physiqueOpinion
1 source
VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)
285arXiv cs.RO 

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié en mai 2026 VLA-Pro, un framework « plug-and-play » destiné à améliorer la généralisation inter-tâches des modèles Vision-Language-Action (VLA) en robotique manipulatoire. Le principe repose sur le stockage d'adaptateurs LoRA (Low-Rank Adaptation) comme mémoires procédurales paramétriques pendant la phase d'entraînement. À l'inférence, le système récupère dynamiquement les mémoires les plus pertinentes en fonction du contexte multimodal courant (image, langage, contexte scène), puis les fusionne pour générer le prochain action chunk. Les expériences ont été conduites sur trois benchmarks : RoboTwin, RLBench (simulation), et des tâches de manipulation en environnement réel. Le gain en simulation atteint jusqu'à 207 % d'amélioration relative selon les backbones testés. Sur les tâches réelles, le taux de succès passe de 5,8 % à 65,0 %, soit un facteur d'environ onze. Ce résultat pointe un problème structurel des VLA actuels : leur incapacité à transférer une expérience acquise vers une tâche inédite, même lorsque les objets ou les gestes impliqués sont similaires. Le bond de 5,8 % à 65,0 % en monde réel est notable, bien que l'absence de détails sur la sélection et la difficulté des tâches testées invite à interpréter ces chiffres avec prudence. L'atout principal de VLA-Pro pour les intégrateurs est sa modularité : compatible avec plusieurs backbones existants, il s'insère sans refonte du pipeline d'entraînement. Pour un décideur industriel, cela réduit concrètement le coût de requalification d'un robot lors d'un changement de tâche en production. Les modèles VLA constituent aujourd'hui le front principal de la recherche en manipulation généraliste, avec Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (Berkeley) et RT-2 (Google DeepMind) comme références majeures. Leur talon d'Achille commun reste la généralisation out-of-distribution, que VLA-Pro tente d'adresser via un mécanisme de mémoire inspiré des systèmes cognitifs. L'utilisation des LoRA comme vecteurs de mémoire est pragmatique, ces adaptateurs étant déjà présents dans la majorité des pipelines de fine-tuning actuels. Le papier ne mentionne ni partenariat industriel ni déploiement annoncé : il s'agit pour l'instant d'une contribution académique prometteuse dont la validation à l'échelle industrielle reste à démontrer.

RechercheOpinion
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
286arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

IA physiqueOpinion
1 source
Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables
287arXiv cs.RO 

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

Des chercheurs ont publié le 29 mai 2026 un article (arXiv:2605.29407) présentant un système robotique capable de manipuler des objets déformables, comme des vêtements, avec une récupération autonome en cas d'échec. Le système, baptisé PHASER, repose sur une architecture hiérarchique en boucle fermée : un encodeur ACT (Action Chunking with Transformers) conditionné via FiLM (Feature-wise Linear Modulation) adapte l'extraction de features selon la phase courante de la tâche, permettant à une politique unifiée de produire des comportements distincts à chaque étape sans dupliquer les modèles. Un prédicteur de phase multimodal fusionne retour visuel, force et pose en temps réel pour estimer l'état courant et détecter les échecs de contact invisibles à la caméra. Un contrôleur d'impédance hybride assure l'exécution compliante. Validé sur la tâche d'accrochage et de retrait d'un T-shirt en manipulation bimanuelle, le système fait passer le taux de succès de 56 % à 87 % grâce à la récupération autonome des erreurs. Ce résultat est notable car la manipulation d'objets déformables reste un des verrous les plus résistants de la robotique industrielle et domestique : les propriétés mécaniques imprévisibles du tissu rendent caduques les approches rigides classiques. Le problème de state aliasing, où des observations visuellement similaires exigent des actions contradictoires selon la phase, sabote les politiques d'imitation standard en inférence markovienne. En conditionnant la politique sur la phase estimée plutôt que sur l'observation brute, et en intégrant le retour de force comme signal de détection d'anomalie, les auteurs montrent qu'il est possible de construire un pipeline sim-to-real sans oracle externe. Les études d'ablation confirment que le conditionnement FiLM surpasse significativement les baselines non conditionnées et celles à token-level, et l'analyse t-SNE valide que les représentations apprises sont bien séparées par phase. L'approche s'inscrit dans la lignée des travaux sur l'imitation learning pour la manipulation dextre, notamment ACT (Chi et al., 2023) et les Diffusion Policies, qui peinent sur les objets non rigides. Elle se distingue des frameworks VLA (Vision-Language-Action) à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation par préentraînement massif plutôt que sur la structure de la tâche. PHASER adopte une stratégie inverse : contrainte forte sur la structure de phase, données limitées, récupération explicite. Les auteurs publient le code et les vidéos en open access. Les prochaines étapes naturelles incluent l'extension à d'autres classes de vêtements et la réduction de la dépendance à l'interface de télé-opération haptique pour la collecte de données d'entraînement.

RecherchePaper
1 source
Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée
288Interesting Engineering 

Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée

Astribot, startup robotique de Shenzhen également connue sous le nom Stardust Intelligence, a ouvert les commandes de son humanoïde T1 à partir de 13 000 dollars, soit environ sept fois moins cher que son propre modèle phare S1 vendu près de 100 000 dollars. Le T1 est un humanoïde à base roulante de 155 cm pour 66 kg, doté de 23 degrés de liberté hors effecteurs, avec une capacité de charge de 5 kg par bras. Son architecture motrice repose sur des câbles tendus, la même approche que le S1, conçue pour produire des mouvements plus fluides qu'un entraînement par engrenages traditionnels. Il accepte des pinces robotiques standard et des mains à cinq doigts pour la manipulation fine, et cible des applications comme la cuisine, les opérations en laboratoire, le pliage du linge, le tri de pièces automobiles et la recharge de véhicules électriques. L'IA embarquée est entraînée principalement par démonstration humaine plutôt que par téléopération, une méthode d'imitation learning qui permet au robot d'apprendre des workflows en observant un opérateur humain. Le seuil des 13 000 dollars modifie le calcul économique pour les intégrateurs et les équipes qui souhaitent piloter l'humanoïde en environnement industriel. À titre de comparaison, le Unitree G1 reste l'une des rares références sous 20 000 dollars sur le marché mondial; les offres Figure 03, Agility Digit ou Boston Dynamics Electric Atlas se négocient bien au-delà. Si le T1 tient ses performances hors laboratoire, il pourrait abaisser la barrière d'entrée pour des secteurs à marges serrées comme la logistique légère ou l'assemblage à faible volume. Il convient cependant d'être prudent: Astribot liste des tâches réussies sans publier de métriques de cadence ni de données de robustesse en conditions industrielles réelles, et les vidéos de démonstration restent sélectionnées par l'entreprise. C'est une ouverture de commandes, pas un déploiement en volume documenté. Fondée en 2022 et basée à Shenzhen, Astribot s'est fait connaître à la World Robot Conference de Pékin en août 2024 avec le S1, humanoïde bimanuel de 170 cm et 90 kg aux 23 DOF (7 par bras, 4 pour le torse, 2 pour la tête, 3 pour la base omnidirectionnelle). Une publication arXiv de juillet 2025 détaillait la suite logicielle Astribot Suite, combinant collecte de données en réalité virtuelle, politiques d'imitation learning et optimisation de trajectoire en temps réel, avec des taux de réussite annoncés entre 80 et 100% sur tâches sélectionnées. La startup a levé environ 100 millions de dollars depuis 2024. Sur le segment prix du T1, les concurrents directs incluent le Unitree G1 et, dans une moindre mesure, les robots de recherche comme le GR00T N2 de NVIDIA. Aucun acteur européen ne se positionne encore clairement sur ce créneau accessible. La démonstration de robustesse en milieu non contrôlé et l'annonce de premiers clients industriels constitueront les prochaines étapes décisives pour valider l'ambition commerciale d'Astribot.

UELa démocratisation des prix sur ce segment pourrait inciter des intégrateurs européens à évaluer un pilote humanoïde, mais aucun déploiement ni partenariat européen n'est mentionné.

HumanoïdesOpinion
1 source
Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs
289arXiv cs.RO 

Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.27314) une approche qui réhabilite le contrôle réactif pour des tâches multi-objectifs, domaine où cette famille de méthodes est traditionnellement jugée inadaptée. Le principe repose sur un modèle du monde sous forme de graphe, étendu par des projections dans l'espace nul (nullspace projections) : lorsque deux objectifs entrent en conflit, les gradients de plus faible priorité sont projetés dans le nullspace du gradient de plus haute priorité, les priorités étant calculées en continu en fonction de l'état courant du système. Les auteurs valident l'approche sur deux scénarios : navigation autour d'obstacles non-convexes, et poussée planaire (planar pushing) d'objets non-convexes. Sur cent configurations de poussée, la méthode atteint 100 % de réussite, contre 0 % pour la descente de gradient classique (steepest-descent) et environ 55 % pour une diffusion policy entraînée sur démonstrations. La même formulation est transférée directement sur un robot réel, intégrant des contraintes perceptuelles et cinématiques via le même mécanisme. Le résultat le plus saillant pour les praticiens est la comparaison avec la diffusion policy : un modèle génératif entraîné sur données, considéré comme l'état de l'art sur les tâches de manipulation déstructurées, plafonne à 55 % là où cette méthode purement réactive, sans démonstration ni réentraînement, atteint 100 %. Cela contredit directement la thèse selon laquelle les approches data-driven supplantent systématiquement les méthodes classiques en manipulation. Pour un intégrateur industriel, le signal est clair : le coût d'acquisition de données et les pipelines d'entraînement ne sont pas toujours nécessaires pour des tâches de saisie ou de manipulation d'objets à géométrie complexe. La légèreté computationnelle du contrôle réactif le rend également compatible avec des architectures embarquées à ressources limitées. Le contrôle réactif par champs de potentiel remonte aux travaux d'Oussama Khatib (1986), et les projections dans l'espace nul sont un pilier de la robotique à priorité de tâches (travaux de Siciliano, Chaumette). Ce papier ne réinvente pas ces fondamentaux mais résout leur point de défaillance historique : les minima locaux dus à des encodages statiques des objectifs. Face à cet axe purement classique, les approches concurrentes combinent apprentissage par renforcement, imitation learning (ACT, diffusion policy), et plus récemment les VLA (Vision-Language-Action models comme pi0 ou GR00T N2 de NVIDIA). Les auteurs ne précisent pas de roadmap industrielle, mais la capacité de transfert sim-to-real sans retraining est un argument fort pour des pilotes rapides. La prochaine étape naturelle serait l'extension à la manipulation 3D et aux objets articulés.

RecherchePaper
1 source
Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres
290arXiv cs.RO 

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion
1 source
RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée
291arXiv cs.RO 

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Une équipe de chercheurs a publié en mai 2025 RobotEQ (arXiv:2605.06234), un benchmark conçu pour évaluer ce qu'ils appellent l'intelligence active dans les systèmes d'IA incarnée. Contrairement aux approches actuelles, où un robot exécute des tâches sur instruction explicite de l'utilisateur (intelligence passive), l'intelligence active désigne la capacité d'un système à identifier de manière autonome quelles actions sont socialement acceptables ou interdites, sans consigne préalable. Pour mesurer cette aptitude, les auteurs ont constitué RobotEQ-Data : un jeu de données de 1 900 images en vue égocentrique, couvrant 10 catégories scénario typiques de l'IA incarnée et 56 sous-catégories. Via annotation manuelle intensive, ils ont produit 5 353 questions de jugement d'action et 1 286 questions d'ancrage spatial, formant ensemble le socle du benchmark RobotEQ-Bench. Les résultats d'évaluation sur les modèles de pointe actuels sont sans ambiguïté : aucun ne satisfait de manière fiable aux exigences de l'intelligence active, avec des lacunes particulièrement marquées sur l'ancrage spatial, c'est-à-dire la capacité à localiser précisément les objets ou zones pertinents dans une scène pour motiver un comportement conforme aux normes sociales. L'étude montre cependant qu'intégrer des bases de connaissances externes via des techniques de RAG (Retrieval-Augmented Generation) améliore significativement les performances, ce qui suggère une piste concrète pour les développeurs de systèmes robotiques sociaux. Pour les industriels et intégrateurs, ce résultat pointe une limite critique avant tout déploiement en environnement humain non contrôlé : les robots actuels ne sont pas équipés pour naviguer les conventions implicites du quotidien. RobotEQ s'inscrit dans un effort académique plus large visant à combler le fossé entre capacités de manipulation assistée et autonomie sociale réelle, un sujet de plus en plus pressant à mesure que les robots humanoïdes entrent dans des espaces partagés avec des humains. Les grandes plateformes évaluées ne sont pas nommées explicitement dans l'abstract, mais le benchmark cible les VLMs (Vision-Language Models) utilisés dans les architectures d'IA incarnée actuelles, comme ceux sous-tendant des systèmes tels que Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Aucun partenaire industriel ni calendrier de déploiement n'est annoncé, ce papier restant à ce stade une contribution de recherche fondamentale avec dataset et benchmark disponibles pour la communauté.

RecherchePaper
1 source
Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation
292arXiv cs.RO 

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Une équipe de recherche a publié le 9 mai 2026 un nouveau benchmark de simulation dédié à l'évaluation des politiques de manipulation robotique, sous le nom VISER (Visually Realistic Simulation for Robot Manipulation Evaluation). Le système repose sur une bibliothèque de plus de 1 000 assets 3D équipés de matériaux PBR (Physically-Based Rendering), intégrés dans des scènes générées automatiquement. Pour constituer cette base à grande échelle, les auteurs ont développé un pipeline automatisé combinant des modèles de langage multimodaux (MLLMs) pour la segmentation des pièces et la récupération des matériaux. Les tâches d'évaluation couvrent la saisie, le placement et des séquences longue durée (long-horizon tasks), permettant de tester des modèles Vision-Language-Action (VLA) dans des conditions reproductibles. Résultat clé : un coefficient de corrélation de Pearson moyen de 0,92 entre les performances en simulation et les performances réelles, mesuré sur plusieurs politiques distinctes. Ce score de 0,92 est le chiffre le plus structurant de la publication. La grande majorité des benchmarks existants génèrent un écart domaine (domain gap) significatif parce qu'ils négligent deux variables décisives : l'éclairage et les propriétés de matériaux. VISER montre expérimentalement que ces deux facteurs pèsent directement sur le raisonnement géométrique et l'ancrage spatial des modèles VLA, deux capacités centrales pour toute manipulation physique fiable. Pour les équipes qui développent des politiques robotiques, un proxy simulation fiable à 0,92 réduit massivement le coût et le temps des cycles d'itération réel, notamment pour des architectures VLA dont le fine-tuning reste coûteux en déploiement physique. Le problème du sim-to-real gap structure la robotique de manipulation depuis plus d'une décennie. Les benchmarks de référence comme RLBench ou MetaWorld sont largement utilisés mais construits sur des rendus bas fidélité qui limitent leur valeur prédictive pour les approches VLA modernes, dont pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. VISER positionne explicitement ses actifs PBR comme une réponse à cette insuffisance, en automatisant la génération via MLLMs pour éviter le goulot d'artisanat manuel qui freinait les benchmarks précédents. La prochaine étape naturelle sera de mesurer si cette corrélation de 0,92 tient sur des robots à morphologies variées et des scénarios de manipulation industrielle hors laboratoire.

RechercheOpinion
1 source
Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
293arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source
VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés
294arXiv cs.RO 

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Une équipe de chercheurs publie VLA-GSE (Generalized and Specialized Experts) sur arXiv en mai 2026 (arXiv:2605.06175), une méthode d'affinage efficace en paramètres (PEFT) pour les modèles vision-langage-action (VLA). Ces modèles, construits sur des dorsales visuelles et linguistiques pré-entraînées comme celles d'OpenVLA ou pi-0, souffrent d'oubli catastrophique lorsqu'on les affine entièrement sur des données de contrôle robotique. VLA-GSE répond à ce problème via une décomposition spectrale de la dorsale gelée : les composantes singulières dominantes alimentent des experts généralisés partagés entre toutes les tâches, tandis que les composantes résiduelles disjointes alimentent des experts spécialisés routés selon la tâche. Seuls 2,51 % des paramètres totaux sont entraînables. Sur le benchmark LIBERO-Plus, la méthode atteint 81,2 % de taux de succès moyen en zéro-shot, surpassant à la fois l'affinage complet (FFT) et LoRA, tout en préservant des performances comparables à LoRA sur les benchmarks de compréhension multimodale. Ce résultat remet en question une hypothèse implicite du secteur : préserver les connaissances pré-entraînées et adapter efficacement au contrôle robotique seraient deux objectifs incompatibles. La décomposition spectrale permet d'allouer la capacité d'adaptation là où elle est nécessaire sans écraser les représentations visuelles-sémantiques acquises. Pour les équipes R&D et les intégrateurs travaillant sur des robots manipulateurs, cela signifie qu'un modèle de fondation peut être spécialisé sur un domaine restreint avec un budget computationnel réduit sans sacrifier la généralisation. La robustesse observée face à plusieurs changements de distribution (environnement, objets, éclairage) renforce la crédibilité de l'approche, même si les expériences sur plateformes physiques restent limitées dans les résultats publiés. Les modèles VLA constituent depuis 2023-2024 un axe de recherche majeur, portés notamment par OpenVLA (UC Berkeley), pi-0 (Physical Intelligence) et GR00T N1/N2 (NVIDIA). La stratégie dominante jusqu'ici reposait sur un affinage complet coûteux ou sur LoRA standard, qui peine à capturer la complexité des politiques de contrôle. VLA-GSE se positionne entre ces deux extrêmes avec un ratio paramètres/performance favorable. Le code source est disponible sur GitHub (YuhuaJiang2002/VLA-GSE), facilitant la reproduction. Les prochaines étapes logiques incluent des validations sur des plateformes physiques variées, notamment des bras à 6-7 DOF et des robots mobiles manipulateurs, ainsi qu'une comparaison directe avec des approches concurrentes comme SpatialVLA en conditions de déploiement réel.

RechercheOpinion
1 source
Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts
295arXiv cs.RO 

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des chercheurs ont publié DreamTacVLA, un framework qui dote les modèles Vision-Language-Action (VLA) d'un sens du toucher anticipatif. Ces architectures, parmi lesquelles Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, généralisent des comportements robotiques à partir de connaissances web-scale, mais restent aveugles à la physique du contact : force, texture et glissement. DreamTacVLA introduit une perception hiérarchique à trois niveaux : images tactiles haute résolution (micro-vision), caméra poignet (vision locale) et vue tierce (macro-vision), le tout aligné par une perte baptisée Hierarchical Spatial Alignment (HSA). Le système est ensuite affiné par un modèle de monde tactile prédisant des états de contact futurs, ce qui lui permet de conditionner ses décisions à la fois sur des observations réelles et sur des conséquences anticipées ; sur des benchmarks de manipulation contact-riche (vissage, pelage, textiles), il atteint jusqu'à 95 % de succès face aux baselines VLA état de l'art, appuyé par un dataset hybride combinant simulation haute-fidélité (digital twin) et expériences en monde réel. Ce résultat quantifie concrètement le "gap tactile" des VLA modernes : intégrer des signaux de contact haute résolution est discriminant pour des tâches industrielles entières, de l'assemblage de précision au conditionnement de composants déformables. Conditionner les décisions sur des conséquences tactiles anticipées, et non seulement sur des observations en temps réel, rapproche les VLA du raisonnement physique implicite des opérateurs expérimentés. Pour les intégrateurs B2B, cela laisse entrevoir une prochaine génération de politiques robotiques capables de manipulation fine sans capteurs de force-couple coûteux, à condition d'embarquer des capteurs tactiles conformes haute résolution. La démonstration reste cependant purement académique : aucun déploiement industriel ni partenariat de production n'est annoncé dans le papier. Le travail s'inscrit dans un mouvement d'enrichissement des VLA au-delà du seul canal vision-langage, aux côtés d'approches intégrant proprioception, retour de force ou audio. DreamTacVLA se distingue par l'application au domaine tactile de techniques issues des modèles de monde visuels (Dreamer, RSSM), une transposition méthodologiquement originale. L'article est à sa troisième révision arXiv (v3), signe d'une évaluation par les pairs active. Parmi les acteurs à surveiller : Sanctuary AI et Agility Robotics sur les politiques de manipulation, GelSight et Contactile sur les capteurs tactiles, et en Europe, Pollen Robotics qui explore des effecteurs sensoriellement enrichis.

UEPollen Robotics, identifié comme acteur européen explorant des effecteurs sensoriellement enrichis, est directement positionné pour intégrer ce type d'avancée tactile dans ses politiques de manipulation VLA.

IA physiqueOpinion
1 source
Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)
296arXiv cs.RO 

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
297arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA
298arXiv cs.RO 

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Des chercheurs, vraisemblablement affiliés à l'Université de Pékin (l'URL du projet pointe vers pku-safevla.github.io), ont publié en mars 2025 SafeVLA, une méthode d'alignement sécurisé pour les modèles vision-langage-action (VLA) déployés sur robots physiques. L'approche, baptisée ISA (Integrated Safety Approach), repose sur le paradigme des processus de décision de Markov contraints (CMDP) et combine trois étapes : modélisation formelle des exigences de sécurité, élicitation active de comportements dangereux, puis optimisation min-max de la politique robot via du renforcement contraint. Sur des tâches de manipulation mobile à long horizon, SafeVLA réduit le coût cumulé des violations de sécurité de 83,58 % par rapport à la méthode de référence state-of-the-art, tout en améliorant simultanément le taux de succès des tâches de 3,85 points. Les données, modèles et benchmark associés sont publiés en open source. Ce résultat est notable parce qu'il adresse directement le principal frein à la commercialisation des VLA en environnement industriel : la garantie de comportement sûr hors distribution. Jusqu'ici, les politiques générales de type pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montraient des performances impressionnantes en laboratoire mais offraient peu de garanties formelles sur les scénarios de défaillance extrêmes, les cas limites ou les perturbations inattendues. SafeVLA propose un cadre d'assurance quantifiable, avec une généralisation démontrée aux perturbations out-of-distribution, ce qui intéresse directement les intégrateurs industriels et les COO qui exigent des SLA de sécurité avant tout déploiement en cellule humaine ou en espace partagé. L'amélioration simultanée du taux de succès contredit l'hypothèse courante selon laquelle la sécurité contrainte dégrade nécessairement la performance. Les VLA ont connu une accélération significative depuis 2023 avec des travaux fondateurs comme RT-2 (Google DeepMind) et OpenVLA, mais la question de leur alignement sécurisé pour une utilisation réelle restait largement ouverte, la plupart des équipes se concentrant sur les capacités génératives plutôt que sur les garanties de comportement. SafeVLA s'inscrit dans un mouvement plus large de formalisation de la sécurité robotique, en parallèle des travaux de Physical Intelligence sur pi-0, de 1X Technologies ou de Figure AI avec Figure 03. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication : il s'agit d'une contribution académique avec benchmark public, pas d'un produit shipé. Les prochaines étapes naturelles seraient l'intégration de cette approche dans des architectures VLA commerciales et sa validation sur des plateformes humanoïdes à grande échelle.

UELes résultats de SafeVLA pourraient alimenter les travaux de normalisation de la sécurité des VLA en Europe (AI Act, certification robots collaboratifs), mais aucun acteur européen n'est impliqué directement dans cette publication académique.

RechercheOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
299arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
300arXiv cs.RO 

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée. Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée. Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

UEAucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

RechercheOpinion
1 source