Aller au contenu principal

Dossier NVIDIA GR00T — page 4

665 articles · page 4 sur 14

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information
151arXiv cs.RO RechercheOpinion

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.19998), une méthode appelée Tri-Info (Triple Information-theoretic signals) pour détecter automatiquement les défaillances des modèles VLA (Vision-Language-Action) avant qu'ils ne causent des dommages irréversibles dans des environnements physiques. Testée sur six modèles VLA distincts et trois environnements de benchmark, Tri-Info atteint 83 % de précision sur des tâches en conditions réelles, là où les détecteurs existants s'effondrent au niveau du hasard. La méthode repose sur trois signaux dérivés de la théorie de l'information : la diversité des actions générées par le modèle, leur cohérence temporelle, et leur couplage aux transitions d'état observées dans l'environnement. Cruciale pour les déploiements industriels, Tri-Info ne nécessite aucun réentraînement pour fonctionner sur de nouvelles architectures ou dans de nouveaux environnements, y compris lors du passage simulation-vers-réel (sim-to-real). Ce résultat est directement pertinent pour les intégrateurs qui déploient des robots manipulateurs ou humanoïdes pilotés par des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). L'opacité de ces modèles constitue un risque opérationnel concret : un VLA peut échouer silencieusement, entraînant une collision, une chute d'objet ou l'interruption d'un cycle de production. Tri-Info ajoute une couche de supervision interprétable capable de distinguer trois classes de défaillances (manque de diversité, incohérence temporelle, découplage état-action), ce qui facilite le diagnostic post-incident. Sa transférabilité sans réentraînement est stratégiquement importante : elle permet d'intégrer la détection sur des systèmes déjà déployés sans modifier le pipeline existant. Ce travail s'inscrit dans une course à l'industrialisation des VLA accélérée depuis fin 2024 avec les sorties de Pi-0 et d'OpenVLA, et les travaux de Google DeepMind sur RT-2 et ses successeurs. Le sim-to-real gap reste l'un des principaux freins à leur généralisation, la plupart des systèmes de détection entraînés en simulation perdant leur efficacité en conditions réelles. Tri-Info est à ce stade un preprint non encore revu par les pairs, et ses performances n'ont pas été reproduites de manière indépendante. Si elles se confirment, la méthode pourrait s'imposer comme une brique de sécurité standard dans les pipelines de déploiement robotique fondés sur des VLA.

1 source
DADP : politique de diffusion adaptative au domaine
152arXiv cs.RO 

DADP : politique de diffusion adaptative au domaine

Des chercheurs ont publié le 19 juin 2026 la troisième version de DADP (Domain Adaptive Diffusion Policy), un framework de contrôle robotique conçu pour généraliser à des dynamiques physiques inconnues sans nécessiter de réentraînement. Le problème central adressé est la capacité d'une politique apprise en simulation ou dans un environnement donné à fonctionner dans un autre contexte aux propriétés mécaniques différentes, friction, masse, compliance des articulations, ce que l'on appelle l'adaptation zéro-shot. Les auteurs identifient un défaut structurel dans les approches existantes de domain representation learning : lorsqu'un modèle extrait sa représentation du domaine à partir d'un contexte temporel adjacent à l'étape courante, il mélange involontairement des informations statiques (les constantes du domaine physique) avec des propriétés dynamiques transitoires (la vitesse ou la posture instantanée). DADP répond par deux contributions techniques : d'abord le Lagged Context Dynamical Prediction, qui conditionne l'estimation d'état futur sur un contexte historique décalé dans le temps, augmenter ce délai force le modèle à filtrer les propriétés transitoires et à extraire uniquement les invariants du domaine, sans supervision explicite. Ensuite, les représentations de domaine ainsi disentangled sont injectées directement dans le processus génératif du diffusion model, en biaisant la distribution a priori et en reformulant la cible de diffusion. Les résultats sur des benchmarks de locomotion et de manipulation dépassent les méthodes antérieures sur ces axes combinés. L'intérêt pour les intégrateurs robotiques et les équipes R&D est double. Premièrement, DADP aborde directement le sim-to-real gap en proposant une séparation non supervisée entre ce qui appartient à la physique du robot (masse, friction) et ce qui relève de la trajectoire en cours, une distinction que les approches précédentes laissaient au réseau à résoudre implicitement, avec des résultats fragiles. Deuxièmement, l'injection de la représentation domaine dans le processus de diffusion plutôt qu'en simple conditionnement de politique représente un changement architectural notable : cela signifie que la politique génère des actions dont la distribution est intrinsèquement calibrée sur le domaine courant, et non pas simplement corrigée a posteriori. Pour les équipes travaillant sur des déploiements multi-sites ou sur des flottes hétérogènes de manipulateurs industriels, cela ouvre une voie pour réduire le coût de calibration par site. Il convient de nuancer : les benchmarks présentés restent des environnements simulés standardisés (MuJoCo-type), et aucune validation hardware sur un robot physique n'est revendiquée dans l'abstract, un gap classique entre publication académique et déploiement terrain. DADP s'inscrit dans un courant de recherche actif qui cherche à combiner les diffusion policies, popularisées par les travaux de Chi et al. (2023) sur le Diffusion Policy et désormais intégrées dans des systèmes comme pi-zéro de Physical Intelligence ou les pipelines GR00T de NVIDIA, avec des mécanismes d'adaptation contextuelle au domaine physique. Les approches concurrentes incluent les méthodes de domain randomization (entraînement sur une large distribution de dynamiques) et les architectures méta-RL comme PEARL ou MAML, qui supposent un accès à quelques épisodes d'adaptation. DADP se positionne en zéro-shot sans rollouts d'adaptation, ce qui est une contrainte opérationnelle réaliste pour des déploiements industriels où le temps de mise en service est limité. La présence d'un site de visualisation dédié (outsider86.github.io/DomainAdaptiveDiffusionPolicy) et l'itération en version 3 suggèrent une réponse active à la communauté ; une validation expérimentale sur hardware physique constituerait la prochaine étape logique pour ancrer ces résultats dans la réalité industrielle.

RecherchePaper
1 source
Guava : un cadre efficace et universel pour la manipulation incarnée
153arXiv cs.RO 

Guava : un cadre efficace et universel pour la manipulation incarnée

Des chercheurs ont publié en juin 2026 sur arXiv (identifiant 2606.18363) Guava, un cadre de harness pour agents robotiques de manipulation. Le système repose sur trois ingrédients identifiés après une exploration systématique de l'espace de conception : des boucles itératives perception-raisonnement-action, des abstractions d'action sémantiques et des observations multimodales. À partir de ces principes, les auteurs ont entraîné un modèle open-source de 4 milliards de paramètres en utilisant moins de 2 000 trajectoires collectées entièrement en simulation, sans aucune donnée réelle. Les évaluations en environnement simulé et en conditions réelles montrent des performances comparables aux modèles propriétaires de pointe, avec une généralisation robuste à des objets non vus en entraînement, des instructions inédites et des tâches longues à plusieurs étapes. Le résultat le plus significatif est qu'un modèle compact peut atteindre des performances compétitives avec des systèmes propriétaires massifs à condition que l'architecture de harness soit bien conçue, et non que le modèle soit immense. Cela conteste directement l'hypothèse dominante selon laquelle les systèmes VLA (Vision-Language-Action) end-to-end nécessitent des millions de trajectoires réelles pour franchir le sim-to-real gap. L'approche par tool use découple le raisonnement de haut niveau des modules de perception et de contrôle, rendant le cadre agnostique au modèle sous-jacent, un avantage concret pour les intégrateurs industriels souhaitant substituer les composants sans réentraîner l'ensemble du système. Ce travail s'inscrit dans un débat structurant de la manipulation robotique qui oppose les VLA end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aux approches modulaires par harness, qui misent sur la composabilité et le raisonnement émergent des LLM. L'approche rappelle SayCan (Google/Everyday Robots) ou Code as Policies, mais avec une validation sim-to-real plus explicite et sur modèle open-source. Le modèle 4B utilisé n'est pas nommé dans le papier, et aucun déploiement industriel ni partenariat commercial n'est mentionné : Guava demeure pour l'instant un résultat de recherche, sans timeline de productisation annoncée.

UELes laboratoires de recherche et intégrateurs robotiques européens peuvent s'appuyer sur ce cadre open-source pour développer des systèmes de manipulation compétitifs sans infrastructure de données réelles à grande échelle.

RechercheOpinion
1 source
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
154TechNode 

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion
1 source
QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux
155arXiv cs.RO 

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

Des chercheurs publient QPILOTS (arXiv:2606.14801, juin 2026), une méthode permettant d'optimiser à l'inférence les politiques de diffusion et de flow-matching sans modifier leurs poids. Le problème central : appliquer l'apprentissage par renforcement basé sur la différence temporelle (TD-RL) à ces générateurs d'actions multi-étapes provoque des instabilités numériques lors du backpropagation à travers la chaîne de débruitage. QPILOTS laisse la politique originale intacte et l'oriente à chaque étape de débruitage via le gradient d'un critique de valeur Q. L'astuce clé : plutôt que d'évaluer le critique sur l'action intermédiaire bruitée (où ses prédictions sont peu fiables), la méthode projette cet état vers une estimation de l'action finale propre, puis calcule le gradient à ce point stable. Deux variantes sont proposées : QPILOTS-U utilise une approximation rapide en point unique, QPILOTS-M tire des échantillons postérieurs différentiables via un réseau auxiliaire appris. Sur un benchmark standard offline-to-online RL couvrant 50 tâches, QPILOTS atteint 90 % de taux de succès moyen, meilleure performance agrégée du comparatif. Appliquée à un modèle fondation Vision-Language-Action (VLA) pré-entraîné et gelé, la méthode surpasse ou égale les approches concurrentes sur six tâches de manipulation en simulation. L'enjeu est concret pour quiconque développe des politiques de manipulation basées sur la diffusion. Les solutions actuelles face au problème de gradient imposent chacune un compromis lourd : abandonner l'information de gradient, distiller la politique en un acteur one-step moins expressif, ou relancer un cycle de fine-tuning à chaque amélioration du critique. QPILOTS propose une quatrième voie compatible avec les modèles fondation gelés, ce qui le rend particulièrement pertinent dans un secteur où Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) sont déployés comme bases pré-entraînées. Pouvoir piloter ces modèles via RL sans re-entraînement réduit drastiquement le coût d'adaptation à de nouvelles tâches, et apporte un argument concret au débat sur le "sim-to-real gap" des VLAs : le steering à l'inférence pourrait suffire là où le fine-tuning est prohibitif. QPILOTS s'inscrit dans la lignée des travaux sur les Diffusion Policies (Chi et al., 2023, Columbia) et des méthodes comme DDPO qui cherchent à coupler RL et processus de débruitage. Le terrain concurrent inclut les approches de distillation (simplifiantes) et les méthodes de reward-guided sampling déjà appliquées aux VLAs. À noter : cet article reste un preprint en simulation uniquement, sans validation sur hardware réel ni annonce de déploiement industriel. La robustesse des résultats à 90 % sur 50 tâches est encourageante, mais l'évaluation se limite à des environnements simulés, et les performances en conditions réelles, notamment la latence induite par l'étape de projection à chaque débruitage, restent à démontrer.

IA physiqueOpinion
1 source
La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques
156arXiv cs.RO 

La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques

Une étude publiée sur arXiv le 16 juin 2026 (réf. 2606.15587) remet en cause un postulat fondamental de l'apprentissage par imitation en robotique : les démonstrations expertes fluides ne sont pas nécessairement les meilleures données d'entraînement. Pour des tâches de manipulation fine (insertion, empilement, alignement), les chercheurs montrent qu'un opérateur habile compresse précisément les instants décisifs de correction dans une fenêtre temporelle très courte, noyant la politique apprise sous des mouvements de transit redondants et lui fournissant trop peu de supervision aux moments où la précision est déterminante. Expérimentalement, une politique entraînée sur des démonstrations fluides standard plafonne à 50,0 % de taux de succès sur ces tâches. Ce résultat a des implications directes pour les équipes qui constituent des datasets pour entraîner des modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2. Deux axes de correction sont testés. Au niveau des données, ralentir la capture autour des moments d'alignement et rééchantillonner les segments critiques améliore les performances, mais l'essentiel du gain vient de l'élargissement de la couverture des états de récupération, pas d'un simple rééquilibrage des frames existantes. Au niveau de la représentation, les auteurs introduisent STAIR (Spatio-Temporal feature As an Interface for Robot learning), un module compact qui s'intercale entre le backbone vision-langage et le réseau d'action, en distillant les dynamiques de mouvement à court horizon déjà enregistrées dans chaque trajectoire. Entraîné uniquement sur des données fluides, STAIR atteint 62,2 % de succès, contre 64,4 % pour les démonstrations délibérément ralenties. Ces travaux s'inscrivent dans une vague de recherche qui remet en question la stratégie de collecte de données pour l'imitation learning, notamment dans le sillage des politiques de diffusion (Diffusion Policy, ACT) et des architectures VLA à grande échelle. L'idée que "plus de données expertes = meilleure politique" est directement challengée : la learnability machine peut diverger de l'efficacité humaine. La prochaine étape logique est de valider STAIR sur des tâches de contact plus complexes (vis, connecteurs électroniques) et sur des robots physiques déployés en dehors de l'environnement de laboratoire, ce que le papier ne montre pas encore. À surveiller lors des soumissions de conférences de fin 2026 (CoRL, ICRA).

UELes équipes R&D européennes développant des modèles VLA pour la manipulation fine pourraient adapter leurs protocoles de collecte de données en ralentissant la capture sur les segments critiques d'alignement.

RechercheOpinion
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
157arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA
158arXiv cs.RO 

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.14752) les résultats de X-Tokenizer, une architecture légère de type encodeur-SRQ-décodeur conçue pour améliorer la couche d'interface entre le raisonnement visio-linguistique et le contrôle moteur continu des bras robotiques. Le système introduit une technique appelée Semantic Residual Quantization (SRQ), une variante asymétrique de la quantification vectorielle résiduelle classique : le premier niveau est entraîné via un mécanisme de Masked Action Modeling (MAM) pour former un "langage d'actions" discret capturant l'intention de mouvement à gros grain, tandis que les niveaux suivants restent orientés reconstruction pour préserver les détails fins. X-Tokenizer a été pré-entraîné sur 2,4 millions de trajectoires, soit 2,0 milliards de frames d'actions, couvrant des bras robotiques d'embodiments variés. Une fois gelé, il se branche comme signal de supervision dans un VLA hybride discret-continu. Les résultats rapportés sur RoboTwin 2.0 et sur des benchmarks réels montrent des performances de premier rang en agrégat, avec +13,5 % de grounding multimodal et +8,25 points sur les tâches long-horizon par rapport au tokenizer FAST, référence actuelle du domaine. L'enjeu central est ce qu'on appelle le "demo-to-deployment gap" dans les modèles Vision-Language-Action : des VLA comme pi-0, GR00T N2 ou OpenVLA apprennent à raisonner en langage naturel mais peinent à traduire ce raisonnement en commandes motrices précises et stables. Les tokenizers d'action existants se contentent de comprimer les trajectoires pour les reconstruire fidèlement, sans ancrer les codes discrets dans la sémantique du backbone visio-linguistique. Ce que démontre X-Tokenizer, c'est qu'il est possible de faire des tokens d'action des objets sémantiquement cohérents avec le reste du modèle, en ajoutant un alignement contrastif vers l'espace de représentation d'un modèle fondationnel et une prédiction de features visio-linguistiques sur la frame suivante. L'impact pour les intégrateurs et les chercheurs est direct : un tokenizer partagé, gelé et interchangeable entre embodiments réduit le coût de fine-tuning par robot tout en améliorant la robustesse sur les tâches multi-étapes. Du côté du contexte compétitif, la tokenisation d'actions est devenue un verrou clé dans la course aux VLA généralistes depuis 2024. FAST (Fourier Action Sequence Tokenizer, DeepMind) s'est imposé comme baseline de référence en représentation fréquentielle des trajectoires. Des approches comme ACT (Action Chunking with Transformers) ou GROOT ont montré des gains sur des tâches courtes, mais les tâches longues restent difficiles faute de supervision sémantique cohérente. X-Tokenizer se positionne explicitement comme une alternative à FAST sur ce point précis. À noter que les gains annoncés (+13,5 %, +8,25) sont mesurés sur des benchmarks spécifiques et sur une sélection de tâches ; la généralisation à des environnements industriels non structurés reste à démontrer. Aucune timeline de déploiement ni partenaire industriel n'est mentionné dans le papier, ce qui situe ce travail clairement dans la phase recherche, non dans celle du produit expédié.

IA physiqueOpinion
1 source
IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement
159arXiv cs.RO 

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

Les modèles Vision-Language-Action (VLA) souffrent d'un défaut structurel bien documenté : en aplatissant les patches d'image en une séquence 1D de tokens, ils perdent les repères spatiaux 2D nécessaires à la manipulation précise d'objets. Des chercheurs ont publié sur arXiv (référence 2601.16207v2) IVRA, une méthode d'inférence légère et sans réentraînement qui corrige ce problème en exploitant des signaux d'affinité déjà présents dans l'encodeur visuel natif du modèle. Ces signaux sont injectés sélectivement dans une couche du modèle de langage où résident les caractéristiques au niveau des instances, réalignant les interactions entre tokens visuels et préservant mieux la structure géométrique sans modifier aucun paramètre. Appliqué à trois architectures distinctes, LLaRA, OpenVLA et FLOWER, IVRA a été évalué sur les benchmarks VIMA (manipulation 2D) et LIBERO (manipulation 3D), ainsi que sur des tâches en environnement physique réel. Sur VIMA en régime de faibles données, il améliore le taux de succès moyen de +4,2 % par rapport à la baseline LLaRA. Sur LIBERO 3D, les gains restent cohérents même proches de la saturation (96,3 % vers 97,1 %). L'intérêt industriel est direct : un intégrateur qui a déjà déployé un VLA peut appliquer IVRA à l'inférence sans réentraînement, sans capteur supplémentaire, sans encodeur externe. C'est un avantage immédiat en time-to-value pour des systèmes en production. Le fait que la méthode fonctionne même à 96,3 % de baseline suggère qu'elle améliore la précision géométrique locale plutôt que la compréhension globale de scène, précisément le point de défaillance des VLA sur des tâches de manipulation fine (saisie d'objets proches, tri par forme, assemblage). Pour la recherche, IVRA valide l'hypothèse que les encodeurs visuels embarqués contiennent des informations spatiales latentes exploitables sans supervision supplémentaire, une direction "training-free adapter" qui mérite davantage d'exploration. La perte de structure spatiale dans les VLA est connue depuis les premières publications sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley/Stanford, 2024). Les réponses habituelles consistent à modifier l'architecture ou à ajouter des flux de données supplémentaires (depth, point clouds), augmentant la complexité de déploiement. Physical Intelligence avec pi-0 et NVIDIA avec GR00T N2 misent sur des architectures propriétaires plus lourdes ; IVRA propose une correction orthogonale applicable sur des modèles ouverts, en compétition directe avec les méthodes de spatial token resampling et d'attention guidée comme RoboFlamingo. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (RLBench, BridgeData v2) et sur des manipulateurs industriels à 6 DOF ou plus en conditions réelles, là où la précision spatiale est critique.

IA physiqueOpinion
1 source
Pilotage de politique d'inférence par vision et toucher
160arXiv cs.RO 

Pilotage de politique d'inférence par vision et toucher

Des chercheurs ont publié sur arXiv (réf. 2606.14981, juin 2026) ViTaL, un framework de pilotage à l'inférence combinant vision et toucher pour affiner les politiques de manipulation robotique. Le principe : plutôt que de ré-entraîner un modèle génératif pré-entraîné, ViTaL intervient au moment de l'exécution en vérifiant et corrigeant les séquences d'actions candidates avant qu'elles ne soient jouées. Le système repose sur une optimisation bi-niveaux, un niveau haut visuel qui sélectionne le comportement global à longue portée, et un niveau bas tactile qui édite en diffusion la séquence retenue pour satisfaire les contraintes de contact locales. Un monde latent visuo-tactile appris permet d'évaluer des récompenses tactiles futures via un verifieur conditionné en texte, sans avoir besoin de capteur physique au moment de la prédiction. Sur trois tâches réelles de manipulation à contact riche (assemblage, insertion, dépose sous contrainte), ViTaL améliore le taux de succès global de 51 % par rapport à la politique de base, dépasse les approches unimodales (vision seule) d'au moins 33 %, et surpasse la fusion multimodale naïve d'au moins 20 %. Ces résultats pèsent dans un débat central de la robotique de manipulation : la vision seule suffit-elle à piloter des robots en environnement de contact ? ViTaL répond non, et quantifie l'écart. Pour les intégrateurs et les équipes R&D travaillant sur l'assemblage industriel ou la manipulation d'objets déformables, la démonstration que l'information tactile peut être injectée à l'inférence sans retraining complet est directement exploitable, elle ouvre une voie vers des politiques génériques adaptables à de nouveaux contextes de contact via du "steering" léger. L'édition par diffusion guidée par le toucher est particulièrement notable : elle permet de préserver le comportement global appris tout en rectifiant les micro-interactions, ce qui réduit le risque de régression comportementale souvent observé lors du fine-tuning. ViTaL s'inscrit dans la vague des approches "inference-time compute" appliquées à la robotique, popularisées par les travaux sur les VLA (Vision-Language-Action models) et les politiques de diffusion de type π0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'idée de vérifier les actions à l'exécution plutôt qu'au train-time est également explorée par des équipes comme Covariant et Figure AI, mais sans capteurs tactiles intégrés dans la boucle de correction. La spécificité de ViTaL est de traiter le retour tactile comme une source de supervision temporelle courte portée, complémentaire à la vision longue portée. L'article reste un preprint et les tâches testées sont de complexité modérée ; une validation sur des scénarios industriels réels (tolérance sub-millimétrique, variabilité de pièces) sera nécessaire pour confirmer la généralisation.

IA physiqueOpinion
1 source
DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée
161arXiv cs.RO 

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Une équipe associée à JD Cloud publie DataLadder (arXiv:2606.16776, juin 2026), un pipeline de conversion bidirectionnel entre robots réels, simulation et démonstrations humaines, conçu pour scaler la génération de données d'entraînement et l'évaluation de politiques robotiques généralistes. L'outil repose sur deux flux complémentaires via le simulateur JoySim. Le premier, Robot vers Simulation vers Human, reconstruit des tâches réelles de rangement sur table en jumeaux numériques calibrés, puis mobilise des retours humains pour affiner la naturalité des trajectoires simulées, permettant une évaluation reproductible sans mobiliser de robot physique en continu. Le second, Human vers Simulation vers Robot, projette des démonstrations humaines filmées en vue égocentrique dans JoySim, les confronte aux contraintes physiques du robot cible, et en extrait trajectoires, annotations et observations visuelles directement utilisables en entraînement. Les modules de reconstruction, rendu et augmentation de réalisme sont exposés en services cloud sur JD Cloud. Ce travail adresse une asymétrie bien documentée : les données issues de robots réels restent la source la plus fiable, mais leur collecte est lente et coûteuse, tandis que la simulation seule souffre du sim-to-real gap. DataLadder introduit un filtre de cohérence physique dans la boucle de conversion human-to-robot, ce qui dépasse les approches de retargeting naïves. Pour les équipes développant des architectures VLA (vision-language-action), cette infrastructure pourrait réduire significativement la dépendance aux démos téléopérées, dont le coût est souvent estimé à plusieurs milliers de dollars par heure de collecte. L'accessibilité via API cloud simplifie également le déploiement pour des équipes sans cluster de simulation dédié. DataLadder s'inscrit dans la course au "data flywheel" pour robots généralistes, lancée par RT-2 (Google DeepMind, 2023) et accélérée par des politiques comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). JD.com, conglomérat e-commerce chinois opérant une large flotte logistique autonome, a un intérêt direct à industrialiser cette chaîne pour ses propres lignes de tri et de picking. Aucun benchmark comparatif avec les simulateurs concurrents Isaac Lab (NVIDIA) ou MuJoCo Playground (DeepMind) n'est fourni dans ce preprint, ce qui rend les affirmations de performance difficiles à évaluer pour l'instant. La prochaine étape attendue serait une validation quantitative sur des benchmarks standardisés de manipulation comme LIBERO ou MetaWorld.

IA physiqueOpinion
1 source
Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA
162arXiv cs.RO 

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2606.14375) une nouvelle méthode appelée Elastic Queries Reinforcement Learning (EQRL), conçue pour rendre l'exécution des modèles VLA (Vision-Language-Action) adaptative plutôt que rigide. Dans les systèmes actuels, ces modèles qui pilotent la manipulation robotique s'exécutent selon des plannings d'inférence fixes : même fréquence de requête, même budget de débruitage, même longueur de chunk d'actions, quelle que soit la complexité de l'état courant. EQRL introduit un adaptateur léger qui sélectionne dynamiquement, pour chaque requête, trois paramètres : l'entrée latente, le budget de débruitage, et la longueur du chunk à exécuter en boucle ouverte. La méthode entraîne un critique sur l'espace joint et dérive un signal de difficulté d'état via le désaccord entre un ensemble de critiques (critic ensemble disagreement), guidant le calcul vers les états difficiles sans modifier les poids du modèle VLA sous-jacent. Sur bancs de simulation et en manipulation sur robot réel, les auteurs rapportent une réduction du coût d'inférence amorti avec un taux de succès préservé ou amélioré. L'enjeu concret concerne directement le coût de déploiement des politiques fondées sur des modèles de diffusion, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Ces architectures souffrent d'un goulot d'étranglement identique : le nombre d'évaluations de fonction (NFE) du processus de débruitage est fixe, qu'on soit sur une prise de contact incertaine ou un simple transit en espace libre. EQRL démontre qu'il est possible d'allouer dynamiquement ce budget de calcul selon la difficulté estimée, sans retraining du modèle de base. Pour un intégrateur ou un COO, la promesse est directe : même capacité de manipulation, moins de GPU sur les états faciles, meilleure scalabilité sur flotte. Le travail s'inscrit dans une course à l'efficacité d'inférence pour les VLA, accélérée par la publication de Pi-0 fin 2024 et les modèles de diffusion successifs (Octo, OpenVLA, GR00T N2, Helix de Figure AI). Des approches parallèles comme FAST ou DiT-Policy attaquent le même problème sous d'autres angles : compression de trajectoire, distillation, ou batch adaptatif. EQRL se distingue en opérant au-dessus du modèle sans le modifier et en intégrant un signal de difficulté appris par RL. Les auteurs annoncent des résultats positifs en simulation et sur robot réel, mais les métriques précises et les conditions expérimentales restent à examiner dans le corps du papier : la validité des gains annoncés dépendra de la représentativité des benchmarks choisis.

UELes équipes R&D européennes développant ou déployant des politiques de manipulation sur modèles de diffusion (VLA) pourraient appliquer EQRL pour réduire leurs coûts GPU d'inférence sans retraining, mais aucun acteur français ou européen n'est directement impliqué.

RechercheOpinion
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
163arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

IA physiqueOpinion
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
164arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
165arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA
166arXiv cs.RO 

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

Des chercheurs ont entraîné des Sparse Autoencoders (SAE) sur les activations de couches cachées de modèles Vision-Language-Action (VLA) pour sonder mécanistiquement leurs représentations internes. Les SAE apprennent des dictionnaires épars sur ces activations, révélant des directions interprétables dans l'espace de représentation du modèle. L'équipe a identifié des features correspondant à des primitives de mouvement et à des concepts sémantiques, subdivisées selon une métrique proposée en deux catégories : les primitives générales transférables entre tâches, et les mémorisations épisodiques propres à un contexte particulier. Ces features se révèlent causalement pilotables : amplifier une feature générale induit des comportements cohérents avec sa sémantique, tandis que l'ablater dégrade significativement les performances du modèle. Les expériences ont été conduites sur le benchmark de simulation LIBERO et sur du matériel réel DROID, ce qui distingue ce travail de nombreuses contributions purement synthétiques. L'enjeu central est de comprendre quand et pourquoi un VLA généralise à de nouveaux objets, scènes ou instructions, une question que les benchmarks de performance bruts ne permettent pas de trancher. La distinction primitives-générales/mémorisations-épisodiques fournit aux développeurs un outil diagnostique pour évaluer ce qu'un modèle a réellement internalisé après entraînement, plutôt que de se fier à des métriques de réussite de tâche. Plus significatif encore, le steering par SAE ouvre une voie de contrôle orthogonale au prompting textuel : le robot peut être guidé dans des directions comportementales impossibles à exprimer via des instructions en langage naturel, sans réentraînement du modèle. Ce travail s'inscrit dans la continuité des recherches en interprétabilité mécanistique qui ont d'abord ciblé les grands modèles de langage, notamment les travaux publiés par Anthropic sur les SAE appliqués aux LLM, et tente de transposer cette méthodologie aux modèles agissants multimodaux. Les VLA dominent aujourd'hui la manipulation robotique généraliste, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA (UC Berkeley), de GR00T N2 (NVIDIA) ou des architectures de Google DeepMind, et tous font face au même déficit d'interprétabilité interne. La validation sur DROID, benchmark réel à forte diversité de scènes et de manipulations, renforce la portée des résultats au-delà du sim-to-real classique. Les suites naturelles incluent l'intégration de ces outils dans des pipelines de fine-tuning ciblé ou de sélection de données d'entraînement, voire dans des systèmes de supervision comportementale en production.

RechercheOpinion
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
167arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
168arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
169arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
170arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire
171arXiv cs.RO 

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Des chercheurs présentent dans un preprint arXiv publié en juin 2026 (2606.08542) une formalisation et une solution partielle à un problème mal documenté de la planification robotique : les grands modèles de vision-langage actuels (VLMs, LLMs multimodaux incarnés) ne savent pas lire les traces d'exploration robotique. Le cas typique : un robot tire sur un tiroir verrouillé, échoue, puis réussit après avoir ouvert le verrou. Cet échec initial n'est pas du bruit, c'est la preuve d'une précondition latente (le tiroir était verrouillé), et donc la clé pour inférer la séquence minimale d'actions correcte. Les auteurs formalisent ce problème sous le nom EMT-QA (Exploratory Manipulation Trace QA) et proposent la Closed-Loop Trace Distillation : un agent de codage par tâche inspecte les traces d'entraînement étiquetées et en distille une heuristique de lecture en une seule ligne de langage naturel, appelée DRH (Distilled Reading Heuristic). À l'inférence, pas d'agent invoqué, pas de mise à jour de poids : un VLM figé reçoit la trace brute augmentée du DRH. Sur cinq tâches (trois en simulateur, deux sur robot réel), le DRH améliore la précision de la chaîne d'actions de +0,38 à +0,47 par rapport aux meilleures baselines en modalité brute. Ce résultat contredit une hypothèse courante dans le secteur : que des VLMs suffisamment puissants "verront" naturellement les préconditions cachées dans une vidéo d'exécution. L'étude démontre que ni la vidéo brute, ni la proprioception, ni leur combinaison ne suffisent. Pour les équipes qui intègrent des VLMs comme backbone de planification dans des systèmes de manipulation industrielle, cela signifie qu'une couche de distillation d'heuristiques peut s'avérer indispensable, sans nécessiter de fine-tuning ni d'infrastructure supplémentaire à l'inférence. Fait notable : le même DRH sert également de spécification unique pour des classifieurs programmatiques one-shot qui égalent les performances du VLM prompté, ouvrant une voie vers des pipelines de validation auditables et plus légers. Ces travaux s'inscrivent dans la dynamique des politiques robotiques fondées sur la vidéo et le langage (VLA), portée notamment par Physical Intelligence (Pi-0), NVIDIA (GR00T N2) ou Google DeepMind, qui s'appuient tous sur des VLMs comme planificateurs. La lecture fiable des traces d'exécution est un angle mort reconnu dans la communauté, souvent masqué dans les démos par des conditions expérimentales favorables. Le périmètre de validation reste restreint (cinq tâches au total), et la généralisation à des préconditions plus complexes ou à des chaînes d'actions plus longues n'est pas encore établie. Les suites naturelles incluent l'évaluation sur des benchmarks de manipulation plus larges et, surtout, la génération de DRH sans traces étiquetées en amont, condition nécessaire à la scalabilité réelle de l'approche.

RechercheOpinion
1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
172arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion
1 source
VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)
173arXiv cs.RO 

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié VLA-Arena, un framework open-source de benchmark conçu pour évaluer les modèles Vision-Language-Action (VLA), ces politiques robotiques généralisées capables d'interpréter commandes en langage naturel et observations visuelles pour générer des actions motrices. La version 2 du preprint (arXiv 2512.22539v2) présente un protocole structuré autour de 170 tâches, organisées selon quatre dimensions orthogonales : sécurité (Safety), gestion des distracteurs (Distractor), extrapolation hors-distribution (Extrapolation) et planification longue portée (Long Horizon). Chaque tâche existe en trois niveaux de difficulté (L0 à L2), le fine-tuning étant exclusivement réalisé sur L0 afin de tester la capacité de généralisation. En parallèle, des perturbations linguistiques (W0-W4) et visuelles (V0-V4) s'appliquent indépendamment à chaque tâche, permettant une analyse découplée de la robustesse. Les auteurs publient également les datasets VLA-Arena-S/M/L ainsi qu'un leaderboard public. Les résultats de l'évaluation des VLA de l'état de l'art sont sévères et contre-intuitifs pour ceux qui suivent les démonstrations marketing du secteur. Les modèles testés exhibent une forte tendance à la mémorisation plutôt qu'à la généralisation réelle : leurs performances s'effondrent dès que la tâche sort légèrement de la distribution d'entraînement. La robustesse est asymétrique selon l'axe perturbé (visuel vs. linguistique), les contraintes de sécurité sont quasi-ignorées, et la composition de compétences pour les tâches longue portée reste hors de portée de tous les modèles testés. Pour les intégrateurs industriels et les équipes R&D qui envisagent de déployer des VLA en production, ces résultats constituent un signal d'alerte : le "sim-to-real gap" n'est pas résolu, et les capacités affichées en démo ne tiennent pas face à des conditions réelles variables. VLA-Arena arrive dans un contexte de prolifération rapide des VLA généralistes : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2, Gemini Robotics) et OpenVLA font tous état de progrès importants, mais sur des benchmarks hétérogènes et souvent propriétaires, rendant toute comparaison directe impossible. L'absence d'un protocole d'évaluation standardisé est depuis longtemps identifiée comme le principal obstacle à la progression scientifique rigoureuse du domaine. VLA-Arena n'est pas encore un standard industriel adopté, mais sa publication en open-source avec toolchain complet (définition de tâche, évaluation automatisée, datasets) le positionne comme candidat sérieux. Les prochaines étapes dépendront de l'adoption par les équipes qui développent ces modèles, et d'une éventuelle intégration dans les pipelines de validation avant déploiement réel en atelier.

RechercheOpinion
1 source
NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique
174arXiv cs.RO 

NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique

NVIDIA Isaac Sim s'est imposé comme une infrastructure centrale dans la recherche en robotique, et une étude de synthèse publiée sur arXiv (réf. 2606.03551) en propose la première analyse systématique. Contrairement aux simulateurs classiques comme Gazebo, PyBullet ou MuJoCo, Isaac Sim exploite l'accélération GPU pour permettre un entraînement parallèle à grande échelle et une modélisation physique haute fidélité. La plateforme intègre un pipeline de génération de données synthétiques qui pallie la rareté chronique des données d'entraînement de qualité, un verrou majeur pour le robot learning. Les auteurs analysent des études représentatives dans cinq grands domaines d'application et documentent les patterns d'usage dominants, notamment la génération de données et la simulation haute fidélité, sans se limiter à une liste de fonctionnalités marketing. L'enjeu industriel est significatif : la capacité à générer des données synthétiques crédibles et à entraîner des politiques en simulation massivement parallèle est aujourd'hui au coeur du débat sur le sim-to-real transfer. Pour les intégrateurs et les équipes R&D, une plateforme qui réduit le besoin de données réelles et compresse les cycles d'itération représente un avantage compétitif concret. Les auteurs pointent également les limites : la dépendance au matériel NVIDIA (GPU haut de gamme requis), des contraintes d'utilisabilité pratique, et des questions ouvertes autour de l'apprentissage en environnement ouvert (open-world learning), un domaine où aucun simulateur n'a encore apporté de réponse satisfaisante à l'échelle. Isaac Sim s'inscrit dans la stratégie plus large de NVIDIA dans la robotique, qui comprend le framework Isaac Lab, les modèles de fondation GR00T, et l'écosystème Omniverse. Face à lui, des alternatives open-source comme MuJoCo (DeepMind) ou Genesis gagnent du terrain, notamment pour leur accessibilité. L'étude identifie trois directions futures prioritaires : l'apprentissage physique en monde ouvert, les pipelines d'entraînement centrés sur la simulation, et la réduction des frictions d'adoption. Ces axes correspondent précisément aux blocages actuels pour industrialiser le déploiement de robots apprenants en dehors des labs.

UELes équipes R&D et laboratoires européens en robotique peuvent s'appuyer sur cette première analyse systématique pour arbitrer entre Isaac Sim et les alternatives open-source (MuJoCo, Genesis), notamment au regard de la dépendance au matériel NVIDIA haut de gamme.

InfrastructureOpinion
1 source
Les dynamiques prédites peuvent-elles exister dans le monde physique ?
175arXiv cs.RO 

Les dynamiques prédites peuvent-elles exister dans le monde physique ?

Un preprint déposé le 1er juin 2026 sur arXiv (identifiant 2606.00089) introduit le concept d'admissibilité physique pour les politiques de robotique apprise, qu'il s'agisse de modèles VLA (Vision-Language-Action), de diffusion policies ou d'Action Chunking Transformers. Ces systèmes génèrent des trajectoires d'état, des séquences d'actions et des plans en espace latent, mais le problème central est le suivant : un faible RMSE (Root Mean Square Error) de prédiction ne garantit pas qu'une proposition soit physiquement exécutable sur un robot réel. Les auteurs formulent une interface prédiction-contrôle qui évalue chaque proposition candidate via des conditions cinématiques, dynamiques et des horizons composés, avant toute exécution. Sur le benchmark Hugging Face LeRobot PushT, les résidus RMSE et dynamiques standardisés atteignent des AUC (aire sous la courbe ROC) de 0,982 et 0,972, la porte complète atteint 0,957, et le système bloque 87 à 89 % des propositions invalides tout en préservant un progrès de tâche moyen de 0,998. Point notable : les conditions cinématiques seules n'atteignent que 0,592 d'AUC. Pour les intégrateurs et les équipes qui déploient des politiques apprises sur du matériel réel, l'apport est concret : une couche de validation interposable entre la sortie d'un modèle et le contrôleur bas niveau, avec attribution de cause au rejet (dépassement de couple, violation de limites articulaires, incohérence cinématique). Ce n'est pas un certificat de succès de la tâche, mais un filtre qui réduit le fossé sim-to-real sans nécessiter de retraining. Le faible AUC des conditions cinématiques seules contredit une hypothèse parfois avancée dans le secteur : vérifier la cohérence géométrique ne suffit pas, les contraintes dynamiques sont indispensables pour filtrer les trajectoires non exécutables. Ce travail s'inscrit dans un contexte où des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) et les politiques de Figure affichent une généralisation croissante mais aussi des échecs caractéristiques au contact du déploiement réel. La question de la vérifiabilité formelle des sorties de politiques apprises est un axe de recherche actif dans plusieurs laboratoires, dont MIT, CMU et ETH Zurich. Ce preprint n'est pas encore évalué par les pairs et les expériences restent confinées à un benchmark de manipulation 2D relativement simple (PushT) ; la validation sur des manipulateurs industriels 6 DOF en boucle temps réel reste entièrement à démontrer.

RechercheOpinion
1 source
Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA
176arXiv cs.RO 

Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA

Une équipe de chercheurs a publié début juin 2026 sur arXiv (2606.01095) un cadre diagnostique pour comparer deux grandes familles de politiques robotiques : les Vision-Language-Action (VLA) et les World-Action Models (WAM). La question posée est directe : la prédiction du futur, propre aux WAM, produit-elle des comportements réellement différents, ou n'ajoute-t-elle que du calcul superflu ? Les auteurs ont évalué sept politiques (VLA directes et WAM en configurations jointes, séquentielles et auxiliaires) sur les benchmarks LIBERO et RoboTwin2.0. Le protocole combine une analyse comportementale (cohérence des dynamiques d'action, progression vers l'objet cible, perturbations par distracteurs, coût d'inférence) et une analyse des représentations internes via des autoencodeurs épars, classifiant chaque représentation comme mémorisée, réactive ou prédictive. Les résultats contredisent l'usage courant du taux de réussite comme seul critère de comparaison : cette métrique masque des différences architecturales substantielles. Les WAM améliorent souvent le comportement au niveau objet et la sélectivité vers la cible, mais ces gains varient selon l'architecture et s'accompagnent d'un surcoût d'inférence. Les WAM séquentiels exhibent la structure prédictive la plus nette et la plus exploitable pour le contrôle. Les WAM auxiliaires compriment l'information future, les WAM joints l'enchevêtrent avec d'autres représentations, dans les deux cas, elle devient moins actionnable. Pour un intégrateur ou une équipe R&D, ce résultat est concret : un benchmark de succès seul ne suffit pas pour choisir une architecture, il faut auditer comportement et représentations internes. Les VLA, portées par Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, ont prouvé leur robustesse croissante en sim-to-real mais restent aveugles aux états futurs de la scène. Les WAM, inspirés des architectures world-model comme Dreamer ou RSSM, visent à combler ce gap en intégrant une prédiction explicite du monde. Ce travail s'inscrit dans un courant académique cherchant à dépasser les métriques de surface : le cadre proposé est agnostique au modèle, applicable à d'autres politiques, et oriente les prochains travaux vers des architectures WAM qui préservent des représentations futures actionnables plutôt que de les noyer dans la capacité globale du réseau.

RechercheOpinion
1 source
Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques
177arXiv cs.RO 

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.02274) un article décrivant Dexterity-BEV, un cadre méthodologique visant à corriger deux limitations structurelles des politiques de manipulation robotique basées sur des modèles de vision-langage (VLM) pré-entraînés à grande échelle. La première limitation : ces modèles héritent d'une représentation purement 2D de la vision par ordinateur, inadaptée à la nature intrinsèquement tridimensionnelle de la manipulation. La seconde : il n'existe pas d'alignement spatial cohérent entre les espaces d'entrée et de sortie des politiques, ni entre différents robots, configurations de caméras et jeux de données de trajectoires. Pour y remédier, les auteurs introduisent deux représentations inédites : l'aligned vertex map et le vertex spectrum, des cartes pixel-à-pixel qui élèvent les entrées RGB en coordonnées 3D via la calibration de caméra et la profondeur optionnelle. Ils proposent ensuite un cadre canonique Bird's-Eye-View (BEV), une vue du dessus invariante aux variations de pose de caméra, dans lequel les informations 3D de chaque vue et les actions du robot sont exprimées dans un repère commun. Un pipeline de traitement de données à grande échelle et un schéma d'alignement temporel pour des trajectoires provenant de robots hétérogènes, d'opérateurs humains et de datasets variés complètent l'approche. L'enjeu industriel est direct : les VLA (Vision-Language-Action models) de type π0, OpenVLA ou GR00T N2 souffrent précisément de ce décalage spatio-temporel quand on les déploie sur des robots différents de ceux utilisés à l'entraînement, ou avec des caméras repositionnées. Dexterity-BEV tente de combler ce gap sans abandonner la généralisation offerte par les VLM entraînés sur des données web. La vue BEV, empruntée à l'industrie automobile (perception de véhicules autonomes), est ici réinterprétée pour la manipulation, ce qui constitue un transfert conceptuel non trivial. Si les gains de généralisation annoncés se confirment à l'évaluation réelle, cela réduirait le coût de redéploiement d'une politique sur un nouveau site industriel ou une nouvelle configuration de cellule robotique, une friction majeure pour les intégrateurs. L'article s'inscrit dans une dynamique de recherche intense autour des politiques de manipulation end-to-end, portée par des laboratoires comme Physical Intelligence (π0), Google DeepMind (RT-2, GR00T), et des équipes académiques chinoises et américaines. L'approche BEV pour la robotique terrestre est par ailleurs explorée en parallèle par des groupes travaillant sur les robots mobiles et les AMR d'entrepôt. Les auteurs rendent disponibles le checkpoint pré-entraîné, le code source et le pipeline de données sur leur page projet, ce qui facilite la réplication et l'adoption par la communauté. Aucun partenariat industriel ni déploiement réel n'est mentionné : il s'agit à ce stade d'une contribution de recherche, pas d'un produit commercialisé.

RechercheOpinion
1 source
Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent
178arXiv cs.RO 

Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent

Une prépublication arXiv déposée le 2 juin 2026 (arXiv:2606.01847) identifie une erreur géométrique structurelle dans les politiques robotiques de type Vision-Language-Action (VLA) à base de diffusion, désormais l'approche dominante pour la manipulation dextère. Les auteurs nomment ce défaut l'"Euclidean Fallacy" : ces modèles représentent les poses 3D en coordonnées SE(3) comme de simples vecteurs plats dans R¹², traitant rotations et translations comme s'ils vivaient dans un espace euclidien ordinaire. Cette approximation engendre trois pathologies concrètes : une dérive de variété qui viole les contraintes SO(3) (les matrices de rotation générées ne restent plus orthogonales), une rupture d'équivariance sous changements de repère (le même objet vu depuis un angle différent produit des trajectoires incohérentes), et des trajectoires non géodésiques générant un surcoût cinématique inutile. Pour corriger cela, les chercheurs proposent le Lie Diffuser Actor (LDA), un framework de diffusion qui opère intrinsèquement sur SE(3) : le bruit est injecté via des équations différentielles stochastiques (SDE) invariantes à gauche, les scores sont prédits dans l'espace tangent, et les échantillons sont rétractés sur la variété via la carte exponentielle de Lie. Sur le benchmark CALVIN ABC→D, référence standard pour la généralisation en manipulation multi-tâches, LDA fait progresser la longueur de tâche moyenne de 3,27 à 3,51, soit un gain de 7,3%. Des expériences sur robot réel confirment que la méthode surpasse la ligne de base sur la majorité des tâches testées. L'enjeu dépasse la géométrie abstraite. Les politiques VLA, désormais au coeur des robots manipulateurs commerciaux et des travaux académiques les plus cités, souffrent d'un biais systématique qui s'aggrave dès que la diversité des poses augmente : variation de prise, rotation hors plan, scénarios multi-vue. En forçant le processus de diffusion à rester sur la variété SE(3) par construction plutôt que par régularisation post-hoc, LDA élimine la dérive sans coût d'inférence supplémentaire. L'équivariance garantie signifie concrètement qu'un intégrateur industriel peut monter une caméra dans n'importe quelle orientation sans requalifier le modèle, ce qui réduit un verrou majeur au déploiement en cellule flexible. Le gain de 7,3% sur CALVIN reste modeste en valeur absolue, mais le benchmark est conçu pour mesurer la généralisation hors distribution, ce qui lui confère plus de poids qu'une amélioration sur un jeu de test in-distribution. Ce travail s'inscrit dans la lignée des politiques de diffusion pour la robotique popularisées par Diffusion Policy (Chi et al., 2023) et intégrées ensuite dans pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, deux VLA de référence qui partagent la même représentation euclidienne incriminée. La correction géométrique proposée est orthogonale à l'architecture backbone et pourrait s'appliquer directement à ces systèmes. Côté compétiteurs académiques, des approches comme RiemannianFlow ou les travaux de Chirikjian sur la convolution sur groupes de Lie avaient posé des bases théoriques similaires, mais sans les intégrer dans un pipeline de diffusion end-to-end fonctionnel sur robot réel. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (manipulation bimanuelle, tâches d'assemblage) et une intégration dans un des frameworks VLA open-source existants pour mesurer l'impact à plus grande échelle. Il s'agit pour l'instant d'une prépublication non encore soumise à révision par les pairs.

RechercheOpinion
1 source
RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA
179arXiv cs.RO 

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Un article pré-publié sur arXiv (2606.02277, juin 2026) introduit RoboSemanticBench (RSB), un benchmark conçu pour tester si les modèles vision-langage-action (VLA) exploitent réellement la compréhension sémantique dans leurs prédictions de mouvement. Le protocole est délibérément simple : un robot reçoit une question à choix multiples, arithmétique ou de culture générale, observe des blocs physiques correspondant aux réponses candidates, et doit saisir le bloc associé à la bonne réponse. RSB propose deux configurations, à quatre et dix choix, couvrant l'arithmétique contrôlée, la compréhension mathématique de niveau primaire, ainsi que le raisonnement de bon sens et factuel. Les résultats obtenus sur plusieurs modèles VLA représentatifs sont sévères : si la majorité des politiques testées parviennent à saisir des blocs de manière fiable, le taux de sélection du bloc sémantiquement correct se situe, après correction du succès de préhension, à des niveaux proches du hasard, voire inférieurs. Ce résultat remet en question une hypothèse fondatrice de l'architecture VLA : l'idée que la compréhension sémantique acquise lors du pré-entraînement du backbone (modèle de langage ou vision-langage) se transfère naturellement vers la prédiction d'action. Ce que RSB révèle, c'est que le fine-tuning par imitation sur des distributions d'actions spécifiques à une tâche suffit à masquer ce transfert : les modèles apprennent des raccourcis visuels ou des associations instruction-action sans ancrer leurs gestes dans la signification réelle des instructions. Pour les intégrateurs et industriels qui déploient des systèmes VLA dans des environnements à haute variabilité sémantique (picking, tri, assemblage configurable), ce diagnostic a des implications directes : la performance en évaluation standard ne garantit pas une généralisation sémantique robuste en conditions réelles. Les modèles VLA ont connu une montée en puissance rapide depuis RT-2 (Google DeepMind, 2023), avec des successeurs comme OpenVLA, Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), tous reposant sur l'hypothèse que des backbones vision-langage pré-entraînés fournissent une compréhension du monde directement exploitable pour la manipulation robotique. RSB constitue le premier benchmark structuré autour de la dissociation entre compétence sémantique au niveau du backbone et compétence sémantique au niveau de l'action, une distinction que les évaluations classiques par taux de succès en manipulation ne capturent pas. Les auteurs ne proposent pas de correctif immédiat, mais leur protocole ouvre la voie à des méthodes de fine-tuning ou d'évaluation capables de préserver, voire de restaurer, la capacité sémantique dans la chaîne décision-action.

UELes équipes R&D et intégrateurs européens déployant des systèmes VLA en picking, tri ou assemblage configurable doivent réévaluer leurs métriques de validation : RSB démontre que le taux de succès en manipulation ne garantit pas la généralisation sémantique en conditions réelles.

RechercheActu
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
180arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes
181arXiv cs.RO 

Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Un article de revue de littérature déposé sur arXiv le 2 juin 2026 (identifiant 2606.00090) pose un problème de sécurité systémique pour les systèmes d'IA physique : les modèles de fondation, modèles vision-langage-action (VLA) et modèles du monde qui pilotent des robots, véhicules, drones et machines industrielles peuvent émettre des commandes physiquement dangereuses tout en paraissant confiants, plausibles et sémantiquement corrects. Les auteurs nomment ce phénomène "silent failure" (défaillance silencieuse) : une action physiquement conséquente est déclenchée avant qu'un contrôleur matériel en aval détecte une anomalie, sous l'effet d'une dérive de capteur, d'une occlusion, d'une erreur d'estimation d'état, d'un glissement de distribution, d'affordances hallucinées ou d'hypothèses physiques invalides. Ces défaillances ne sont capturées ni par la modération de contenu classique des systèmes d'IA, ni par les normes de sécurité robotique traditionnelles. L'enjeu industriel est direct : là où les intégrateurs s'appuient sur des couches de sécurité fonctionnelle (normes ISO 10218, IEC 61508) pensées pour des automates déterministes, les VLA introduisent un générateur d'actions opaque dont les sorties ne respectent aucune enveloppe formellement vérifiable. La revue synthétise un écart récurrent : sur l'ensemble des corpus analysés, modèles de fondation incarnés, simulation robotique, benchmarks de sécurité embodied, contrôle sûr, assurance runtime, estimation d'incertitude, vérification formelle et évaluation de guardrails, aucun flux technique ne fournit à lui seul une frontière d'autorisation complète entre le modèle boîte noire et l'exécution physique. Cela signifie que les déploiements actuels de robots humanoïdes ou d'AGV pilotés par des LLM reposent sur des garde-fous fragmentés dont la couverture n'est pas évaluée de manière unifiée. Pour combler ce vide, les auteurs proposent une formalisation bornée du problème, une définition rigoureuse de la "défaillance physique silencieuse", une taxonomie des fonctions de guardrail runtime, et des critères d'évaluation permettant de comparer ces guardrails comme mécanismes d'assurance. Le papier ne décrit pas de système déployé ni de résultats expérimentaux : c'est une revue structurante, dont l'utilité principale est de fournir un cadre commun à une communauté fragmentée entre labs robotique, sécurité IA et contrôle formel. Les acteurs comme Boston Dynamics (Spot + foundation models), Figure, 1X ou Apptronik, qui poussent vers des déploiements industriels de robots à base de VLA, sont implicitement concernés, tout comme les équipes de recherche travaillant sur Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La prochaine étape naturelle serait une validation empirique de la taxonomie proposée sur des benchmarks embodied existants comme RoboSuite ou Open-X Embodiment.

UELa mise en évidence d'un vide normatif entre les standards industriels EU (ISO 10218, IEC 61508) et les systèmes VLA opaques concerne directement les intégrateurs européens déployant des robots autonomes sous le régime de l'AI Act.

RechercheOpinion
1 source
Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
182arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source
Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements
183arXiv cs.RO 

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

Un article de position déposé sur arXiv en juin 2026 (arXiv:2606.01036) soulève un problème structurel dans l'entraînement des robots fondationnels : les modèles de récompense embarqués (embodied reward models), centraux dans toute boucle d'apprentissage par renforcement, sont quasi-exclusivement entraînés sur des comportements réussis. Les auteurs ont évalué trois modèles de récompense de l'état de l'art et constatent qu'ils sur-récompensent systématiquement trois catégories de comportements qu'un évaluateur humain pénaliserait : interactions non sécurisées avec l'environnement, exécution de mauvaise qualité, et stratégies de raccourci qui satisfont l'apparence d'une tâche sans en remplir l'objectif réel. La cause pointée est le manque chronique de données négatives dans les datasets robotiques existants : comportements ratés, sous-optimaux ou dangereux, coûteux à collecter et systématiquement filtrés ou retenus par les équipes. Ce biais a des implications directes pour tout déploiement de robot généraliste en environnement industriel. Un modèle de récompense qui valide des comportements non sécurisés ou des raccourcis fonctionne comme un juge défaillant au coeur même de la boucle d'entraînement, produisant des systèmes validés en simulation mais problématiques en production. Les auteurs montrent qu'une exposition modeste à de vraies données de comportements négatifs améliore l'alignement avec les préférences humaines et réduit les faux positifs coûteux, argument pour une action corrective accessible à court terme plutôt qu'un problème structurel insoluble. La problématique s'impose avec l'essor des modèles vision-langage-action (VLA) tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure. Dans ce contexte, collecter des données d'échec reste plus contraignant qu'en NLP : chaque trajectoire ratée mobilise du matériel physique et présente un risque opérationnel réel. Les auteurs appellent la communauté à quatre actions concrètes : publier les données négatives aujourd'hui retenues, construire des moteurs de génération synthétique de mauvais comportements, déployer des systèmes d'évaluation physique décentralisés, et créer des benchmarks dédiés à l'évaluation fine des reward models. Aucun partenaire institutionnel ni calendrier opérationnel n'est annoncé dans le document, ce qui en fait pour l'instant un manifeste académique sans engagement opérationnel identifié.

IA physiqueOpinion
1 source
Nvidia, Unitree et Sharpa s'associent pour concevoir un robot humanoïde capable d'effectuer un travail réel
184SCMP Tech 

Nvidia, Unitree et Sharpa s'associent pour concevoir un robot humanoïde capable d'effectuer un travail réel

L'accès web n'est pas disponible. Je vais rédiger le résumé à partir du texte fourni et de mes connaissances sur cet écosystème. --- Nvidia, Unitree Robotics et Sharpa ont dévoilé H2+, un design de référence pour robot humanoïde destiné à accélérer le développement industriel à l'échelle mondiale. L'annonce a été faite par Jensen Huang, PDG de Nvidia. H2+ intègre la chaîne complète de développement robotique : collecte de données, entraînement de politiques de contrôle (policy training) et déploiement en conditions réelles. Unitree Robotics, spécialiste chinois des robots humanoïdes à bas coût (G1, H1), apporte l'architecture mécanique, tandis que Sharpa, fabricant singapourien de mains robotiques, contribue la préhension dextère. Nvidia fournit la couche logicielle et matérielle, vraisemblablement via Isaac Sim, OSMO et le modèle de fondation GR00T N2. L'intérêt d'un design de référence commun est de réduire le temps de mise en marché pour les intégrateurs en évitant la redondance dans la phase de prototypage. En unifiant la stack sim-to-real sous un seul écosystème Nvidia, H2+ vise à fermer le gap entre démonstrations en laboratoire et déploiements opérationnels, un obstacle persistant dans la commercialisation des humanoïdes. C'est aussi un signal que Nvidia consolide son rôle d'infrastructure centrale dans la course aux humanoïdes, face à des constructeurs comme Boston Dynamics, Figure ou Agility Robotics qui développent leurs propres pipelines propriétaires. La collaboration reflète une tendance de fond : les grandes plateformes technologiques cherchent à s'imposer comme couche commune là où les fabricants de hardware se fragmentent. Nvidia avait déjà lancé GR00T N2 début 2025 pour standardiser l'entraînement des humanoïdes. Unitree, dont le G1 est commercialisé autour de 16 000 dollars, mise sur le volume et l'accessibilité. Les suites concrètes de H2+, pilotes industriels, disponibilité du SDK, partenaires intégrateurs, n'ont pas encore été précisées dans les informations disponibles.

HumanoïdesOpinion
1 source
ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces
185arXiv cs.RO 

ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces

Une équipe de chercheurs a publié le 29 mai 2026 un article préprint sur arXiv (2605.29438) présentant ElegantVLA, un cadre d'inférence adaptatif conçu pour accélérer les modèles de type Vision-Language-Action (VLA) sans modifier ni réentraîner le modèle de base. Le principe repose sur un ordonnanceur léger qui observe en temps réel la similarité des représentations temporelles, les signaux de mouvement du robot et la progression de l'épisode, puis alloue dynamiquement la charge de calcul entre l'encodeur visuel, le LLM et la tête d'action. Deux niveaux de granularité sont gérés : cinq modes de calcul Vision-LLM, allant de la recomputation complète à la réutilisation temporelle multi-pas, et trois modes de débruitage pour la génération d'actions, qui recyclent les états intermédiaires lors des phases de mouvement stable. Sur le modèle GR00T de NVIDIA sur six tâches réelles, ElegantVLA réduit la charge de calcul d'un facteur 2,18x et fait passer la fréquence de contrôle de 13,8 Hz à 26,3 Hz ; sur CogACT, le gain en vitesse atteint 3,77x. L'enjeu est direct pour les équipes qui cherchent à déployer des VLA en manipulation réelle : la fréquence de contrôle est un goulot d'étranglement critique dans les tâches nécessitant une réactivité fine, et doubler cette fréquence sans retoucher le modèle sous-jacent change fondamentalement le rapport coût-performance du déploiement. Le résultat contredit partiellement l'hypothèse dominante selon laquelle accélérer un VLA impose obligatoirement un compromis sur la qualité du raisonnement : en concentrant la puissance de calcul sur les phases sensibles aux objectifs, à l'image du contrôle moteur humain, le système préserve la précision là où elle compte. C'est un argument concret en faveur de l'inférence adaptative plutôt que des modèles distillés ou quantifiés à la hache. Les VLA généralistss comme GR00T (NVIDIA) ou CogACT (Microsoft Research) souffrent structurellement d'un coût d'inférence élevé dû à l'empilement d'un backbone vision-langage massif et d'une tête d'action itérative à chaque pas de contrôle. Les approches existantes d'accélération, élagage, distillation, cache KV statique, traitent tous les pas de contrôle de façon uniforme, ignorant que les besoins en raisonnement varient fortement au cours d'un épisode. ElegantVLA se positionne comme une surcouche plug-in compatible avec l'ensemble de l'écosystème VLA moderne, sans modifier les pipelines d'entraînement. La prochaine étape naturelle sera de valider l'approche sur des tâches longue durée et des environnements non structurés, là où la variabilité des phases est maximale et où le gain potentiel est le plus difficile à quantifier.

IA physiqueOpinion
1 source
Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage
186arXiv cs.RO 

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

Une équipe de chercheurs a publié le 29 mai 2026 Embodied3DBench, un benchmark conçu pour évaluer les capacités de perception spatiale bas niveau des modèles de vision-langage (VLMs) dans des environnements 3D incarnés. Le benchmark couvre 6 catégories de tâches réparties en deux groupes : la compréhension structurelle spatiale (ancrage d'objets, prédiction de relations spatiales, correspondance multi-vues) et la perception orientée interaction (prédiction d'affordances, prédiction de points de saisie, prédiction de trajectoires). Il totalise 12 sous-catégories et plus de 21 000 paires questions-réponses annotées. Treize modèles de pointe ont été évalués sur ce corpus. En parallèle, les auteurs ont synthétisé un dataset d'entraînement à grande échelle de 1,3 million de paires QA pour tenter de combler les lacunes identifiées. Les résultats révèlent une dissociation nette dans les capacités des VLMs actuels : ces modèles affichent des performances raisonnables sur le raisonnement spatial de haut niveau, notamment les relations de position entre objets, mais restent très fragiles dès qu'il s'agit de perception orientée interaction, c'est-à-dire prédire où saisir un objet, anticiper une trajectoire de manipulation, ou estimer l'affordance d'une surface. Pour les équipes qui développent des modèles vision-langage-action (VLA) destinés à la manipulation robotique, ce résultat est structurant : il indique que les fondations perceptuelles nécessaires au déploiement réel restent insuffisantes dans les architectures actuelles, y compris les plus récentes. Le fine-tuning sur le dataset de 1,3M paires améliore significativement les scores bas niveau, ce qui suggère que le problème est en partie un déficit de données d'entraînement ciblées plutôt qu'une limite architecturale fondamentale. Ce travail s'inscrit dans un effort plus large de la communauté robotique pour doter les VLMs de capacités d'interaction physique, au-delà de la simple description de scènes. Des systèmes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) reposent sur ces mêmes briques perceptuelles pour passer de la compréhension sémantique à l'action motrice. Jusqu'ici, l'évaluation de ces capacités bas niveau manquait d'un cadre standardisé : la plupart des benchmarks existants (ScanQA, EmbodiedScan) ciblent la compréhension de scènes plutôt que la manipulation. Embodied3DBench comble ce vide méthodologique en proposant à la fois un protocole d'évaluation reproductible et un levier de progression via son dataset synthétique. L'article est disponible en preprint (arXiv:2605.29074) et le code devrait être rendu public prochainement.

RechercheActu
1 source
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
187arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

IA physiqueOpinion
1 source
VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA
188arXiv cs.RO 

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (référence 2605.29605) VLAConf, un framework de détection de confiance pour les modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le principe repose sur un module léger ("confidence head") branché sur les représentations internes d'un VLA préentraîné et figé, capable de calculer en un seul passage (single forward pass) un score d'anomalie à chaque étape de la trajectoire. Le système intègre également un mécanisme de "step-conditioned modeling" qui encode la phase d'exécution le long du rollout. Les performances sont évaluées sur le benchmark LIBERO, référence académique pour la manipulation multi-tâches, et validées sur robot physique. L'enjeu est direct pour le déploiement industriel des VLA : anticiper l'échec d'une tâche avant qu'il ne survienne est une condition nécessaire pour les applications à risque, de la chaîne de montage au laboratoire pharmaceutique. Les méthodes existantes souffrent de deux limitations majeures. Les approches par ensembles requièrent des échantillonnages répétés qui pénalisent fortement le temps d'inférence. Les méthodes basées sur les probabilités de tokens d'action sont incompatibles avec les espaces d'action continus, ce qui exclut de facto les VLA les plus récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). VLAConf contourne ces deux obstacles en un seul forward pass, sans modifier l'architecture du modèle hôte, ce qui lui confère une portabilité inter-architectures notable. Les auteurs revendiquent une nette supériorité sur les baselines en termes de qualité du signal de confiance et d'efficacité à l'inférence, bien que les marges précises ne soient pas détaillées dans le résumé disponible. Les VLA connaissent une accélération marquée depuis 2024 : pi-0 de Physical Intelligence, OpenVLA (Berkeley) et GR00T N2 de NVIDIA ont chacun proposé des approches pour généraliser la manipulation en monde ouvert. La robustesse à l'échelle reste cependant le principal frein au déploiement commercial, et la confiance calibrée en constitue une composante critique. VLAConf se positionne comme une brique d'infrastructure transversale, là où ses prédécesseurs restaient cantonnés aux sorties discrètes. Le code source est rendu public. Ce travail est académique, sans partenariat commercial annoncé.

IA physiqueOpinion
1 source
Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables
189arXiv cs.RO 

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

Des chercheurs ont publié le 29 mai 2026 un article (arXiv:2605.29407) présentant un système robotique capable de manipuler des objets déformables, comme des vêtements, avec une récupération autonome en cas d'échec. Le système, baptisé PHASER, repose sur une architecture hiérarchique en boucle fermée : un encodeur ACT (Action Chunking with Transformers) conditionné via FiLM (Feature-wise Linear Modulation) adapte l'extraction de features selon la phase courante de la tâche, permettant à une politique unifiée de produire des comportements distincts à chaque étape sans dupliquer les modèles. Un prédicteur de phase multimodal fusionne retour visuel, force et pose en temps réel pour estimer l'état courant et détecter les échecs de contact invisibles à la caméra. Un contrôleur d'impédance hybride assure l'exécution compliante. Validé sur la tâche d'accrochage et de retrait d'un T-shirt en manipulation bimanuelle, le système fait passer le taux de succès de 56 % à 87 % grâce à la récupération autonome des erreurs. Ce résultat est notable car la manipulation d'objets déformables reste un des verrous les plus résistants de la robotique industrielle et domestique : les propriétés mécaniques imprévisibles du tissu rendent caduques les approches rigides classiques. Le problème de state aliasing, où des observations visuellement similaires exigent des actions contradictoires selon la phase, sabote les politiques d'imitation standard en inférence markovienne. En conditionnant la politique sur la phase estimée plutôt que sur l'observation brute, et en intégrant le retour de force comme signal de détection d'anomalie, les auteurs montrent qu'il est possible de construire un pipeline sim-to-real sans oracle externe. Les études d'ablation confirment que le conditionnement FiLM surpasse significativement les baselines non conditionnées et celles à token-level, et l'analyse t-SNE valide que les représentations apprises sont bien séparées par phase. L'approche s'inscrit dans la lignée des travaux sur l'imitation learning pour la manipulation dextre, notamment ACT (Chi et al., 2023) et les Diffusion Policies, qui peinent sur les objets non rigides. Elle se distingue des frameworks VLA (Vision-Language-Action) à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation par préentraînement massif plutôt que sur la structure de la tâche. PHASER adopte une stratégie inverse : contrainte forte sur la structure de phase, données limitées, récupération explicite. Les auteurs publient le code et les vidéos en open access. Les prochaines étapes naturelles incluent l'extension à d'autres classes de vêtements et la réduction de la dépendance à l'interface de télé-opération haptique pour la collecte de données d'entraînement.

RecherchePaper
1 source
RoboMemArena : un nouveau benchmark évalue systématiquement les capacités mémoire des robots
190Pandaily 

RoboMemArena : un nouveau benchmark évalue systématiquement les capacités mémoire des robots

Un consortium d'institutions chinoises de premier plan, l'HKUST (Guangzhou), l'Université Tsinghua, l'Université du Zhejiang, Westlake University et Shanghai Jiao Tong University, a publié RoboMemArena, présenté comme le premier benchmark dédié à l'évaluation des capacités mémorielles des robots dans des tâches de manipulation à long horizon. Le benchmark couvre quatre scénarios exigeant explicitement de la mémoire : transfert d'objets, occlusion de cibles, comptage d'actions et exécution de séquences. Il comprend 26 tâches à long horizon, 151 sous-tâches, 2 600 trajectoires de démonstration expertes, et des séquences dépassant en moyenne 1 000 étapes. Fait notable : 68,9 % des sous-tâches sont déclarées dépendantes d'états historiques. Le benchmark intègre également cinq tâches réelles, dont une séquence "préparer le petit-déjeuner à la manière humaine" (IHMB) dépassant 3 minutes d'exécution continue. Seule la méthode PrediMem, développée par l'équipe elle-même, a complété avec succès cette tâche. L'ensemble des ressources est open-source : dataset sur Hugging Face, code sur GitHub, leaderboard public, et article sur arXiv (2605.10921). Ce benchmark pointe une lacune réelle dans l'évaluation des robots embodied : la quasi-totalité des benchmarks existants mesurent la perception immédiate et le contrôle réactif, sans jamais tester la capacité à maintenir et exploiter un état historique. Pour les intégrateurs industriels et les équipes R&D, c'est un signal clair : les VLA (Vision-Language-Action models) et les architectures de politique actuelles ne sont pas évaluées sur ce qui compte dans les environnements réels, où un robot doit se souvenir qu'un objet a été déplacé trois minutes plus tôt. RoboMemArena fournit aussi des annotations multi-modales (sous-tâches, keyframes, observations visuelles alignées avec les états robot), ce qui le rend directement exploitable pour entraîner ou fine-tuner des modèles. Le contexte est celui d'une course active entre laboratoires asiatiques et occidentaux sur les capacités d'exécution longue durée des robots manipulateurs. Des travaux comme RoboAgent, RoboVLMs ou les benchmarks LIBERO ont posé des fondations, mais aucun ne ciblait explicitement la dépendance mémorielle. L'initiative est entièrement académique et ne mentionne pas de partenariat industriel. La prochaine étape naturelle serait l'intégration de ce benchmark dans les pipelines d'évaluation des grands modèles robotiques comme GR00T N2 (NVIDIA) ou OpenVLA, dont les performances sur des horizons longs restent peu documentées en conditions réelles.

UELes laboratoires européens en robotique (CEA-List, INRIA, ETH Zurich) peuvent exploiter directement ce benchmark open-source pour évaluer leurs architectures VLA sur des tâches à long horizon, comblant un manque critique dans leurs pipelines d'évaluation existants.

RecherchePaper
1 source
Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé
191arXiv cs.RO 

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé

Une équipe de recherche publie sur arXiv (2605.26478, mai 2026) une méthode d'apprentissage par renforcement visuel appelée SDPG (Stochastic Decoupled Policy Gradient), capable d'entraîner des politiques visuomotrices end-to-end en quelques heures sur un seul GPU NVIDIA RTX 4080. La clé : estimer les gradients de politique via des perturbations stochastiques de trajectoires, plutôt que via des centaines d'environnements rendus en batch, réduisant drastiquement mémoire et temps de calcul. Sur les benchmarks visuels MuJoCo, référence standard pour l'évaluation des politiques de contrôle à entrées visuelles, SDPG surpasse les méthodes concurrentes sur les trois critères mesurés : temps d'entraînement, empreinte mémoire et récompenses obtenues. L'article inclut également un premier transfert sim-to-real démontré sur matériel physique, couvrant des tâches de manipulation dextère et de locomotion en terrain difficile. L'enjeu touche directement à l'accessibilité du RL visuel pour la robotique. Jusqu'ici, les méthodes on-policy visuomotrices exigeaient des clusters GPU pour rester compétitives, concentrant de fait la recherche dans quelques grands laboratoires. Ramener le coût d'entraînement à un seul GPU grand public ouvre potentiellement la voie aux équipes académiques moins dotées et aux startups. La publication simultanée d'une suite de benchmarks de robotique visuelle réaliste tente de combler un autre manque structurel : la fragmentation des protocoles d'évaluation dans le domaine. Le transfert sim-to-real annoncé reste cependant à confirmer à plus grande échelle, un résultat sur hardware physique dans un preprint n'équivalant pas à une validation industrielle. Ce travail s'inscrit dans une dynamique de démocratisation du RL pour la robotique. Des approches comme DrQ-v2 (DeepMind) ou DreamerV3 ont progressivement amélioré l'efficacité en entrées visuelles, mais restent lourdes pour les environnements réalistes. Les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) contournent entièrement la boucle RL via des architectures de fondation préentraînées. SDPG choisit une troisième voie : rester dans le paradigme RL pur tout en réduisant radicalement le coût computationnel. La prochaine étape observable sera l'adoption ou le rejet de leurs benchmarks par la communauté comme référence standard de comparaison.

UEL'accessibilité réduite à un seul GPU grand public pourrait bénéficier aux équipes académiques européennes moins dotées en infrastructure de calcul, réduisant leur dépendance aux clusters HPC pour la recherche en RL visuel.

RecherchePaper
1 source
Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs
192arXiv cs.RO 

Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.27314) une approche qui réhabilite le contrôle réactif pour des tâches multi-objectifs, domaine où cette famille de méthodes est traditionnellement jugée inadaptée. Le principe repose sur un modèle du monde sous forme de graphe, étendu par des projections dans l'espace nul (nullspace projections) : lorsque deux objectifs entrent en conflit, les gradients de plus faible priorité sont projetés dans le nullspace du gradient de plus haute priorité, les priorités étant calculées en continu en fonction de l'état courant du système. Les auteurs valident l'approche sur deux scénarios : navigation autour d'obstacles non-convexes, et poussée planaire (planar pushing) d'objets non-convexes. Sur cent configurations de poussée, la méthode atteint 100 % de réussite, contre 0 % pour la descente de gradient classique (steepest-descent) et environ 55 % pour une diffusion policy entraînée sur démonstrations. La même formulation est transférée directement sur un robot réel, intégrant des contraintes perceptuelles et cinématiques via le même mécanisme. Le résultat le plus saillant pour les praticiens est la comparaison avec la diffusion policy : un modèle génératif entraîné sur données, considéré comme l'état de l'art sur les tâches de manipulation déstructurées, plafonne à 55 % là où cette méthode purement réactive, sans démonstration ni réentraînement, atteint 100 %. Cela contredit directement la thèse selon laquelle les approches data-driven supplantent systématiquement les méthodes classiques en manipulation. Pour un intégrateur industriel, le signal est clair : le coût d'acquisition de données et les pipelines d'entraînement ne sont pas toujours nécessaires pour des tâches de saisie ou de manipulation d'objets à géométrie complexe. La légèreté computationnelle du contrôle réactif le rend également compatible avec des architectures embarquées à ressources limitées. Le contrôle réactif par champs de potentiel remonte aux travaux d'Oussama Khatib (1986), et les projections dans l'espace nul sont un pilier de la robotique à priorité de tâches (travaux de Siciliano, Chaumette). Ce papier ne réinvente pas ces fondamentaux mais résout leur point de défaillance historique : les minima locaux dus à des encodages statiques des objectifs. Face à cet axe purement classique, les approches concurrentes combinent apprentissage par renforcement, imitation learning (ACT, diffusion policy), et plus récemment les VLA (Vision-Language-Action models comme pi0 ou GR00T N2 de NVIDIA). Les auteurs ne précisent pas de roadmap industrielle, mais la capacité de transfert sim-to-real sans retraining est un argument fort pour des pilotes rapides. La prochaine étape naturelle serait l'extension à la manipulation 3D et aux objets articulés.

RecherchePaper
1 source
SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions
193arXiv cs.RO 

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

SpecPrune-VLA est une méthode d'élagage (pruning) des modèles Vision-Langage-Action (VLA) publiée sur arXiv (arXiv:2509.05614v3, version révisée). Les VLA sont les architectures neuronales qui transforment images et instructions en langage naturel en commandes motrices pour robots manipulateurs. Sans réentraînement requis, la méthode opère à deux niveaux : un élagage statique par action, combinant historique global et attention locale pour réduire les tokens visuels traités à chaque étape, et un élagage dynamique couche par couche selon l'importance estimée de chaque couche du réseau. Un troisième composant, un contrôleur léger, classifie chaque action en "grossière" ou "fine" selon la vitesse de l'effecteur terminal, et ajuste l'agressivité du pruning en conséquence. Résultats annoncés : facteur d'accélération de 1,57x en simulation LIBERO et 1,70x sur tâches réelles, avec dégradation négligeable du taux de succès. L'enjeu est directement industriel. Les modèles VLA tels que pi-0 et pi-0.5 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA sont progressivement déployés dans des cellules de manipulation robotique, mais leur latence d'inférence reste un verrou pour l'embarqué temps réel. Les méthodes d'accélération existantes, focalisées sur la seule information locale à chaque step, provoquent des chutes de taux de succès supérieures à 20%, ce qui est rédhibitoire pour des environnements de production. SpecPrune-VLA exploite la cohérence spatiale et temporelle inhérente aux tâches robotiques : des frames consécutives se ressemblant fortement, des tokens visuels redondants peuvent être supprimés sans sacrifier la précision motrice. L'absence de réentraînement abaisse significativement la barrière d'adoption pour les intégrateurs. Le gain de 1,70x sur tâches réelles est un résultat solide, même si les conditions expérimentales précises (type de robot, nature des tâches, payload) ne sont pas détaillées dans le résumé publié. Le pruning de tokens dans les transformers est une technique mature côté LLMs (SnapKV, DuoAttention), mais son application aux VLA soulève des défis spécifiques liés à la nature temporelle et multimodale des entrées, et au fait que les erreurs motrices se cumulent sur des horizons longs. Les principaux acteurs qui investissent dans la réduction de la latence d'inférence VLA sont NVIDIA avec Isaac GR00T, Physical Intelligence avec ses modèles pi, et Figure AI avec son architecture Helix. Aucun acteur français ou européen n'est mentionné dans ces travaux. La publication en version v3 sur arXiv signale des révisions substantielles depuis la soumission initiale, mais l'acceptation dans une conférence ou un journal n'est pas encore confirmée, ce qui invite à nuancer la portée des résultats annoncés en attendant une évaluation par les pairs.

💬 1,70x sur du matériel réel sans réentraîner, c'est le genre de résultat qui va donner des idées aux intégrateurs qui bloquent sur la latence depuis des mois. La distinction grossière/fine selon la vitesse de l'effecteur, c'est malin : ça montre qu'ils ont pensé à la dynamique réelle du robot, pas juste au benchmark simulé. Bon, c'est encore v3 sur arXiv, pas de validation en conférence pour l'instant, faut garder ça en tête.

IA physiqueOpinion
1 source
PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration
194arXiv cs.RO 

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Une équipe de chercheurs présente PGDG (Physically Grounded Data Generation), un cadre qui permet d'entraîner une politique de manipulation bimanuelles robuste à partir d'une seule démonstration humaine. Déposé sur arXiv en mai 2026 (réf. 2605.21710), le système attaque un problème structurant du behavior cloning : tout écart par rapport à la trajectoire apprise plonge le robot dans des états hors distribution, sans signal de récupération disponible dans les données d'entraînement. PGDG génère automatiquement, sans annotation humaine supplémentaire, un ensemble compact de trajectoires physiquement plausibles couvrant ces comportements de récupération manquants. Il alterne entre un échantillonneur ancré en physique et un curateur de données qui oriente progressivement l'exploration vers les modes sous-représentés, complété par un reétiquetage d'actions correctives sur les états risqués. Sur la tâche RotateBox-Pitch, manipulation bimanuelles par contact, le taux de succès passe de 38 % à 93 % en simulation et de 35 % à 82 % en transfert zéro-shot vers le robot réel. Appliqué au fine-tuning de GR00T, le modèle de fondation vision-langage-action de NVIDIA, la méthode améliore le taux de succès de 46 % à 77 %. Le résultat le plus notable pour les intégrateurs est le transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques fonctionne directement sur le robot physique, sans adaptation terrain. Ce résultat valide empiriquement que la génération ancrée en physique peut combler le sim-to-real gap pour les tâches en contact, historiquement le talon d'Achille de la manipulation dextère. La compatibilité avec GR00T (un VLA) ouvre également une voie pour enrichir les modèles de fondation à faible coût de collecte : une démonstration unique remplace les centaines typiquement requises en téléopération, ce qui modifie le calcul économique pour tout projet de déploiement à grande variété de configurations. Ce travail s'inscrit dans la course à l'efficacité des données en robotique manipulatrice. L'augmentation spatiale classique, premier concurrent direct, est systématiquement surpassée sur les quatre tâches testées. Les approches alternatives misent soit sur la collecte massive comme ACT/ALOHA (des milliers de démonstrations), soit sur le pré-entraînement multi-tâche à grande échelle comme pi-0 de Physical Intelligence. PGDG se distingue par son paradigme "une démonstration suffit", potentiellement attractif dès que la diversité des pièces ou des configurations rend la collecte par tâche prohibitive. La validation reste pour l'instant en environnement laboratoire ; une évaluation sur des tâches industrielles réelles constituerait la prochaine étape logique.

💬 Une démo au lieu de mille, et le robot fonctionne directement sur le physique sans adaptation terrain. Le sim-to-real sur de la manipulation par contact, c'était le blocage structurel depuis des années, et là ils sortent 82% en zéro-shot sur le robot réel, c'est pas un résultat qu'on voit souvent. Reste à tenir hors labo.

IA physiqueOpinion
1 source
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
195arXiv cs.RO 

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

IA physiqueOpinion
1 source
TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques
196arXiv cs.RO 

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

Une équipe du Weird Lab de l'Université de Washington a publié en mai 2026, sur arXiv (2605.12236), un cadre unifié baptisé TMRL (Timestep-Modulated Reinforcement Learning) pour accélérer le fine-tuning par apprentissage par renforcement (RL) de politiques robotiques pré-entraînées. Le système repose sur deux composantes : Context-Smoothed Pre-training (CSP), qui injecte du bruit de diffusion directe dans les entrées de la politique lors du pré-entraînement, et TMRL lui-même, qui apprend à moduler dynamiquement le pas de temps de diffusion pour contrôler explicitement l'exploration lors du fine-tuning. Les résultats présentés incluent des tâches de manipulation réelle complexes, avec un fine-tuning en conditions réelles achevé en moins d'une heure. Le cadre est compatible avec des entrées hétérogènes : états proprioceptifs, nuages de points 3D ou politiques VLA (Vision-Language-Action) basées sur des images. Le verrou technique adressé est structurel : le pré-entraînement par clonage comportemental (BC), dominant dans la robotique d'apprentissage, produit des distributions d'actions étroites centrées sur les démonstrations existantes, ce qui prive le RL aval de la couverture nécessaire pour explorer efficacement l'espace d'états. TMRL casse ce goulot en faisant du niveau de bruit de diffusion un paramètre entraînable : à fort timestep, la politique explore largement ; à faible timestep, elle exploite avec précision. Le résultat annoncé est une amélioration de l'efficacité en données lors du fine-tuning RL, ce qui est critique pour les déploiements réels où chaque essai coûte du temps machine et de l'usure mécanique. Les métriques précises de sample efficiency et les benchmarks utilisés ne sont pas détaillés dans l'abstract, ce qui rend l'évaluation indépendante difficile sans consulter l'article complet. Ce travail s'inscrit dans une dynamique active autour des politiques de diffusion pour la robotique, popularisées par π0 de Physical Intelligence et les travaux GR00T N2 de NVIDIA. Le problème exploration-exploitation en RL robotique réel reste un obstacle majeur à la commercialisation : les approches existantes comme la perturbation d'action aléatoire ou l'exploration guidée par curiosité peinent à passer à l'échelle sur du matériel réel. TMRL propose une solution intégrée au pipeline de diffusion existant, sans modifier l'architecture de la politique. Le code et les vidéos sont disponibles en open source, ce qui facilitera l'évaluation par la communauté ; les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes et une intégration dans des frameworks comme LeRobot ou OpenVLA.

UELe cadre TMRL, open-source et compatible avec LeRobot (Hugging Face, France), pourrait directement accélérer le fine-tuning RL de politiques robotiques dans les labos et startups européens.

RechercheOpinion
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
197Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative
198arXiv cs.RO 

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Une équipe de chercheurs a publié en mai 2026, via arXiv (2605.01194), VLA-ATTC, un framework visant à doter les modèles Vision-Language-Action (VLA) d'un mécanisme de délibération adaptatif à l'inférence. Les VLA, qui couplent perception visuelle, langage et génération d'actions pour piloter des robots manipulateurs, reposent jusqu'ici sur un mode d'exécution réflexif : rapide, mais aveugle face à l'ambiguïté. VLA-ATTC introduit un "embrayage cognitif" basé sur l'incertitude : lorsque le modèle détecte une situation complexe, il bascule vers une phase de calcul délibératif (test-time compute, TTC) dans laquelle un composant inédit, le Relative Action Critic (RAC), évalue des candidats d'actions par comparaisons par paires plutôt que par estimation absolue de valeur. Un pipeline automatisé génère les paires de préférence sans annotation manuelle. Sur le benchmark LIBERO-LONG, VLA-ATTC réduit le taux d'échec du modèle SOTA PI0.5 de Physical Intelligence de plus de 50 %. Le code et les poids seront publiés en open source. Ce résultat cible directement le "demo-to-reality gap" : les VLA actuels performent bien en conditions contrôlées mais échouent sur des tâches longues et ambiguës. Diviser par deux le taux d'échec sur LIBERO-LONG, un benchmark de manipulation séquentielle longue portée, sans retrainer le modèle de base est un gain concret pour les intégrateurs industriels. Le choix du RAC est également instructif : abandonner l'estimation de valeur absolue, instable en pratique, au profit d'un mécanisme relatif plus simple à apprendre suggère que la fiabilité des VLA peut progresser via du compute supplémentaire à l'inférence plutôt que par des cycles de fine-tuning coûteux. Les VLA constituent la ligne de front actuelle en robotique de manipulation. Pi-0 et Pi-0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) ont établi une course à la généralisation zero-shot, mais partagent le même défaut structurel : une inférence déterministe et non délibérative. L'approche TTC appliquée aux VLA s'inscrit dans un mouvement plus large, déjà visible chez les LLM avec o1, o3 et DeepSeek R1, qui cherche à "acheter" de la qualité de décision via du compute d'inférence supplémentaire. Pour les déploiements industriels en temps réel, la question restante sera de quantifier le surcoût de latence du mode TTC dans des environnements contraints, comme les lignes d'assemblage ou les cellules de picking à cadence élevée.

UEL'open-source annoncé pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur la manipulation VLA, mais aucune institution ou entreprise FR/EU n'est directement impliquée.

IA physiqueOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
199arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
200arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source