Aller au contenu principal

Dossier NVIDIA GR00T — page 5

684 articles · page 5 sur 14

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel
201arXiv cs.RO RecherchePaper

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel

Une équipe de chercheurs publie sur arXiv (réf. 2606.25404) HEART, un framework de planification robotique qui distribue le raisonnement entre plusieurs LLM spécialisés plutôt que de confier l'ensemble de la tâche à un seul modèle. Le principe : décomposer une instruction complexe en sous-tâches atomiques (vérification des capacités du robot, analyse de l'atteignabilité des objets, respect des contraintes logiques et temporelles), puis allouer chacune à un agent LLM dédié, le tout sous une contrainte de budget en tokens pour rester viable sur du matériel embarqué ou en communication limitée. La synthèse finale produit un plan d'actions physiquement exécutable, validé avant transmission au robot. Les expériences sur plusieurs benchmarks de scénarios domestiques montrent une amélioration consistante du taux de succès face aux planificateurs mono-LLM et aux approches à base de règles, sans que l'abstract disponible détaille de chiffres absolus. La contribution centrale de HEART est d'intégrer une couche de validation physique avant la génération du plan, un angle mort chronique des approches LLM-only. Les modèles de langage généralisent bien le raisonnement symbolique mais peinent avec les contraintes géométriques réelles : objet hors de portée, séquence d'actions physiquement impossible, outil absent. En déléguant ces vérifications à des agents rôle-spécialisés, le framework réduit le taux de plans invalides ou incomplets. Pour les intégrateurs travaillant sur l'automatisation de tâches non-structurées en environnement domestique ou industriel léger, c'est un signal pertinent : la spécialisation des agents LLM par type de contrainte commence à produire des gains mesurables sur les benchmarks standard. Ce travail s'inscrit dans un courant de recherche actif qui cherche à dépasser les limites du "single LLM as planner", avec des approches comme SayPlan, LLM+P ou Code as Policies comme antécédents directs. Aucun acteur industriel ni déploiement terrain n'est mentionné, et le papier reste un preprint non relu par les pairs. L'absence de métriques chiffrées précises dans l'abstract (taux de succès, nombre de benchmarks, configurations matérielles testées) rend l'évaluation externe difficile. Les prochaines étapes naturelles seraient une validation sur robot physique réel et une comparaison contre des frameworks VLA (Vision-Language-Action) comme pi-0 ou GR00T N2, qui intègrent déjà un raisonnement ancré dans la perception sensorielle.

1 source
DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée
202arXiv cs.RO 

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Une équipe associée à JD Cloud publie DataLadder (arXiv:2606.16776, juin 2026), un pipeline de conversion bidirectionnel entre robots réels, simulation et démonstrations humaines, conçu pour scaler la génération de données d'entraînement et l'évaluation de politiques robotiques généralistes. L'outil repose sur deux flux complémentaires via le simulateur JoySim. Le premier, Robot vers Simulation vers Human, reconstruit des tâches réelles de rangement sur table en jumeaux numériques calibrés, puis mobilise des retours humains pour affiner la naturalité des trajectoires simulées, permettant une évaluation reproductible sans mobiliser de robot physique en continu. Le second, Human vers Simulation vers Robot, projette des démonstrations humaines filmées en vue égocentrique dans JoySim, les confronte aux contraintes physiques du robot cible, et en extrait trajectoires, annotations et observations visuelles directement utilisables en entraînement. Les modules de reconstruction, rendu et augmentation de réalisme sont exposés en services cloud sur JD Cloud. Ce travail adresse une asymétrie bien documentée : les données issues de robots réels restent la source la plus fiable, mais leur collecte est lente et coûteuse, tandis que la simulation seule souffre du sim-to-real gap. DataLadder introduit un filtre de cohérence physique dans la boucle de conversion human-to-robot, ce qui dépasse les approches de retargeting naïves. Pour les équipes développant des architectures VLA (vision-language-action), cette infrastructure pourrait réduire significativement la dépendance aux démos téléopérées, dont le coût est souvent estimé à plusieurs milliers de dollars par heure de collecte. L'accessibilité via API cloud simplifie également le déploiement pour des équipes sans cluster de simulation dédié. DataLadder s'inscrit dans la course au "data flywheel" pour robots généralistes, lancée par RT-2 (Google DeepMind, 2023) et accélérée par des politiques comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). JD.com, conglomérat e-commerce chinois opérant une large flotte logistique autonome, a un intérêt direct à industrialiser cette chaîne pour ses propres lignes de tri et de picking. Aucun benchmark comparatif avec les simulateurs concurrents Isaac Lab (NVIDIA) ou MuJoCo Playground (DeepMind) n'est fourni dans ce preprint, ce qui rend les affirmations de performance difficiles à évaluer pour l'instant. La prochaine étape attendue serait une validation quantitative sur des benchmarks standardisés de manipulation comme LIBERO ou MetaWorld.

IA physiqueOpinion
1 source
Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon
203arXiv cs.RO 

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

Des chercheurs ont soumis le 16 juin 2026 sur arXiv (2606.16178) une architecture transformer nommée PRISM, conçue pour doter les politiques visuomotrices entraînées par imitation learning d'une mémoire à court terme effective. Le système combine deux mécanismes : une attention filtrée (gated attention) qui supprime les corrélations parasites entre l'historique sensoriel et la prédiction d'action, et une architecture hiérarchique qui compresse les informations locales en tokens compacts pour capturer des dépendances temporelles étendues. PRISM maintient ainsi une mémoire opérationnelle sur environ deux minutes. Ses performances : 5 à 12 % de gains absolus sur les baselines les plus solides, et 11 à 15 % de mieux que sa variante sans mémoire sur RoboCasa et LIBERO, dépassant des modèles VLA fine-tunés comme GR00T-N1-3B (NVIDIA) et OpenVLA, sans aucun pré-entraînement à grande échelle. Les auteurs publient aussi ReMemBench, un benchmark de huit tâches de manipulation domestique couvrant quatre catégories mémorielles. La quasi-totalité des politiques visuomotrices actuelles n'exploitent que l'entrée sensorielle instantanée, les rendant incapables de gérer des tâches impliquant des objets temporairement occultés ou des actions à déclencher après un délai défini. PRISM démontre qu'une architecture mémoire soigneusement conçue peut surpasser des VLA massivement pré-entraînés, remettant en question l'hypothèse dominante selon laquelle la taille du corpus de pré-entraînement prime sur les choix architecturaux. Pour les intégrateurs et les décideurs industriels, ce résultat ouvre la voie à des politiques de manipulation longue séquence plus accessibles en calcul. PRISM s'inscrit dans un débat actif entre approches récurrentes (LSTM, Mamba) et architectures transformer pour les politiques de manipulation robotique. Les benchmarks RoboCasa et LIBERO font référence en simulation pour ce type de tâches, et des modèles comme GR00T-N1 de NVIDIA (3B paramètres) ou OpenVLA ont misé sur un pré-entraînement multimodal massif pour y performer. PRISM se positionne comme une alternative architecturale plus légère et sans pré-entraînement. Il faut toutefois souligner que tous les résultats sont obtenus en simulation : aucun transfert sim-to-real ni déploiement physique n'est annoncé, laissant ouverte la question de la robustesse sur robot réel.

RechercheOpinion
1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
204arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
205arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné
206arXiv cs.RO 

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

SAPS (Shared Autonomy for Policy Steering, arXiv:2606.15568) est un framework qui combine en temps réel les commandes d'un opérateur humain avec les actions d'un modèle Vision-Language-Action (VLA) préentraîné, au niveau de l'action elle-même. Sans réentraînement, sans modèle auxiliaire, sans modification architecturale, SAPS introduit trois stratégies d'arbitrage dont une basée sur la similarité cosinus: cet indice mesure l'accord géométrique entre la commande humaine et celle du modèle pour distribuer le contrôle de façon dynamique. Testé sur les benchmarks de simulation LIBERO, LIBERO-PRO et CALVIN, et sur du matériel réel, le framework améliore le taux de succès des tâches jusqu'à 82 % par rapport à l'exécution autonome seule, réduit les interventions humaines par rapport à la télé-opération pure, et raccourcit les temps de complétion dans les deux cas. Ce résultat touche au défaut structurel des VLA généralistes: leur fragilité face aux perturbations hors-distribution, qu'il s'agisse d'un objet déplacé de quelques centimètres ou d'une scène atypique. SAPS n'exige pas de modifier le modèle existant, ce qui est l'argument commercial central pour un intégrateur industriel: le framework se greffe indifféremment sur Pi-0, GR00T N2, OpenVLA ou tout autre VLA disponible. La réduction de charge cognitive par rapport à la télé-opération pure est également significative pour des applications d'assistance aux personnes à mobilité réduite et pour la collecte de données d'imitation, où chaque heure d'opérateur est coûteuse. Les métriques présentées sont issues d'un preprint non relu par des pairs, et les vidéos de démonstration réelles restent à évaluer avec prudence. L'autonomie partagée est un champ établi, mais son application agnostique au modèle au niveau action sur des VLA modernes est une voie distincte des approches concurrentes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et HuggingFace (LeRobot) misent sur la robustification des politiques par distillation et augmentation de données; SAPS propose une couche d'intervention humaine plug-and-play plutôt qu'un meilleur modèle. Le preprint n'annonce ni déploiement industriel ni partenariat commercial. Les extensions naturelles visent les plateformes humanoïdes (Figure 03, Unitree G1) et un usage dans des boucles de fine-tuning continu. Aucun acteur français ou européen n'est impliqué dans ce travail.

RechercheOpinion
1 source
Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné
207arXiv cs.RO 

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

Des chercheurs publient sur arXiv (référence 2606.14084) une méthode baptisée SDN (Selected Diffusion Noise), conçue pour améliorer à l'inférence les politiques VLA (Vision-Language-Action) basées sur la diffusion, sans nécessiter de réentraînement. SDN opère dans l'espace du bruit de diffusion en sélectionnant dynamiquement des vecteurs de bruit maximalement séparés d'un ensemble de référence, ce qui réduit la dépendance aux corrélations visuelles parasites, tout en filtrant les candidats produisant des trajectoires d'action plus cohérentes. La méthode a été évaluée sur deux benchmarks de simulation (Google Robot, Widow-X) et deux jeux de données réels, sur plusieurs politiques VLA majeures dont pi0 (Physical Intelligence), Groot-N1.5 et Groot-N1.6 (NVIDIA). Les gains annoncés sont de +8 points de taux de succès en simulation et +10 points en conditions réelles, avec une réduction mesurable du "action jitter", c'est-à-dire l'instabilité des trajectoires articulaires. Ces résultats sont issus d'un preprint non encore évalué par les pairs. L'intérêt pratique tient à l'approche "training-free" : SDN s'applique à l'inférence sans modifier les paramètres du modèle, ce qui permet d'améliorer un système déjà déployé sans refondre le pipeline ML ni supporter les coûts d'un réentraînement. Pour un intégrateur ou un décideur achetant une solution robotique basée sur une politique VLA, ce type de méthode représente un levier de fiabilité à faible coût opérationnel. La robustesse maintenue sous des observations avec occultation partielle (object-masked observations) est également pertinente pour les environnements industriels réels. SDN s'inscrit dans la tendance plus large des techniques d'optimisation test-time appliquées aux modèles génératifs, analogues au best-of-N sampling dans les LLMs. Les politiques VLA basées sur la diffusion, popularisées par Physical Intelligence (pi0, pi0.5) et NVIDIA Isaac (GR00T N1.5, N1.6), sont devenues en 2025-2026 la référence de facto en manipulation robotique généraliste. Elles héritent toutefois d'une sensibilité aux artefacts visuels hors distribution et d'une certaine instabilité d'action, deux problèmes que SDN cible directement. L'abstract ne mentionne ni affiliation institutionnelle ni dépôt de code public, ce qui limite pour l'instant la reproductibilité et les comparaisons indépendantes. Les prochaines étapes naturelles seraient une validation sur plateformes humanoïdes complètes (Figure, 1X, Unitree H1) et des benchmarks de manipulation plus diversifiés que Widow-X ou Google Robot.

UELes intégrateurs européens déployant des solutions robotiques basées sur des politiques VLA (pi_0, GR00T) pourraient bénéficier de cette méthode d'optimisation sans réentraînement, mais aucun acteur FR/EU n'est directement impliqué dans ces travaux.

IA physiqueOpinion
1 source
ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée
208arXiv cs.RO 

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

Des chercheurs ont publié en juin 2026 un préprint arXiv (2606.14255) présentant ReactVLA, un framework VLA (Vision-Language-Action) conçu pour réduire drastiquement la latence d'inférence des politiques de manipulation robotique. Le problème ciblé est précis : les architectures VLA basées sur la diffusion, comme π₀ (Physical Intelligence) ou SmolVLA (HuggingFace/LeRobot), génèrent des distributions d'action expressives mais exigent un échantillonnage itératif coûteux, qui plombe leur utilisabilité en boucle fermée temps-réel. ReactVLA propose deux mécanismes complémentaires pour y remédier : un générateur d'actions iMF (improved Mean Flow) qui ramène la diffusion multi-étapes à une ou quelques passes seulement, et AttnRes (Attention Residuals), un mécanisme de routage dynamique des features par couche d'attention censé mieux préserver les représentations multimodales liées à la tâche. Sur les benchmarks de simulation LIBERO et RoboIMI, ainsi que sur des tâches de manipulation physique, ReactVLA affiche jusqu'à 1,65× de gain en taux de succès sur les tâches de précision et plus de 4× d'accélération à l'inférence par rapport aux VLA de référence de taille comparable. La latence de politique en conditions réelles tombe sous 38,6 ms. Ce seuil de 38,6 ms est le chiffre à retenir pour un intégrateur ou un ingénieur robotique : il passe sous la barre des 40 ms généralement considérée comme nécessaire pour un contrôle réactif crédible en manipulation dynamique, là où les modèles de diffusion standards restent souvent au-delà de 150 à 300 ms. Si les résultats se confirment hors contexte académique, cela répond à l'une des critiques récurrentes contre les VLA pour l'industrie : la qualité d'action est là, mais la cadence ne suit pas. L'approche Mean Flow (accélération de la diffusion par réduction du nombre d'étapes via un flux de probabilité direct) n'est pas nouvelle en vision générative, mais son application aux espaces d'action robotiques avec maintien des performances sur tâches de précision reste un résultat non trivial. Il faut cependant nuancer : il s'agit d'un preprint non relu, les benchmarks LIBERO et RoboIMI sont des environnements académiques standardisés loin des contraintes industrielles réelles, et les vidéos de démonstration présentées sur le site projet ne constituent pas une validation de déploiement. ReactVLA s'inscrit dans une course dense à l'efficacité des VLA depuis 2024. π₀ (Physical Intelligence) reste la référence en qualité d'action sur tâches bimanuelle complexes mais souffre précisément de cette latence. SmolVLA, publié par HuggingFace début 2025, vise la légèreté et l'accessibilité open-source. Côté industriel, GR00T N2 de NVIDIA et Helix (co-développé par Figure et d'autres partenaires) intègrent leurs propres pipelines VLA dans des architectures humanoïdes avec des contraintes de déploiement très différentes. Aucune affiliation institutionnelle ni source de financement n'est mentionnée dans le preprint, ce qui limite l'évaluation du contexte de transfert technologique. Les prochaines étapes naturelles seraient une validation sur des manipulateurs industriels (6-DOF, scénarios de pick-and-place variables) et une soumission en conférence de référence comme CoRL ou ICRA pour validation par les pairs.

UESmolVLA (HuggingFace, entreprise française) est cité comme référence comparative directe, mais ReactVLA est un preprint sans affiliation institutionnelle connue et sans déploiement démontré en Europe, l'impact reste indirect via l'écosystème open-source LeRobot.

IA physiqueOpinion
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
209arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

IA physiquePaper
1 source
Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire
210arXiv cs.RO 

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Des chercheurs présentent dans un preprint arXiv publié en juin 2026 (2606.08542) une formalisation et une solution partielle à un problème mal documenté de la planification robotique : les grands modèles de vision-langage actuels (VLMs, LLMs multimodaux incarnés) ne savent pas lire les traces d'exploration robotique. Le cas typique : un robot tire sur un tiroir verrouillé, échoue, puis réussit après avoir ouvert le verrou. Cet échec initial n'est pas du bruit, c'est la preuve d'une précondition latente (le tiroir était verrouillé), et donc la clé pour inférer la séquence minimale d'actions correcte. Les auteurs formalisent ce problème sous le nom EMT-QA (Exploratory Manipulation Trace QA) et proposent la Closed-Loop Trace Distillation : un agent de codage par tâche inspecte les traces d'entraînement étiquetées et en distille une heuristique de lecture en une seule ligne de langage naturel, appelée DRH (Distilled Reading Heuristic). À l'inférence, pas d'agent invoqué, pas de mise à jour de poids : un VLM figé reçoit la trace brute augmentée du DRH. Sur cinq tâches (trois en simulateur, deux sur robot réel), le DRH améliore la précision de la chaîne d'actions de +0,38 à +0,47 par rapport aux meilleures baselines en modalité brute. Ce résultat contredit une hypothèse courante dans le secteur : que des VLMs suffisamment puissants "verront" naturellement les préconditions cachées dans une vidéo d'exécution. L'étude démontre que ni la vidéo brute, ni la proprioception, ni leur combinaison ne suffisent. Pour les équipes qui intègrent des VLMs comme backbone de planification dans des systèmes de manipulation industrielle, cela signifie qu'une couche de distillation d'heuristiques peut s'avérer indispensable, sans nécessiter de fine-tuning ni d'infrastructure supplémentaire à l'inférence. Fait notable : le même DRH sert également de spécification unique pour des classifieurs programmatiques one-shot qui égalent les performances du VLM prompté, ouvrant une voie vers des pipelines de validation auditables et plus légers. Ces travaux s'inscrivent dans la dynamique des politiques robotiques fondées sur la vidéo et le langage (VLA), portée notamment par Physical Intelligence (Pi-0), NVIDIA (GR00T N2) ou Google DeepMind, qui s'appuient tous sur des VLMs comme planificateurs. La lecture fiable des traces d'exécution est un angle mort reconnu dans la communauté, souvent masqué dans les démos par des conditions expérimentales favorables. Le périmètre de validation reste restreint (cinq tâches au total), et la généralisation à des préconditions plus complexes ou à des chaînes d'actions plus longues n'est pas encore établie. Les suites naturelles incluent l'évaluation sur des benchmarks de manipulation plus larges et, surtout, la génération de DRH sans traces étiquetées en amont, condition nécessaire à la scalabilité réelle de l'approche.

RechercheOpinion
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
211arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
212arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
213arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion
1 source
Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
214arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source
Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes
215arXiv cs.RO 

Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Un article de revue de littérature déposé sur arXiv le 2 juin 2026 (identifiant 2606.00090) pose un problème de sécurité systémique pour les systèmes d'IA physique : les modèles de fondation, modèles vision-langage-action (VLA) et modèles du monde qui pilotent des robots, véhicules, drones et machines industrielles peuvent émettre des commandes physiquement dangereuses tout en paraissant confiants, plausibles et sémantiquement corrects. Les auteurs nomment ce phénomène "silent failure" (défaillance silencieuse) : une action physiquement conséquente est déclenchée avant qu'un contrôleur matériel en aval détecte une anomalie, sous l'effet d'une dérive de capteur, d'une occlusion, d'une erreur d'estimation d'état, d'un glissement de distribution, d'affordances hallucinées ou d'hypothèses physiques invalides. Ces défaillances ne sont capturées ni par la modération de contenu classique des systèmes d'IA, ni par les normes de sécurité robotique traditionnelles. L'enjeu industriel est direct : là où les intégrateurs s'appuient sur des couches de sécurité fonctionnelle (normes ISO 10218, IEC 61508) pensées pour des automates déterministes, les VLA introduisent un générateur d'actions opaque dont les sorties ne respectent aucune enveloppe formellement vérifiable. La revue synthétise un écart récurrent : sur l'ensemble des corpus analysés, modèles de fondation incarnés, simulation robotique, benchmarks de sécurité embodied, contrôle sûr, assurance runtime, estimation d'incertitude, vérification formelle et évaluation de guardrails, aucun flux technique ne fournit à lui seul une frontière d'autorisation complète entre le modèle boîte noire et l'exécution physique. Cela signifie que les déploiements actuels de robots humanoïdes ou d'AGV pilotés par des LLM reposent sur des garde-fous fragmentés dont la couverture n'est pas évaluée de manière unifiée. Pour combler ce vide, les auteurs proposent une formalisation bornée du problème, une définition rigoureuse de la "défaillance physique silencieuse", une taxonomie des fonctions de guardrail runtime, et des critères d'évaluation permettant de comparer ces guardrails comme mécanismes d'assurance. Le papier ne décrit pas de système déployé ni de résultats expérimentaux : c'est une revue structurante, dont l'utilité principale est de fournir un cadre commun à une communauté fragmentée entre labs robotique, sécurité IA et contrôle formel. Les acteurs comme Boston Dynamics (Spot + foundation models), Figure, 1X ou Apptronik, qui poussent vers des déploiements industriels de robots à base de VLA, sont implicitement concernés, tout comme les équipes de recherche travaillant sur Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La prochaine étape naturelle serait une validation empirique de la taxonomie proposée sur des benchmarks embodied existants comme RoboSuite ou Open-X Embodiment.

UELa mise en évidence d'un vide normatif entre les standards industriels EU (ISO 10218, IEC 61508) et les systèmes VLA opaques concerne directement les intégrateurs européens déployant des robots autonomes sous le régime de l'AI Act.

RechercheOpinion
1 source
Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements
216arXiv cs.RO 

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

Un article de position déposé sur arXiv en juin 2026 (arXiv:2606.01036) soulève un problème structurel dans l'entraînement des robots fondationnels : les modèles de récompense embarqués (embodied reward models), centraux dans toute boucle d'apprentissage par renforcement, sont quasi-exclusivement entraînés sur des comportements réussis. Les auteurs ont évalué trois modèles de récompense de l'état de l'art et constatent qu'ils sur-récompensent systématiquement trois catégories de comportements qu'un évaluateur humain pénaliserait : interactions non sécurisées avec l'environnement, exécution de mauvaise qualité, et stratégies de raccourci qui satisfont l'apparence d'une tâche sans en remplir l'objectif réel. La cause pointée est le manque chronique de données négatives dans les datasets robotiques existants : comportements ratés, sous-optimaux ou dangereux, coûteux à collecter et systématiquement filtrés ou retenus par les équipes. Ce biais a des implications directes pour tout déploiement de robot généraliste en environnement industriel. Un modèle de récompense qui valide des comportements non sécurisés ou des raccourcis fonctionne comme un juge défaillant au coeur même de la boucle d'entraînement, produisant des systèmes validés en simulation mais problématiques en production. Les auteurs montrent qu'une exposition modeste à de vraies données de comportements négatifs améliore l'alignement avec les préférences humaines et réduit les faux positifs coûteux, argument pour une action corrective accessible à court terme plutôt qu'un problème structurel insoluble. La problématique s'impose avec l'essor des modèles vision-langage-action (VLA) tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure. Dans ce contexte, collecter des données d'échec reste plus contraignant qu'en NLP : chaque trajectoire ratée mobilise du matériel physique et présente un risque opérationnel réel. Les auteurs appellent la communauté à quatre actions concrètes : publier les données négatives aujourd'hui retenues, construire des moteurs de génération synthétique de mauvais comportements, déployer des systèmes d'évaluation physique décentralisés, et créer des benchmarks dédiés à l'évaluation fine des reward models. Aucun partenaire institutionnel ni calendrier opérationnel n'est annoncé dans le document, ce qui en fait pour l'instant un manifeste académique sans engagement opérationnel identifié.

IA physiqueOpinion
1 source
Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables
217arXiv cs.RO 

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

Des chercheurs ont publié le 29 mai 2026 un article (arXiv:2605.29407) présentant un système robotique capable de manipuler des objets déformables, comme des vêtements, avec une récupération autonome en cas d'échec. Le système, baptisé PHASER, repose sur une architecture hiérarchique en boucle fermée : un encodeur ACT (Action Chunking with Transformers) conditionné via FiLM (Feature-wise Linear Modulation) adapte l'extraction de features selon la phase courante de la tâche, permettant à une politique unifiée de produire des comportements distincts à chaque étape sans dupliquer les modèles. Un prédicteur de phase multimodal fusionne retour visuel, force et pose en temps réel pour estimer l'état courant et détecter les échecs de contact invisibles à la caméra. Un contrôleur d'impédance hybride assure l'exécution compliante. Validé sur la tâche d'accrochage et de retrait d'un T-shirt en manipulation bimanuelle, le système fait passer le taux de succès de 56 % à 87 % grâce à la récupération autonome des erreurs. Ce résultat est notable car la manipulation d'objets déformables reste un des verrous les plus résistants de la robotique industrielle et domestique : les propriétés mécaniques imprévisibles du tissu rendent caduques les approches rigides classiques. Le problème de state aliasing, où des observations visuellement similaires exigent des actions contradictoires selon la phase, sabote les politiques d'imitation standard en inférence markovienne. En conditionnant la politique sur la phase estimée plutôt que sur l'observation brute, et en intégrant le retour de force comme signal de détection d'anomalie, les auteurs montrent qu'il est possible de construire un pipeline sim-to-real sans oracle externe. Les études d'ablation confirment que le conditionnement FiLM surpasse significativement les baselines non conditionnées et celles à token-level, et l'analyse t-SNE valide que les représentations apprises sont bien séparées par phase. L'approche s'inscrit dans la lignée des travaux sur l'imitation learning pour la manipulation dextre, notamment ACT (Chi et al., 2023) et les Diffusion Policies, qui peinent sur les objets non rigides. Elle se distingue des frameworks VLA (Vision-Language-Action) à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation par préentraînement massif plutôt que sur la structure de la tâche. PHASER adopte une stratégie inverse : contrainte forte sur la structure de phase, données limitées, récupération explicite. Les auteurs publient le code et les vidéos en open access. Les prochaines étapes naturelles incluent l'extension à d'autres classes de vêtements et la réduction de la dépendance à l'interface de télé-opération haptique pour la collecte de données d'entraînement.

RecherchePaper
1 source
VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA
218arXiv cs.RO 

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (référence 2605.29605) VLAConf, un framework de détection de confiance pour les modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le principe repose sur un module léger ("confidence head") branché sur les représentations internes d'un VLA préentraîné et figé, capable de calculer en un seul passage (single forward pass) un score d'anomalie à chaque étape de la trajectoire. Le système intègre également un mécanisme de "step-conditioned modeling" qui encode la phase d'exécution le long du rollout. Les performances sont évaluées sur le benchmark LIBERO, référence académique pour la manipulation multi-tâches, et validées sur robot physique. L'enjeu est direct pour le déploiement industriel des VLA : anticiper l'échec d'une tâche avant qu'il ne survienne est une condition nécessaire pour les applications à risque, de la chaîne de montage au laboratoire pharmaceutique. Les méthodes existantes souffrent de deux limitations majeures. Les approches par ensembles requièrent des échantillonnages répétés qui pénalisent fortement le temps d'inférence. Les méthodes basées sur les probabilités de tokens d'action sont incompatibles avec les espaces d'action continus, ce qui exclut de facto les VLA les plus récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). VLAConf contourne ces deux obstacles en un seul forward pass, sans modifier l'architecture du modèle hôte, ce qui lui confère une portabilité inter-architectures notable. Les auteurs revendiquent une nette supériorité sur les baselines en termes de qualité du signal de confiance et d'efficacité à l'inférence, bien que les marges précises ne soient pas détaillées dans le résumé disponible. Les VLA connaissent une accélération marquée depuis 2024 : pi-0 de Physical Intelligence, OpenVLA (Berkeley) et GR00T N2 de NVIDIA ont chacun proposé des approches pour généraliser la manipulation en monde ouvert. La robustesse à l'échelle reste cependant le principal frein au déploiement commercial, et la confiance calibrée en constitue une composante critique. VLAConf se positionne comme une brique d'infrastructure transversale, là où ses prédécesseurs restaient cantonnés aux sorties discrètes. Le code source est rendu public. Ce travail est académique, sans partenariat commercial annoncé.

IA physiqueOpinion
1 source
Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage
219arXiv cs.RO 

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

Une équipe de chercheurs a publié le 29 mai 2026 Embodied3DBench, un benchmark conçu pour évaluer les capacités de perception spatiale bas niveau des modèles de vision-langage (VLMs) dans des environnements 3D incarnés. Le benchmark couvre 6 catégories de tâches réparties en deux groupes : la compréhension structurelle spatiale (ancrage d'objets, prédiction de relations spatiales, correspondance multi-vues) et la perception orientée interaction (prédiction d'affordances, prédiction de points de saisie, prédiction de trajectoires). Il totalise 12 sous-catégories et plus de 21 000 paires questions-réponses annotées. Treize modèles de pointe ont été évalués sur ce corpus. En parallèle, les auteurs ont synthétisé un dataset d'entraînement à grande échelle de 1,3 million de paires QA pour tenter de combler les lacunes identifiées. Les résultats révèlent une dissociation nette dans les capacités des VLMs actuels : ces modèles affichent des performances raisonnables sur le raisonnement spatial de haut niveau, notamment les relations de position entre objets, mais restent très fragiles dès qu'il s'agit de perception orientée interaction, c'est-à-dire prédire où saisir un objet, anticiper une trajectoire de manipulation, ou estimer l'affordance d'une surface. Pour les équipes qui développent des modèles vision-langage-action (VLA) destinés à la manipulation robotique, ce résultat est structurant : il indique que les fondations perceptuelles nécessaires au déploiement réel restent insuffisantes dans les architectures actuelles, y compris les plus récentes. Le fine-tuning sur le dataset de 1,3M paires améliore significativement les scores bas niveau, ce qui suggère que le problème est en partie un déficit de données d'entraînement ciblées plutôt qu'une limite architecturale fondamentale. Ce travail s'inscrit dans un effort plus large de la communauté robotique pour doter les VLMs de capacités d'interaction physique, au-delà de la simple description de scènes. Des systèmes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) reposent sur ces mêmes briques perceptuelles pour passer de la compréhension sémantique à l'action motrice. Jusqu'ici, l'évaluation de ces capacités bas niveau manquait d'un cadre standardisé : la plupart des benchmarks existants (ScanQA, EmbodiedScan) ciblent la compréhension de scènes plutôt que la manipulation. Embodied3DBench comble ce vide méthodologique en proposant à la fois un protocole d'évaluation reproductible et un levier de progression via son dataset synthétique. L'article est disponible en preprint (arXiv:2605.29074) et le code devrait être rendu public prochainement.

RechercheActu
1 source
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
220arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

IA physiqueOpinion
1 source
SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions
221arXiv cs.RO 

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

SpecPrune-VLA est une méthode d'élagage (pruning) des modèles Vision-Langage-Action (VLA) publiée sur arXiv (arXiv:2509.05614v3, version révisée). Les VLA sont les architectures neuronales qui transforment images et instructions en langage naturel en commandes motrices pour robots manipulateurs. Sans réentraînement requis, la méthode opère à deux niveaux : un élagage statique par action, combinant historique global et attention locale pour réduire les tokens visuels traités à chaque étape, et un élagage dynamique couche par couche selon l'importance estimée de chaque couche du réseau. Un troisième composant, un contrôleur léger, classifie chaque action en "grossière" ou "fine" selon la vitesse de l'effecteur terminal, et ajuste l'agressivité du pruning en conséquence. Résultats annoncés : facteur d'accélération de 1,57x en simulation LIBERO et 1,70x sur tâches réelles, avec dégradation négligeable du taux de succès. L'enjeu est directement industriel. Les modèles VLA tels que pi-0 et pi-0.5 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA sont progressivement déployés dans des cellules de manipulation robotique, mais leur latence d'inférence reste un verrou pour l'embarqué temps réel. Les méthodes d'accélération existantes, focalisées sur la seule information locale à chaque step, provoquent des chutes de taux de succès supérieures à 20%, ce qui est rédhibitoire pour des environnements de production. SpecPrune-VLA exploite la cohérence spatiale et temporelle inhérente aux tâches robotiques : des frames consécutives se ressemblant fortement, des tokens visuels redondants peuvent être supprimés sans sacrifier la précision motrice. L'absence de réentraînement abaisse significativement la barrière d'adoption pour les intégrateurs. Le gain de 1,70x sur tâches réelles est un résultat solide, même si les conditions expérimentales précises (type de robot, nature des tâches, payload) ne sont pas détaillées dans le résumé publié. Le pruning de tokens dans les transformers est une technique mature côté LLMs (SnapKV, DuoAttention), mais son application aux VLA soulève des défis spécifiques liés à la nature temporelle et multimodale des entrées, et au fait que les erreurs motrices se cumulent sur des horizons longs. Les principaux acteurs qui investissent dans la réduction de la latence d'inférence VLA sont NVIDIA avec Isaac GR00T, Physical Intelligence avec ses modèles pi, et Figure AI avec son architecture Helix. Aucun acteur français ou européen n'est mentionné dans ces travaux. La publication en version v3 sur arXiv signale des révisions substantielles depuis la soumission initiale, mais l'acceptation dans une conférence ou un journal n'est pas encore confirmée, ce qui invite à nuancer la portée des résultats annoncés en attendant une évaluation par les pairs.

💬 1,70x sur du matériel réel sans réentraîner, c'est le genre de résultat qui va donner des idées aux intégrateurs qui bloquent sur la latence depuis des mois. La distinction grossière/fine selon la vitesse de l'effecteur, c'est malin : ça montre qu'ils ont pensé à la dynamique réelle du robot, pas juste au benchmark simulé. Bon, c'est encore v3 sur arXiv, pas de validation en conférence pour l'instant, faut garder ça en tête.

IA physiqueOpinion
1 source
PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration
222arXiv cs.RO 

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Une équipe de chercheurs présente PGDG (Physically Grounded Data Generation), un cadre qui permet d'entraîner une politique de manipulation bimanuelles robuste à partir d'une seule démonstration humaine. Déposé sur arXiv en mai 2026 (réf. 2605.21710), le système attaque un problème structurant du behavior cloning : tout écart par rapport à la trajectoire apprise plonge le robot dans des états hors distribution, sans signal de récupération disponible dans les données d'entraînement. PGDG génère automatiquement, sans annotation humaine supplémentaire, un ensemble compact de trajectoires physiquement plausibles couvrant ces comportements de récupération manquants. Il alterne entre un échantillonneur ancré en physique et un curateur de données qui oriente progressivement l'exploration vers les modes sous-représentés, complété par un reétiquetage d'actions correctives sur les états risqués. Sur la tâche RotateBox-Pitch, manipulation bimanuelles par contact, le taux de succès passe de 38 % à 93 % en simulation et de 35 % à 82 % en transfert zéro-shot vers le robot réel. Appliqué au fine-tuning de GR00T, le modèle de fondation vision-langage-action de NVIDIA, la méthode améliore le taux de succès de 46 % à 77 %. Le résultat le plus notable pour les intégrateurs est le transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques fonctionne directement sur le robot physique, sans adaptation terrain. Ce résultat valide empiriquement que la génération ancrée en physique peut combler le sim-to-real gap pour les tâches en contact, historiquement le talon d'Achille de la manipulation dextère. La compatibilité avec GR00T (un VLA) ouvre également une voie pour enrichir les modèles de fondation à faible coût de collecte : une démonstration unique remplace les centaines typiquement requises en téléopération, ce qui modifie le calcul économique pour tout projet de déploiement à grande variété de configurations. Ce travail s'inscrit dans la course à l'efficacité des données en robotique manipulatrice. L'augmentation spatiale classique, premier concurrent direct, est systématiquement surpassée sur les quatre tâches testées. Les approches alternatives misent soit sur la collecte massive comme ACT/ALOHA (des milliers de démonstrations), soit sur le pré-entraînement multi-tâche à grande échelle comme pi-0 de Physical Intelligence. PGDG se distingue par son paradigme "une démonstration suffit", potentiellement attractif dès que la diversité des pièces ou des configurations rend la collecte par tâche prohibitive. La validation reste pour l'instant en environnement laboratoire ; une évaluation sur des tâches industrielles réelles constituerait la prochaine étape logique.

💬 Une démo au lieu de mille, et le robot fonctionne directement sur le physique sans adaptation terrain. Le sim-to-real sur de la manipulation par contact, c'était le blocage structurel depuis des années, et là ils sortent 82% en zéro-shot sur le robot réel, c'est pas un résultat qu'on voit souvent. Reste à tenir hors labo.

IA physiqueOpinion
1 source
Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques
223arXiv cs.RO 

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

Des chercheurs ont publié sur arXiv (2605.21935, mai 2026) un système de cartographie dynamique baptisé MIF (Multi-modal Interactive Field), conçu pour permettre aux robots humanoïdes de naviguer et de manipuler des objets dans des environnements réels en constante évolution. Testé sur un Unitree G1, le système améliore le taux de relocalisation dans un bureau non-statique de 12 % à 94 %, tout en réduisant l'empreinte mémoire sémantique de 91,4 % grâce à la distillation de features. MIF repose sur trois composantes couplées : un champ d'apparence basé sur le 3D Gaussian Splatting (3DGS) conscient de l'incertitude pour atténuer le flou induit par la marche bipède, un champ spatial maintenant une mémoire topologique de la scène, et un champ géométrique qui calcule une pose d'interaction sûre (Interaction Pose Safety, IPS) avant chaque manipulation. Un score de détection de discordance distingue les fausses alarmes dues aux oscillations du robot des changements persistants réels, et ne met à jour que les zones localement incohérentes. L'enjeu pratique est direct : les systèmes de cartographie sémantique existants (semantic maps, scene graphs) supposent généralement des trajectoires caméra stables et des environnements statiques, deux hypothèses qu'un humanoïde en mouvement viole en permanence. Passer de 12 % à 94 % de succès en relocalisation sur un robot réel dans un bureau avec personnes en mouvement constitue un résultat concret, pas une démo en laboratoire contrôlé. Pour un intégrateur ou un COO industriel évaluant des humanoïdes pour des tâches de pick-and-place, la capacité à maintenir une carte cohérente sous perturbation locomotrice est un prérequis opérationnel non négociable que la plupart des démos actuelles ne valident pas. Le contexte de ce travail s'inscrit dans l'essor du 3DGS comme alternative aux NeRF pour la représentation de scènes en temps réel, une technique popularisée en 2023 et dont l'adaptation à la robotique mobile reste un sujet de recherche actif. L'Unitree G1 est l'une des plateformes humanoïdes commerciales les plus accessibles du marché (autour de 16 000 dollars), ce qui rend ce type de validation plus reproductible que sur des robots propriétaires comme l'Atlas de Boston Dynamics ou le Figure 02. Le code et la page projet sont publiés (ziya-jiang.github.io/MIF-homepage), signal d'une recherche ouverte à la reproduction. Les prochaines étapes naturelles seraient une validation à plus grande échelle et une intégration dans des pipelines de manipulation end-to-end, terrain sur lequel Physical Intelligence (Pi-0) et les équipes GR00T de NVIDIA travaillent en parallèle.

HumanoïdesPaper
1 source
TacO : évaluation comparative des capteurs tactiles pour la manipulation d'objets
224arXiv cs.RO 

TacO : évaluation comparative des capteurs tactiles pour la manipulation d'objets

Des chercheurs ont publié sur arXiv (réf. 2605.21976) un cadre d'évaluation systématique baptisé TacO, conçu pour comparer les capteurs tactiles sur des tâches de manipulation robotique concrètes. Quatre modalités ont été mises à l'épreuve : capteurs visuels (à base de caméra et d'élastomère), acoustiques, magnétiques et résistifs, testés sur trois scénarios représentatifs de l'assemblage industriel : pick-and-place avec masse inconnue, réorientation d'objet en main, et insertion de connecteur. Pour chaque tâche, des politiques de manipulation distinctes ont été entraînées, puis évaluées selon les propriétés intrinsèques de chaque capteur : résolution spatiale, détection du cisaillement (shear sensing), représentation tactile, et friction du matériau de contact. L'ensemble des capteurs, du code, des données et des configurations matérielles sera rendu public sur le site du projet. Ce travail remet en cause une hypothèse structurante de la communauté robotique : que le toucher améliore systématiquement les performances de manipulation. TacO montre au contraire que l'utilité de l'information tactile dépend fortement de la modalité du capteur, des propriétés mécaniques des matériaux et de la nature exacte de la tâche. Cette nuance a des implications directes pour les intégrateurs et les équipes R&D : choisir un capteur tactile sans référence à la tâche cible relève du pari. Pour les COO et décideurs industriels qui évaluent des solutions de manipulation complexe (assemblage, insertion, tri de pièces), TacO fournit un étalon comparatif là où n'existait jusqu'ici que du consensus non quantifié. Il faut noter que les métriques de performance détaillées par tâche ne sont pas divulguées dans le préprint, ce qui limite l'interprétation sans accès au papier complet. Le besoin de ce benchmark s'inscrit dans une dynamique plus large : le succès des approches vision-language-action (VLA) et de l'apprentissage par démonstration a repoussé les limites du manipulation standard, mais ces méthodes butent sur les tâches à contact riche, où le retour visuel seul ne suffit pas. Plusieurs capteurs font figure de références sectorielles -- GelSight et DIGIT pour le tactile visuel, ReSkin pour le magnétique, des matrices résistives pour la pression -- mais aucune comparaison tête-à-tête rigoureuse ne permettait aux équipes de justifier leur choix. TacO comble ce vide méthodologique. Les prochaines étapes naturelles incluent l'extension à des tâches bi-manuelles, à des environnements moins contrôlés, et l'intégration de ces résultats dans les pipelines d'entraînement de politiques généralisées comme Pi-0 ou GR00T N2.

UELes équipes R&D et intégrateurs européens travaillant sur la manipulation à contact riche pourront s'appuyer sur ce benchmark open-source pour justifier objectivement leurs choix de capteurs tactiles, comblant un vide méthodologique jusqu'ici non quantifié.

RecherchePaper
1 source
TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle
225arXiv cs.RO 

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

Une équipe de chercheurs a publié TwinRL (arXiv:2602.09023), un framework de post-entraînement qui couple un jumeau numérique reconstruit par smartphone avec du reinforcement learning (RL) en monde réel pour affiner des modèles Vision-Language-Action (VLA) en manipulation robotique. La méthode se déroule en trois phases successives : un warm-up par fine-tuning supervisé (SFT), un warm-up RL dans le jumeau numérique, puis du RL directement sur robot. Sur quatre tâches de manipulation testées, TwinRL atteint un taux de succès proche de 100 % en configuration distributionnelle et hors-distribution, avec une convergence 30 % plus rapide que les méthodes de RL réel existantes. Élément frappant : seulement 20 minutes d'interaction physique sur robot sont nécessaires pour obtenir ces résultats, contre des heures ou journées typiques pour les approches concurrentes. L'importance de ce résultat tient à un verrou bien connu du secteur : les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) généralisent bien mais restent coûteux à affiner, car ils dépendent de démonstrations expertes massives et leur exploration en RL réel est lente et peu couvrante. Les auteurs montrent expérimentalement que l'espace d'exploration du RL en ligne reste structurellement contraint par la distribution de trajectoires issue du SFT initial, ce qui explique les plafonds de performance observés dans la littérature. TwinRL contourne ce problème en utilisant le jumeau numérique non pas comme outil d'augmentation de données, mais comme guide actif d'exploration : il identifie les configurations difficiles et dirige les rollouts humains là où le robot échoue, réduisant drastiquement le temps on-robot. Pour un intégrateur ou un COO industriel, cela signifie que le déploiement de robots polyvalents pourrait ne plus nécessiter des semaines de collecte de données en production. Ce travail s'inscrit dans une vague de recherches cherchant à résoudre le sim-to-real gap sans recourir à des simulateurs coûteux : ici, la reconstruction du jumeau numérique part de simples captures smartphone, ce qui abaisse significativement la barrière d'entrée. Les approches concurrentes incluent le RL en simulation pure (souvent peu transférable), la distillation de politiques, et les méthodes de curriculum learning. TwinRL se distingue par son pipeline hybride et son usage ciblé de l'humain dans la boucle. Aucune date de déploiement industriel ni partenariat commercial n'est annoncé, il s'agit d'un résultat de recherche académique, mais la faible exigence en temps robot ouvre des perspectives concrètes pour des cellules de manipulation flexible dans l'industrie manufacturière ou logistique.

RechercheOpinion
1 source
Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact
226arXiv cs.RO 

Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact

Une équipe de chercheurs publie sur arXiv (2605.17336v1) un état de l'art de la fusion tactile multimodale dans les systèmes d'intelligence incarnée, couvrant les travaux jusqu'au premier trimestre 2026. L'article recense les approches qui combinent capteurs tactiles, vision et modèles de langage (LLM), et propose une taxonomie hiérarchique selon deux axes : les jeux de données multimodaux (Tactile-Vision, Tactile-Language, Tactile-Vision-Language) et les méthodes, regroupées en trois piliers : perception et reconnaissance (prédiction de saisie, identification d'objets), génération cross-modale (traduction bidirectionnelle entre données tactiles, visuelles et textuelles), et interaction multimodale (contrôle par retour d'effort, manipulation guidée par le langage). Le survey recense également le matériel de captation tactile représentatif et les métriques d'évaluation en usage dans les benchmarks actuels. Ce travail arrive à un moment critique : le toucher reste la grande modalité sensorielle non unifiée dans les pipelines robotiques modernes. Les systèmes de manipulation actuels, qu'il s'agisse de bras industriels ou d'humanoïdes comme Figure 03, Optimus ou GR00T N2, s'appuient massivement sur la vision et les VLA (Vision-Language-Action models), mais le retour tactile reste sous-exploité, souvent réduit à des capteurs force/couple rudimentaires. La perception tactile fournit pourtant des informations irremplaçables sur la géométrie de contact, les propriétés des matériaux et la dynamique d'interaction que la caméra seule ne peut pas restituer, ce qui en fait probablement la prochaine frontière pour réduire les taux d'échec en manipulation fine (assemblage, tri de pièces déformables, objets fragiles). Le domaine a connu une accélération depuis 2020 grâce aux capteurs visuotactiles comme GelSight (MIT) et DIGIT (Meta/FAIR), qui convertissent la déformation de surface en image RGB et permettent d'appliquer les architectures de vision standard au toucher. Des laboratoires comme Stanford, CMU et plusieurs groupes chinois (Shanghai AI Lab, Tsinghua) ont produit l'essentiel des datasets référencés. En Europe, des acteurs comme Shadow Robot et Wandercraft travaillent sur l'intégration du retour haptique dans des systèmes commerciaux. La fragmentation des datasets et des protocoles d'évaluation reste le principal frein à la montée en échelle, et les auteurs identifient la création de benchmarks unifiés et de modèles fondation tactiles comme les prochains jalons structurants du domaine.

UEWandercraft (France) est cité parmi les acteurs travaillant sur l'intégration du retour haptique dans des systèmes commerciaux, mais ce survey académique n'a pas d'impact opérationnel direct sur la France/UE à court terme.

RecherchePaper
1 source
COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés
227arXiv cs.RO 

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Des chercheurs ont publié sur arXiv (arXiv:2605.17144) une méthode d'inférence baptisée COAST, Contrastive Conceptor Activation Steering, conçue pour améliorer les performances des modèles Vision-Language-Action (VLA) sans nécessiter aucun réentraînement. Le constat de départ est documenté mais rarement quantifié aussi clairement : malgré un pré-entraînement massif sur des corpus web (images, texte, vidéo), les VLA échouent fréquemment sur des tâches robotiques élémentaires. COAST construit ce qu'on appelle des "conceptors", des opérateurs linéaires qui projettent les données vers les composantes principales d'une distribution cible. En pratique, on fournit au système quelques trajectoires de succès et d'échecs pour une tâche donnée ; COAST en extrait des sous-espaces d'activation critiques pour le succès, puis oriente les états latents du modèle vers ces sous-espaces au moment de l'inférence. Testée sur trois architectures distinctes, VLA à flow-matching, VLA autorégressif et Diffusion Policy, la méthode améliore le taux de succès absolu de plus de 20 points en simulation et de plus de 40 points sur robot réel. Ces chiffres sont significatifs parce qu'ils suggèrent que les VLA actuels encodent déjà une connaissance pertinente pour la tâche dans leurs représentations internes, mais qu'un goulot d'étranglement dans le décodage de l'action empêche cette connaissance de se traduire en comportement fiable. COAST contourne ce problème sans toucher aux poids du modèle, ce qui le rend compatible avec n'importe quel VLA déployé. Autre observation structurelle importante : les modes d'échec partagent une géométrie commune entre tâches différentes, alors que les représentations de succès restent largement spécifiques à chaque tâche. Cette asymétrie permet de réutiliser des conceptors calibrés sur une tâche pour améliorer les performances sur une tâche nouvelle, sans recalibration. Le travail s'inscrit dans un courant plus large de recherche sur le pilotage des représentations internes (activation steering), initialement développé dans le domaine de l'interprétabilité mécanistique des LLM. Côté robotique, les VLA de référence incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, tous confrontés à ce même écart entre performance en démo et robustesse en déploiement réel. COAST ne rivalise pas avec ces modèles mais s'y greffe en post-traitement. Les auteurs n'annoncent pas de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche, dont la prochaine étape naturelle serait une validation sur des tâches longue-horizon et sur des plateformes humanoïdes à haute dimensionnalité.

💬 +40 points sur robot réel sans retraining, c'est le genre de résultat qui me fait relire le papier deux fois. L'idée centrale est solide : les VLA encodent déjà ce qu'il faut savoir, c'est le passage vers l'action motrice qui bloque, et COAST règle ça en orientant les activations internes au bon endroit. Bon, on est encore loin du déploiement industriel, mais si tu bosses avec Pi-0 ou GR00T en ce moment, cette méthode se greffe directement sur ce que t'as.

IA physiqueOpinion
1 source
Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable
228arXiv cs.RO 

Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable

Des chercheurs ont publié le 20 mai 2026 sur arXiv (arXiv:2605.14801) une étude quantifiant un goulet d'étranglement structurel dans les systèmes de navigation zéro-shot pilotés par VLM-LLM (Vision-Language Model couplé à un Large Language Model). Le paradigme analysé repose sur une architecture à deux étages : un VLM construit des graphes de scène 3D en extrayant objets, relations spatiales et sémantique de l'environnement, tandis qu'un LLM prend les décisions de haut niveau (planification topologique) et pilote un navigateur réactif rapide via coordonnées spatiales et boîtes englobantes. Les auteurs ont modélisé des bornes supérieures statistiques du taux de succès pour ces deux sous-systèmes, les ont validées sur les modèles 3D de l'état de l'art, et ont identifié un phénomène de saturation perceptive : au-delà d'un certain seuil de précision 3D, les gains de navigation deviennent marginaux, voire nuls. Ce résultat remet en cause une hypothèse implicite du secteur : que progresser en perception 3D se traduit mécaniquement en meilleure navigation incarnée. L'étude montre que les modèles de perception actuels optimisent la précision au niveau pixel, ce qui entre directement en conflit avec les contraintes temps-réel d'un robot naviguant dans un environnement dynamique. Pour les intégrateurs et les équipes de R&D robotique, cela signifie que sur-investir en qualité de segmentation ou de reconstruction 3D fine ne se justifie pas pour la navigation autonome : la ressource limitante n'est pas la résolution perceptive, mais la pertinence sémantique des objets détectés et la fiabilité des boîtes englobantes pour l'exécution motrice. C'est un signal fort pour réorienter les efforts vers des vocabulaires visuels navigation-centrés plutôt que vers la précision géométrique exhaustive. La navigation zéro-shot par VLM-LLM est un axe de recherche actif depuis 2022, porté notamment par des travaux sur les agents incarnés dans des simulateurs comme Habitat ou R2R (Room-to-Room). Cette approche vise à s'affranchir des coûts massifs de collecte de données supervisées qui pèsent sur les architectures imitation-learning classiques. Dans le paysage concurrent, des équipes chez Google DeepMind, Meta AI et des laboratoires universitaires (Stanford, CMU) explorent des variantes similaires, certaines intégrant des modèles VLA (Vision-Language-Action) de bout en bout comme Pi-0 ou GR00T N2. Cette étude ne présente pas de déploiement terrain, mais ses bornes analytiques pourraient guider la conception de benchmarks plus pertinents et orienter l'entraînement des prochaines générations de modèles de perception 3D spécialisés navigation.

RechercheOpinion
1 source
Quels sont les facteurs limitants de la navigation vision-langage ?
229arXiv cs.RO 

Quels sont les facteurs limitants de la navigation vision-langage ?

Une équipe de chercheurs publie StereoNav (arXiv:2605.13328, mai 2026), un framework Vision-Language-Action (VLA) conçu pour la navigation robotique guidée par instructions en langage naturel, domaine désigné sous le terme Vision-and-Language Navigation (VLN). Sur les benchmarks standards R2R-CE et RxR-CE, le système atteint des taux de succès (SR) de 81,1 % et 67,5 %, avec des scores SPL (Success weighted by Path Length) de 68,3 % et 52,0 % respectivement, positionnant StereoNav en état-de-l'art sur RGB égocentrique. Ces performances sont obtenues avec nettement moins de paramètres et de données d'entraînement que les approches concurrentes fondées sur la mise à l'échelle. Des déploiements physiques sur robot dans des environnements non structurés réels confirment une amélioration substantielle de la fiabilité de navigation. La contribution centrale de StereoNav est de remettre en cause le paradigme dominant du scaling: les auteurs soutiennent que le vrai goulot d'étranglement pour combler le sim-to-real gap ne réside pas dans la taille des modèles ou le volume de données d'entraînement, mais dans l'absence d'un ancrage spatial robuste (spatial grounding) et de représentations cross-domaines stables. Ils introduisent en réponse des Target-Location Priors, représentations visuelles persistantes invariantes entre simulation et déploiement réel, qui stabilisent la navigation même lorsque les instructions verbales sont vagues ou incomplètes. La vision stéréo complète le dispositif en construisant une représentation unifiée sémantique et géométrique, résistante aux perturbations visuelles fréquentes en environnement industriel: flou de mouvement, variations d'éclairage, changements de perspective. Pour un intégrateur ou un COO industriel, le signal est clair: atteindre ces performances sans modèles XXL réduit significativement les coûts de déploiement et d'inférence. La VLN s'appuie historiquement sur le benchmark Room-to-Room (R2R) introduit en 2018, mais le passage du simulateur Matterport3D au monde physique restait un défi largement ouvert. StereoNav entre en compétition directe avec des VLA généralistes misent sur l'échelle paramétrique: pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI. L'architecture proposée choisit une voie opposée, fondée sur l'efficience et les priors géométriques explicites plutôt que la capacité brute. Il s'agit à ce stade d'un résultat académique sans déploiement commercial annoncé, mais les expériences physiques documentées dépassent le registre de la démonstration en laboratoire et constituent une base sérieuse pour des pilotes industriels à venir.

UEL'approche architecture légère de StereoNav pourrait réduire les coûts de déploiement VLA pour les intégrateurs industriels européens, sans nécessiter d'infrastructure de calcul massive.

💬 Le vrai goulot d'étranglement de la navigation robot, c'est pas la taille du modèle. StereoNav le démontre proprement : meilleures perfs sur les benchmarks standards, moins de paramètres, et des déploiements physiques qui tiennent en dehors du labo. Reste à voir si ça tient à l'échelle industrielle, mais l'argument contre le scaling aveugle a enfin des chiffres derrière.

IA physiqueOpinion
1 source
Mise en cache adaptative par blocs pour accélérer les politiques de diffusion
230arXiv cs.RO 

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (2506.13456) BAC, pour Block-wise Adaptive Caching, une méthode d'accélération de l'inférence pour Diffusion Policy. Le principe : mettre en cache les features d'action intermédiaires générées lors des étapes répétitives de débruitage (denoising), puis les réutiliser sélectivement selon un schéma adaptatif au niveau de chaque bloc du transformeur. Résultat annoncé : jusqu'à 3x de speedup à l'inférence, sans dégradation des performances en génération d'action. BAC est training-free et compatible avec les architectures Diffusion Policy à base de transformeur ainsi qu'avec les modèles vision-language-action (VLA). Les expériences couvrent plusieurs benchmarks robotiques standards, sans déploiement matériel réel annoncé dans ce papier. L'enjeu est direct pour le déploiement industriel : Diffusion Policy est l'une des approches les plus solides pour le contrôle visuomoteur de robots manipulateurs, mais son coût computationnel élevé la rend impraticable en contrôle temps-réel embarqué. Un facteur 3x sans re-training représente un gain opérationnel concret, il suffit d'intégrer BAC sur un modèle existant déjà entraîné. Deux mécanismes y contribuent : un Adaptive Caching Scheduler qui identifie les pas de temps optimaux pour rafraîchir le cache en maximisant la similarité globale des features, et un Bubbling Union Algorithm qui corrige la propagation d'erreurs entre blocs FFN (Feed-Forward Network), principale limite des approches naïves de caching. Diffusion Policy, introduite par Chi et al. en 2023, s'est imposée comme référence pour la manipulation précise, mais son inférence multi-step la pénalise face aux politiques autorégressives ou MLP sur les contraintes de latence. Les techniques d'accélération des modèles de diffusion conçues pour la génération d'images (DDIM, DeepCache) ne se transfèrent pas directement à la robotique en raison de divergences architecturales et de la nature séquentielle des données d'action, c'est précisément le gap que BAC prétend combler. La méthode est compatible avec les VLA récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui lui confère un périmètre d'application large sur l'écosystème actuel. La validation reste cependant limitée aux benchmarks simulés ; une confirmation sur hardware réel en conditions d'inférence embarquée sera nécessaire pour évaluer l'impact opérationnel réel.

RecherchePaper
1 source
Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion
231arXiv cs.RO 

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (ref. 2605.13778) un cadre d'inférence baptisé Realtime-VLA FLASH, conçu pour réduire drastiquement la latence des modèles de type dVLA (diffusion-based vision-language-action). Le problème de départ est précis : chaque cycle d'inférence complète d'un dVLA prend typiquement 58,0 ms, ce qui est incompatible avec un replanning haute fréquence en conditions réelles. FLASH introduit un modèle "brouillon" léger qui génère des propositions d'actions, vérifiées en parallèle par l'Action Expert du modèle principal, composant dédié à la validation des séquences motrices. Un mécanisme de fallback "phase-aware" bascule automatiquement sur l'inférence complète lorsque la proposition brouillon est jugée insuffisamment fiable. Sur le benchmark LIBERO, la latence moyenne par tâche descend à 19,1 ms, soit une accélération de 3,04x, avec des cycles spéculatifs aussi rapides que 7,8 ms. Les auteurs valident également l'approche sur une tâche réelle de tri sur tapis convoyeur, environnement latency-critical par nature. L'intérêt industriel est direct : le goulot d'étranglement des VLA diffusion n'était pas leur capacité à généraliser, mais leur incapacité à répondre à la fréquence de contrôle des robots physiques (typiquement 10-50 Hz). Descendre sous les 20 ms de latence moyenne ouvre la voie à un déploiement sur des manipulateurs industriels ou des robots mobiles opérant en environnement dynamique. Ce que FLASH prouve concrètement, c'est que le "reality gap" des dVLA est au moins partiellement un problème d'architecture d'inférence, pas uniquement de données ou de sim-to-real. La méthode préserve les performances sur LIBERO sans compromis visible sur la fiabilité, ce qui est l'argument le plus solide de la publication, à condition que les auteurs rendent publics leurs taux de succès détaillés par tâche, absents du résumé. Les dVLA sont devenus un axe central de la robotique généraliste depuis les travaux de Physical Intelligence sur pi0 (2024) et de NVIDIA sur GR00T N2, qui reposent tous deux sur des architectures diffusion pour la génération d'actions. OpenVLA et d'autres approches autorégressives contournent ce problème différemment, au prix d'une expressivité moindre sur les tâches de manipulation fine. FLASH se positionne comme une surcouche d'optimisation compatible avec les dVLA existants, sans nécessiter de réentraînement complet du modèle principal, ce qui en fait un candidat naturel pour les équipes travaillant sur pi0 ou des architectures dérivées. Les prochaines étapes attendues sont une validation sur des systèmes à plus haute dynamique (robots bimanes, manipulation dextre) et une mesure de la dégradation sur des distributions out-of-distribution, point encore non traité dans cette version préprint.

UELes équipes de R&D européennes travaillant sur des architectures dVLA (dérivées de pi0 ou GR00T N2) pourraient intégrer FLASH comme couche d'optimisation sans réentraînement, mais aucun acteur ou institution français ou européen n'est impliqué dans la publication.

💬 Le vrai blocage des VLA diffusion, c'était pas leur capacité à généraliser, c'était les 58 ms par cycle d'inférence, trop lents pour du contrôle robot en temps réel. FLASH colle un modèle brouillon en avant-poste pour proposer l'action, le modèle principal vérifie en parallèle, et tu descends à 19 ms sans retoucher les poids. Ce que j'y lis surtout, c'est qu'une bonne partie du reality gap était un problème d'ingénierie d'inférence, pas de données ou de sim-to-real.

IA physiqueOpinion
1 source
Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée
232arXiv cs.RO 

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

Des chercheurs ont publié en mai 2026 (arXiv:2605.11479) un cadre pour l'évaluation hors-ligne de politiques robotiques de manipulation. Le problème : estimer la performance d'une politique sans la déployer en environnement réel à chaque itération. Les systèmes de manipulation modernes cumulent trois obstacles majeurs : récompenses rares (sparse rewards), progression non monotone vers l'objectif (le robot recule avant de réussir), et rollouts d'évaluation de longueur finie. Cette dernière contrainte génère un biais de troncature qui invalide les méthodes classiques fondées sur l'équation de Bellman, conçues pour un horizon infini. Les auteurs proposent un opérateur de Bellman basé sur la liveness (vivacité, issue de la vérification formelle), reformulant l'évaluation comme un problème de complétion de tâche et produisant une fonction de valeur conservative à point fixe garanti par contraction. Les expériences portent sur deux tâches simulées (une politique VLA - Vision-Language-Action - et une diffusion policy), ainsi qu'un pliage de tissu à partir de démonstrations humaines. La méthode surpasse TD(0) et Monte Carlo sur tous les benchmarks, à la fois en fidélité à la progression réelle et en réduction du biais. L'enjeu est concret pour les équipes de déploiement : les rollouts physiques sont lents et coûteux, et une évaluation hors-ligne biaisée contamine les décisions de sélection de modèle. Le biais de troncature est particulièrement insidieux dans les tâches longues : un bras robotique qui récupère après un glissement peut scorer négativement même s'il complète la tâche. La formulation liveness encode la progression vers l'objectif y compris lors de comportements non monotones, sans horizon infini artificiel. Ce type de métrique calibrée est directement utile pour valider des politiques VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), souvent évaluées sur des rollouts courts et sélectifs avant déploiement en atelier. Ce travail s'inscrit dans une problématique active du robot learning : évaluer des politiques sans simulation parfaite ni horizon infini. TD(0), Monte Carlo et importance sampling peinent sur les tâches longues à récompenses éparses, régime typique de la manipulation dextre. Plusieurs équipes adressent l'évaluation hors-ligne, notamment autour du dataset DROID (Berkeley/Stanford) et chez Physical Intelligence, mais sans traitement explicite du biais de troncature. La preuve de contraction de l'opérateur liveness ouvre des pistes vers des pipelines de sélection automatique de politiques et vers la validation à grande échelle avant passage en production.

IA physiquePaper
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
233arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

IA physiqueActu
1 source
DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA
234arXiv cs.RO 

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Une équipe de chercheurs a publié DreamAvoid (arXiv:2605.11750), un framework d'inférence conçu pour réduire les échecs dans les modèles Vision-Language-Action (VLA) lors de tâches de manipulation fine. Le problème est bien documenté : les VLA, entraînés quasi exclusivement sur des démonstrations réussies, accumulent des erreurs mineures pendant les phases critiques d'une tâche (saisie, insertion, positionnement précis) qui s'amplifient jusqu'à rendre toute récupération impossible. DreamAvoid introduit trois composants exécutés à l'inférence : un Dream Trigger qui détecte l'entrée en phase critique, un Action Proposer qui échantillonne plusieurs candidats d'action auprès du VLA, et un Dream Evaluator qui simule à court horizon les futurs correspondants, les évalue, et sélectionne l'action optimale. Ce dernier est entraîné sur un mélange succès/échecs/cas limites via un paradigme dit "autonomous boundary learning". Les évaluations portent sur des tâches de manipulation réelles et des benchmarks de simulation avec une amélioration du taux de succès global, sans que les auteurs ne publient de chiffres précis dans le résumé, ce qui rend la comparaison quantitative impossible en l'état. L'apport clé est architectural : DreamAvoid agit uniquement à l'inférence, ce qui permet de le greffer sur n'importe quel VLA existant sans réentraînement complet. Pour les intégrateurs industriels, c'est un point non trivial : la fragilité en manipulation fine (assemblage, vissage, conditionnement) reste l'un des principaux freins au déploiement réel des bras manipulateurs génériques. Cibler spécifiquement les phases critiques, plutôt que l'ensemble de la trajectoire, limite par ailleurs le surcoût computationnel à l'inférence. Ce travail contredit partiellement l'hypothèse dominante selon laquelle augmenter massivement les données de succès suffit à rendre les VLA robustes : une conscience explicite de l'échec, même injectée post-entraînement, apporte un gain tangible. Le contexte est celui d'une compétition intense entre VLA généralistes incluant Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA de l'UC Berkeley, tous partageant cette fragilité structurelle documentée dans des travaux comme RT-2 et ALOHA. DreamAvoid s'inscrit dans une lignée de méthodes de planification augmentée à l'inférence, proche des approches world model comme SWIM ou de MCTS appliqué à la robotique. Le code est disponible publiquement sur GitHub (github.com/XianzheFan/DreamAvoid). Les suites probables incluent une évaluation sur des benchmarks standardisés tels que RLBench ou LIBERO, et potentiellement une intégration dans des pipelines d'entraînement continu où les échecs détectés par le Dream Evaluator alimentent automatiquement les données négatives futures.

IA physiqueOpinion
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
235arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
236arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

IA physiqueOpinion
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
237arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action
238arXiv cs.RO 

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Publiée en mars 2026 sur arXiv (référence 2603.22003v3), VP-VLA est une architecture à deux systèmes qui dissocie raisonnement de haut niveau et exécution motrice dans les modèles Vision-Language-Action. Le problème adressé est structurel : les VLA actuels effectuent un unique passage en avant (forward pass) censé gérer simultanément l'interprétation d'instructions, l'ancrage spatial et le contrôle moteur de bas niveau, ce qui dégrade la précision spatiale et la robustesse hors distribution. VP-VLA sépare ces responsabilités via une interface de prompts visuels : un "Planificateur Système 2" décompose les instructions en sous-tâches et localise objets et positions cibles, puis rend ces ancres spatiales directement dans l'espace RGB natif sous forme de réticules et boîtes englobantes. Un "Contrôleur Système 1", entraîné avec un objectif auxiliaire d'ancrage visuel, génère ensuite les trajectoires de bas niveau à partir de ces prompts. En simulation et en environnement réel, VP-VLA surpasse les baselines end-to-end QwenOFT (basé sur les modèles Qwen d'Alibaba) et GR00T-N1.6 (NVIDIA), les deux références industrielles les plus avancées du moment. L'intérêt architectural tient à l'évitement du mismatch de modalité que créent les représentations intermédiaires denses -- masques d'affordance, cartes de contrôle spécialisées -- qui obligent les modèles à jongler entre espaces de représentation hétérogènes. En substituant des annotations légères directement dans l'espace RGB natif, VP-VLA maintient une cohérence de modalité tout au long du pipeline. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela se traduit concrètement par une meilleure robustesse aux configurations non vues à l'entraînement et une précision spatiale accrue sur les tâches de manipulation. La séparation explicite planification/exécution faciliterait aussi la mise à jour ou le remplacement indépendant de chaque composant, un avantage non négligeable en contexte de déploiement itératif. VP-VLA s'inscrit dans un mouvement plus large de déconstruction des VLA monolithiques, après RT-2, OpenVLA, et les architectures GR00T de NVIDIA. La publication en version v3 indique des révisions successives, signe probable d'une soumission à une conférence de premier rang (IROS 2026, CoRL 2026 ou RSS 2026). Le choix de GR00T-N1.6 et QwenOFT comme baselines positionne explicitement VP-VLA face aux approches portées par des acteurs industriels majeurs. Aucun déploiement physique industriel ni partenariat de production n'est annoncé à ce stade : les expériences réelles restent en environnement de laboratoire. La page projet ouverte (visualprompt-vla.github.io) laisse présager une publication du code, ce qui favoriserait une adoption rapide et une validation indépendante par la communauté robotique.

UELes laboratoires européens actifs en VLA (INRIA, CEA-List) pourraient bénéficier d'une architecture open-source plus robuste hors distribution si le code est publié, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

IA physiqueOpinion
1 source
StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique
239arXiv cs.RO 

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Une équipe de chercheurs a présenté StereoPolicy, un cadre d'apprentissage de politiques visuomotrices déposé sur arXiv (2605.09989) qui exploite des paires d'images stéréoscopiques synchronisées pour améliorer la précision des robots manipulateurs. Contrairement aux approches dominantes basées sur la vision monoculaire, StereoPolicy traite chaque image indépendamment via des encodeurs visuels 2D pré-entraînés, puis fusionne les représentations au sein d'un module baptisé Stereo Transformer. Cette architecture extrait implicitement des indices de disparité et de correspondance spatiale, sans nécessiter de reconstruction 3D explicite ni de calibration de caméra. Évalué sur trois benchmarks de simulation, RoboMimic, RoboCasa et OmniGibson, le système surpasse systématiquement les baselines RGB, RGB-D, nuage de points et multi-vues. Les auteurs ont également validé l'approche sur des robots réels, dans des configurations de manipulation tabulaire et de manipulation bimane mobile. L'intérêt principal de StereoPolicy réside dans sa modularité: le framework s'intègre directement avec des politiques à base de diffusion et des politiques VLA (vision-language-action) pré-entraînées, ce qui en fait un composant additionnel plutôt qu'une refonte architecturale. Pour les intégrateurs et les équipes robotique, cela signifie que des systèmes existants basés sur des modèles comme Pi-0 ou GR00T pourraient bénéficier de la perception stéréo sans repartir de zéro. La vision monoculaire, omniprésente dans les déploiements actuels, souffre d'une absence d'indices de profondeur fiables dans les scènes encombrées ou géométriquement complexes, un problème que la stéréo adresse naturellement à faible surcoût matériel. Ce résultat renforce l'hypothèse que les représentations 2D pré-entraînées, aussi puissantes soient-elles, restent limitées sans ancrage géométrique explicite. StereoPolicy s'inscrit dans la dynamique actuelle de l'imitation learning robotique, portée par des travaux comme ACT, Diffusion Policy et les VLA multimodaux. La plupart des systèmes en production s'appuient encore sur des caméras monoculaires ou des capteurs RGB-D de type RealSense ou ZED, qui ajoutent complexité et coût. Les caméras stéréo passives, technologie mature présente depuis des décennies en vision par ordinateur, avaient été quelque peu éclipsées par la montée en puissance des encodeurs 2D profonds. Ce papier, une préprint arXiv, pas encore un produit déployé, rouvre la question de leur rôle dans les pipelines modernes d'apprentissage par imitation. Les prochaines étapes naturelles seront d'évaluer StereoPolicy dans des environnements industriels réels et de tester sa robustesse aux variations d'éclairage et de texture, deux limites classiques de la vision stéréo passive.

RechercheOpinion
1 source
Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres
240arXiv cs.RO 

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion
1 source
VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés
241arXiv cs.RO 

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Une équipe de chercheurs publie VLA-GSE (Generalized and Specialized Experts) sur arXiv en mai 2026 (arXiv:2605.06175), une méthode d'affinage efficace en paramètres (PEFT) pour les modèles vision-langage-action (VLA). Ces modèles, construits sur des dorsales visuelles et linguistiques pré-entraînées comme celles d'OpenVLA ou pi-0, souffrent d'oubli catastrophique lorsqu'on les affine entièrement sur des données de contrôle robotique. VLA-GSE répond à ce problème via une décomposition spectrale de la dorsale gelée : les composantes singulières dominantes alimentent des experts généralisés partagés entre toutes les tâches, tandis que les composantes résiduelles disjointes alimentent des experts spécialisés routés selon la tâche. Seuls 2,51 % des paramètres totaux sont entraînables. Sur le benchmark LIBERO-Plus, la méthode atteint 81,2 % de taux de succès moyen en zéro-shot, surpassant à la fois l'affinage complet (FFT) et LoRA, tout en préservant des performances comparables à LoRA sur les benchmarks de compréhension multimodale. Ce résultat remet en question une hypothèse implicite du secteur : préserver les connaissances pré-entraînées et adapter efficacement au contrôle robotique seraient deux objectifs incompatibles. La décomposition spectrale permet d'allouer la capacité d'adaptation là où elle est nécessaire sans écraser les représentations visuelles-sémantiques acquises. Pour les équipes R&D et les intégrateurs travaillant sur des robots manipulateurs, cela signifie qu'un modèle de fondation peut être spécialisé sur un domaine restreint avec un budget computationnel réduit sans sacrifier la généralisation. La robustesse observée face à plusieurs changements de distribution (environnement, objets, éclairage) renforce la crédibilité de l'approche, même si les expériences sur plateformes physiques restent limitées dans les résultats publiés. Les modèles VLA constituent depuis 2023-2024 un axe de recherche majeur, portés notamment par OpenVLA (UC Berkeley), pi-0 (Physical Intelligence) et GR00T N1/N2 (NVIDIA). La stratégie dominante jusqu'ici reposait sur un affinage complet coûteux ou sur LoRA standard, qui peine à capturer la complexité des politiques de contrôle. VLA-GSE se positionne entre ces deux extrêmes avec un ratio paramètres/performance favorable. Le code source est disponible sur GitHub (YuhuaJiang2002/VLA-GSE), facilitant la reproduction. Les prochaines étapes logiques incluent des validations sur des plateformes physiques variées, notamment des bras à 6-7 DOF et des robots mobiles manipulateurs, ainsi qu'une comparaison directe avec des approches concurrentes comme SpatialVLA en conditions de déploiement réel.

RechercheOpinion
1 source
RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée
242arXiv cs.RO 

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Une équipe de chercheurs a publié en mai 2025 RobotEQ (arXiv:2605.06234), un benchmark conçu pour évaluer ce qu'ils appellent l'intelligence active dans les systèmes d'IA incarnée. Contrairement aux approches actuelles, où un robot exécute des tâches sur instruction explicite de l'utilisateur (intelligence passive), l'intelligence active désigne la capacité d'un système à identifier de manière autonome quelles actions sont socialement acceptables ou interdites, sans consigne préalable. Pour mesurer cette aptitude, les auteurs ont constitué RobotEQ-Data : un jeu de données de 1 900 images en vue égocentrique, couvrant 10 catégories scénario typiques de l'IA incarnée et 56 sous-catégories. Via annotation manuelle intensive, ils ont produit 5 353 questions de jugement d'action et 1 286 questions d'ancrage spatial, formant ensemble le socle du benchmark RobotEQ-Bench. Les résultats d'évaluation sur les modèles de pointe actuels sont sans ambiguïté : aucun ne satisfait de manière fiable aux exigences de l'intelligence active, avec des lacunes particulièrement marquées sur l'ancrage spatial, c'est-à-dire la capacité à localiser précisément les objets ou zones pertinents dans une scène pour motiver un comportement conforme aux normes sociales. L'étude montre cependant qu'intégrer des bases de connaissances externes via des techniques de RAG (Retrieval-Augmented Generation) améliore significativement les performances, ce qui suggère une piste concrète pour les développeurs de systèmes robotiques sociaux. Pour les industriels et intégrateurs, ce résultat pointe une limite critique avant tout déploiement en environnement humain non contrôlé : les robots actuels ne sont pas équipés pour naviguer les conventions implicites du quotidien. RobotEQ s'inscrit dans un effort académique plus large visant à combler le fossé entre capacités de manipulation assistée et autonomie sociale réelle, un sujet de plus en plus pressant à mesure que les robots humanoïdes entrent dans des espaces partagés avec des humains. Les grandes plateformes évaluées ne sont pas nommées explicitement dans l'abstract, mais le benchmark cible les VLMs (Vision-Language Models) utilisés dans les architectures d'IA incarnée actuelles, comme ceux sous-tendant des systèmes tels que Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Aucun partenaire industriel ni calendrier de déploiement n'est annoncé, ce papier restant à ce stade une contribution de recherche fondamentale avec dataset et benchmark disponibles pour la communauté.

RecherchePaper
1 source
Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation
243arXiv cs.RO 

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Une équipe de recherche a publié le 9 mai 2026 un nouveau benchmark de simulation dédié à l'évaluation des politiques de manipulation robotique, sous le nom VISER (Visually Realistic Simulation for Robot Manipulation Evaluation). Le système repose sur une bibliothèque de plus de 1 000 assets 3D équipés de matériaux PBR (Physically-Based Rendering), intégrés dans des scènes générées automatiquement. Pour constituer cette base à grande échelle, les auteurs ont développé un pipeline automatisé combinant des modèles de langage multimodaux (MLLMs) pour la segmentation des pièces et la récupération des matériaux. Les tâches d'évaluation couvrent la saisie, le placement et des séquences longue durée (long-horizon tasks), permettant de tester des modèles Vision-Language-Action (VLA) dans des conditions reproductibles. Résultat clé : un coefficient de corrélation de Pearson moyen de 0,92 entre les performances en simulation et les performances réelles, mesuré sur plusieurs politiques distinctes. Ce score de 0,92 est le chiffre le plus structurant de la publication. La grande majorité des benchmarks existants génèrent un écart domaine (domain gap) significatif parce qu'ils négligent deux variables décisives : l'éclairage et les propriétés de matériaux. VISER montre expérimentalement que ces deux facteurs pèsent directement sur le raisonnement géométrique et l'ancrage spatial des modèles VLA, deux capacités centrales pour toute manipulation physique fiable. Pour les équipes qui développent des politiques robotiques, un proxy simulation fiable à 0,92 réduit massivement le coût et le temps des cycles d'itération réel, notamment pour des architectures VLA dont le fine-tuning reste coûteux en déploiement physique. Le problème du sim-to-real gap structure la robotique de manipulation depuis plus d'une décennie. Les benchmarks de référence comme RLBench ou MetaWorld sont largement utilisés mais construits sur des rendus bas fidélité qui limitent leur valeur prédictive pour les approches VLA modernes, dont pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. VISER positionne explicitement ses actifs PBR comme une réponse à cette insuffisance, en automatisant la génération via MLLMs pour éviter le goulot d'artisanat manuel qui freinait les benchmarks précédents. La prochaine étape naturelle sera de mesurer si cette corrélation de 0,92 tient sur des robots à morphologies variées et des scénarios de manipulation industrielle hors laboratoire.

RechercheOpinion
1 source
Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
244arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source
Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)
245arXiv cs.RO 

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion
1 source
Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts
246arXiv cs.RO 

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des chercheurs ont publié DreamTacVLA, un framework qui dote les modèles Vision-Language-Action (VLA) d'un sens du toucher anticipatif. Ces architectures, parmi lesquelles Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, généralisent des comportements robotiques à partir de connaissances web-scale, mais restent aveugles à la physique du contact : force, texture et glissement. DreamTacVLA introduit une perception hiérarchique à trois niveaux : images tactiles haute résolution (micro-vision), caméra poignet (vision locale) et vue tierce (macro-vision), le tout aligné par une perte baptisée Hierarchical Spatial Alignment (HSA). Le système est ensuite affiné par un modèle de monde tactile prédisant des états de contact futurs, ce qui lui permet de conditionner ses décisions à la fois sur des observations réelles et sur des conséquences anticipées ; sur des benchmarks de manipulation contact-riche (vissage, pelage, textiles), il atteint jusqu'à 95 % de succès face aux baselines VLA état de l'art, appuyé par un dataset hybride combinant simulation haute-fidélité (digital twin) et expériences en monde réel. Ce résultat quantifie concrètement le "gap tactile" des VLA modernes : intégrer des signaux de contact haute résolution est discriminant pour des tâches industrielles entières, de l'assemblage de précision au conditionnement de composants déformables. Conditionner les décisions sur des conséquences tactiles anticipées, et non seulement sur des observations en temps réel, rapproche les VLA du raisonnement physique implicite des opérateurs expérimentés. Pour les intégrateurs B2B, cela laisse entrevoir une prochaine génération de politiques robotiques capables de manipulation fine sans capteurs de force-couple coûteux, à condition d'embarquer des capteurs tactiles conformes haute résolution. La démonstration reste cependant purement académique : aucun déploiement industriel ni partenariat de production n'est annoncé dans le papier. Le travail s'inscrit dans un mouvement d'enrichissement des VLA au-delà du seul canal vision-langage, aux côtés d'approches intégrant proprioception, retour de force ou audio. DreamTacVLA se distingue par l'application au domaine tactile de techniques issues des modèles de monde visuels (Dreamer, RSSM), une transposition méthodologiquement originale. L'article est à sa troisième révision arXiv (v3), signe d'une évaluation par les pairs active. Parmi les acteurs à surveiller : Sanctuary AI et Agility Robotics sur les politiques de manipulation, GelSight et Contactile sur les capteurs tactiles, et en Europe, Pollen Robotics qui explore des effecteurs sensoriellement enrichis.

UEPollen Robotics, identifié comme acteur européen explorant des effecteurs sensoriellement enrichis, est directement positionné pour intégrer ce type d'avancée tactile dans ses politiques de manipulation VLA.

IA physiqueOpinion
1 source
Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
247arXiv cs.RO 

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée. Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée. Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

UEAucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

RechercheOpinion
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
248arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA
249arXiv cs.RO 

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Des chercheurs, vraisemblablement affiliés à l'Université de Pékin (l'URL du projet pointe vers pku-safevla.github.io), ont publié en mars 2025 SafeVLA, une méthode d'alignement sécurisé pour les modèles vision-langage-action (VLA) déployés sur robots physiques. L'approche, baptisée ISA (Integrated Safety Approach), repose sur le paradigme des processus de décision de Markov contraints (CMDP) et combine trois étapes : modélisation formelle des exigences de sécurité, élicitation active de comportements dangereux, puis optimisation min-max de la politique robot via du renforcement contraint. Sur des tâches de manipulation mobile à long horizon, SafeVLA réduit le coût cumulé des violations de sécurité de 83,58 % par rapport à la méthode de référence state-of-the-art, tout en améliorant simultanément le taux de succès des tâches de 3,85 points. Les données, modèles et benchmark associés sont publiés en open source. Ce résultat est notable parce qu'il adresse directement le principal frein à la commercialisation des VLA en environnement industriel : la garantie de comportement sûr hors distribution. Jusqu'ici, les politiques générales de type pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montraient des performances impressionnantes en laboratoire mais offraient peu de garanties formelles sur les scénarios de défaillance extrêmes, les cas limites ou les perturbations inattendues. SafeVLA propose un cadre d'assurance quantifiable, avec une généralisation démontrée aux perturbations out-of-distribution, ce qui intéresse directement les intégrateurs industriels et les COO qui exigent des SLA de sécurité avant tout déploiement en cellule humaine ou en espace partagé. L'amélioration simultanée du taux de succès contredit l'hypothèse courante selon laquelle la sécurité contrainte dégrade nécessairement la performance. Les VLA ont connu une accélération significative depuis 2023 avec des travaux fondateurs comme RT-2 (Google DeepMind) et OpenVLA, mais la question de leur alignement sécurisé pour une utilisation réelle restait largement ouverte, la plupart des équipes se concentrant sur les capacités génératives plutôt que sur les garanties de comportement. SafeVLA s'inscrit dans un mouvement plus large de formalisation de la sécurité robotique, en parallèle des travaux de Physical Intelligence sur pi-0, de 1X Technologies ou de Figure AI avec Figure 03. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication : il s'agit d'une contribution académique avec benchmark public, pas d'un produit shipé. Les prochaines étapes naturelles seraient l'intégration de cette approche dans des architectures VLA commerciales et sa validation sur des plateformes humanoïdes à grande échelle.

UELes résultats de SafeVLA pourraient alimenter les travaux de normalisation de la sécurité des VLA en Europe (AI Act, certification robots collaboratifs), mais aucun acteur européen n'est impliqué directement dans cette publication académique.

RechercheOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
250arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source