Aller au contenu principal

Dossier OpenVLA / RT-X — page 5

698 articles · page 5 sur 14

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

Déploiement d'actions accru grâce à l'entraînement compositionnel pour les modèles VLA
201arXiv cs.RO IA physiqueActu

Déploiement d'actions accru grâce à l'entraînement compositionnel pour les modèles VLA

Une équipe de chercheurs propose ACT-VLA (Action Compositional Training for VLA Models), un nouveau cadre d'entraînement présenté dans un article publié sur arXiv (2607.00351v1) début juillet 2026. Le problème visé est bien connu des équipes travaillant sur les modèles Vision-Language-Action (VLA) pour la manipulation robotique : ces modèles, entraînés sur de larges jeux de démonstrations, généralisent mal dès qu'une tâche exige de recombiner des sous-compétences déjà apprises individuellement, même sans réel changement de contexte physique. ACT-VLA s'attaque à ce défaut de généralisation compositionnelle sans collecter de nouvelles données humaines : la méthode exploite les représentations latentes de tâches déjà apprises par le modèle pour synthétiser hors ligne de nouvelles démonstrations, physiquement valides, à partir de tâches existantes. Les auteurs valident l'approche sur des tâches de manipulation complexes en simulation, où les politiques entraînées avec les données augmentées obtiennent des taux de réussite nettement supérieurs à ceux des modèles de référence en situation hors distribution. L'enjeu dépasse le simple exercice académique : la collecte de données robotiques réelles, via téléopération humaine, reste le goulot d'étranglement majeur pour les VLA, coûteux en temps comme en main-d'œuvre. Une méthode capable d'étendre automatiquement la distribution d'entraînement, sans supervision additionnelle, offrirait une voie de mise à l'échelle bien moins coûteuse que celle suivie par les modèles généralistes actuels type Pi-0, GR00T N2 ou Helix, qui misent avant tout sur le volume brut de démonstrations collectées. Reste que la validation s'arrête ici à la simulation : aucun déploiement sur robot physique n'est rapporté, ce qui laisse ouverte la question du transfert sim-to-real. ACT-VLA s'inscrit dans la lignée des travaux cherchant à corriger les limites de généralisation des architectures VLA de type RT-2 ou OpenVLA. L'article ne précise ni l'institution porteuse ni de calendrier de suite ; la prochaine étape logique consisterait à tester la méthode sur du matériel réel pour confirmer que les gains observés en simulation résistent au bruit et aux imprécisions du monde physique.

1 source
LaMP : apprentissage d'une politique vision-langage-action avec flux de scène 3D comme a priori de mouvement latent
202arXiv cs.RO 

LaMP : apprentissage d'une politique vision-langage-action avec flux de scène 3D comme a priori de mouvement latent

Des chercheurs presentent LaMP, un framework de manipulation robotique combinant deux modules experts. Le premier, le "Motion Expert", genere en une seule etape un flux de scene 3D partiellement debruite via une methode de flow-matching; ses etats caches conditionnent ensuite un second module, l'"Action Expert", charge de predire les actions du robot, via une attention croisee filtree. Contrairement aux VLA classiques qui deduisent les actions directement de features visuelles 2D, LaMP integre ainsi un a priori de mouvement 3D explicite sans reconstruction complete multi-etapes. Le systeme a ete evalue sur les bancs d'essai de simulation LIBERO, LIBERO-Plus et SimplerEnv-WidowX, ainsi que sur des experiences reelles. Selon les auteurs, LaMP depasse systematiquement les references VLA testees, avec les meilleurs taux de reussite moyens a budget d'entrainement egal, et un gain moyen de 9,7% de robustesse sur les perturbations hors distribution de LIBERO-Plus par rapport a la meilleure reference existante. Ce travail cible un point faible connu des politiques VLA: leur difficulte a generaliser a des dynamiques spatiales non vues pendant l'entrainement, un ecart souvent qualifie de "sim-to-real" ou de "demo vs reality gap". En forcant les modeles a apprendre implicitement la physique 3D a partir de simples features 2D, les architectures actuelles, dans la lignee de RT-2, Pi-0 de Physical Intelligence, GR00T N2 de Nvidia ou Helix de Figure AI, restent fragiles des que l'environnement s'ecarte du jeu d'entrainement. Pour les integrateurs et decideurs B2B, la robustesse hors distribution separe une demonstration convaincante d'un deploiement industriel fiable: c'est souvent le vrai goulot d'etranglement, plus que la reussite brute sur des taches deja vues. Le papier, publie sur arXiv en version 2, s'inscrit dans un debat plus large sur la meilleure facon d'injecter des priors physiques 3D dans des backbones visuels pre-entraines en 2D, face a des alternatives comme les nuages de points ou les politiques de diffusion conditionnees par la profondeur. Il s'agit d'une contribution academique, sans affiliation industrielle affichee ni indication de deploiement au-dela des benchmarks; les prochaines etapes attendues concernent le passage a l'echelle en conditions reelles et une comparaison directe avec des politiques VLA deja commercialisees comme Pi-0 ou GR00T N2.

RechercheActu
1 source
ViPSim : collaboration entre espaces visuels et paramétriques pour des modèles du monde incarnés cohérents sur le long terme
203arXiv cs.RO 

ViPSim : collaboration entre espaces visuels et paramétriques pour des modèles du monde incarnés cohérents sur le long terme

Des chercheurs ont publié le 30 juin 2026 un article de préprint (arXiv:2606.28804) présentant ViPSim, un framework de simulation destiné à entraîner et évaluer des systèmes Vision-Langage-Action (VLA) sans risque pour le matériel réel. Le problème central qu'adresse ViPSim est le "representation gap" : les modèles de monde incarné (Embodied World Models, EWMs) doivent traduire des actions en basse dimension (positions articulaires, vitesses) en vidéos haute résolution cohérentes sur de longues séquences. Sans correctif, cette asymétrie produit une dérive de trajectoire cumulée et des interactions robot-objet incohérentes dès qu'on dépasse quelques pas de simulation. Pour y remédier, ViPSim combine deux espaces complémentaires : un Visual Space qui fournit des ancrages géométriques explicites (projections pixel-alignées de la pose de l'effecteur, perspectives caméra, géométrie de scène assistée par la profondeur, masques morphologiques du robot) et un Parameter Space qui injecte les séquences d'action brutes et les matrices caméra pour guider précisément le mouvement. Les expériences rapportées montrent que l'approche est backbone-agnostic, c'est-à-dire indépendante de l'architecture de génération vidéo sous-jacente. L'enjeu industriel est direct : le principal frein à l'utilisation des EWMs comme bancs de test pour les VLA est précisément leur manque de fidélité géométrique sur des horizons longs, ce qui rend leurs évaluations peu fiables pour des tâches de manipulation complexe. ViPSim prétend résoudre ce verrou, et les résultats préliminaires indiquent une capacité émergente sur des objets déformables, notamment le pliage de tissu, un cas d'usage notoire pour mettre en échec les simulateurs rigides classiques. Le framework conserverait également des performances robustes dans des scénarios hors-distribution et en cross-embodiment, c'est-à-dire appliqué à des morphologies robotiques non vues à l'entraînement. Pour un intégrateur ou un équipementier cherchant à réduire les coûts de collecte de données réelles, un simulateur de ce type permettrait d'accélérer le cycle de validation des politiques VLA avant déploiement terrain. Il convient toutefois de nuancer : il s'agit d'un preprint académique sans validation industrielle publiée, et les vidéos de démonstration sélectionnées ne constituent pas une preuve de performance en production. Le contexte est celui d'une course effrénée à la simulation haute-fidélité pour robots incarnés, portée par la montée en puissance des architectures VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Ces modèles nécessitent des volumes massifs de données de démonstration, et la génération synthétique en est le principal levier de scalabilité. Des frameworks concurrents comme UniSim, IRASim ou Genesis s'attaquent au même problème avec des approches différentes, certains privilégiant la physique explicite, d'autres la génération neuronale pure. ViPSim se positionne sur la cohérence géométrique longue durée plutôt que sur le réalisme visuel brut, une niche encore peu couverte. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication actuelle : il s'agit pour l'instant d'une contribution de recherche ouverte, sans implémentation publique annoncée.

RechercheOpinion
1 source
MM-Nav : un modèle VLA multi-vues pour la navigation visuelle robuste par apprentissage multi-expert
204arXiv cs.RO 

MM-Nav : un modèle VLA multi-vues pour la navigation visuelle robuste par apprentissage multi-expert

Des chercheurs ont publié MM-Nav (arXiv:2510.03142v2), un modèle de navigation visuelle de type Vision-Language-Action (VLA) capable d'exploiter des observations omnidirectionnelles à 360 degrés pour piloter un robot mobile sans recours à des capteurs de profondeur explicites comme le LiDAR. L'architecture repose sur des modèles de langage et des fondations visuelles pré-entraînés, auxquels s'ajoutent trois experts par renforcement (RL) entraînés séparément avec accès privilégié à l'information de profondeur dans des environnements synthétiques conçus pour trois compétences distinctes : l'atteinte de cible, le passage dans des espaces contraints (squeezing), et l'évitement d'obstacles. Les données générées par ces experts alimentent itérativement le modèle élève selon un ratio d'entraînement ajusté dynamiquement en fonction des performances par compétence. Des expériences en environnement réel viennent compléter la validation en simulation. L'intérêt principal de MM-Nav réside dans ce que les auteurs appellent un "effet synergique" : le modèle élève dépasse les performances de chacun de ses enseignants RL pris individuellement, ce qui suggère que la fusion multi-capacités via un VLA n'est pas simplement additive mais crée une généralisation émergente. Pour les intégrateurs robotiques, cela ouvre la voie à des politiques de navigation robustes sans nécessiter de capteurs LiDAR ou de cartes de profondeur explicites, en s'appuyant uniquement sur des caméras RGB omnidirectionnelles. La capacité à transférer une politique apprise en simulation vers le monde réel (sim-to-real) constitue le vrai enjeu ici, et les auteurs affirment l'avoir validé expérimentalement, bien que les détails sur les environnements réels testés restent limités dans le résumé disponible. MM-Nav s'inscrit dans une dynamique de recherche qui voit les VLA (Vision-Language-Action), popularisés par des travaux comme RT-2 de Google DeepMind ou Pi-0 de Physical Intelligence, s'étendre au-delà de la manipulation pour couvrir la navigation autonome. La différenciation de MM-Nav tient à son approche multi-expert à apprentissage itératif, par opposition aux approches à expert unique ou aux méthodes de distillation statique. Les acteurs concurrents dans ce segment incluent notamment des groupes académiques travaillant sur NavVLP ou ViNT, ainsi que des startups comme Skild AI qui ciblent des politiques de locomotion généralisées. Ce travail en est au stade de preprint arXiv (version 2, mise à jour d'un article d'octobre 2025) : il n'y a pas de déploiement industriel annoncé, et les résultats doivent être interprétés comme une validation académique en attente de revue par les pairs.

RechercheOpinion
1 source
Exploration de poses-clés : étiquetage automatique de trajectoires et transfert de politique entre robots
205arXiv cs.RO 

Exploration de poses-clés : étiquetage automatique de trajectoires et transfert de politique entre robots

Des chercheurs ont publié sur arXiv en juin 2026 une méthode d'étiquetage automatique de trajectoires pour la manipulation robotique, baptisée Keypose Exploration. Le pipeline combine des modèles vision-langage (VLM) pour la détection sémantique d'événements avec une analyse classique de trajectoire pour l'alignement temporel précis, en limitant l'inférence VLM à une seule démonstration par tâche parmi des répétitions. Les données labellisées entraînent une Diffusion Policy (DP) guidée par keyposes, des points de passage critiques qui décomposent des tâches longues en sous-étapes apprenables. Le transfert inter-embodiment est également exploré : des keyposes candidates sont filtrées via une carte d'accessibilité cinématique (reachability map) pour n'orienter la politique que vers des configurations atteignables par le robot cible. Les résultats préliminaires portent sur deux tâches du benchmark robomimic en simulation (assemblage et insertion multimodale). L'annotation manuelle des données de démonstration reste un goulot d'étranglement majeur pour le déploiement de politiques de manipulation à l'échelle industrielle. Réduire l'inférence VLM à un seul exemple par tâche est une contribution pragmatique pour industrialiser l'apprentissage par imitation sans exploser les coûts de labellisation. Sur le transfert inter-embodiment, les conclusions restent prudentes : le conditionnement par keyposes filtrés cinématiquement "peut bénéficier" au transfert zéro-shot sur l'insertion multimodale, mais seulement "lorsque des candidats faisables sont disponibles", une restriction importante que les auteurs reconnaissent explicitement. Il s'agit d'une étude de faisabilité préliminaire en simulation, sans validation sur robots physiques. Ce travail s'inscrit dans l'écosystème de la Diffusion Policy (Chi et al., Columbia/MIT, 2023), devenue socle expérimental standard pour la manipulation généraliste. Le transfert inter-embodiment est un défi structurant du secteur où Physical Intelligence (π0), Google DeepMind (RT-2) et NVIDIA (GR00T N2) investissent massivement pour réduire le coût de re-spécialisation d'une politique entre robots distincts. Le benchmark robomimic (Mandlekar et al., Stanford/NVIDIA) est un standard de simulation, mais le gap sim-to-real reste non adressé dans cet article, et la suite logique serait une validation sur des robots physiques avec mesure de taux de réussite en conditions réelles.

RechercheOpinion
1 source
StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique
206arXiv cs.RO 

StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique

Des chercheurs ont publié sur arXiv (référence 2512.21970v2) StereoVLA, un modèle Vision-Language-Action (VLA) qui intègre la stéréovision dans les pipelines de manipulation robotique généraliste. L'architecture repose sur un encodeur visuel GeoSem (Geometric-and-Semantic), qui extrait en parallèle des indices géométriques issus des disparités entre vues stéréoscopiques et des représentations sémantiques classiques à partir des pixels RGB. Le modèle intègre deux objectifs de co-entraînement : l'Interaction-Region Depth Estimation, pour affiner le raisonnement spatial lors des saisies, et la Camera Parameter Estimation, pour aligner implicitement les repères de perception et d'action du robot. Entraîné sur des données stéréo synthétiques à grande échelle, StereoVLA atteint un gain absolu de 33,4 points de pourcentage en taux de succès en conditions réelles par rapport aux baselines monoculaires, et démontre une robustesse marquée à des angles de caméra proches de l'hémisphère supérieur. Ce gain de 33,4 % est substantiel dans un domaine où les progrès incrémentaux dominent la littérature. Il confirme une hypothèse structurelle : les encodeurs visuels préentraînés sur lesquels s'appuient les VLA actuels (CLIP, SigLIP) sont optimisés pour l'alignement sémantique, au détriment de la représentation géométrique 3D indispensable à la manipulation fine. Pour un intégrateur ou un COO industriel, cette démonstration repositionne le choix du capteur (stéréo vs monoculaire) comme décision architecturale critique dans toute cellule robotisée guidée par VLA. La robustesse aux angles hémisphériques est également un signal de maturité opérationnelle : en déploiement réel, la posture du bras et les contraintes d'encombrement imposent des perspectives de caméra qui mettent en défaut les VLA classiques. Les VLA (Pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA) constituent depuis 2024 le nouveau paradigme de contrôle généraliste pour la manipulation, mais reposent tous sur des encodeurs conçus pour la vision sémantique, non géométrique. StereoVLA adresse directement ce goulot d'étranglement en exploitant la stéréovision, technologie éprouvée dans les AMR et les caméras industrielles de profondeur (RealSense, ZED), mais restée jusqu'ici absente des pipelines VLA. L'étude demeure au stade de la recherche académique : aucun déploiement industriel ni partenariat constructeur n'est annoncé. La validité externe du gain de 33,4 % devra être éprouvée sur des bras commerciaux variés (Franka, UR, xArm) et dans des environnements moins contrôlés avant de conclure à une transférabilité industrielle.

IA physiqueOpinion
1 source
La translation comme action passerelle : transférer des compétences de manipulation de l'humain au robot
207arXiv cs.RO 

La translation comme action passerelle : transférer des compétences de manipulation de l'humain au robot

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.28133) une méthode pour transférer des compétences de manipulation humaine vers des robots bi-manuels à pinces parallèles, sans passer par une télé-opération coûteuse. Le principe repose sur une représentation d'action dite "pont" : plutôt que de capturer les 6 degrés de liberté (6DoF) du poignet humain rotations incluses, les auteurs n'utilisent que la translation relative du poignet dans le repère de la caméra tête initiale. Cet espace d'action minimal est partagé par les humains et les robots, ce qui élimine la principale source de bruit : l'estimation de la pose rotative d'une main humaine reste imprécise, et les schémas de contact des doigts diffèrent fondamentalement de ceux d'une pince parallèle. Un modèle vision-language-action (VLA) de type Pi-0 est ensuite entraîné avec des tokens d'action entrelacés et un masquage d'attention pour gérer l'absence de certaines composantes selon l'embodiment considéré. Le résultat central est que cette représentation "translation seule" transfère les connaissances de manipulation humaine vers le robot bien plus efficacement que les actions humaines bruitées en 6DoF, et que la performance scale avec la quantité de données humaines disponibles. Les expériences restent confinées à un ensemble de tâches bi-manuelles en laboratoire, ce qui invite à la prudence avant toute généralisation. Pour les intégrateurs B2B cherchant à exploiter des vidéos non instrumentées pour former des robots d'assemblage ou de manutention, c'est une validation de principe utile : les données humaines bon marché deviennent exploitables à condition de définir soigneusement l'espace d'action appris. Cela suggère que la conception de la représentation importe autant que le volume de données brutes. Ce travail s'inscrit dans la course à l'apprentissage cross-embodiment à partir de données humaines peu coûteuses, un front ouvert depuis que RT-2 (Google DeepMind, 2023) a popularisé les VLA multi-modaux. Physical Intelligence a lancé Pi-0 début 2025 comme modèle fondation bi-manuel ; ce papier en adopte l'architecture pour valider une hypothèse d'embodiment transfer distincte. Les concurrents directs incluent OpenVLA (Berkeley), AgiBot World et GR00T N2 (NVIDIA), qui explorent chacun des espaces d'action universels différents. La limite naturelle de cette approche reste les tâches impliquant des rotations fines ou des contacts précis, un angle que les auteurs n'abordent pas encore.

RechercheOpinion
1 source
Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)
208arXiv cs.RO 

Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (papier 2510.09976v2) un algorithme baptisé Flow Policy Optimization (FPO), conçu pour affiner par renforcement les modèles Vision-Language-Action (VLA) basés sur le flow-matching, en particulier le modèle π₀ (Pi-0) de Physical Intelligence. L'évaluation porte sur deux benchmarks de simulation robotique standards : LIBERO et ALOHA. FPO intègre quatre composants : une attribution de crédit sensible à la structure du réseau (structure-aware credit assignment), des objectifs surrogate clippés à la manière de PPO, une exploration latente multi-étapes, et un ensemble de Q-functions (Q-ensemble) pour estabiliser l'estimation de valeur. Les résultats montrent des gains constants sur le prior d'imitation et sur des baselines concurrentes, dont π₀-FAST, des approches RL autorégressive et diffusion, dans un régime de récompenses éparses. Le verrou technique résolu par FPO est fondamental : les méthodes de policy gradient classiques (PPO, GRPO) requièrent le calcul explicite de ratios de probabilité entre l'ancienne et la nouvelle politique (importance sampling), ce qui est mathématiquement intractable pour les modèles à flow-matching continu comme π₀. FPO contourne ce problème en reformulant l'importance sampling à partir des variations par échantillon de l'objectif conditionnel de flow-matching. C'est un déblocage algorithmique, pas un simple réglage d'hyperparamètres. Cela signifie que la famille de modèles la plus performante actuellement pour la manipulation généraliste, les VLA basées sur des politiques diffusion/flow, devient désormais accessible au fine-tuning par RL en ligne, sans qu'il faille revenir à des architectures autorégressive ou gaussiennes moins expressives. Le contexte est celui d'une course intense pour convertir la généralisation des grands modèles VLA en performance réelle sur tâches industrielles. π₀, développé par Physical Intelligence (ex-chercheurs de Google DeepMind et Stanford, fondée en 2023), a démontré une polyvalence remarquable sur données multi-robot, mais reste contraint par la qualité de ses démonstrations supervisées. FPO s'inscrit dans une tendance plus large, après RFT sur LLMs (DeepSeek-R1, Qwen), d'appliquer le fine-tuning par renforcement aux politiques robotiques. Les concurrents directs incluent OpenVLA (Berkeley), Octo (également Berkeley), et les approches RL sur modèles diffusion comme DPPO. Le papier reste pour l'instant en simulation ; le transfert sim-to-real sur π₀ avec FPO n'est pas encore documenté, ce qui constitue la prochaine étape critique avant tout déploiement industriel.

💬 Ce qui bloquait le fine-tuning par RL sur π₀, c'était mathématiquement intractable, pas un détail de tuning. FPO contourne ça proprement, et le résultat c'est que la famille de modèles VLA la plus expressive devient enfin accessible au renforcement en ligne, sans avoir à rétrograder vers des architectures moins capables. La prochaine étape, c'est le sim-to-real, et là j'attends de voir.

IA physiqueOpinion
1 source
PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables
209arXiv cs.RO 

PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables

Une équipe de chercheurs a publié fin juin 2026, via arXiv (2606.27146), PhysReflect-VLA, un module d'exécution conçu pour être greffé sur n'importe quel modèle Vision-Language-Action (VLA) existant sans réentraînement complet. L'architecture repose sur trois composants : un opérateur de faisabilité (Feasibility Operator) qui évalue si une action candidate produit une transition d'état dynamiquement cohérente avant exécution, un opérateur d'explication d'action (Action Explanation Operator) qui vérifie la cohérence de la transition, et un module de réflexion basé sur un LLM qui analyse les écarts d'état observés pour générer des corrections à la volée. Le tout s'intègre dans une boucle de contrôle fermée via une procédure d'entraînement en deux étapes. Sur des tâches de manipulation multi-étapes impliquant des contacts riches en environnement réel, PhysReflect-VLA affiche un gain moyen de 5,4 % de taux de succès par rapport aux baselines VLA représentatifs testés. Ce résultat, modeste en valeur absolue, adresse un point structurel des VLA actuels : ils fonctionnent en mode feed-forward, sans mécanisme d'auto-correction en ligne. Le problème est connu dans le domaine sous le terme de "recovery from disturbances", dès qu'un contact imprévu perturbe la trajectoire, la politique ne sait pas diagnostiquer l'échec et continuer. L'approche plug-and-play est stratégiquement intéressante pour les intégrateurs : elle évite de requalifier un modèle VLA entier (coût computationnel et données considérables) pour améliorer la robustesse en déploiement. Les ablations confirment que les deux composants, faisabilité et réflexion, contribuent indépendamment au gain, ce qui suggère une modularité réelle plutôt qu'un effet de combinaison artificiel. Cela dit, un gain de 5,4 % sur des benchmarks internes, sans précision sur le nombre de tâches, de répétitions, ni le profil de défaillance évité, mérite prudence avant généralisation. Les VLA comme pi0 (Physical Intelligence), OpenVLA (Berkeley), ou les variantes GR00T N2 de NVIDIA constituent le terrain sur lequel ce module se pose. La tendance récente dans la recherche en manipulation est précisément de dépasser le "sim-to-real gap" et de rendre ces politiques robustes aux perturbations contact, deux problèmes que PhysReflect-VLA cible explicitement. L'abstract ne mentionne pas l'institution d'origine ni de code public disponible, ce qui limite l'évaluation indépendante à ce stade. Les prochaines étapes naturelles seraient une intégration sur des VLA à grande échelle comme pi0 ou OpenVLA-OFT, et des tests sur plateformes humanoïdes où les transitions d'état en contact sont particulièrement critiques. Ce type de framework d'exécution supervisée pourrait également intéresser des acteurs européens actifs sur la couche contrôle, comme Enchanted Tools (Mirokaï) ou les équipes robotique d'IRT Jules Verne.

UEDes acteurs français comme Enchanted Tools (Mirokaï) et l'IRT Jules Verne pourraient bénéficier de ce module plug-and-play pour renforcer la robustesse de leurs couches de contrôle VLA, mais aucun déploiement ou partenariat européen n'est établi à ce stade.

💬 5,4 % de gain sur des benchmarks internes sans code public ni institution connue, je reste prudent. Mais le problème qu'ils ciblent est réel : les VLA actuels ne savent pas se rattraper quand un contact imprévu perturbe la trajectoire, c'est un défaut structurel de toute l'approche feed-forward. Ce que j'attendais, c'est ce genre de module de supervision plug-and-play, parce que requalifier un VLA complet pour chaque déploiement c'est hors budget pour 99 % des intégrateurs.

IA physiqueOpinion
1 source
E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique
210arXiv cs.RO 

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

Des chercheurs présentent sur arXiv (2606.27268, juin 2026) E-TTS, un cadre de mise à l'échelle à l'inférence (test-time scaling) pour la manipulation robotique, applicable en surcouche de modèles vision-language-action (VLA) existants sans réentraînement ni collecte de données supplémentaire. Le framework repose sur deux mécanismes : un échantillonnage conjoint raisonnement-action avec notation par paires, et un tampon d'historique (history buffer) qui stocke les observations passées pour contextualiser les décisions d'action. Contrairement aux méthodes TTS en boucle ouverte, E-TTS intègre du feedback durant l'inférence via un mécanisme de raffinement itératif en boucle fermée, piloté par des vérificateurs vision-langage. Les auteurs rapportent des gains jusqu'à 33,14 % en simulation et 26,62 % en conditions réelles, mesurés sur 4 benchmarks, 6 environnements, 3 morphologies de robots et 4 modèles VLA de base. L'enjeu est de transposer à la robotique ce qui a fonctionné pour les LLMs : amplifier les capacités à l'inférence sans modifier les poids du modèle. Le défi spécifique aux robots est que les tâches sont séquentielles et longues : une observation instantanée ne suffit pas pour choisir la bonne action, contrairement à une requête texte isolée. En partageant un buffer d'historique entre les modules de raisonnement et de vérification d'action, E-TTS comble un angle mort des méthodes TTS précédentes pour l'embodied AI. Le fait que le gain tienne en conditions réelles (26,62 %) et pas seulement en simulation est un signal positif sur le sim-to-real gap, même si les conditions exactes de ces expériences en monde réel méritent examen dans le papier complet. Le test-time scaling a émergé avec les architectures o1 et o3 d'OpenAI et les approches chain-of-thought pour les LLMs, avant d'être progressivement exploré pour les VLA robotiques. E-TTS s'inscrit dans ce mouvement que les auteurs eux-mêmes qualifient d'"early attempts", ce qui situe honnêtement le niveau de maturité. L'architecture modulaire et plug-and-play est conçue pour s'adapter à des VLA variés, ce qui pourrait faciliter l'adoption par des équipes travaillant sur des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le papier ne mentionne ni déploiement industriel ni partenariat avec un constructeur de robots : il reste une preuve de concept académique dont la validation sur des tâches industrielles réelles (assemblage, palettisation) constituerait l'étape suivante naturelle.

💬 Ce qui change ici, c'est le buffer. Appliquer le test-time scaling à un robot, c'est pas aussi simple qu'à un LLM : un bras qui visse en étape 7 ne peut pas raisonner sur une observation instantanée, il lui faut les étapes précédentes pour contextualiser. Que les gains tiennent à 26 % en conditions réelles et pas seulement en sim, c'est le seul résultat qui compte pour l'instant.

IA physiqueOpinion
1 source
SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage
211arXiv cs.RO 

SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage

Des chercheurs ont déposé SSI-Policy sur arXiv (2606.26800, juin 2026), un framework modulaire pour la manipulation robotique en régime de faibles données. Le système repose sur une représentation intermédiaire appelée Structured Scene Interface (SSI), une couche RGB-only qui encode simultanément des caractéristiques de profondeur monoculaire, des dispositions spatiales d'objets ancrées dans le langage naturel, et des trajectoires 2D conditionnées par instruction. Sur le benchmark LIBERO avec seulement 10 démonstrations par tâche, SSI-Policy dépasse la meilleure méthode concurrente de près de 15 points, et reste compétitif face aux approches à 50 démonstrations recourant au préentraînement externe à large échelle. Les auteurs valident également sur 13 tâches réelles : raisonnement spatial, transfert cross-embodiment et manipulation avec contact. L'apport central est architectural : en découplant la perception du contrôle via l'interface SSI, la politique aval peut apprendre à partir de très peu de démonstrations. Que l'interface soit entraînable sur des vidéos sans annotation d'action est particulièrement précieux pour les intégrateurs industriels qui peinent à collecter des données de téléopération à grande échelle. L'absence de capteur de profondeur, le système fonctionnant en pure RGB, réduit les prérequis matériels et facilite le déploiement sur des bras standards. Le caractère robot-agnostique de SSI cible directement la faiblesse récurrente des VLA (Vision-Language Action models) comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA : leur difficulté à transférer vers de nouveaux embodiments sans réentraînement coûteux. SSI-Policy se positionne face à trois familles de méthodes : les approches vidéo (SuSIE, UniSim), sujettes à dérive géométrique sur les horizons longs ; les méthodes 3D (Act3D, RoboPoint), qui exigent du RGB-D ; et les interfaces de flux optique, sans structure géométrique explicite. SSI-Policy prétend en combiner les avantages, affirmation partiellement étayée par les ablations publiées mais restant à confirmer sur des benchmarks plus larges comme RLBench ou DROID. L'article est un preprint, non soumis à évaluation par les pairs. La suite logique : validation sur plateformes humanoïdes complètes et pilotes industriels réels, deux domaines où la robustesse en faible nombre d'exemples reste le verrou commercial principal.

IA physiqueOpinion
1 source
PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching
212arXiv cs.RO 

PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching

Des chercheurs ont publié le 27 juin 2026 sur arXiv (2606.27144) un module baptisé PAMAE (Phase-Aware Mixture-of-Experts Action Experts), conçu pour améliorer la fiabilité des politiques d'action dans les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique multi-étapes. Le principe est simple : remplacer l'expert d'action unique partagé des architectures VLA à flow-matching par un mélange sparse d'experts spécialisés, sans toucher au backbone VLA pré-entraîné. Un routeur "phase-aware" oriente dynamiquement la génération d'actions vers l'expert approprié selon la phase d'exécution en cours, grâce à une tête de prédiction de phase légère et un objectif d'alignement de routage. L'entraînement se déroule en deux temps : d'abord un échauffement standard sous la loss de flow-matching, puis une optimisation du routage phase-cohérent sous supervision auxiliaire. Sur des benchmarks de simulation de manipulation multi-étapes, PAMAE affiche jusqu'à 9,2 % de gain en taux de succès par rapport à des baselines VLA solides. Ce résultat est notable parce qu'il s'attaque à un goulot d'étranglement concret des VLA à flow-matching : la tendance à lisser les comportements de contrôle à travers toutes les phases d'exécution avec un seul expert, ce qui nuit aux transitions critiques (saisie, repositionnement, insertion). L'approche "plug-and-play" est stratégiquement importante pour les intégrateurs -- elle évite le coût d'un réentraînement complet du backbone et reste compatible avec des fondations VLA existantes comme Pi-0 ou OpenVLA. Le gain de 9,2 % en simulation est mesuré sur des tâches multi-étapes, là où les architectures à expert unique échouent le plus souvent, ce qui rend la comparaison pertinente. Cela dit, la validation reste exclusivement en simulation, et le transfert sim-to-real n'est pas encore démontré : le "reality gap" demeure le vrai test pour ce type d'amélioration. Les VLA à flow-matching sont apparus comme une alternative aux politiques de diffusion classiques (Diffusion Policy, ACT) en combinant ancrage multimodal fort et généralisation, notamment via des modèles comme Pi-0 de Physical Intelligence ou les travaux de OpenVLA. L'idée des Mixture-of-Experts (MoE) pour les politiques de robot n'est pas nouvelle -- elle est empruntée au monde des LLMs (Mixtral, Switch Transformer) -- mais son application phase-conditioned dans un pipeline VLA end-to-end constitue une contribution originale. Côté concurrents, des approches comme HiRT, RoboVLMs ou les travaux de DeepMind sur RT-2 et ses successeurs explorent des trajectoires similaires pour améliorer la robustesse sur les tâches longues. La prochaine étape naturelle pour PAMAE serait une évaluation sur robot réel (plateforme Franka, UR5 ou bras humanoïde) et une comparaison directe avec des politiques récentes comme Pi-0.5 ou GR00T N2 de NVIDIA, dont les résultats terrain commencent à circuler.

RechercheOpinion
1 source
TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence
213arXiv cs.RO 

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

Des chercheurs ont publié sur arXiv (papier 2601.14945, version 2) un cadre architectural nommé TIDAL, Temporally Interleaved Diffusion and Action Loop, qui s'attaque directement au goulot d'étranglement en latence des modèles Vision-Language-Action (VLA). Le problème est précis : les VLA actuels basés sur la diffusion tournent typiquement à environ 2,4 Hz sur hardware embarqué, imposant un paradigme "batch-and-execute" où le robot planifie en bloc puis exécute en boucle ouverte. TIDAL introduit une architecture à double fréquence qui découple le raisonnement sémantique (boucle basse fréquence qui met en cache les embeddings d'intention) de l'actuation motrice (boucle haute fréquence qui entrelace intégration de flux à un pas et exécution). Résultat mesuré : environ 9 Hz de mises à jour de contrôle sur edge hardware, soit 4x la fréquence de feedback des baselines, avec un gain de performance 2x sur des tâches d'interception dynamique. La méthode ajoute également un prédicteur différentiel de mouvement pour compenser l'insensibilité à la vélocité des encodeurs visuels statiques, et une stratégie d'entraînement à désalignement temporel pour apprendre à compenser la latence résiduelle. L'impact concret pour les intégrateurs robotiques réside dans ce que le papier nomme "l'angle mort d'exécution" : quand une cible se déplace pendant la fenêtre d'exécution en boucle ouverte, les baselines VLA échouent systématiquement sous protocole d'inférence non-pausée, TIDAL reste opérationnel. C'est architectural et orthogonal aux optimisations système (quantification, batching), ce qui signifie qu'il peut s'empiler sur d'autres gains de performance. La régression marginale sur les tâches statiques (cibles immobiles) est honnêtement reconnue par les auteurs, ce qui est de bonne pratique évaluative. Pour un décideur B2B, la question pertinente reste ouverte : les gains sont mesurés en simulation et sur tâches de laboratoire, pas sur déploiement réel. TIDAL s'inscrit dans une compétition dense autour de la latence des VLA, portée par les modèles Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA. Ces architectures partagent le défi structurel du sim-to-real et de la fréquence de contrôle insuffisante pour les environnements industriels dynamiques (convoyeurs, pièces en mouvement, collaboration humain-robot). TIDAL est un travail de recherche académique sans annonce de déploiement ni partenaire industriel identifié, ce qui tempère toute projection immédiate. La prochaine étape naturelle serait une validation sur hardware réel, bras manipulateur ou humanoïde, avec métriques de robustesse en conditions non-contrôlées.

IA physiqueOpinion
1 source
Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage
214arXiv cs.RO 

Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage

Une équipe de chercheurs présente SVP-IL dans un préprint publié sur arXiv le 25 juin 2026 (arXiv:2606.25360), une architecture destinée à l'apprentissage par imitation conditionné par le langage naturel en robotique de manipulation. Le constat de départ est précis : les modèles Vision-Language-Action (VLA) de bout en bout actuels couplent dans un même réseau le raisonnement sémantique et le contrôle spatial, ce qui génère un goulot d'étranglement d'alignement quand les données d'entraînement sont rares. SVP-IL découple ces deux fonctions : un modèle fondation vision-langage analyse les instructions textuelles pour produire des masques géométriques zero-shot, traduits en "Spatial Visual Prompts" (SVP), qui sont ensuite injectés dans un générateur d'actions continu via une fusion légère au niveau des features. Résultats sur des tâches à ambiguïté linguistique élevée : avec seulement 50 à 100 démonstrations, le taux de succès moyen passe de 24,0 % à 39,5 %, et atteint 67,8 % sur les benchmarks standards. Des expériences en environnement physique non structuré ont validé la robustesse de l'approche hors laboratoire. L'enjeu industriel de ce résultat est le coût de collecte de données. Les VLA monolithiques comme RT-2, OpenVLA ou π0 (Physical Intelligence) exigent des milliers à des dizaines de milliers de démonstrations pour généraliser à de nouvelles tâches ou de nouveaux environnements, ce qui rend leur déploiement chez les intégrateurs robotiques coûteux et lent. SVP-IL ramène ce seuil à 50-100 démos, soit une réduction d'un ou deux ordres de grandeur, tout en surpassant l'état de l'art sur les tâches à désambiguïsation difficile. Pour un COO industriel ou un intégrateur, cela signifie un temps de mise en service radicalement plus court pour chaque nouvelle cellule de travail. L'approche valide aussi l'hypothèse que le couplage sémantique-spatial n'est pas une nécessité architecturale mais un choix de conception contournable. Les architectures VLA ont émergé à partir de 2022-2023 avec les travaux de Google DeepMind (RT-2), avant d'être popularisées par des modèles open-source et des acteurs comme Physical Intelligence avec π0 ou l'initiative GR00T N2 de NVIDIA. La tendance dominante reste le paradigme monolithique de bout en bout, considéré comme plus simple à scaler. SVP-IL conteste cette hypothèse en montrant qu'un découplage explicite donne de meilleurs résultats en régime de faibles données, sans compromis sur la généralisation. Le préprint ne mentionne pas de partenaire industriel ni de calendrier de déploiement, ce qui en fait pour l'instant une contribution académique ouverte, sans produit shipé associé. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux multi-DOF (bras industriels 6-7 axes, manipulateurs mobiles) et une intégration avec des pipelines de collecte de données synthétiques pour réduire encore davantage le besoin en démonstrations humaines.

RechercheOpinion
1 source
Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA
215arXiv cs.RO 

Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA

Des chercheurs ont publié le 25 juin 2026 sur arXiv (réf. 2606.25215) une architecture baptisée Reflective VLA, conçue pour améliorer la généralisation des modèles de type vision-language-action (VLA) en dehors de leurs environnements d'entraînement. Contrairement aux politiques dites "réactives" qui prédisent l'action suivante à partir de la seule observation courante, Reflective VLA conditionne chaque décision sur un contexte de triplets observation-action-conséquence: le modèle enregistre non seulement ce que le robot a vu et exécuté, mais aussi comment la scène a changé après chaque action. Architecturalement, toutes les modalités perceptives passent par le modèle de langage visuel (VLM) sous attention partagée, tandis qu'un masque de causalité par blocs permet l'entraînement parallèle sur plusieurs frames sans fuite d'information et supporte une inférence temps réel avec cache KV. Sur les benchmarks standards LIBERO et SimplerEnv-Bridge, le modèle maintient les performances en distribution. Sous distribution shift, sur LIBERO-Plus et la variante plus difficile LIBERO-Plus-Hard, il améliore le taux de succès moyen respectivement de 5,4 et 4,2 points de pourcentage face à une baseline réactive appariée. Ces gains, modestes en valeur absolue mais obtenus dans des conditions de transfert réel, adressent un verrou central de la robotique embarquée: les facteurs spécifiques à chaque déploiement (calibration robot, biais d'actuation, géométrie caméra-robot) sont difficiles à inférer d'une observation unique. En exposant la cartographie actions-effets propre à chaque environnement, l'approche réduit l'overfitting aux conditions d'entraînement sans modifier la structure générale du modèle. Chose importante, les ablations montrent que c'est le signal de conséquence, et non la simple augmentation du contexte historique, qui est responsable du gain de généralisation, résultat qui contredit l'hypothèse selon laquelle "plus de contexte suffit". Les VLA réactifs, popularisés par des travaux comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 (Physical Intelligence), souffrent depuis leurs débuts de ce gap sim-to-real et de dégradation hors distribution. Reflective VLA s'inscrit dans une tendance émergente qui cherche à doter les politiques robotiques d'une forme de boucle de feedback interne, proche du concept de "réflexion" en LLM. Les concurrents directs incluent des approches à mémoire épisodique ou à correction en ligne (comme RoboDreamer ou ACT avec buffer de contexte). L'article reste une contribution académique sans annonce de déploiement industriel ni partenaire commercial déclaré; les prochaines étapes naturelles seraient une validation sur matériel réel à grande échelle et l'intégration dans des pipelines de fine-tuning continu sur robots déployés.

RechercheOpinion
1 source
ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain
216arXiv cs.RO 

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

Une équipe de chercheurs a publié sur arXiv (référence 2503.05226v2) un framework décisionnel baptisé Reward-Centered ReST-MCTS, conçu pour améliorer la robustesse des politiques de manipulation robotique en environnement incertain. Le système s'appuie sur la recherche arborescente Monte Carlo (MCTS) augmentée d'un mécanisme de centrage de récompense : les signaux intermédiaires sont décomposés en quatre canaux distincts (règles explicites, heuristiques, réseau neuronal optionnel, estimation de valeur), puis normalisés par rapport à des contextes de tâche comparables afin de biaiser ou corriger la recherche sans altérer l'évaluation terminale. Le résultat central porte sur le benchmark LIBERO-Spatial en mode stress, avec perturbations du canal d'action : 0 succès sur 10 sans le vérificateur, contre 9 sur 10 avec. En conditions propres, le modèle de base OpenVLA-OFT atteint 10/10 avec ou sans le module RC, confirmant que le gain est spécifique aux scénarios dégradés. Des tests complémentaires sur ManiSkill couvrent le bruit d'observation, les décalages de pose initiale et les défaillances de primitives motrices. Ce résultat intéresse les intégrateurs et décideurs industriels parce qu'il cible directement le "reality gap" : les politiques VLA (Vision-Language-Action) telles qu'OpenVLA-OFT se comportent correctement en laboratoire mais se dégradent sous perturbation réelle (éclairage variable, position des pièces, usure des actionneurs). RC ReST-MCTS ne se pose pas comme une politique de remplacement, mais comme un vérificateur à inférence (test-time verifier) capable de corriger les actions générées par un VLA existant sans réentraîner le modèle de base. Pour un architecte système ou un COO, cela signifie qu'il devient possible de renforcer une politique déployée contre la variance du monde réel sans déclencher un cycle complet de fine-tuning, ce qui réduit considérablement le coût opérationnel de la mise à l'échelle. La recherche arborescente Monte Carlo appliquée à la manipulation robotique souffrait jusqu'ici de récompenses éparses en fin de rollout et d'un coût computationnel élevé pour les arbres profonds. ReST-MCTS avait déjà proposé d'itérer sur ce problème via du self-improvement guidé ; RC ReST-MCTS ajoute la couche de centrage pour stabiliser le signal dans des domaines bruités. Le benchmark LIBERO, issu d'une collaboration académique inter-universités, reste un standard reconnu pour la manipulation multi-tâche, aux côtés de ManiSkill (Université du Maryland). Les concurrents directs incluent les approches de test-time compute scaling de Physical Intelligence (pi0), ainsi que les méthodes de distillation et DAgger. Les auteurs restreignent volontairement leurs affirmations à un cadre "same-backbone" et s'abstiennent de toute comparaison de supériorité sur des benchmarks généraux, posture méthodologiquement honnête mais qui limite la portée des conclusions à ce stade de la recherche.

RechercheOpinion
1 source
Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel
217arXiv cs.RO 

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

💬 Le vrai verrou des robots en environnement réel, c'est pas la compréhension du langage, c'est la sémantique d'instance : distinguer "ma tasse" de "ta tasse" sans ré-entraîner le modèle pour chaque utilisateur. VAP règle exactement ça, avec quelques photos de référence et une surcouche légère compatible avec n'importe quel VLA existant. Reste à voir ce que ça donne hors tabletop, mais comme brique vers des robots vraiment personnalisables en déploiement réel, c'est ce qui manquait.

IA physiqueOpinion
1 source
Pose6DAug : substitution d'objets multi-vues physiquement plausible pour l'augmentation de données en robotique
218arXiv cs.RO 

Pose6DAug : substitution d'objets multi-vues physiquement plausible pour l'augmentation de données en robotique

Des chercheurs ont publié sur arXiv (réf. 2606.20118) une méthode baptisée Pose6DAug, un framework d'augmentation de données conçu pour améliorer la robustesse des politiques de type Vision-Language-Action (VLA) face à des objets qu'elles n'ont jamais manipulés lors de l'entraînement. Sans collecter un seul épisode de télé-opération supplémentaire, la méthode exploite les démonstrations réussies existantes pour en générer automatiquement de nouvelles, ciblées sur les modes d'échec détectés. Le principe : identifier les cas où la politique échoue sur un objet inconnu, puis remplacer l'objet manipulé dans les épisodes réussis par cet objet cible, tout en conservant la trajectoire d'action d'origine. Pour garantir la cohérence physique et multi-vue, le remplacement n'opère pas en 2D comme le ferait un inpainting vidéo classique, mais directement en 3D : l'objet cible est ancré via un mesh 3D piloté par une trajectoire de pose 6D cohérente temporellement, ce qui permet des rendus géométriquement consistants sur toutes les caméras, y compris sous occultations et angles egocentriques. En fine-tuning un VLA sur ces données augmentées, les auteurs mesurent un gain de 16,5 % de taux de succès sur objets hors-distribution par rapport au meilleur baselin existant, sans dégradation sur les objets connus. Ce résultat est important parce qu'il attaque directement le principal verrou à la mise à l'échelle des VLAs dans des environnements industriels réels : la généralisation à de nouveaux objets exige aujourd'hui des cycles coûteux de collecte de démonstrations humaines pour chaque nouveau cas. Pose6DAug transforme un épisode réussi en source de données synthétiques ciblées, ce qui pourrait réduire drastiquement le coût de déploiement continu des politiques robotiques. La méthode apporte aussi une réponse concrète au débat sur la cohérence sim-to-real : l'augmentation 2D par édition vidéo crée des incohérences entre vues qui dégradent l'apprentissage, tandis que l'approche 3D physiquement ancrée les élimine, validant l'hypothèse que la plausibilité géométrique est déterminante pour l'efficacité des augmentations. Le contexte de ce travail est celui de l'explosion des VLAs généralistes, portée par des modèles comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA ou encore Octo, tous confrontés au même problème de distribution shift sur de nouveaux objets. Les approches concurrentes, domain randomization ou collecte de nouvelles démonstrations, peinent à passer à l'échelle industrielle. Pose6DAug se positionne comme une brique de fine-tuning continu et automatique, activable dès qu'un mode d'échec est détecté en production. Les auteurs n'annoncent pas de déploiement terrain ni de partenariat industriel dans cette version preprint ; il s'agit d'une publication de recherche, sans produit commercialisé à ce stade.

UERésultat applicable aux labos et industriels européens travaillant sur des VLAs pour réduire les coûts de collecte de démonstrations, mais aucun acteur FR/EU n'est impliqué dans ce travail de recherche.

IA physiqueOpinion
1 source
Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras
219arXiv cs.RO 

Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras

Des chercheurs ont publié Co-VLA (arXiv:2606.20285), un framework de manipulation bimanurale qui intègre des priors structurels explicites dans les modèles VLA (Vision-Language-Action). L'architecture remplace la tête d'action monolithique habituelle par un Structured Action Expert (SAE) couplé à un Latent-Aware Controller (LAC) opérant au niveau des commandes articulaires. Le SAE décompose la représentation latente en une composante partagée encodant l'intent de coordination au niveau de la tâche, et des résidus par bras capturant les ajustements d'exécution propres à chaque effecteur. Les résultats expérimentaux, en simulation et sur banc réel, montrent un gain de 27 points de taux de succès sur les tâches à coordination serrée, un doublement des performances hors-distribution (de 13 % à 27 %), et une réduction du temps d'exécution allant jusqu'à 25 % face aux baselines monolithiques. L'enjeu central est de rendre fiable et interprétable la coordination bimanurale dans des scénarios industriellement contraints : assemblage à force symétrique, manipulation d'objets déformables, chaînes de montage à deux bras. Les VLA actuels comme Pi-0 ou GR00T N2 montrent que la coordination émergente fonctionne sur des tâches simples, mais échoue à garantir la stabilité quand les contraintes d'exécution sont critiques. Co-VLA répond à cette limite sans requérir de contrôle en force ni en impédance : le LAC module en temps réel la synchronisation, l'asymétrie et les contraintes de sécurité tout en restant compatible avec les pipelines de contrôle standard, ce qui abaisse la barrière d'intégration pour les équipementiers. Le doublement des performances OOD est l'indicateur le plus stratégique, suggérant que la structure explicite améliore la robustesse hors-distribution, un critère décisif pour les déploiements industriels réels. Le domaine des VLA pour la manipulation s'est accéléré depuis 2023, porté par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui ont repoussé les limites de la généralisation en manipulation mono et bimanurale. Co-VLA s'inscrit dans une tendance qui réintroduit de la structure explicite dans l'apprentissage end-to-end, une tension classique entre approches connexionnistes et symboliques qui refait surface à l'ère des grands modèles de fondation. Aucun partenaire industriel ni timeline de commercialisation n'est mentionné dans l'abstract : il s'agit d'un preprint de recherche académique, sans robot identifié ni déploiement annoncé à ce stade.

RechercheOpinion
1 source
Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur
220arXiv cs.RO 

Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur

Des chercheurs ont soumis mi-juin 2026 un article préliminaire (preprint arXiv 2606.20272) portant sur la génération de données d'entraînement synthétiques liées à des scènes réelles pour les systèmes de vision IA appliqués à la robotique cognitive. Le travail couvre plusieurs familles de méthodes : l'analyse sémantique d'environnement, l'estimation de pose 6D et l'estimation de pose de préhension (grasping pose estimation), deux capacités centrales pour permettre à un robot de localiser et saisir des objets dans des scènes non contrôlées. L'objectif déclaré est de réduire le fossé de domaine (domain gap) entre les environnements de simulation utilisés pour générer des données d'entraînement et les conditions du monde réel, en liant explicitement les deux lors de la phase de génération. Les auteurs présentent ce travail comme en cours ("work in progress") et ne publient pas encore de résultats quantitatifs ni de benchmarks comparatifs. Le domain gap est l'un des verrous techniques les plus structurants pour le déploiement industriel de robots perceptifs. Les modèles de vision entraînés uniquement sur des données synthétiques tendent à échouer en environnements réels à cause des variations d'éclairage, de texture et de géométrie non reproduites en simulation. Une approche qui ancre la génération synthétique dans des scènes réelles captées (par exemple via reconstruction 3D ou relevé de profondeur) pourrait réduire ce biais sans le coût prohibitif de l'annotation manuelle à grande échelle, un goulot d'étranglement bien documenté pour les pipelines de vision industrielle. Si cette méthode est validée à l'échelle, elle représente un levier de productivité concret pour les intégrateurs déployant des solutions de pick-and-place ou de navigation en environnements variés. Le sim-to-real transfer mobilise depuis plusieurs années les principaux acteurs du secteur : NVIDIA a structuré sa plateforme Isaac Sim précisément pour produire des données synthétiques photoréalistes à grande échelle, Google DeepMind y investit dans ses travaux sur les modèles Vision-Language-Action comme RT-2, et Physical Intelligence a publié des résultats notables sur la généralisation en environnements réels avec π0. L'article soumis s'inscrit dans ce courant, mais reste à un stade amont : aucune implémentation publiée, aucun code disponible, aucun jeu de données de référence cité. La version finale, si elle présente des résultats sur des benchmarks reconnus comme le BOP Challenge, YCB-V ou LINEMOD, sera plus déterminante pour évaluer la contribution réelle de cette approche.

RecherchePaper
1 source
SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente
221arXiv cs.RO 

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Une équipe de chercheurs a publié fin juin 2026 SC3-Eval (arXiv:2606.18610), un cadre d'évaluation des politiques de manipulation robotique basé sur la génération vidéo cohérente. Le principe : plutôt que de rouler une politique en conditions réelles, un modèle fondamental vidéo pré-entraîné simule les trajectoires du robot et prédit si la tâche aboutit. SC3-Eval repose sur trois mécanismes de cohérence complémentaires. La cohérence dynamique avant-inverse entraîne simultanément le modèle à prédire les images à partir des actions et à récupérer les actions à partir des images, ancrant les rollouts à un espace d'action physiquement plausible. La cohérence multi-vue oblige le modèle à reconstruire chaque caméra depuis les autres, maintenant la cohérence spatiale sur de longs épisodes. Enfin, à l'inférence, un signal d'incertitude par chunk d'actions interrompt les rollouts dont les images générées divergent des actions demandées. Évalué sur sept politiques vision-langage-action (VLA) réelles, SC3-Eval atteint une corrélation de Pearson de 0,929 avec les résultats terrain et un MMRV de 0,119, surpassant trois baselines vidéo existantes. Ce résultat a une portée pratique immédiate : évaluer une politique de manipulation en conditions réelles est coûteux, lent et difficile à paralléliser. Un corrélat simulé à 0,929 constitue un substitut crédible pour filtrer les candidats politiques avant déploiement physique, réduisant potentiellement les cycles d'itération de plusieurs semaines à quelques heures. Fait notable, SC3-Eval reproduit fidèlement les modes d'échec observés en réel, permettant un diagnostic fin au niveau tâche plutôt qu'un classement agrégé, ce qui est plus actionnable pour un intégrateur. Le cadre se généralise par ailleurs à des tâches hors distribution d'entraînement, un point critique pour les équipes qui développent des politiques généralistes. Ce travail s'inscrit dans la vague d'adoption des modèles VLA commerciaux et de recherche, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix, OpenVLA, dont l'évaluation standardisée reste un goulot d'étranglement reconnu. Les approches alternatives passent par des simulateurs physiques classiques (MuJoCo, Isaac Sim) ou des rollouts réels coûteux ; les world models vidéo comme UniSim ou IRASim avaient amorcé cette direction mais se heurtaient à la dérive autorégressiveet à l'incohérence multi-caméras que SC3-Eval adresse directement. Le code et les données ne sont pas encore publiés au moment de la préprint, ce qui limite l'adoption immédiate. La prochaine étape logique sera de valider la méthode sur des plateformes humanoïdes à plus haute dimensionnalité, où le coût d'évaluation réelle est encore plus prohibitif.

RechercheOpinion
1 source
L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines
222arXiv cs.RO 

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

Une équipe de chercheurs a publié un cadre d'entraînement basé sur des actions latentes permettant de former des modèles VLA (Vision-Language-Action) généralistes à partir de vidéos égocentriques humaines non annotées, sous l'identifiant arXiv:2606.18955. L'architecture centrale, baptisée Hybrid Disentangled VQ-VAE, décompose les dynamiques de mouvement des arrière-plans environnementaux via des masques physiques et construit un codebook d'actions multi-embodiment. Pré-entraîné exclusivement sur des vidéos humaines sans étiquettes d'action, le modèle ne requiert que 50 trajectoires robotiques annotées pour s'adapter à un embodiment cible, contre des milliers généralement exigés par les approches concurrentes. Les résultats, validés en simulation et en environnement réel, affichent des performances comparables aux meilleurs modèles VLA entraînés sur des jeux de données massifs et entièrement annotés. Une stratégie de découplage intention-perception complète l'architecture : le backbone VLM prédit l'intention d'action tandis qu'un encodeur visuel gelé distinct fournit les caractéristiques propres à l'état courant à un module expert d'action, réduisant ainsi les hallucinations d'action. Ce travail s'attaque directement au principal goulot d'étranglement du domaine : la rareté des données robotiques avec annotations de haute fidélité. Les vidéos humaines égocentriques, abondantes sur internet et capturant une grande diversité environnementale, restaient jusqu'ici inexploitables dans les paradigmes d'entraînement classiques faute de labels d'action. Descendre à 50 trajectoires pour l'adaptation aval représente un changement d'ordre de grandeur pour les intégrateurs industriels qui n'ont ni la logistique ni le budget pour constituer des datasets robotiques à grande échelle. Le codebook cross-embodiment ouvre en outre la voie à des modèles fondamentaux transférables entre différentes morphologies de robots, ce qui répond à l'un des reproches récurrents faits aux approches VLA : leur faible généralisation inter-plateforme. Le contexte concurrentiel est dense. Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA visent tous à former des modèles VLA généralistes, mais s'appuient principalement sur des datasets robotiques annotés comme OpenX-Embodiment ou des jeux propriétaires. Des travaux antérieurs comme UniSim ou des approches de pré-entraînement sur vidéo internet avaient déjà exploré cette direction sans atteindre ce niveau de frugalité en données. Ce preprint arXiv reste à ce stade une contribution de recherche : pas de déploiement industriel annoncé, pas de partenariat déclaré. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une validation sur une palette plus large de morphologies robotiques réelles.

RechercheOpinion
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
223arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA
224arXiv cs.RO 

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

Pré-publiée sur arXiv en juin 2026 (identifiant 2606.17200), ACE-EGO-0 est un cadre de pretraining pour modèles Vision-Langage-Action (VLA) qui exploite conjointement 4 530 heures de données robotiques et de simulation, et 1 480 heures de vidéos égocentrées humaines converties en pseudo-trajectoires robot. Le pipeline automatise la transformation de vidéos à la première personne en séquences d'actions au format démonstration téléopérée, en représentant les mouvements dans l'espace caméra plutôt que dans un référentiel corporel. Pour atténuer le bruit inhérent à ces pseudo-labels, un objectif d'entraînement reliability-aware concentre la supervision sur les segments les plus fiables via une perte auxiliaire dédiée. Évalué sur RoboCasa GR1 TableTop (robot humanoïde GR1 de Fourier Intelligence) et RoboTwin 2.0, ACE-EGO-0 atteint les meilleures performances publiées sur les deux benchmarks et démontre, selon les auteurs, un transfert vers la manipulation bimanuelle en conditions réelles. L'apport central est la résolution d'un problème structurel : les divergences d'espaces d'action, de morphologie et de dynamiques temporelles entre humains et robots rendaient jusqu'ici l'entraînement conjoint instable ou contre-productif. En unifiant la représentation via des actions caméra-space et un time-aligned action chunking avec morphology conditioning, les auteurs montrent que des jeux de données égocentrés existants comme Ego4D ou EPIC-Kitchens peuvent fournir un signal complémentaire valide à grande échelle. Pour les équipes R&D en robotique, l'implication pratique est directe : réduire significativement le coût de collecte de trajectoires robot, l'un des principaux goulots d'étranglement du déploiement VLA à l'échelle industrielle. La course aux politiques robotiques généralisables s'est accélérée depuis Pi-0 de Physical Intelligence (novembre 2024), OpenVLA et RT-2 de Google DeepMind. Des travaux antérieurs comme Dobb-E ou Human2Robot avaient déjà exploré les données humaines égocentrées comme supervision complémentaire, mais sans framework unifié à cette échelle ni évaluation systématique. ACE-EGO-0 propose une recette reproductible évaluée sur deux benchmarks de référence, dont RoboTwin 2.0, particulièrement pertinent car la manipulation bimanuelle reste un défi ouvert pour les humanoïdes commerciaux tels que Figure 03, Optimus Gen 3 ou Unitree H1. La prépublication ne mentionne ni partenaire industriel ni déploiement annoncé : ACE-EGO-0 est pour l'instant une contribution de recherche, pas un produit livrable.

IA physiqueOpinion
1 source
MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique
225arXiv cs.RO 

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Des chercheurs présentent ce mois-ci MuseVLA (arXiv:2606.17598, juin 2026), un modèle Vision-Language-Action capable d'intégrer des capteurs non-RGB comme entrées de perception active lors de tâches de manipulation robotique. Sur un robot à main dextre testée en conditions réelles, MuseVLA atteint un taux de succès moyen de 80,6 % sur trois familles de tâches : saisie guidée par la température, recherche d'objet par signal audio, et récupération d'objet dissimulé assistée par radar. L'architecture repose sur un mécanisme en deux temps : le modèle génère d'abord un "sensor token" qui sélectionne dynamiquement la modalité sensorielle pertinente pour la tâche en cours, puis convertit la mesure capteur en une "grounded sensor image", une représentation intermédiaire unifiée fusionnée avec le flux RGB classique avant la génération d'action. Les auteurs introduisent également un pipeline de synthèse de données qui augmente des datasets RGB existants avec des images capteur simulées, contournant ainsi le coût prohibitif de la collecte de données multisensorielles réelles. L'apport principal est architectural plutôt que purement empirique : le découplage entre le traitement capteur spécifique et le backbone VLA permet d'intégrer de nouveaux capteurs sans réentraîner le modèle de base, un principe analogue aux "tool calls" dans les LLM. Cette modularité répond à une limite structurelle des VLA actuels, dont Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA), qui opèrent quasi exclusivement sur RGB. La capacité de zéro-shot sur des tâches non vues lors de l'entraînement est notable, même si les conditions expérimentales restent celles d'un laboratoire, sans déploiement industriel rapporté. Les métriques de cycle time ou de robustesse en environnement non contrôlé ne sont pas fournies, ce qui limite l'interprétation du 80,6 % en contexte réel. Le papier s'inscrit dans une effervescence autour des VLA généralistes depuis mi-2024, avec des acteurs comme Physical Intelligence, 1X Technologies, Enchanted Tools côté européen, et les équipes de Google DeepMind ou Carnegie Mellon qui multiplient les approches de fusion multimodale. MuseVLA reste pour l'instant un preprint sans code ni dataset publié, et la question de la généralisation à des capteurs industriels standards (LiDAR, force/torque) n'est pas traitée. Les prochaines étapes naturelles seraient un benchmark comparatif sur des plateformes connues type Franka ou UR, et une validation hors labo pour confirmer la thèse du sim-to-real sur les données capteur synthétiques.

UELes acteurs européens comme Enchanted Tools opèrent dans le même segment VLA généraliste, mais ce preprint n'implique aucune institution ou entreprise française ou européenne.

IA physiqueOpinion
1 source
Pré-entraînement contrastif action-image pour le contrôle visuomoteur
226arXiv cs.RO 

Pré-entraînement contrastif action-image pour le contrôle visuomoteur

Des chercheurs ont publié CAIP (Contrastive Action-Image Pre-training), un encodeur visuel pour la robotique qui exploite 32 041 heures de vidéo égocentrique humaine, complétées par seulement 88 heures de données de manipulation robotique. Le principe central consiste à extraire les poses 3D des mains humaines depuis des vidéos filmées en vue subjective, et à les utiliser comme signal de substitution pour les actions d'effecteur terminal, un proxy qui s'aligne naturellement avec les espaces d'action des bras robotiques. Via un objectif d'apprentissage contrastif, CAIP apprend une représentation unifiée liant images et actions. Évalué sur deux mains dextres réelles (Dexmate Vega et Sharpa Wave), le modèle affiche des gains supérieurs à 30% sur des tâches de manipulation précise : pliage de tissu, versage de liquide, et manipulations en dextérité fine. Ce résultat touche directement un verrou bien connu dans la communauté : la pénurie de données robotiques étiquetées freine la pré-formation de grands encodeurs visuels, là où le NLP ou la vision généraliste disposent de milliards d'exemples. CAIP propose une voie de passage scalable sans collecter davantage de trajectoires robot, en exploitant la vidéo humaine disponible à l'échelle d'Internet comme source implicite de signaux d'action. En surpassant DINOv2, SigLIP, MVP et R3M sur des benchmarks en conditions réelles (et non en simulation), l'approche renforce l'hypothèse que le sim-to-real gap peut être partiellement contourné en ancrant la représentation visuelle dans des dynamiques d'action humaine, plutôt qu'en augmentant les données robot brutes. Ce travail s'inscrit dans un courant de recherche actif autour des politiques visuomotrices apprenant depuis la vidéo humaine. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et les approches issues d'OpenVLA croisent des signaux similaires, bien que depuis des angles différents. CAIP se distingue en isolant le signal de pose 3D des mains comme modalité intermédiaire explicite, plutôt que d'ingérer du langage ou des représentations d'action latentes. Le code et les modèles ne sont pas encore publiés au moment de la soumission (arXiv:2606.17256, juin 2026). La prochaine étape naturelle serait de tester la généralisation à des morphologies robotiques plus variées et à des tâches bimanuelles, domaine où les pipelines VLA (Vision-Language-Action) peinent encore à démontrer une robustesse hors laboratoire.

RechercheOpinion
1 source
ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique
227arXiv cs.RO 

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

Une équipe de chercheurs a publié sur arXiv (réf. 2606.17937, juin 2026) ThinkingVLA, un modèle VLA (Vision-Language-Action) conçu pour la manipulation robotique sur des séquences longues. L'architecture, de type Mixture-of-Transformers, intercale raisonnement textuel et visuel dans un unique processus génératif. Un Chain-of-Thought "forward" identifie le sous-objectif suivant et prédit l'état visuel cible correspondant ; un CoT "inverse" prend ensuite cette image générée comme entrée et infère les commandes motrices nécessaires pour l'atteindre. L'action finale est générée conditionnée sur ce contexte de raisonnement complet. Sur des benchmarks en simulation et en conditions réelles, ThinkingVLA surpasse les baselines de l'état de l'art, avec les gains les plus marqués sur les tâches à horizon temporel long. La grande majorité des modèles VLA actuels, notamment Pi-0 de Physical Intelligence ou OpenVLA, projettent directement observations vers actions sans raisonnement explicite, ce qui les pénalise sur les séquences longues nécessitant planification spatiale et décomposition en sous-étapes. ThinkingVLA adresse ce "reasoning gap" en forçant le modèle à anticiper visuellement l'état du monde avant de dériver les commandes. Cette boucle d'inverse dynamics grounding visuel est, si elle se confirme à l'échelle sur des objets et environnements variés, une piste sérieuse pour réduire le fossé persistant entre démonstrations en laboratoire et robustesse opérationnelle hors domaine. Les modèles VLA ont connu une accélération nette depuis 2024 avec RT-2 de Google DeepMind, Pi-0 de Physical Intelligence (lancé fin 2024), GR00T N2 de NVIDIA et Helix de Figure AI. L'ajout de CoT textuel dans les VLA est une tendance consolidée, mais ThinkingVLA se distingue par un CoT visuel explicite, soit la génération d'une image intermédiaire comme étape de raisonnement, ce qui implique une architecture bimodale plus coûteuse à l'inférence. Le travail est soumis en pre-print sans revue par les pairs à ce stade, sans partenariat industriel annoncé. Les prochains défis identifiés par le domaine concernent la généralisation hors distribution et la réduction du coût d'inférence pour un déploiement embarqué en temps réel.

RechercheOpinion
1 source
Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention
228arXiv cs.RO 

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

Des chercheurs publient APOLLO, un cadre hybride pour le rangement personnalisé d'objets ménagers par robot, soumis le 17 juin 2026 sur arXiv. Le système couple un modèle d'embedding personnalisé (PEM), léger, entièrement sur CPU, entraîné par paire utilisateur-environnement à partir d'une poignée de démonstrations, à un LLM activé sélectivement uniquement quand le PEM signale une incertitude élevée. APOLLO introduit l'abstention comme comportement de premier ordre : le robot peut décider de ne pas déplacer un objet faute d'information suffisante, une capacité absente de la plupart des approches actuelles. Pour évaluer ce comportement, les auteurs publient également APOR, un dataset synthétique généré par LLM couvrant des environnements multi-meubles, des profils organisationnels variés, des cas d'abstention explicites et des scènes partiellement bruitées. Sur les benchmarks PARSEC et APOR, APOLLO améliore les performances par rapport aux baselines LLM pures tout en réduisant substantiellement le nombre d'appels au modèle. Le code est disponible sur GitHub (PaInt-Lab/APOLLO). Les résultats restent à ce stade préliminaires, les auteurs eux-mêmes parlant de "preuves initiales" en environnement simulé, sans validation sur hardware réel. Ce résultat pointe un angle mort systématique : les méthodes existantes supposent des observations propres et une actionabilité complète, deux hypothèses rarement vérifiées dans un vrai foyer encombré. L'architecture hybride répond aussi à des contraintes de déploiement concret : le PEM sur CPU préserve la vie privée et réduit la latence, le LLM étant réservé aux décisions vraiment ambiguës. C'est une direction pragmatique pour des assistants domestiques embarqués sur du matériel non-spécialisé, où le recours systématique au cloud n'est ni acceptable ni viable à l'échelle. APOLLO s'inscrit dans un effort plus large pour rendre les politiques VLA (Vision-Language-Action) robustes à l'incertitude et aux données partielles, un problème central du déploiement hors environnements contrôlés. Les travaux concurrents de Physical Intelligence (π0), des équipes RT-2 ou OpenVLA s'attaquent à la généralisation en scènes non structurées, mais l'abstention explicite reste rare dans la littérature. Aucun acteur français ou européen n'est directement impliqué dans cette publication. Les prochaines étapes naturelles incluent une validation sur hardware réel et une évaluation avec de vrais utilisateurs sur la pertinence des décisions de non-action.

RecherchePaper
1 source
Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel
229arXiv cs.RO 

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Des chercheurs proposent, dans un preprint déposé en juin 2026 sur arXiv (2606.15285), un cadre asynchrone baptisé "semantic-action decoupling" qui découple l'inférence sémantique de la génération d'actions au sein des modèles Vision-Language-Action (VLA). L'architecture divise le VLA en deux modules distincts: un module de compréhension à basse fréquence qui met à jour de manière asynchrone des conditions sémantiques réutilisables, et un module d'action à haute fréquence qui produit en continu des commandes de contrôle sans relancer l'intégralité du modèle. Testée sur le benchmark LIBERO avec les modèles π₀.₅ (Physical Intelligence) et UniVLA, ainsi que sur un robot réel avec UniVLA, la méthode atteint un débit d'inférence côté serveur allant jusqu'à 35,6 Hz pour le seul module d'action. Pour compenser le décalage temporel entre des représentations sémantiques potentiellement périmées et l'état d'exécution courant, les auteurs introduisent deux mécanismes additionnels: le conditionnement sur l'historique des actions passées, et un entraînement explicite à la désynchronisation temporelle (time-misalignment training). Ce résultat s'attaque à l'un des verrous centraux du déploiement industriel des VLA: leur coût computationnel élevé les contraint aujourd'hui à des fréquences de contrôle trop basses pour des tâches de manipulation rapide ou réactive. Atteindre 35,6 Hz sans modifier le backbone vision-langage ni introduire un planificateur externe est non trivial, car cela signifie qu'un intégrateur peut greffer cette optimisation sur un VLA existant sans refonte architecturale. Le travail apporte une réponse partielle au "demo vs. reality gap" souvent reproché aux VLA: en maintenant un contrôle en boucle fermée à haute fréquence, le système peut absorber des perturbations que des architectures synchrones rateraient. Il reste que les métriques publiées correspondent à un throughput serveur, et non à une latence de bout en bout sur un système embarqué, ce qui nuance la portée opérationnelle immédiate. Les VLA sont devenus l'architecture dominante en robotique de manipulation depuis π₀ (Physical Intelligence, 2024) et les travaux de Google DeepMind sur RT-2, OpenVLA et leurs successeurs. UniVLA, lui, est issu de travaux récents visant à unifier les modalités de commande dans un modèle unique. La problématique de la fréquence de contrôle est traitée en parallèle par plusieurs équipes: Physical Intelligence avec π₀.₅, mais aussi des approches par distillation ou par action chunking (ACT, Diffusion Policy). Ce preprint ne présente pas encore de déploiement industriel ni de timeline commerciale, mais il ouvre une voie d'optimisation compatible avec des VLA open-source, ce qui pourrait accélérer l'adoption par des intégrateurs disposant d'une infrastructure GPU serveur sans retraîner leurs modèles de base.

RechercheOpinion
1 source
Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence
230arXiv cs.RO 

Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence

Des chercheurs ont publié en juin 2026 (arXiv:2606.15631) une méthode permettant d'étendre un modèle VLA (Vision-Language-Action) à de nouvelles tâches sans réentraînement par tâche. Le principe : remplacer le fine-tuning par de la récupération d'exemples (retrieval) au moment du déploiement. La politique est entraînée une seule fois sur des démonstrations appariées entre deux embodiments, le robot cible et un embodiment moins coûteux, typiquement une vidéo de main humaine, puis gelée définitivement. Pour ajouter une nouvelle tâche, il suffit d'indexer des démonstrations supplémentaires dans un pool de récupération : aucune mise à jour de paramètres n'est nécessaire. À chaque pas de contrôle, la politique gelée conditionne ses actions sur des trajectoires récupérées dynamiquement. Un fine-tuning reste nécessaire uniquement lors du passage à un embodiment entièrement inconnu, pas pour chaque nouvelle tâche. La méthode a été validée sur les benchmarks PushT et RoboTwin 2.0, ainsi que sur un robot réel. Ce résultat s'attaque directement au principal frein au déploiement industriel des politiques VLA : le coût d'adaptation par tâche. Aujourd'hui, intégrer une nouvelle tâche dans un système VLA exige des démonstrations téléopérées et un fine-tuning intensif en calcul, une barrière réelle pour les intégrateurs devant couvrir des dizaines de SKU ou de postes de travail. Remplacer ce cycle par une simple indexation de données change radicalement l'équation économique. L'effet est notable sur des backbones VLA standard, mais il est surtout prononcé avec Cosmos Policy, le world-action model (WAM) de NVIDIA basé sur la génération vidéo : le retrieval fournit la progression macroscopique de la tâche, tandis que l'objectif de prédiction d'images futures du WAM renforce la cohérence des actions conditionnées. Cela suggère que les modèles de robotique générative de prochaine génération sont particulièrement bien positionnés pour tirer parti de cette approche. Le retrieval-augmented generation (RAG) est une technique établie en traitement du langage naturel ; son application aux politiques de contrôle robotique est plus récente. Les modèles VLA actuels, π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, offrent une bonne généralisation mais exigent toujours un fine-tuning par tâche pour être fiables en production. RoboTwin 2.0 est un benchmark récent pour la manipulation bimanuale. L'aspect cross-embodiment, qui utilise des vidéos de main humaine comme source bon marché, est également structurant : il ouvre la possibilité de collecter des données de déploiement sans robot. Les prochaines étapes naturelles incluent des expériences à plus grande échelle de pools de démonstrations et une intégration avec des systèmes de récupération dense type FAISS pour des catalogues de tâches industrielles larges.

IA physiqueOpinion
1 source
RHO : votre agent de code est secrètement un roboticien
231arXiv cs.RO 

RHO : votre agent de code est secrètement un roboticien

Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils. Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique. Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.

IA physiqueOpinion
1 source
LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques
232arXiv cs.RO 

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

Des chercheurs ont proposé LaST₀ (Latent Spatio-Temporal Chain-of-Thought), un framework pour modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique, publié en janvier 2026 sur arXiv (2601.05248, v4). Évalué sur 10 tâches réelles couvrant la manipulation sur table, la manipulation sur base mobile et la manipulation dextre, le système améliore le taux de succès moyen de respectivement 13 %, 14 % et 14 % par rapport aux meilleures méthodes VLA actuelles. L'architecture repose sur un design Mixture-of-Transformers dual : un "expert raisonnement" opérant à basse fréquence pour l'inférence latente, et un "expert action" générant des commandes motrices à haute fréquence, les deux modules fonctionnant à des cadences hétérogènes pour permettre un basculement adaptatif. Le raisonnement intermédiaire s'effectue dans un espace latent compact encodant la dynamique visuelle future, la structure 3D de la scène et les états proprioceptifs du robot, sans passer par du texte en langage naturel. L'enjeu central est le compromis latence/raisonnement qui freine le déploiement industriel des VLA. Les approches qui génèrent des traces de raisonnement en langage naturel avant d'agir, comme certaines variantes de Pi-0 (Physical Intelligence) ou OpenVLA, introduisent une latence d'inférence incompatible avec les cycles rapides de la manipulation robotique. LaST₀ court-circuite ce goulot en déplaçant le raisonnement dans un espace latent plus dense informationnellement, plus rapide à générer, et capable de capturer des attributs physiques difficiles à verbaliser comme la friction ou la compliance des objets. Les gains mesurés sur des environnements réels, et non en simulation, constituent un signal notable : le sim-to-real gap n'est pas le seul obstacle, et la représentation interne du raisonnement importe autant que la qualité des données d'entraînement. Les VLA ont émergé comme architecture dominante pour la généralisation en robotique depuis les travaux de Google sur RT-2 (2023), puis se sont accélérés avec Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI en 2025. Le débat structurant du secteur oppose raisonnement explicite de type LLM et politiques réactives de type diffusion. LaST₀ propose une troisième voie, un système dual à fréquences hétérogènes combinant les deux sans les latences du premier ni les limites de généralisation du second. La publication reste pour l'instant purement académique, sans pilote industriel annoncé, mais l'architecture est directement transposable aux manipulateurs commerciaux et aux plateformes humanoïdes existantes.

IA physiqueOpinion
1 source
Pondération hiérarchique des avantages pour l'affinage par apprentissage par renforcement en ligne des VLA à partir de résultats d'épisodes épars
233arXiv cs.RO 

Pondération hiérarchique des avantages pour l'affinage par apprentissage par renforcement en ligne des VLA à partir de résultats d'épisodes épars

Une équipe de chercheurs publie sur arXiv (2606.17043) une méthode baptisée HABC (Hierarchical Advantage-Weighted Behavior Cloning), destinée à affiner en ligne, par apprentissage par renforcement, des politiques VLA (Vision-Language-Action) préentraînées. L'approche cible un problème précis : lors des épisodes de rollout sur robot réel, seul un signal binaire est disponible (succès ou échec), alors que l'algorithme d'entraînement réclame une supervision à chaque transition. Sur trois tâches bimanales à contact riche, HABC fait passer les taux de succès de 36 %, 44 % et 12 % (baselines par imitation supervisée seule) à respectivement 92 %, 88 % et 38 %, soit des gains de 56, 44 et 26 points de pourcentage. L'apport central est une décomposition de l'objectif en deux dimensions orthogonales : la viabilité (la politique peut-elle réussir la tâche ?) et l'efficacité (le fait-elle rapidement ?). Confondre les deux dans un scalaire unique pose problème dès que le succès de base est acquis : le gradient s'annule, incapable de discriminer une exécution rapide d'une lente. HABC entraîne deux têtes de critique séparées sur des sous-ensembles de données distincts, puis les fusionne via une porte adaptative g_t qui privilégie la viabilité quand le succès est incertain et bascule vers l'efficacité quand il est maîtrisé. Un second mécanisme, l'"intervention-aware credit assignment", restreint les labels d'épisode aux seuls segments exécutés de façon autonome par la politique courante, empêchant les reprises en main humaines de polluer l'attribution de crédit, biais particulièrement dévastateur dans les environnements industriels où les opérateurs interviennent régulièrement. Cette contribution s'inscrit dans une vague de travaux cherchant à rendre le fine-tuning en ligne des VLA praticable hors simulation. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA ont chacun mis en avant des capacités de généralisation, mais l'amélioration continue post-déploiement par RL demeure un problème ouvert. HABC y répond sans modifier l'architecture du modèle sous-jacent, ce qui la rend compatible avec les VLA existants sans refonte coûteuse. Le preprint ne mentionne ni partenariat industriel ni calendrier de déploiement : il s'agit d'une contribution académique dont les résultats sur robot réel lui confèrent plus de poids que les travaux purement simulés, mais dont la validation reste limitée à trois tâches et n'implique aucun acteur européen identifié.

RechercheOpinion
1 source
T-Rex : manipulation dextérique à réaction tactile
234arXiv cs.RO 

T-Rex : manipulation dextérique à réaction tactile

Une équipe de chercheurs vient de publier T-Rex (Tactile-Reactive Dexterous Manipulation), un système d'apprentissage robotique qui intègre le retour tactile dans un modèle Vision-Language-Action (VLA) pour la manipulation dextre. Pour entraîner le système, les auteurs ont constitué un dataset de 100 heures de données tactiles à haute fréquence, collectées via une méthode centrée sur des primitives motrices élémentaires afin de maximiser l'efficacité de la collecte. L'architecture proposée, baptisée variable-rate Mixture-of-Transformers (MoT), est couplée à un encodeur tactile temporel de type VQ-VAE qui compresse les signaux tactiles à fréquence élevée sans saturer le flux de traitement du VLA de base. Validé sur 12 tâches de manipulation nécessitant un contrôle de force précis ou la gestion d'objets déformables, T-Rex affiche un taux de succès supérieur de plus de 30 % à celui du meilleur modèle concurrent testé. Ce résultat est significatif parce que les VLA actuels, dont Pi-0 de Physical Intelligence, OpenVLA ou les variantes de GR00T de NVIDIA, ignorent généralement le canal tactile ou se limitent à des encodeurs statiques incapables de capter la dynamique du contact en temps réel. Or, c'est précisément cette réactivité tactile qui distingue la dextérité humaine : ajuster la prise sur un objet glissant, détecter un défaut de surface, moduler la force sur un emballage souple. T-Rex démontre qu'il est possible de greffer un flux tactile à haute fréquence sur un VLA préentraîné sans dégrader ses capacités visuolinguistiques, ce qui ouvre la voie à une intégration progressive dans des pipelines d'apprentissage existants plutôt qu'à une refonte complète de l'architecture. La raison pour laquelle le tactile restait sous-exploité dans les VLA tient à trois obstacles cumulatifs : rareté des données tactiles diversifiées, contraintes architecturales des transformeurs optimisés pour la vision, et absence de benchmarks standardisés. T-Rex s'attaque aux trois simultanément, ce qui distingue ce travail des contributions précédentes comme DIGIT ou GelSight couplées à des politiques RL classiques. Dans le paysage concurrentiel, les acteurs spécialisés en capteurs tactiles (Contactile, Tac Sensing, BioTac) pourraient trouver dans ce framework un argument pour accélérer l'adoption hardware. Le code, le dataset et les poids du modèle ne sont pas encore mentionnés comme publics au moment de la soumission arXiv ; leur disponibilité conditionne la reproductibilité et l'impact réel de ce travail au-delà du laboratoire.

IA physiqueOpinion
1 source
ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes
235arXiv cs.RO 

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes

Une équipe de chercheurs a publié fin juin 2026 ROVE (Reinforcement learning for humanoid VLA post-training with imperfect human interventions), un framework de renforcement dédié à l'amélioration des modèles Vision-Language-Action (VLA) sur robots humanoïdes à partir d'interventions humaines imparfaites. Le principe : un opérateur prend la main sur le robot lors des phases d'échec, générant des trajectoires correctives qui servent ensuite à affiner le modèle. Le problème bien identifié par les auteurs est que ces interventions humaines sont souvent hésitantes, sous-optimales, voire erronées, ce qui rend l'imitation naïve contre-productive. ROVE introduit deux mécanismes centraux : un pipeline human-in-the-loop capable de collecter simultanément des données de déploiement autonome et d'intervention, et une méthode d'estimation de valeur dite "optimiste" (Optimistic Value Estimation, OVE) qui filtre les comportements à haute valeur depuis des trajectoires de qualité mixte. Le framework intègre également des vidéos d'expériences humaines cross-embodiment pour enrichir la supervision sur les modes de défaillance et de récupération rares. Sur des tâches réelles de manipulation à contact-riche et fine-grained, ROVE surpasse les baselines par apprentissage par expérience et s'améliore de manière consistante à chaque itération rollout-intervention. L'enjeu central ici est la scalabilité du déploiement humanoïde en conditions réelles. Les modèles VLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont démontré des capacités de généralisation remarquables, mais leur post-training sur hardware humanoïde reste un goulot d'étranglement : la cinématique whole-body et le contrôle de mains dextères compliquent radicalement la collecte de données téléopérées de qualité. ROVE invalide l'hypothèse selon laquelle l'intervention humaine doit être experte pour être utile : OVE permet d'extraire un signal d'avantage informatif même depuis des démonstrations imparfaites, ce qui signifie qu'on peut utiliser des opérateurs non-spécialistes pour améliorer continûment le modèle en production. C'est un changement de paradigme potentiellement significatif pour les intégrateurs : la qualité du déploiement n'est plus bornée par la disponibilité d'experts en téléopération. Ce travail s'inscrit dans une vague de recherches sur le RLHF appliqué à la robotique physique, après les travaux pionniers sur l'imitation par intervention (HATO, HITL-TAMER) et les approches par feedback correctif. Les humanoïdes ciblés restent non précisés dans l'abstract (preprint arXiv, les détails hardware seront à vérifier dans le papier complet), mais les résultats sur tâches contact-rich suggèrent une applicabilité aux plateformes type Figure 03, Unitree H1/G1 ou Agility Digit. Le positionnement concurrentiel est clair : là où Physical Intelligence mise sur la qualité des données téléopérées en amont, ROVE parie sur la rectification en boucle fermée en aval. Les prochaines étapes probables incluent des tests à plus grande échelle et une évaluation sur plusieurs architectures VLA, mais en l'état de preprint, aucun déploiement commercial n'est annoncé.

IA physiqueOpinion
1 source
DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée
236arXiv cs.RO 

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée

DemoDiffusion est une méthode de robotique présentée dans un preprint arXiv (2506.20668) permettant à un robot manipulateur d'imiter une démonstration humaine unique, sans entraînement spécifique à la tâche ni données appariées humain-robot. Le pipeline repose sur deux étapes successives : d'abord, le mouvement de la main humaine est converti en trajectoire approximative pour l'effecteur terminal du robot par recalibrage cinématique (kinematic retargeting), produisant une motion en boucle ouverte. Ensuite, une politique de diffusion généraliste pré-entraînée (diffusion policy) corrige cette trajectoire pour qu'elle reste dans la distribution des actions robotiques plausibles, sans fine-tuning. Sur 8 tâches de manipulation variées en conditions réelles, DemoDiffusion atteint un taux de succès moyen de 83,8 %, contre 52,5 % pour le seul recalibrage cinématique et 13,8 % pour la politique généraliste utilisée sans guidance. La méthode réussit même sur des tâches où la politique généraliste échoue totalement. Ce résultat conteste une hypothèse structurante du secteur : l'idée que l'adaptation à de nouvelles tâches requiert soit des jeux de données appariées humain-robot coûteux à collecter, soit du reinforcement learning en ligne avec ses longs cycles d'entraînement. DemoDiffusion montre qu'une démonstration unique suffit, ce qui réduit drastiquement le coût d'intégration pour les intégrateurs industriels. L'écart entre 83,8 % et 52,5 % illustre concrètement que le recalibrage cinématique seul reste fragile hors de son domaine de calibration, et que la politique de diffusion joue un rôle correcteur décisif, une forme de sim-to-real soft sans réentraînement. Sur les tâches à 0 % pour la baseline, le gain est absolu. L'approche s'inscrit dans la vague des politiques de diffusion généralistes issues de travaux comme Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence, qui cherchent à capitaliser sur des modèles pré-entraînés pour éviter la spécialisation coûteuse par tâche. Les concurrents directs sur le segment "one-shot imitation" incluent des méthodes basées sur ACT, VIMA ou les VLA visuomoteurs (OpenVLA, RoboVLMs), qui exigent généralement plusieurs dizaines à centaines de démonstrations. DemoDiffusion reste au stade preprint sans déploiement industriel ni partenaire commercial annoncé ; les prochaines étapes naturelles seraient une évaluation sur manipulateurs commerciaux (UR, Franka Robotics) et des tâches impliquant contact forcé ou objets déformables.

UELes intégrateurs industriels européens (dont Franka Robotics, entreprise allemande citée comme cible d'évaluation future) pourraient bénéficier d'une réduction des coûts de collecte de données, mais aucun acteur français ou européen n'est impliqué dans ces travaux au stade preprint.

IA physiqueOpinion
1 source
AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active
237arXiv cs.RO 

AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active

Des chercheurs de LiAuto-DSR, division R&D de Li Auto (constructeur automobile chinois), publient sur arXiv (réf. 2511.18960, quatrième révision) AVA-VLA, un cadre algorithmique ciblant une limite structurelle des modèles Vision-Language-Action (VLA). Le diagnostic central : les VLA existants traitent chaque observation visuelle indépendamment à chaque pas de temps, modélisant la manipulation robotique comme un processus markovien (MDP) alors que la réalité est un processus partiellement observable (POMDP). AVA-VLA introduce un état récurrent servant d'approximation neurale de la croyance de l'agent sur l'historique de la tâche, couplé à un module d'attention visuelle active (AVA) qui réattribue dynamiquement des poids aux tokens visuels selon l'instruction courante et l'historique d'exécution. Les auteurs revendiquent l'état de l'art sur LIBERO et CALVIN, deux benchmarks académiques standards en manipulation robotique simulée, ainsi qu'un transfert vers des tâches de manipulation bimanuelle en conditions réelles, sans que les métriques terrain soient détaillées dans l'abstract. L'apport architectural est notable : les VLA phares actuels, OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, traitent l'observation visuelle sans mémoire explicite du contexte passé. Conditionner l'attention visuelle à l'historique d'exécution couvre un angle mort structurel sur les tâches séquentielles longues, là où des actions antérieures modifient la scène sans être immédiatement visibles dans l'image courante. Pour les intégrateurs industriels, cela suggère des bras manipulateurs plus robustes sur des workflows multi-étapes sans remise à zéro du contexte. Réserve : la formulation "transfers effectively" manque de quantification, et LIBERO comme CALVIN restent des environnements largement simulés. Le secteur des VLA s'est considérablement densifié depuis mi-2024 : π0 en octobre 2024, GR00T N2 en mars 2025, et une constellation de variantes académiques (RoboVLMs, OpenVLA-OFT) alimentent la littérature. L'approche récurrente d'AVA-VLA prolonge des travaux classiques sur la résolution de POMDP à base de LSTM, réinterprétés ici dans le paradigme VLA moderne. LiAuto, principalement connu pour ses véhicules hybrides à autonomie étendue, affiche à travers DSR des ambitions en robotique de manipulation. Le code source n'est pas encore publié et aucun déploiement terrain n'est annoncé : il s'agit pour l'instant d'une contribution de recherche académique dont la portée industrielle reste à confirmer hors simulation.

RechercheOpinion
1 source
SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA
238arXiv cs.RO 

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

IA physiqueOpinion
1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
239arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
240arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source
LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques
241arXiv cs.RO 

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (référence 2606.13578) un article présentant LabVLA, un modèle Vision-Language-Action conçu spécifiquement pour l'exécution autonome de protocoles expérimentaux en laboratoire scientifique. Le système repose sur deux briques : RoboGenesis, un moteur de génération de données par simulation qui décompose des flux de travail en compétences atomiques, valide les exécutions et exporte des démonstrations structurées pour différents profils de robots ; et LabVLA lui-même, dont l'entraînement se déroule en deux étapes -- un préentraînement par tokenisation d'actions FAST sur le backbone Qwen3-VL-4B-Instruct, suivi d'un affinage par flow matching avec un expert d'actions de type DiT (Diffusion Transformer) sous isolation des connaissances. Sur le benchmark LabUtopia, LabVLA affiche le taux de succès moyen le plus élevé parmi tous les systèmes testés, en distribution comme hors distribution. L'enjeu est structurant : les IA actuelles peuvent lire de la littérature scientifique, générer des hypothèses et planifier des protocoles, mais l'exécution physique au banc de laboratoire reste humaine. Les instruments spécialisés, les liquides transparents (difficiles à percevoir pour les capteurs RGB classiques) et les séquences protocolaires rigides créent des défis absents des benchmarks domestiques sur lesquels la plupart des VLA existants -- Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont été entraînés. Si LabVLA tient ses promesses hors simulation, cela ouvrirait la voie à une automatisation crédible des laboratoires de biologie, chimie ou pharmacologie, un marché adressé aujourd'hui par des acteurs comme Automata, Opentrons ou Hamilton Robotics. La course aux VLA généralistes a démarré en 2024 avec Octo, puis OpenVLA et Pi-0, calibrés principalement sur des tâches ménagères. Le sim-to-real gap en milieu laboratoire reste un obstacle non résolu : les résultats présentés dans ce preprint sont entièrement issus de simulation -- LabUtopia est lui-même un environnement virtuel -- et aucun déploiement sur robot physique n'est rapporté. La robustesse sur de vraies paillasses, avec contaminations, vibrations et variabilités instrumentales, reste à démontrer. Les auteurs annoncent comme prochaines étapes l'extension des profils de robots compatibles avec RoboGenesis et des évaluations sur hardware réel.

UEImpact indirect pour les laboratoires pharmaceutiques et biotechs européens si le sim-to-real gap est comblé, mais aucun déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile
242arXiv cs.RO 

GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.13394) GeoHAT, un framework end-to-end basé sur la diffusion pour la manipulation mobile whole-body. L'architecture atteint 79,3 % de taux de succès moyen sur le benchmark de simulation ManiSkill-HAB, surpassant la baseline précédente la plus forte de 23,7 points. Le coeur du système repose sur un encodeur spatial Fourier léger qui projette les coordonnées 3D pixel par pixel en tokens géométriques, sans backbone 3D dédié, puis les injecte sélectivement dans les features d'un modèle de vision de fondation via une fusion gated par token, modulée par la validité de profondeur. Pour la génération d'actions, un Hybrid Whole-Body Action Decoder décompose les commandes du bras et de la base mobile en sous-espaces distincts, chacun relié à son contexte visuel propre via cross-attention sparse. Des expériences en environnement réel sur tâches variées confirment les gains observés en simulation. Le verrou visé est structurel: coordonner base mobile et bras manipulateur exige de gérer des points de vue changeants et des régimes de contrôle fondamentalement différents. Les politiques existantes encodent bras et base dans un unique vecteur d'action, écrasant leurs contraintes propres, et s'appuient sur des représentations 3D parses ou des features 2D qui manquent de structure spatiale dense. La décomposition en sous-espaces d'action que propose GeoHAT est une réponse directe à ce mélange contre-productif. Le signal le plus intéressant pour les intégrateurs n'est pas le score sur benchmark, mais la confirmation en conditions réelles: le sim-to-real gap, souvent fatal aux approches académiques, semble partiellement contenu. Cela suggère qu'une politique de manipulation mobile généraliste pourrait être déployée sans recalibration majeure entre simulation et terrain, ce qui reste rare dans la littérature récente. GeoHAT s'inscrit dans la lignée des politiques de diffusion pour la robotique, dont Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence sont les références les plus citées, étendues ici à la manipulation mobile. Le benchmark ManiSkill-HAB, maintenu par l'équipe de Hao Su à l'UC San Diego, est devenu une mesure standard pour les agents mobilise-manipulateurs en scènes domestiques simulées. Les travaux concurrents les plus proches incluent Mobile ALOHA (Stanford, 2024) et les approches VLA comme OpenVLA-OFT. La légèreté computationnelle de GeoHAT, obtenue en évitant un backbone 3D séparé, le distingue des stratégies de fusion dense qui risquent de corrompre les représentations préentraînées. Aucun déploiement industriel ni partenariat n'est annoncé; il s'agit d'un résultat de recherche avec validation réelle, préalable nécessaire avant toute mise en production.

RechercheOpinion
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
243arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage
244arXiv cs.RO 

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

Des chercheurs ont publié sur arXiv (2511.05203v3) SIL (Symbiotic Interactive Learning), un framework de co-adaptation bidirectionnelle pour l'interaction humain-agent. Contrairement aux systèmes actuels où l'agent exécute passivement des commandes en langage naturel, SIL maintient un espace latent partagé dans lequel humain et agent font évoluer conjointement leurs états de croyance (belief states) au fil des échanges. L'architecture repose sur des foundation models pour la perception spatiale et le raisonnement, un encodeur neuronal entraîné par triplet-loss qui ancre ces sorties dans des représentations spécifiques à la tâche, et des mémoires épisodique et sémantique régularisées via Elastic Weight Consolidation (EWC) pour prévenir l'oubli catastrophique. Sur des tâches simulées et réelles, suivi d'instructions, recherche d'information, raisonnement orienté requêtes et dialogue interactif, SIL atteint un taux de complétion de 90,4% et un score d'alignement de croyances ρ ≈ 0,83, soit un gain absolu d'environ 20 points de pourcentage sur les meilleures ablations. L'enjeu est conceptuellement notable : presque tous les systèmes HRI (human-robot interaction) actuels fonctionnent en mode maître-apprenti unidirectionnel, l'agent n'apprenant rien de l'opérateur en cours d'interaction. SIL propose à l'inverse une co-adaptation mutuelle permettant des clarifications proactives, des suggestions de plan adaptées et un affinement continu de la compréhension de la tâche. Pour les intégrateurs de cobots ou les décideurs industriels, cela adresse un point de friction concret : gérer l'ambiguïté opérationnelle sans sollicitations humaines répétées. La régularisation EWC répond aussi à un problème récurrent des VLA (Vision-Language-Action models) : la dégradation des performances lors du fine-tuning continu sur des tâches évolutives. Ce travail s'inscrit dans le courant d'intégration des foundation models dans la couche de contrôle robotique, aux côtés de RT-2 (Google DeepMind) et OpenVLA. La particularité de SIL réside dans sa boucle interactive bidirectionnelle plutôt que dans la seule généralisation task-to-task. Il s'agit à ce stade d'une preprint arXiv, sans revue par les pairs confirmée ni déploiement industriel annoncé ; les résultats sur tâches "réelles" méritent un examen attentif des protocoles expérimentaux, absents du résumé disponible. Les prochaines étapes naturelles sont une soumission en conférence (CoRL, ICRA) et une éventuelle intégration dans des plateformes d'agents embarqués pilotés par LLM.

RechercheOpinion
1 source
QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)
245arXiv cs.RO 

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (identifiant 2510.14836, troisième révision) QDepth-VLA, un cadre d'apprentissage qui augmente les modèles Vision-Language-Action (VLA) avec une tâche auxiliaire de prédiction de profondeur. Le principe : un module spécialisé, baptisé "depth expert", apprend à prédire des tokens latents quantifiés de cartes de profondeur, générés par un encodeur VQ-VAE (Vector Quantized Variational Autoencoder). Ces tokens sont intégrés au pipeline VLA comme supervision auxiliaire durant l'entraînement, sans modifier l'architecture de base du modèle. L'approche est validée sur des benchmarks de simulation et sur des tâches réelles de manipulation robotique, avec des résultats décrits par les auteurs comme "compétitifs", formulation prudente qui suggère des gains réels mais pas nécessairement un état de l'art incontestable. L'enjeu fondamental que traite QDepth-VLA est le déficit de perception 3D des VLA actuels. Des modèles comme OpenVLA, Pi-0 ou les variantes de RT-2 traitent les images comme des entrées 2D et peinent à raisonner sur la géométrie de la scène (distance d'un objet, orientation, profondeur d'emprise), ce qui limite leur précision sur des tâches de manipulation fine : assemblage, insertion de connecteurs, saisie d'objets transparents ou réfléchissants. En forçant le modèle à reconstruire une structure de profondeur quantifiée, QDepth-VLA injecte des indices géométriques explicites dans les représentations apprises, sans nécessiter de capteur de profondeur supplémentaire à l'inférence. C'est un argument concret pour les intégrateurs déployant des robots sur des cellules équipées uniquement de caméras RGB standard. QDepth-VLA s'inscrit dans une tendance plus large d'augmentation des VLA par des tâches auxiliaires : prédiction de flux optique chez Physical Intelligence avec Pi-0, estimation de pose 3D dans les travaux Google DeepMind, ou représentations implicites de scène. Les concurrents directs incluent SpatialVLA et plusieurs variantes de RoboVLMs intégrant des indices 3D explicites. Un point de vigilance : les auteurs ne précisent ni le robot utilisé pour les expériences réelles, ni les conditions expérimentales détaillées, ce qui rend difficile la comparaison directe avec d'autres approches. La prochaine étape pour positionner objectivement QDepth-VLA dans le paysage sera une évaluation sur des benchmarks standardisés comme LIBERO ou Open X-Embodiment, qui font aujourd'hui référence dans la communauté VLA.

IA physiqueOpinion
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
246arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
247arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA
248arXiv cs.RO 

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ReCoVLA (Reward Compilation for VLA recovery) est un framework de récupération d'erreurs présenté dans un preprint arXiv publié le 9 juin 2026, conçu pour pallier la fragilité des politiques VLA (Vision-Language-Action) face aux états hors-nominal. Le principe : maintenir une politique VLA pré-entraînée gelée (frozen), déléguer à un modèle vision-langage externe (VLM) l'inférence du mode de défaillance et du stade de récupération, puis compiler une récompense structurée pour entraîner une politique résiduelle corrective en simulation. Cette politique résiduelle est ensuite déployée en zéro-shot sur robot réel sans réentraînement. Sur des tâches de manipulation couvrant des horizons courts, longs et des contacts riches, ReCoVLA fait passer le taux de succès moyen de 36,7 % (baseline π0.5 fine-tuné) à 66,7 % en simulation, et atteint 61,7 % en déploiement physique zéro-shot sim-to-réel. L'apport conceptuel central est de ne pas utiliser le VLM pour générer des actions ou des récompenses directement, mais comme un sélecteur sémantique de récompenses : il prédit un descripteur de récupération et un masque de récompense parmi des composants prédéfinis liés à la tâche. Cette séparation entre compréhension sémantique de haut niveau et contrôle correctif de bas niveau adresse un angle mort bien documenté des architectures VLA actuelles : elles offrent de bons priors pour la manipulation conditionnée au langage, mais s'effondrent dès qu'elles rencontrent un état non prévu à l'entraînement. Le framework se veut agnostique à la politique VLA sous-jacente, ce qui le rendrait compatible avec différents modèles de base. Le travail s'inscrit dans une compétition intense autour des politiques génératives pour la manipulation robotique. Des modèles comme π0 et π0.5 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA ont démontré la faisabilité des VLA à grande échelle, mais la robustesse aux défaillances reste un problème ouvert. ReCoVLA propose une réponse modulaire qui n'exige pas de réentraîner la politique de base, ce qui réduit théoriquement les coûts d'adaptation. Il convient toutefois de noter que ce preprint ne fait pas état d'un déploiement industriel : les expériences physiques restent en contexte laboratoire, avec un périmètre de tâches limité. Les prochaines étapes naturelles concernent la généralisation à d'autres architectures VLA et l'évaluation sur des chaînes causales plus longues.

RechercheOpinion
1 source
ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action
249arXiv cs.RO 

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

Une équipe de recherche a publié sur arXiv (arXiv:2606.09740) ProbeAct, un framework d'intervention à l'exécution conçu pour détecter et corriger les échecs de saisie et de placement dans les modèles Vision-Language-Action (VLA) pré-entraînés, sans modifier leurs poids ni nécessiter de démonstrations supplémentaires. Le système repose sur trois composants couplés : une sonde légère sur les états cachés du modèle qui prédit les positions 3D des objets pertinents à partir des features intermédiaires du VLA (avec suivi d'identité par algorithme hongrois pour les scènes multi-objets) ; une machine à états cinématiques agnostique à l'objet qui détecte les défaillances de saisie, de transport et de placement via les signaux internes du préhenseur et la cinématique de l'effecteur terminal ; enfin, un filtre hiérarchique par Control Barrier Function (CBF) qui encode les zones d'échecs répétés comme contraintes soft sur l'ensemble de sécurité, corrigeant minimalement les actions du VLA sans altérer son comportement nominal. Évalué sur le benchmark LIBERO-plus, ProbeAct améliore le taux de succès d'OpenVLA-OFT de 69,6 % à 74,1 %. Un gain de 4,5 points de taux de succès peut sembler modeste, mais il intervient sur un problème structurel bien identifié des VLA : leur fragilité hors distribution. Ces modèles échouent régulièrement face à des variations de luminosité, des changements de point de vue caméra, ou de légères variations d'état initial, autant de conditions triviales dans un déploiement industriel réel. L'intérêt de ProbeAct est précisément d'être plug-and-play, orthogonal aux pipelines d'entraînement existants, et applicable aussi bien aux modèles de base qu'aux versions fine-tunées. Pour un intégrateur, cela signifie un filet de sécurité superposable sur n'importe quel VLA sans coût de ré-entraînement, ce qui réduit concrètement le gap entre performance en benchmark et robustesse terrain. Les VLA ont connu une accélération notable depuis 2023 avec des modèles comme RT-2 (Google DeepMind), OpenVLA (UC Berkeley) ou pi-0 (Physical Intelligence), mais leur fragilité aux perturbations reste un frein reconnu à la commercialisation. Les approches existantes pour y remédier passent généralement par de l'augmentation de données ou du fine-tuning ciblé, coûteux en temps et en annotations. ProbeAct s'inscrit dans une alternative émergente : la correction à l'inférence, sans toucher au modèle. Il s'agit pour l'instant d'un preprint arXiv, sans déploiement annoncé ni partenaire industriel mentionné ; les prochaines étapes naturelles seraient une validation sur hardware réel hors benchmark simulé.

RechercheOpinion
1 source
AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
250arXiv cs.RO 

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

IA physiqueOpinion
1 source