Aller au contenu principal

Dossier OpenVLA / RT-X

519 articles

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot
1arXiv cs.RO RechercheOpinion

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

1 source
SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle
2arXiv cs.RO 

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

Des chercheurs du groupe Intuitive Robots ont publié sur arXiv (réf. 2606.13497) SPARC, acronyme de Spatial Annotations from Robot Demonstrations with Reliability Calibration. Il s'agit d'un pipeline automatique qui annote des démonstrations robotiques avec des métadonnées spatiales structurées -- boîtes englobantes, trajectoires d'objets, labels de phase de manipulation -- tout en attribuant à chaque annotation un score de fiabilité calibré. Évalué sur 1 700 démonstrations annotées manuellement, couvrant des morphologies et des scénarios variés, SPARC conserve trois fois plus d'échantillons aux points de fonctionnement haute précision par rapport aux pipelines de détection classiques, tout en surpassant ces mêmes baselines sur la précision de localisation. L'équipe introduit également IA-Bench (Interaction-Aware Bench), un benchmark dédié à mesurer la précision des modèles dans la localisation des objets manipulés au fil d'une démonstration. Le code, les données et les modèles sont disponibles publiquement. L'enjeu est directement lié à la scalabilité de l'entraînement des politiques robotiques et des modèles de fondation incarnés (embodied foundation models). Les pipelines d'annotation automatique existants produisent des labels en volume, mais sans signal de qualité fiable : la confiance du détecteur est mal calibrée pour prédire la correction d'une annotation, ce qui oblige les équipes ML à choisir entre bruit et perte de données. SPARC contourne ce dilemme en exploitant la structure spatio-temporelle propre aux tâches robotiques pour générer un signal de fiabilité intrinsèque. Les politiques entraînées sur ces annotations surpassent les baselines dans des scènes réelles encombrées et visuellement ambiguës, ce qui suggère que la qualité du signal d'annotation compte autant que le volume brut de données -- une hypothèse que le secteur commence seulement à tester systématiquement. Le problème de l'annotation à grande échelle est un goulot d'étranglement bien identifié dans la robotique d'apprentissage par imitation, notamment depuis l'émergence des Visual Language Action models (VLA) tels que pi-0 de Physical Intelligence ou OpenVLA de Berkeley. Ces architectures consomment des milliers de démonstrations annotées avec précision, et la vérification humaine ne passe pas à l'échelle. SPARC s'inscrit dans un effort plus large, parallèle aux travaux de Google DeepMind sur RoboAgent ou aux pipelines de données de Hugging Face LeRobot, pour industrialiser la production de datasets robotiques de qualité. La prochaine étape logique sera de valider SPARC sur des distributions d'environnements plus larges et sur des tâches de manipulation longue durée, deux axes où le sim-to-real gap reste ouvert.

UELes laboratoires européens (CEA-List, INRIA, universités) travaillant sur l'apprentissage par imitation peuvent directement exploiter ce pipeline open-source pour améliorer la qualité de leurs datasets robotiques sans coût d'annotation humaine supplémentaire.

RecherchePaper
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
3arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

IA physiqueOpinion
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
Exécution en temps réel avec des politiques autorégressives
5arXiv cs.RO 

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

IA physiqueOpinion
1 source
μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA
6arXiv cs.RO 

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

Des chercheurs ont publié sur arXiv (arXiv:2606.12497) une étude d'isolation contrôlée baptisée muVLA, une famille de variantes du modèle OpenVLA-OFT augmentées de récurrence minimale. Le principe : injecter un petit ensemble de tokens mémoire apprenables dans le transformer, transportés d'un pas de temps au suivant et mis à jour par auto-attention, sans loss auxiliaire ni modification architecturale. L'entraînement se fait de bout en bout avec rétropropagation tronquée dans le temps (TBPTT), paramétrée par la largeur mémoire m et la longueur de troncature K, avec deux règles de mise à jour comparées -- gradients inter-pas ou EMA détachée. Sur le benchmark MIKASA-Robo, muVLA porte le taux de succès moyen sur cinq tâches d'entraînement de 0,42 à 0,84 dans la configuration la plus forte, et atteint 0,23 sur des tâches hors distribution contre 0,07 pour la baseline sans mémoire. Sur LIBERO, environnement à observabilité complète, la variante récurrente la plus forte atteint 96,2 % de succès moyen -- sans régression par rapport au modèle de base. Ce travail apporte une contribution méthodologique précise à un champ encombré d'ablations mal contrôlées. La quasi-totalité des VLA à mémoire existants couplent récurrence, retrieval, compression et objectifs hiérarchiques dans un seul système, rendant impossible d'attribuer les gains à un mécanisme isolé. muVLA démontre que la récurrence seule -- sans aucune machinerie additionnelle -- suffit à doubler le taux de succès sur des tâches à observabilité partielle, c'est-à-dire les situations où une partie de l'état pertinent a disparu du champ de vision. Pour les intégrateurs robotiques travaillant sur des cellules avec occlusions ou des séquences d'assemblage multi-étapes, c'est un signal clair : le goulot n'est pas la puissance brute du modèle de base, mais la capacité à maintenir un état latent persistant. Le résultat sur LIBERO indique également que l'ajout de mémoire ne dégrade pas les performances en pleine observabilité, ce qui lève un frein souvent cité à l'adoption de ces architectures en production. OpenVLA est un modèle open-source lancé fin 2024 par une collaboration Stanford/Berkeley/Toyota Research Institute, positionné comme alternative ouverte aux VLA propriétaires comme RT-2 (Google DeepMind) ou pi0 (Physical Intelligence). OpenVLA-OFT en est une variante fine-tunée pour l'exécution rapide. La question de la mémoire dans les VLA est activement travaillée par plusieurs équipes -- RoboVLMs, SpatialVLA, Helix (Figure AI) -- mais avec des architectures nettement plus lourdes. muVLA se distingue par sa minimalité revendiquée et son protocole d'isolation rigoureux, ce qui en fait un outil de calibration plus qu'un système prêt au déploiement. Les auteurs délimitent explicitement le "régime de suffisance" de la récurrence minimale : elle fonctionne pour les tâches où la structure mémoire requise est homogène entre entraînement et évaluation, et atteint ses limites dès que les tâches hors distribution exigent une structure mémorielle différente. Les prochaines étapes naturelles -- combinaison avec des mécanismes de retrieval ou de compression -- sont implicitement balisées par ces résultats.

RechercheOpinion
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
7arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

IA physiqueOpinion
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
8arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
9arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile
10arXiv cs.RO 

GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.13394) GeoHAT, un framework end-to-end basé sur la diffusion pour la manipulation mobile whole-body. L'architecture atteint 79,3 % de taux de succès moyen sur le benchmark de simulation ManiSkill-HAB, surpassant la baseline précédente la plus forte de 23,7 points. Le coeur du système repose sur un encodeur spatial Fourier léger qui projette les coordonnées 3D pixel par pixel en tokens géométriques, sans backbone 3D dédié, puis les injecte sélectivement dans les features d'un modèle de vision de fondation via une fusion gated par token, modulée par la validité de profondeur. Pour la génération d'actions, un Hybrid Whole-Body Action Decoder décompose les commandes du bras et de la base mobile en sous-espaces distincts, chacun relié à son contexte visuel propre via cross-attention sparse. Des expériences en environnement réel sur tâches variées confirment les gains observés en simulation. Le verrou visé est structurel: coordonner base mobile et bras manipulateur exige de gérer des points de vue changeants et des régimes de contrôle fondamentalement différents. Les politiques existantes encodent bras et base dans un unique vecteur d'action, écrasant leurs contraintes propres, et s'appuient sur des représentations 3D parses ou des features 2D qui manquent de structure spatiale dense. La décomposition en sous-espaces d'action que propose GeoHAT est une réponse directe à ce mélange contre-productif. Le signal le plus intéressant pour les intégrateurs n'est pas le score sur benchmark, mais la confirmation en conditions réelles: le sim-to-real gap, souvent fatal aux approches académiques, semble partiellement contenu. Cela suggère qu'une politique de manipulation mobile généraliste pourrait être déployée sans recalibration majeure entre simulation et terrain, ce qui reste rare dans la littérature récente. GeoHAT s'inscrit dans la lignée des politiques de diffusion pour la robotique, dont Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence sont les références les plus citées, étendues ici à la manipulation mobile. Le benchmark ManiSkill-HAB, maintenu par l'équipe de Hao Su à l'UC San Diego, est devenu une mesure standard pour les agents mobilise-manipulateurs en scènes domestiques simulées. Les travaux concurrents les plus proches incluent Mobile ALOHA (Stanford, 2024) et les approches VLA comme OpenVLA-OFT. La légèreté computationnelle de GeoHAT, obtenue en évitant un backbone 3D séparé, le distingue des stratégies de fusion dense qui risquent de corrompre les représentations préentraînées. Aucun déploiement industriel ni partenariat n'est annoncé; il s'agit d'un résultat de recherche avec validation réelle, préalable nécessaire avant toute mise en production.

RechercheOpinion
1 source
SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA
11arXiv cs.RO 

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

IA physiqueOpinion
1 source
GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable
12arXiv cs.RO 

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

Des chercheurs ont publié GAE (Generalizable Action Expert), un modèle généraliste conçu pour découpler la planification cognitive des modèles de vision-langage (VLM) de la génération d'actions robotiques précises. L'architecture repose sur une interface géométrique parcimonieuse : le VLM prédit des waypoints 3D discrets codant l'intention de haut niveau, tandis que GAE traduit ces repères en trajectoires d'action continues en s'appuyant sur des observations en nuage de points en temps réel. Le module est pré-entraîné sur un corpus de 150 000 trajectoires issues à la fois de simulations et de robots réels, via un schéma baptisé APPF (Action Pre-training, Pointcloud Fine-tuning), qui sépare explicitement l'apprentissage de la dynamique d'action du grounding géométrique. Une fois pré-entraîné, GAE est gelé et réutilisé tel quel sur de nouvelles tâches, seul le VLM amont nécessitant un fine-tuning léger. L'enjeu architectural est le découplage raisonnement-action, un point de friction documenté dans les approches VLA bout-en-bout comme Pi-0 de Physical Intelligence ou OpenVLA, où raisonner et agir partagent les mêmes poids et contraignent mutuellement la généralisation. En faisant de GAE un expert réutilisable et figé, les auteurs réduisent le coût d'adaptation à de nouveaux domaines visuels, angles de caméra et instructions en langage naturel. Les résultats rapportés vont dans ce sens, bien que le protocole d'évaluation comparatif reste à préciser dans la version finale, et que les expériences soient menées en laboratoire sans déploiement industriel annoncé. Cet article s'inscrit dans une vague de recherche post-RT-2 qui cherche à dépasser les limites des architectures monolithiques vision-langage-action. Les approches concurrentes incluent Pi-0 et Pi-0.5 (Physical Intelligence), Octo (UC Berkeley), RoboFlamingo, OpenVLA et RoboVLMs. La représentation intermédiaire par waypoints 3D rappelle des travaux sur les keyposes ou UniPi, mais étendue aux nuages de points pour une robustesse accrue aux variations de point de vue. La préprint arXiv:2510.03896, déposé en octobre 2024 et mis à jour en v2, n'est associé ni à un partenariat industriel ni à un produit commercialisé : il s'agit d'une contribution de recherche académique, pas d'un système shipé.

RechercheOpinion
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
13arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source
SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon
14arXiv cs.RO 

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

Des chercheurs ont présenté SERF (Spatiotemporal Environment and Robot Feature Map), une architecture de représentation spatiale et temporelle destinée à améliorer la manipulation mobile sur des horizons longs. Publiée sur arXiv sous l'identifiant 2606.12956, l'approche conditionne une politique de manipulation mobile sur une carte de caractéristiques qui encode simultanément l'environnement et le corps articulé du robot sous forme de points neuronaux dans un espace latent partagé. Cette carte est mise à jour en ligne à partir d'observations égocentriques et de données proprioceptives: les points neuronaux de l'environnement sont actualisés via un suivi rigide au niveau objet, tandis que les points du robot exploitent la cinématique directe. Les tokens extraits de la carte SERF, à plusieurs échelles spatiales et depuis plusieurs cadres de référence, sont injectés comme entrée d'état dans un modèle VLA (vision-language-action), fournissant à la politique un contexte à la fois local et global. L'évaluation est conduite sur BEHAVIOR-1K, un benchmark standard pour la manipulation mobile longue durée en environnements domestiques simulés. L'intérêt de SERF réside dans sa réponse à une limite structurelle des politiques basées uniquement sur l'image: l'incapacité à maintenir une représentation cohérente de l'environnement, de la localisation et de l'avancement de la tâche sur des séquences longues. Les résultats montrent que la politique SERF surpasse les baselines image-only sur BEHAVIOR-1K, atteint les sous-objectifs plus rapidement en empruntant des trajectoires plus directes, se montre plus robuste aux changements de configuration de scène, et parvient à récupérer après un échec de type "object drop" -- capacité critique pour un déploiement industriel. Pour les intégrateurs de systèmes manipulateurs mobiles, la capacité à gérer des perturbations imprévues sans replanning complet représente un gain opérationnel concret, même si les performances sont ici mesurées en simulation. SERF s'inscrit dans un courant de recherche actif qui cherche à doter les modèles VLA d'une mémoire spatiale persistante, en complément de travaux comme GNFactor ou RVT qui exploitent des représentations 3D de la scène. L'approche se distingue en intégrant explicitement la représentation du robot lui-même dans la carte, aux côtés de l'environnement, ce que la plupart des architectures traitent séparément. Dans l'écosystème VLA, où Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA opèrent principalement sur des observations de courte durée, SERF propose une piste pour étendre l'horizon de raisonnement sans augmenter la complexité d'entrée brute. Les prochaines étapes naturelles sont un transfert sim-to-real sur hardware réel et une validation sur des benchmarks en environnement physique, absente à ce stade de l'article.

IA physiqueOpinion
1 source
LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques
15arXiv cs.RO 

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (référence 2606.13578) un article présentant LabVLA, un modèle Vision-Language-Action conçu spécifiquement pour l'exécution autonome de protocoles expérimentaux en laboratoire scientifique. Le système repose sur deux briques : RoboGenesis, un moteur de génération de données par simulation qui décompose des flux de travail en compétences atomiques, valide les exécutions et exporte des démonstrations structurées pour différents profils de robots ; et LabVLA lui-même, dont l'entraînement se déroule en deux étapes -- un préentraînement par tokenisation d'actions FAST sur le backbone Qwen3-VL-4B-Instruct, suivi d'un affinage par flow matching avec un expert d'actions de type DiT (Diffusion Transformer) sous isolation des connaissances. Sur le benchmark LabUtopia, LabVLA affiche le taux de succès moyen le plus élevé parmi tous les systèmes testés, en distribution comme hors distribution. L'enjeu est structurant : les IA actuelles peuvent lire de la littérature scientifique, générer des hypothèses et planifier des protocoles, mais l'exécution physique au banc de laboratoire reste humaine. Les instruments spécialisés, les liquides transparents (difficiles à percevoir pour les capteurs RGB classiques) et les séquences protocolaires rigides créent des défis absents des benchmarks domestiques sur lesquels la plupart des VLA existants -- Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont été entraînés. Si LabVLA tient ses promesses hors simulation, cela ouvrirait la voie à une automatisation crédible des laboratoires de biologie, chimie ou pharmacologie, un marché adressé aujourd'hui par des acteurs comme Automata, Opentrons ou Hamilton Robotics. La course aux VLA généralistes a démarré en 2024 avec Octo, puis OpenVLA et Pi-0, calibrés principalement sur des tâches ménagères. Le sim-to-real gap en milieu laboratoire reste un obstacle non résolu : les résultats présentés dans ce preprint sont entièrement issus de simulation -- LabUtopia est lui-même un environnement virtuel -- et aucun déploiement sur robot physique n'est rapporté. La robustesse sur de vraies paillasses, avec contaminations, vibrations et variabilités instrumentales, reste à démontrer. Les auteurs annoncent comme prochaines étapes l'extension des profils de robots compatibles avec RoboGenesis et des évaluations sur hardware réel.

UEImpact indirect pour les laboratoires pharmaceutiques et biotechs européens si le sim-to-real gap est comblé, mais aucun déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
16arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

IA physiqueOpinion
1 source
Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs
17arXiv cs.RO 

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

Une équipe de recherche a publié en juin 2026 un preprint arXiv (2606.12910) présentant GRASP (Grounded Reasoning and Symbolic Planning), un framework de manipulation tabulaire à vocabulaire ouvert pour robots. Le système repose sur un Vision-Language Model (VLM) pré-entraîné qui traduit des requêtes en langage naturel -- par exemple "pose l'objet sur l'étagère du haut" -- en états-buts neuro-symboliques, ancrés dans l'espace physique via un pipeline de détection par bounding boxes. Sur 90 essais en conditions réelles, à trois niveaux de difficulté progressifs, GRASP atteint un taux de succès global de 73,3 %. Aucun entraînement spécifique à la tâche n'est requis : le modèle fonctionne en zero-shot, sans fine-tuning. Ce résultat interpelle parce qu'il propose une alternative crédible aux deux approches dominantes en Task and Motion Planning (TAMP) piloté par VLM : les pipelines lourds computationnellement (type SayCan ou RT-2) et les méthodes data-hungry qui exigent des milliers de démonstrations supervisées. En substituant des coordonnées de bounding boxes à des listes de couleurs codées en dur ou à des repères fixes, GRASP permet d'interpréter des concepts spatiaux abstraits sans recalibrage. Pour un intégrateur industriel ou un laboratoire travaillant sur des cobots, la valeur est directe : réduire le coût d'onboarding d'une nouvelle tâche de manipulation non structurée. Le 73,3 % reste un chiffre à contextualiser -- les auteurs ne détaillent pas les temps de cycle ni les types d'objets testés, et les vidéos de démonstration sélectionnées dans les preprints arXiv ne constituent pas une validation déployée en production. Le contexte de cette publication s'inscrit dans une course dense autour des VLA (Vision-Language-Action models) et du grounding symbolique. Des travaux concurrents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les architectures Open-X-Embodiment misent sur l'entraînement à grande échelle pour généraliser ; GRASP parie à l'inverse sur la légèreté architecturale et la planification symbolique. Aucune entreprise industrielle n'est associée à ce preprint, qui semble issu d'un groupe académique non encore identifié publiquement. Les prochaines étapes naturelles seraient une extension au-delà de la manipulation tabulaire (scènes 3D complexes, objets articulés), une évaluation comparative rigoureuse face aux baselines VLA actuelles, et une validation sur des plateformes robotiques standardisées comme le Franka Research 3 ou le UR5.

RechercheOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
18arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
19arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
20arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

IA physiqueOpinion
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
21arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
22arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
23arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
24arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

IA physiqueOpinion
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
25arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
26arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde
27arXiv cs.RO 

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

Une équipe de chercheurs a publié sur arXiv (2606.12217) une analyse d'une limitation fondamentale des World Action Models (WAMs), architecture émergente pour la manipulation robotique. Les WAMs combinent un modèle de génération vidéo, chargé de prédire l'évolution future de la scène, avec un décodeur d'actions qui traduit ces prédictions en commandes motrices. Les auteurs constatent empiriquement qu'un modèle produisant des séquences visuelles plausibles ne génère pas nécessairement des actions précises. Par des analyses d'attention sur la tête d'action et des interventions causales, ils identifient un "mismatch" de représentations : les états cachés du modèle de diffusion vidéo sont optimisés pour la reconstruction visuelle, pas pour le contrôle moteur à bas niveau. Le décodeur d'actions peine à se focaliser sur les zones d'interaction pertinentes et reste sensible aux perturbations dans les régions non pertinentes de la scène. En réponse, les auteurs proposent AGRA (Action-Grounded Representation Alignment), un objectif de régularisation qui aligne les features intermédiaires de la diffusion vidéo avec des représentations sémantiques spatialement cohérentes issues d'un encodeur visuel de fondation. Les tests sur des tâches de manipulation réelles montrent une meilleure localisation d'objets, une compréhension accrue des affordances, et une robustesse améliorée face aux perturbations hors distribution. Ce résultat pointe un problème structurel rarement formalisé dans la littérature WAM : le gradient d'entraînement de la génération vidéo ne suffit pas à organiser les représentations internes de façon utile pour le contrôle moteur. C'est une distinction critique pour les équipes R&D investissant dans les architectures VLA (Vision-Language-Action) ou world-model-based, car posséder un bon simulateur interne ne garantit pas une bonne politique. AGRA démontre qu'un alignement explicite entre features du monde et sémantique spatiale améliore simultanément les performances en distribution et la généralisation hors distribution, un double bénéfice difficile à obtenir et précieux pour les déploiements industriels où les variations d'environnement sont inévitables. Les WAMs s'inscrivent dans une lignée de recherches incluant Dreamer (DeepMind) et les architectures world-model appliquées à la navigation et la manipulation. AGRA se distingue en ajoutant un objectif de régularisation à l'interface monde-action sans modifier l'architecture de base, ce qui le rend potentiellement applicable à d'autres variantes de WAMs. Dans l'espace de la manipulation robotique, les approches concurrentes comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA contournent le problème en n'utilisant pas de génération vidéo explicite, ce qui place AGRA comme une réponse directe aux faiblesses spécifiques des architectures à modèle du monde. Il s'agit à ce stade d'une contribution académique arXiv sans déploiement industriel ni code public annoncé.

IA physiqueOpinion
1 source
Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention
28arXiv cs.RO 

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques. Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine. Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

IA physiqueOpinion
1 source
La robotique ne connaîtra pas de moment Llama bien défini
29Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

IA physiqueOpinion
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
30arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

IA physiqueOpinion
1 source
Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes
31arXiv cs.RO 

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Des chercheurs ont publié Co-GLANCE (arXiv:2606.09919), un système embarqué de perception active et de prise de décision pour équipes robotiques hétérogènes opérant en extérieur non structuré. Le problème central adressé est l'incertitude perceptuelle liée aux occlusions : selon la position d'un robot, certaines zones de la scène restent invisibles ou ambiguës, et aucun agent isolé ne dispose d'un point de vue suffisant pour une compréhension fiable. Co-GLANCE distille les capacités de raisonnement sémantique d'un vision-language model (VLM) dans un modèle embarqué end-to-end qui réalise simultanément la segmentation des occlusions et l'allocation des robots les plus adaptés pour résoudre ces zones d'incertitude. Pour quantifier cette incertitude de façon statistiquement garantie, le système combine la prédiction conforme (conformal prediction) et l'abstention sélective sur les sorties de segmentation, d'allocation et de détection. Comparé aux baselines VLM cloud, Co-GLANCE améliore la précision de segmentation des occlusions de 25% et l'allocation robotique de 36%, tout en réduisant la latence d'inférence par image d'un facteur 350. Un dataset air-sol est également publié en open source. Ce résultat est significatif pour les intégrateurs et les décideurs industriels déployant des flottes multi-robots sur des chantiers, des sites miniers ou des opérations de surveillance. L'élimination de la dépendance au cloud pour l'inférence VLM lève un verrou majeur : latence, connectivité intermittente et coûts d'API. Le gain de 350x en latence n'est pas un chiffre de laboratoire anecdotique, il rend la perception active temps-réel praticable sur du matériel embarqué contraint. La combinaison conformal prediction + abstention sélective apporte des garanties de couverture statistique, ce qui est rare dans les systèmes robotiques terrain : les incertitudes sont exploitables (elles déclenchent des actions), pas seulement affichées. Les travaux sur la coordination multi-robots hétérogènes air-sol s'inscrivent dans un champ actif depuis plusieurs années, avec des groupes comme MIT CSAIL, Stanford, ETH Zurich et CMU comme références principales. La tendance forte est le passage des VLM cloud-only vers des modèles distillés edge-capable, que l'on retrouve aussi dans des travaux comme OpenVLA ou octo. Co-GLANCE se positionne spécifiquement sur l'allocation robotique sous incertitude, un angle moins couvert que la simple navigation ou manipulation. Les prochaines étapes probables incluent des validations sur des flottes plus larges et des environnements dégradés (nuit, pluie), ainsi que l'intégration dans des stacks ROS2 existants. Le code et le dataset sont disponibles sur co-glance.github.io.

RecherchePaper
1 source
Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines
32arXiv cs.RO 

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Une équipe de recherche a déposé le 10 juin 2026 sur arXiv (réf. 2606.10614) un framework baptisé Dexterous Point Policy (DPP), capable d'apprendre des politiques de manipulation dextère directement à partir de vidéos humaines, sans aucune démonstration sur robot. Le système extrait des points-clés 3D (keypoints) des objets de la tâche et des mains humaines, en ciblant spécifiquement les poignets et les bouts de doigts, puis entraîne un transformer autorégressif sur ces représentations unifiées. Sur un banc d'essai réel couvrant la saisie-dépôt (pick-and-place) et la manipulation d'outils, DPP atteint 75,0 % de succès, contre seulement 1,0 % pour le meilleur baseline de type VLA (Vision-Language-Action model) disponible. La méthode généralise également à des scénarios non vus pendant l'entraînement, notamment des environnements multi-objets et de nouvelles catégories d'objets. L'apport principal est d'éliminer le goulet d'étranglement le plus coûteux du cycle d'apprentissage robotique: la collecte de données en téléopération. Les auteurs rappellent que téléopérer une main multi-doigts pour une seule tâche atomique peut mobiliser plusieurs jours de travail humain, ce qui rend le fine-tuning classique des modèles de fondation sur données robotiques particulièrement onéreux à l'échelle. L'intuition centrale de DPP est que, au niveau des keypoints (poignets et bouts de doigts), les comportements humains et robotiques s'alignent suffisamment pour permettre un transfert direct de politique sans adaptation supplémentaire. Avec un écart de performance de 75x par rapport au baseline VLA, le résultat contredit l'idée selon laquelle combler l'embodiment gap entre humain et robot exige obligatoirement des données proprioceptives ou d'actionnement robotique. Ce travail s'inscrit dans le courant des modèles de fondation robotiques pré-entraînés sur vidéos humaines, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA sont des représentants récents, qui butaient tous sur ce même problème de transfert au déploiement réel. DPP propose une réponse architecturale en choisissant une représentation intermédiaire qui abstrait la morphologie spécifique de chaque effecteur, rendant la politique agnostique à la géométrie exacte de la main robotique. Il s'agit pour l'instant d'un preprint non relu par les pairs, sans affiliation institutionnelle précisée dans le résumé public, et les tests restent limités à des tâches de complexité modérée. Les étapes naturelles seraient une validation sur des mains multi-doigts plus variées et des manipulations de plus haute complexité, comme l'assemblage de précision ou la manipulation d'outils déformables, pour confirmer la scalabilité réelle de l'approche.

RecherchePaper
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
33arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
34arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

IA physiqueActu
1 source
GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique
35arXiv cs.RO 

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper
1 source
CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA
36arXiv cs.RO 

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2508.13446, juin 2025) une méthode appelée CAST, Counterfactual Augmentation for Semantic Tracking, qui cible l'un des angles morts majeurs des modèles VLA (Vision-Language-Action) : leur incapacité à suivre des instructions linguistiques fines. L'approche ne nécessite aucune collecte de nouvelles données robot. Elle s'appuie sur des modèles de vision-langage (VLM) pour reannoter automatiquement les trajectoires existantes avec des labels contrefactuels, c'est-à-dire des descriptions alternatives de ce qui aurait pu se passer si l'instruction avait été différente. Les modèles entraînés sur ces données augmentées sont évalués sur des tâches de navigation visuo-linguistique dans trois environnements distincts (intérieur et extérieur) ainsi que sur des tâches de manipulation avec distracteurs. Le résultat clé : doublement du taux de succès par rapport aux VLAs entraînés sur les données brutes non augmentées, avec des performances dépassant les méthodes de l'état de l'art sur des commandes référentielles complexes. Ce résultat est significatif parce qu'il attaque directement le problème du language grounding dans les datasets robotiques actuels, jugé pauvre en diversité sémantique pour des observations similaires. Le fait d'obtenir ces gains sans collecte additionnelle réduit drastiquement le coût d'amélioration des politiques robot, un levier critique pour les équipes qui opèrent avec des budgets de téléopération limités. Plus structurellement, CAST valide l'hypothèse que la qualité du signal de supervision linguistique pèse autant que le volume de données brutes, une nuance souvent sous-estimée dans la course au scaling des VLAs. Les VLAs de type généraliste ont émergé comme paradigme dominant depuis 2023-2024, portés par des systèmes comme OpenVLA (Stanford), pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind). Tous partagent la même tension : un corpus de démonstrations robot coûteux à collecter, annotées en langage naturel souvent trop homogène. CAST s'inscrit dans un courant de recherche sur l'augmentation synthétique des annotations, concurrent des approches basées sur la simulation procédurale ou le re-labeling par LLM pur. Il s'agit d'un preprint arXiv, pas encore d'un système déployé, les résultats restent à confirmer sur des robots physiques à grande échelle.

RechercheOpinion
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
37arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
38arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
39arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion
1 source
Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)
40arXiv cs.RO 

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié début juin 2026 (arXiv:2606.09749) une méthode de filtrage de sécurité sans entraînement pour les modèles VLA (Vision-Language-Action) en manipulation robotique. La technique repose sur une découverte clé : un petit nombre de têtes d'attention internes au modèle localise de manière fiable l'objet que la politique de contrôle cherche à atteindre. Ces têtes sont exploitées à chaque pas de contrôle pour identifier la cible active, traiter le reste de la scène comme obstacles, et alimenter un filtre CBF (Control Barrier Function) garantissant l'évitement de collisions. Couplée à un tracker léger en temps réel, l'approche gère également les obstacles mobiles. Sur le benchmark SafeLIBERO étendu aux scénarios dynamiques, la méthode surpasse de 43 % en moyenne une baseline oracle disposant de l'état complet du simulateur. L'enjeu est concret pour les intégrateurs de systèmes robotiques déployant des VLA en environnement non contrôlé. Les filtres de sécurité existants interrogent un VLM pour identifier les obstacles, un processus trop lent pour la boucle de contrôle, limité à une initialisation en début d'épisode et incapable de traquer des obstacles en mouvement. L'approche proposée contourne ce goulot en réutilisant les signaux perceptuels déjà présents dans le modèle, sans latence supplémentaire significative. Concrètement, un VLA déjà déployé comme Pi-0, OpenVLA ou RoboFlamingo pourrait être doté d'un filtre de sécurité dynamique sans re-fine-tuning ni surcoût matériel, réduisant le demo-to-reality gap sur les lignes de production avec opérateurs humains à proximité. Ce travail s'inscrit dans la dynamique des VLA depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA, Pi-0 (Physical Intelligence) et d'autres architectures fondées sur des modèles de langage. La sécurité et la garantie de comportement sont restées en retrait face à la course aux performances end-to-end, mais deviennent critiques pour les déploiements industriels réels, notamment en Europe où la réglementation sur les systèmes autonomes se renforce. La méthode CBF est mathématiquement établie en théorie du contrôle ; son intégration sans entraînement dans des pipelines VLA existants constitue un résultat notable. Limite à signaler : les évaluations restent pour l'instant en environnement simulé, et l'extension à des scènes avec occlusions partielles ou robots multiples reste à démontrer.

UELa méthode pourrait accélérer la certification de VLA en environnements industriels européens soumis à la réglementation sur les systèmes autonomes (AI Act), en fournissant un mécanisme de sécurité formellement vérifiable sans surcoût matériel.

IA physiqueOpinion
1 source
HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques
41arXiv cs.RO 

HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques

Une équipe de chercheurs a publié HA-VLN 2.0, un benchmark unifié pour évaluer la navigation guidée par le langage et la vision (VLN) dans des environnements peuplés d'humains en mouvement. Le jeu de données associé, HAPS 2.0, couvre 16 844 instructions socialement contextualisées et modélise des interactions multi-humains en intérieur comme en extérieur, dans des espaces discrets et continus. Le système introduit des métriques explicites mesurant simultanément la précision de navigation vers l'objectif et le respect de l'espace personnel des personnes croisées. Des expériences en conditions réelles sur robot physique ont complété l'évaluation simulée, et un leaderboard ouvert permet des comparaisons reproductibles entre équipes. Les résultats sont sans appel pour les agents VLN actuels : dès que des humains dynamiques et une observabilité partielle entrent en jeu, leurs performances chutent significativement. Ce constat remet en question une hypothèse répandue dans la recherche VLN, à savoir que les agents entraînés en environnements statiques généraliseraient correctement au monde réel. Les expériences sim-to-real confirment en revanche que la modélisation explicite des contraintes sociales améliore la robustesse de navigation et réduit les collisions, ce qui valide l'approche. Pour les intégrateurs déployant des robots mobiles en milieu professionnel (entrepôts partagés, hôpitaux, espaces de bureau), cela signifie que les benchmarks sans humains surestiment substantiellement les capacités réelles des systèmes. La navigation guidée par langage est un champ actif depuis les travaux fondateurs sur R2R (Room-to-Room, 2018), mais la majorité des benchmarks existants, dont R2R, REVERIE ou SOON, supposent des environnements vides ou quasi-statiques. HA-VLN 2.0 s'inscrit dans une tendance récente incluant les travaux sur SocNavBench et HuNavSim, qui cherchent à intégrer la dynamique humaine dans l'évaluation de la navigation sociale. Le benchmark est entièrement open-source (datasets, simulateurs, baselines, protocoles). Les prochaines étapes probables incluent l'intégration de modèles VLA (Vision-Language-Action) plus récents comme pi-0 ou RT-2 dans le leaderboard, ainsi que des évaluations dans des scènes extérieures plus complexes.

RecherchePaper
1 source
SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques
42arXiv cs.RO 

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

Des chercheurs ont publié SynthICL (arXiv:2606.08154), un framework d'apprentissage par imitation en contexte (ICIL) capable d'entraîner une politique robotique entièrement à partir de données synthétiques RGB. Le principe de l'ICIL consiste à conditionner une politique pré-entraînée sur quelques démonstrations fournies au moment du test, sans réentraînement, à l'image du prompting en contexte des grands modèles de langage. SynthICL construit un pipeline de génération de données pour produire des jeux d'entraînement ICIL haute fidélité, puis entraîne un transformer basé sur le flow-matching sur ce corpus. Le modèle intègre également un module de prédiction de sous-objectifs visuels (subgoal prediction), qui génère des images intermédiaires cibles pour ancrer visuellement le contrôle. Évalué sur 16 tâches de manipulation inédites en environnement réel, SynthICL atteint un taux de succès moyen de 79 % avec une seule démonstration fournie à l'inférence, surpassant les méthodes comparables. Le résultat le plus significatif n'est pas tant le score brut que ce qu'il ne requiert pas : ni capteur de profondeur, ni calibration précise de caméra, ni données d'entraînement collectées en conditions réelles. Ces trois contraintes constituent des frictions majeures dans le déploiement de politiques robotiques généralisables, en particulier pour les intégrateurs industriels qui opèrent sur des lignes hétérogènes. Un taux de transfert sim-to-real de 79 % sur des tâches non vues, avec une seule démonstration, commence à réduire sérieusement le fossé entre preuve de concept et déploiement opérationnel, même si les 16 tâches testées restent des manipulations relativement contraintes et que les conditions de tournage des vidéos de démonstration ne sont pas détaillées dans l'abstract. Le champ de l'ICIL robotique s'est structuré en parallèle de l'essor des VLA (Vision-Language-Action models). Des approches comme Octo (UC Berkeley), RT-2 (Google DeepMind) ou pi-zero de Physical Intelligence explorent des paradigmes comparables de généralisation multi-tâches, mais s'appuient en grande partie sur des données réelles coûteuses à collecter. La dépendance croissante aux simulateurs physiques (IsaacSim, Genesis, MuJoCo) pour générer des données d'entraînement est une tendance de fond que SynthICL illustre directement. Le projet dispose d'une page dédiée (synth-icl.github.io) ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné à ce stade, ce qui en fait pour l'instant une contribution académique solide plutôt qu'un produit annoncé.

RechercheActu
1 source
CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur
43arXiv cs.RO 

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées. L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain. L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

UELa validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

IA physiqueOpinion
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
44arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long
45arXiv cs.RO 

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

Une équipe de chercheurs publie sur arXiv (référence 2606.07723, juin 2026) un système appelé VoLoAgent, conçu pour piloter des robots sur des séquences d'actions longues à partir d'instructions en langage naturel ouvert. Le principe : un modèle vision-langage (VLM) joue le rôle d'orchestrateur et coordonne des capacités hétérogènes, notamment un modèle vision-langage-action (VLA) couplé à un module de manipulation bras entier (WAM), des primitives d'action et des modèles de vision, traités comme des outils interruptibles que le VLM peut reprendre en main en cours d'exécution. Pour évaluer ces capacités, les auteurs introduisent RoboVoLo, un benchmark haute fidélité qui couvre quatre dimensions : sens commun, suivi d'état et mémoire, références complexes dans la scène, et connaissance du monde, avec des métriques de succès par tâche et un diagnostic par type de défaillance. Des validations sur robot réel complètent les expériences en simulation, bien que les chiffres de performance précis ne figurent pas dans l'abstract publié. L'apport conceptuel central est ce que les auteurs nomment la "Physical Orchestration" : contrairement aux agents IA virtuels, un robot ne peut pas mettre le monde en pause pendant qu'il raisonne, ce qui fait du timing des décisions et des appels d'outils une contrainte de premier ordre. VoLoAgent y répond par une boucle fermée dans laquelle le VLM surveille en continu l'exécution et déclenche corrections ou récupérations en cas d'échec, sans attendre la fin de l'action en cours. Cette approche adresse directement l'un des angles morts des VLA actuels : leur rigidité face aux défaillances intermédiaires dans des séquences longues. Les résultats indiquent que VoLoAgent surpasse significativement les systèmes à VLA unique, à VLM unique, et les architectures purement basées sur des outils, une affirmation qui reste à vérifier sur des scénarios industriels hors laboratoire. Ce travail s'inscrit dans un courant très actif autour des VLA, porté par Google DeepMind (RT-2, RT-X), Physical Intelligence (pi0) et Stanford (Mobile ALOHA). L'architecture "orchestrateur sur boucle fermée" partage des bases avec les agents à outils de type ReAct ou Voyager, mais les transpose à la contrainte temps-réel de la manipulation physique. Le projet est hébergé sur GitHub via une page académique (chicychen.github.io/VoLo), sans affiliation industrielle explicite mentionnée dans l'abstract. La prochaine étape naturelle serait la validation sur des manipulateurs commerciaux (UR, Franka, ou équipements semi-structurés en entrepôt) pour mesurer le transfert hors conditions de laboratoire contrôlées.

IA physiqueOpinion
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
46arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
47arXiv cs.RO 

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper
1 source
Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA
48arXiv cs.RO 

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Une équipe de chercheurs propose RL-Co (RL-based sim-real Co-training), un framework d'entraînement combinant simulation et données réelles via l'apprentissage par renforcement pour les modèles VLA (Vision-Language-Action). Publié sur arXiv (ref. 2602.12628, version 4), le travail s'articule en deux étapes : une phase de préchauffage par fine-tuning supervisé (SFT) sur un mélange de démonstrations réelles et simulées, suivie d'un fine-tuning par RL en simulation avec une perte supervisée auxiliaire sur données réelles pour ancrer la politique et prévenir l'oubli catastrophique. Évalué sur quatre tâches de manipulation sur table en conditions réelles, RL-Co affiche une progression de +24% du taux de succès sur l'architecture OpenVLA et de +20% sur π0.5, développé par Physical Intelligence, par rapport à un entraînement supervisé classique sur données réelles uniquement. L'intérêt de cette approche dépasse les chiffres de performance bruts. La quasi-totalité des méthodes actuelles de co-entraînement sim-réel traite la simulation comme une source statique de démonstrations, sans exploiter les interactions en boucle fermée que ces environnements rendent possibles à grande échelle. RL-Co brise cette limite en tirant parti de l'exploration dynamique en simulation, ce qui se traduit par une meilleure généralisation aux variations de tâches non vues à l'entraînement et une efficacité accrue sur les données réelles, réduisant concrètement le besoin en démonstrations coûteuses sur robot physique. Pour les intégrateurs et les équipes R&D, c'est une voie d'entraînement plus économique sans compromis sur les performances terrain. Le défi du transfert simulation-réel reste l'un des obstacles structurants au déploiement de robots généralistes. Les modèles VLA ont connu une accélération notable depuis 2024, portée par OpenVLA (Stanford/UC Berkeley, open-source), la série π0/π0.5 de Physical Intelligence, fondée par d'anciens chercheurs de Google DeepMind et Stanford, et les travaux de Google DeepMind autour de RT-2 et ses successeurs. RL-Co s'inscrit dans une tendance de fond visant à remplacer la supervision pure par des boucles d'interaction actives dans des simulateurs de plus en plus fidèles. La prochaine étape naturelle sera l'extension à des tâches plus complexes et à des environnements moins structurés que la table de laboratoire, condition nécessaire pour valider l'approche à l'échelle industrielle.

💬 La vraie limite du sim-réel jusqu'ici, c'est qu'on traitait la simulation comme une banque de démonstrations statiques. RL-Co casse ça : le modèle explore en boucle fermée dans le simulateur, et ça se voit avec +24% sur OpenVLA et +20% sur π0.5 en conditions réelles. La table de labo c'est pas une chaîne de prod, mais c'est clairement la bonne direction pour réduire le besoin en données robotiques coûteuses.

IA physiqueOpinion
1 source
Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués
49arXiv cs.RO 

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

Des chercheurs de l'Université de Tampere (Finlande) publient sur arXiv (2606.06061) un framework distribué permettant à un opérateur humain de piloter un robot manipulateur par commandes vocales ou textuelles en langage naturel. L'architecture repose sur ROS 2, avec quatre nœuds indépendants : compréhension linguistique (LLM local), ancrage visuel (VLM), orchestration, et exécution moteur. À partir d'une instruction libre, le système génère des requêtes structurées pour des tâches de saisie, dépose et transfert d'objet. Le VLM retourne des cibles en espace-image, ensuite converties en objectifs métriques dans le référentiel robot grâce à la profondeur et à la calibration. Les expériences sont menées sur un bras Franka FR3 ; les auteurs mesurent la fiabilité bout-en-bout et la latence en faisant varier le degré d'ambiguïté de la scène sur la table de travail, et comparent plusieurs configurations LLM/VLM dans le même pipeline. Un tableau de bord web affiche les intentions intermédiaires et les superpositions d'ancrage visuel (pixel, profondeur, référentiel robot), et exige une confirmation explicite de l'opérateur avant tout mouvement. L'intérêt principal de cette approche pour un intégrateur ou un COO industriel tient à trois points. Premièrement, le choix de modèles locaux, pas de dépendance cloud, répond directement aux contraintes de latence et de confidentialité en environnement de production. Deuxièmement, la modularité ROS 2 permet de substituer un modèle par un autre sans refondre la stack, ce qui facilite le benchmarking et la mise à jour. Troisièmement, la boucle de confirmation opérateur est un signal clair que les auteurs ne cherchent pas à masquer le gap demo-versus-réalité : le système ne prétend pas être autonome, il vise une collaboration vérifiable. À noter que les métriques de fiabilité ne sont pas chiffrées dans l'abstract, les résultats quantitatifs précis restent à vérifier dans le corps du papier. Ce travail s'inscrit dans un courant de recherche actif autour des VLA (vision-language-action) pour la manipulation, où Physical Intelligence (Pi-0), Google DeepMind (RT-2, π0) et Stanford (Mobile ALOHA) occupent le devant de la scène avec des approches end-to-end à grande échelle. Le choix de Tampere d'utiliser des modèles légers et locaux contraste délibérément avec ces acteurs : c'est un positionnement orienté déploiement industriel frugal plutôt que performance brute. Le code est disponible en open source sur GitHub (cogrob-tuni/franka-llm), ce qui facilite la reproductibilité. La prochaine étape logique serait d'étendre le framework à des scènes dynamiques ou multi-robots, et de publier des benchmarks comparatifs sur des tâches standardisées comme celles de RoboAgent ou BridgeData.

UETravaux issus de l'Université de Tampere (Finlande, UE) proposant une architecture LLM/VLM entièrement locale et open source pour la manipulation collaborative, directement alignée sur les contraintes RGPD et de souveraineté industrielle du marché européen.

RechercheOpinion
1 source
Ce que mesurent réellement les benchmarks en manipulation robotique
50arXiv cs.RO 

Ce que mesurent réellement les benchmarks en manipulation robotique

Un article de recherche déposé sur arXiv le 4 juin 2026 (arXiv:2606.04233) remet en cause la fiabilité de cinq benchmarks standards en manipulation robotique : LIBERO, CALVIN, SimplerEnv, RoboCasa et RoboTwin 2.0. Les auteurs identifient quatre modes de défaillance structurelle qui invalident leur usage comme proxy de la capacité de manipulation générale : résolution par raccourci (shortcut solvability), absence de significativité statistique, surapprentissage rampant (creeping overfitting) et dépendance à la source de données. Sur LIBERO, une sonde de 90 millions de paramètres, sans encodeur de langage, atteint des scores au niveau ou proches de l'état de l'art rapporté dans la littérature récente, ce qui suggère que les modèles exploitent des artefacts du benchmark plutôt que des compétences réelles. Sur CALVIN, la simple randomisation des positions des blocs dans la plage d'entraînement fait chuter les performances de toutes les politiques testées, révélant une généralisation quasi nulle même dans des conditions marginalement différentes. Ces résultats ont des implications directes pour les équipes qui évaluent des architectures VLA (Vision-Language-Action). Si LIBERO et CALVIN échouent à plusieurs diagnostics, les progrès revendiqués sur ces benchmarks ne constituent pas une preuve crédible de capacité de manipulation générale. La plupart des gains rapportés sur LIBERO ne sont pas statistiquement significatifs, ce qui signifie que de nombreuses publications revendiquent des améliorations qui pourraient n'être que du bruit. Pour les intégrateurs et les décideurs industriels, cela signifie que les scores de benchmarks courants ne sont pas des indicateurs fiables de la maturité réelle d'un système avant déploiement. Le problème n'est pas nouveau, mais il devient critique au moment où des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont massivement benchmarkés dans la littérature. RoboCasa et RoboTwin 2.0, moins fréquemment cités dans les claims de progression récents, résistent mieux aux diagnostics proposés et constituent des alternatives plus robustes pour mesurer des progrès réels. Les auteurs publient leurs quatre diagnostics avec des implémentations de référence sur ripl.github.io/manipulationbenchmarkaudit, à destination des chercheurs et des reviewers, pour application avant soumission ou acceptation. La prochaine question est de savoir si des conférences majeures comme CoRL, ICRA ou RSS adopteront ces outils comme critère d'évaluation des soumissions.

UELes équipes de recherche françaises et européennes (INRIA, CEA-List) évaluant des architectures VLA devront appliquer ces diagnostics avant soumission pour ne pas revendiquer des gains qui pourraient n'être que du bruit statistique.

RecherchePaper
1 source