Aller au contenu principal
Robustesse des tâches par ré-étiquetage des données vision-action pour robots
IA physiquearXiv cs.RO3h

Robustesse des tâches par ré-étiquetage des données vision-action pour robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié TREAD (Task Robustness via Re-Labelling Vision-Action Robot Data), un framework de ré-annotation automatique des datasets de robotique présenté sur arXiv (arXiv:2606.10918, juin 2026). L'approche exploite un grand modèle vision-langage (VLM) pré-entraîné en trois étapes séquentielles : génération de sous-tâches sémantiques à partir des labels d'instruction originaux et des scènes initiales, segmentation des vidéos de démonstration conditionnée sur ces sous-tâches, puis production d'instructions textuelles diversifiées intégrant les propriétés des objets manipulés. Le résultat : des démonstrations longues décomposées en paires langage-action ancrées dans la scène, enrichies de reformulations linguistiques variées du même objectif. Les évaluations sur le benchmark LIBERO montrent une amélioration des performances sur des tâches et objectifs non vus à l'entraînement, sans collecte de données supplémentaire.

Ce travail cible un goulot d'étranglement bien identifié dans la course aux politiques de manipulation généralistes : les datasets de robotique existants manquent de diversité linguistique et de variété dans les séquences d'action, ce qui fait que les politiques de type VLA (Vision-Language-Action) peinent à suivre des instructions paraphrasées ou décomposées différemment. TREAD contourne ce problème en réutilisant la connaissance transférable des VLMs pour synthétiser de la diversité là où la collecte terrain serait coûteuse. L'approche améliore simultanément la généralisation de planification via la décomposition de trajectoires et la généralisation des politiques conditionnées au langage via la diversité des formulations, deux axes que les approches de scaling pur (plus de données, plus de paramètres) n'adressent pas directement.

Le contexte est celui de la montée en puissance des politiques généralistes pour la manipulation robotique, incarnée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Ces architectures héritent des faiblesses de leurs datasets d'entraînement, souvent collectés avec des instructions standardisées et des démonstrations d'une seule séquence. TREAD s'inscrit dans une tendance émergente de data augmentation sémantique, en complémentarité avec les approches de génération synthétique par simulation (sim-to-real) ou de téléopération à grande échelle. LIBERO, le benchmark utilisé pour validation, est largement adopté dans la communauté pour comparer les politiques de manipulation en environnement tabletop. Les prochaines étapes naturelles seraient la validation sur des datasets plus larges comme Open X-Embodiment et des tests en déploiement réel sur plateformes commerciales.

À lire aussi

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots
1arXiv cs.RO 

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Des chercheurs ont publié sur arXiv (2510.03599v2) un cadre unifié d'apprentissage de politiques pour la locomotion et la manipulation robotique multi-tâches, fondé sur une représentation dite "contact-explicite". Le principe central consiste à définir chaque tâche non pas par des trajectoires articulaires spécifiques, mais par une séquence d'objectifs de contact: positions de contact souhaitées, timings, et effecteurs actifs. Une politique unique, entraînée par apprentissage par renforcement (RL) conditionné aux objectifs, prend ces plans de contact en entrée et les exécute. Le framework a été validé sur plusieurs morphologies robotiques: un quadrupède exécutant différentes allures (trot, galop, etc.), un humanoïde réalisant des locomotions bipèdes et quadrupèdes, et ce même humanoïde effectuant des tâches de manipulation bimanuelles d'objets. Dans les trois cas, une seule politique gère l'ensemble des comportements. L'intérêt industriel est direct: l'approche contact-explicite améliore significativement la généralisation à des scénarios non vus pendant l'entraînement, ce qui s'attaque frontalement au "sim-to-real gap" qui pénalise la plupart des politiques entraînées en simulation. Pour un intégrateur ou un OEM robotique, cela signifie moins de politiques spécialisées à maintenir, moins de re-training à chaque variante de tâche, et une architecture potentiellement plus robuste aux variations de terrain ou d'objet. Le fait qu'une seule politique puisse couvrir à la fois locomotion et manipulation (loco-manipulation) dans un cadre commun réduit également la complexité d'orchestration en production. Les résultats présentés semblent solides en simulation, mais les auteurs n'annoncent pas de déploiement physique à l'échelle, ce qui invite à distinguer démonstration de recherche et produit shipé. Les approches classiques traitent locomotion et manipulation comme deux sous-problèmes séparés, avec des planificateurs et des politiques dédiées. L'espace des politiques générales est aujourd'hui dominé par des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui s'appuient sur de larges datasets visuels et du transfert de fondation. La contribution ici prend le parti inverse: une représentation géométrique structurée des contacts, plus frugale en données mais plus contrainte en hypothèses. Dans le domaine de la locomotion quadrupède unifiée, les groupes de l'ETH Zurich (ANYmal), de CMU et de Berkeley restent les références. La suite logique de ces travaux serait d'interfacer la planification de contacts avec un module de compréhension du langage naturel, pour permettre des instructions de haut niveau, une direction déjà explorée par plusieurs laboratoires académiques et startups de la robotique incarnée.

IA physiquePaper
1 source
RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes
2arXiv cs.RO 

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Une équipe du HCPLab de l'Université Sun Yat-sen (SYSU, Chine) a déposé fin mai 2026 sur arXiv (réf. 2605.19678) RoVLA, un cadre d'entraînement pour renforcer la robustesse des modèles Vision-Language-Action (VLA). Ces modèles, qui couplent perception visuelle, compréhension du langage et génération d'actions pour la manipulation robotique, sont reconnus pour leur fragilité face aux variations d'instructions ou aux perturbations visuelles. RoVLA introduit trois contraintes de cohérence appliquées lors de l'entraînement end-to-end : la cohérence instructionnelle (IC), qui stabilise l'ancrage sémantique sous des reformulations équivalentes d'une même commande ; la cohérence évolutive (EC), qui maintient une intention d'action consistante tout au long de la génération de trajectoire ; et la cohérence observationnelle (OC), qui force des prédictions stables avant et après perturbations visuelles ou proprioceptives. Les expériences sont conduites sur les benchmarks LIBERO-Plus et RoboTwin 2.0, ainsi que sur des tâches de manipulation réelles, avec des performances supérieures aux baselines testées. L'enjeu est bien documenté : les VLA actuels, qu'il s'agisse de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, souffrent d'un gap de robustesse distributionnelle avéré. Dès que les conditions visuelles changent, les instructions sont paraphrasées ou les perturbations s'accumulent, les performances chutent significativement, bloquant le déploiement dans des environnements industriels non contrôlés comme l'assemblage ou la logistique d'entrepôt. RoVLA propose une réponse architecturale en forçant explicitement l'invariance pendant l'entraînement, plutôt que d'augmenter le volume de données ou d'adapter post-hoc, deux stratégies courantes mais insuffisantes pour garantir la stabilité en conditions réelles. Si les résultats se confirment à plus grande échelle, cette approche pourrait réduire concrètement le sim-to-real gap pour des politiques incarnées en production. Ce travail s'inscrit dans une compétition dense entre laboratoires académiques et industriels autour de la robustesse des VLA. Google DeepMind (RT-2, RT-X), Physical Intelligence et NVIDIA ont tous investi massivement dans des architectures à grande échelle sans traiter explicitement l'invariance en cours d'entraînement, ce que RoVLA tente précisément de corriger. Le projet reste pour l'instant un article de recherche académique : aucun déploiement commercial n'est annoncé, et le code sera publié sur GitHub sous le compte HCPLab-SYSU/RoVLA. La prochaine étape crédible serait une validation sur robots physiques en environnement industriel non contrôlé, que les premiers résultats en manipulation réelle esquissent sans encore l'établir à l'échelle.

UELes équipes R&D françaises et européennes spécialisées en manipulation robotique industrielle pourront évaluer cette approche lors de la publication du code (HCPLab-SYSU/RoVLA), mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source
USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents
3arXiv cs.RO 

USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents

Une équipe de chercheurs a publié USIM et U0, un dataset de simulation et un modèle vision-langage-action (VLA) conçus pour doter les robots sous-marins d'une intelligence généraliste multi-tâches. Le dataset USIM regroupe plus de 905 000 images issues de 2 275 trajectoires simulées, soit environ 25 heures d'interactions enregistrées sur le robot BlueROV2, un ROV à six degrés de liberté largement utilisé en recherche. Le modèle U0, entraîné sur ces données, est capable d'exécuter des tâches allant de la navigation par évitement d'obstacles à la manipulation mobile en trois dimensions, le tout piloté par des instructions en langage naturel. En évaluation, U0 atteint un taux de succès global de 43,1 % sur des tâches en ligne, soit une amélioration de 5,5 points de pourcentage par rapport aux meilleures baselines existantes (plafonnées à 37,6 %), avec des performances particulièrement élevées en navigation pure, où le taux monte à 87,5 %. L'erreur moyenne de prédiction d'action hors ligne est réduite à 0,0359. Ces résultats ont une portée directe pour les intégrateurs et opérateurs de systèmes sous-marins autonomes : ils démontrent qu'un modèle généraliste entraîné sur données synthétiques peut effectivement franchir le sim-to-real gap dans un environnement aussi contraignant que le milieu aquatique, où la visibilité est réduite, les courants perturbent la stabilité et les repères visuels sont ambigus. Pour le secteur, c'est une validation de l'approche VLA à l'échelle sous-marine, un domaine où la quasi-totalité des travaux antérieurs s'était cantonnée à des méthodes spécialisées tâche par tâche. L'intégration d'un module de perception convolution-attention (CAP) avec estimation de pose cible comme tâche auxiliaire renforce explicitement la conscience spatiale du modèle, ce qui est critique pour la manipulation en 3D dans des scènes non structurées. Jusqu'ici, la robotique sous-marine autonome reposait majoritairement sur des systèmes de contrôle classiques ou des réseaux de neurones entraînés sur des jeux de données tâche-spécifiques, souvent collectés en conditions réelles à coût élevé. L'approche USIM mise sur la synthèse de données simulées à grande échelle pour contourner ce goulot d'étranglement, une stratégie déjà validée en robotique terrestre par des frameworks comme IsaacGym ou Genesis. Du côté des concurrents directs, les travaux sur les robots sous-marins généralistes restent rares : les projets OpenDive ou les plateformes de Woods Hole Oceanographic Institution n'ont pas encore publié d'équivalent VLA. Aucun acteur européen n'est cité dans cet article, bien que des entreprises comme ECA Group (France) ou Saab Seaeye (Suède) opèrent sur le marché ROV industriel. Le papier, disponible sur arXiv (2510.07869v4), pose un cadre d'évaluation standardisé incluant métriques hors ligne et exécution en ligne, ce qui facilitera les comparaisons futures. Les prochaines étapes annoncées concernent le transfert vers des plateformes physiques et l'extension du dataset à des scénarios plus complexes.

UEImpact indirect potentiel pour des acteurs européens du ROV industriel comme ECA Group (France) ou Saab Seaeye (Suède), mais aucun partenariat ni déploiement européen n'est annoncé dans ce travail de recherche.

💬 43 % de succès global, bon, c'est le début. Mais 87 % en navigation pure et zéro données réelles collectées en mer, c'est la preuve que la stratégie simulation-à-grande-échelle fonctionne sous l'eau exactement comme en terrestre : plus besoin d'envoyer un ROV filmer des épaves pendant des mois pour constituer un dataset. ECA Group a un truc sérieux à surveiller.

IA physiqueOpinion
1 source
StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires
4arXiv cs.RO 

StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires

Des chercheurs ont publié sur arXiv (réf. 2605.18287) StableVLA, une approche visant à renforcer la robustesse des modèles Vision-Language-Action (VLA) face aux perturbations visuelles non représentées dans les données d'entraînement. Le coeur de la contribution est l'Information Bottleneck Adapter (IB-Adapter), un module léger fondé sur la théorie de l'information qui filtre sélectivement le bruit dans les entrées visuelles. Sans données supplémentaires ni stratégie d'augmentation, l'IB-Adapter améliore les performances de la baseline de 30% en moyenne, pour un surcoût inférieur à 10 millions de paramètres. Malgré un backbone de seulement 0,5 milliard de paramètres, soit 14 fois plus petit que les VLA concurrents à 7B, StableVLA atteint une robustesse comparable à ces modèles sur des tâches à horizon long, et surpasse OpenPi sous corruptions visuelles synthétiques et physiques, sans pré-entraînement sur le jeu de données Open X-Embodiment. Ce résultat adresse un angle mort critique du déploiement robotique réel : il est structurellement impossible de couvrir dans un dataset d'entraînement l'ensemble des conditions visuelles dégradées rencontrées en production (éclairage adverse, occlusions partielles, flou de bougé, saleté sur les capteurs). Les VLA actuels, malgré leurs performances en benchmark, accusent une chute significative dès qu'une perturbation inédite apparaît, ce qui constitue un frein majeur à leur industrialisation. L'approche proposée réduit ce gap sim-to-real sans alourdir les pipelines de collecte de données, ce qui est pertinent pour les intégrateurs cherchant à déployer des systèmes génériques sans ingénierie de dataset coûteuse. Le contexte de ce travail est la montée en puissance des architectures VLA pour la manipulation robotique généraliste, portée notamment par Physical Intelligence avec Pi-0 (OpenPi), qui fait office de référence dans la catégorie 7B. Open X-Embodiment, le corpus de référence pour le pré-entraînement multi-robot, reste difficile d'accès pour des équipes à ressources limitées. StableVLA se positionne explicitement contre cette tendance à l'échelle, en pariant sur l'efficacité paramétrique. Le papier reste un preprint arXiv sans validation industrielle annoncée, et les métriques de robustesse présentées gagneraient à être confrontées à des évaluations sur matériel réel dans des conditions non contrôlées.

IA physiqueOpinion
1 source