Aller au contenu principal
IA physiquearXiv cs.RO2h

USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de chercheurs a publié USIM et U0, un dataset de simulation et un modèle vision-langage-action (VLA) conçus pour doter les robots sous-marins d'une intelligence généraliste multi-tâches. Le dataset USIM regroupe plus de 905 000 images issues de 2 275 trajectoires simulées, soit environ 25 heures d'interactions enregistrées sur le robot BlueROV2, un ROV à six degrés de liberté largement utilisé en recherche. Le modèle U0, entraîné sur ces données, est capable d'exécuter des tâches allant de la navigation par évitement d'obstacles à la manipulation mobile en trois dimensions, le tout piloté par des instructions en langage naturel. En évaluation, U0 atteint un taux de succès global de 43,1 % sur des tâches en ligne, soit une amélioration de 5,5 points de pourcentage par rapport aux meilleures baselines existantes (plafonnées à 37,6 %), avec des performances particulièrement élevées en navigation pure, où le taux monte à 87,5 %. L'erreur moyenne de prédiction d'action hors ligne est réduite à 0,0359.

Ces résultats ont une portée directe pour les intégrateurs et opérateurs de systèmes sous-marins autonomes : ils démontrent qu'un modèle généraliste entraîné sur données synthétiques peut effectivement franchir le sim-to-real gap dans un environnement aussi contraignant que le milieu aquatique, où la visibilité est réduite, les courants perturbent la stabilité et les repères visuels sont ambigus. Pour le secteur, c'est une validation de l'approche VLA à l'échelle sous-marine, un domaine où la quasi-totalité des travaux antérieurs s'était cantonnée à des méthodes spécialisées tâche par tâche. L'intégration d'un module de perception convolution-attention (CAP) avec estimation de pose cible comme tâche auxiliaire renforce explicitement la conscience spatiale du modèle, ce qui est critique pour la manipulation en 3D dans des scènes non structurées.

Jusqu'ici, la robotique sous-marine autonome reposait majoritairement sur des systèmes de contrôle classiques ou des réseaux de neurones entraînés sur des jeux de données tâche-spécifiques, souvent collectés en conditions réelles à coût élevé. L'approche USIM mise sur la synthèse de données simulées à grande échelle pour contourner ce goulot d'étranglement, une stratégie déjà validée en robotique terrestre par des frameworks comme IsaacGym ou Genesis. Du côté des concurrents directs, les travaux sur les robots sous-marins généralistes restent rares : les projets OpenDive ou les plateformes de Woods Hole Oceanographic Institution n'ont pas encore publié d'équivalent VLA. Aucun acteur européen n'est cité dans cet article, bien que des entreprises comme ECA Group (France) ou Saab Seaeye (Suède) opèrent sur le marché ROV industriel. Le papier, disponible sur arXiv (2510.07869v4), pose un cadre d'évaluation standardisé incluant métriques hors ligne et exécution en ligne, ce qui facilitera les comparaisons futures. Les prochaines étapes annoncées concernent le transfert vers des plateformes physiques et l'extension du dataset à des scénarios plus complexes.

Impact France/UE

Impact indirect potentiel pour des acteurs européens du ROV industriel comme ECA Group (France) ou Saab Seaeye (Suède), mais aucun partenariat ni déploiement européen n'est annoncé dans ce travail de recherche.

💬 Le point de vue du dev

43 % de succès global, bon, c'est le début. Mais 87 % en navigation pure et zéro données réelles collectées en mer, c'est la preuve que la stratégie simulation-à-grande-échelle fonctionne sous l'eau exactement comme en terrestre : plus besoin d'envoyer un ROV filmer des épaves pendant des mois pour constituer un dataset. ECA Group a un truc sérieux à surveiller.

À lire aussi

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action
1arXiv cs.RO 

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Des chercheurs ont publié GesVLA, un modèle Vision-Language-Action augmenté d'une modalité gestuelle, dans un preprint arXiv soumis en mai 2026 (arXiv:2605.22812). L'architecture repose sur un double VLM (Vision-Language Model) qui encode les features gestuelles directement dans l'espace latent, permettant aux gestes pointés de la main de participer à la fois au raisonnement de haut niveau et à la génération d'actions motrices. Pour l'entraînement, l'équipe a construit un pipeline de génération de données synthétiques en rendant des modèles 3D de mains sur des images de scènes réelles, produisant des annotations de pointage variées tout en réduisant le sim-to-real gap visuel. Le modèle a été évalué sur plusieurs tâches physiques réelles : manipulation contrôlée de blocs et sélection de produits dans des environnements encombrés. Les expériences montrent une amélioration mesurée de la précision de grounding cible et de l'efficacité de l'interaction humain-robot, particulièrement dans des scènes complexes avec objets similaires. L'apport principal de GesVLA est d'adresser une faiblesse connue des VLA actuels : l'ambiguïté spatiale. Quand plusieurs objets similaires sont présents dans la scène, une instruction textuelle seule (type "prends la bouteille") reste ambiguë. Intégrer le geste de pointage comme modalité parallèle au texte offre un ancrage spatial explicite sans modifier l'interface verbale. L'architecture dual-VLM représente un choix architectural non trivial par rapport aux approches qui traitent les modalités de façon séquentielle. Ce n'est pas la première tentative d'incorporer des signaux humains dans les VLA, mais la formalisation du geste comme modalité de premier rang dans l'espace latent, plutôt qu'en post-processing, est une contribution d'architecture à surveiller pour les intégrateurs qui déploient des cobots en environnements de picking désordonnés. GesVLA s'inscrit dans la vague de recherche post-RT-2 et pi-0 qui cherche à rendre les VLA robustes au-delà du régime de laboratoire. Les modèles concurrents comme OpenVLA (Berkeley), Octo ou RoboFlamingo travaillent essentiellement avec du texte et de la vision, sans modalité gestuelle native. Physical Intelligence (pi) avec pi-0 et Google DeepMind avec RT-2/RT-X restent les références industrielles sur la généralisation des VLA à grande échelle. Le preprint ne mentionne pas de partenariat industriel ni de timeline de déploiement commercial. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (LIBERO, Calvin) pour permettre des comparaisons directes, et une intégration sur des plateformes comme Franka ou UR5 au-delà des configurations de démonstration présentées.

IA physiqueOpinion
1 source
StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires
2arXiv cs.RO 

StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires

Des chercheurs ont publié sur arXiv (réf. 2605.18287) StableVLA, une approche visant à renforcer la robustesse des modèles Vision-Language-Action (VLA) face aux perturbations visuelles non représentées dans les données d'entraînement. Le coeur de la contribution est l'Information Bottleneck Adapter (IB-Adapter), un module léger fondé sur la théorie de l'information qui filtre sélectivement le bruit dans les entrées visuelles. Sans données supplémentaires ni stratégie d'augmentation, l'IB-Adapter améliore les performances de la baseline de 30% en moyenne, pour un surcoût inférieur à 10 millions de paramètres. Malgré un backbone de seulement 0,5 milliard de paramètres, soit 14 fois plus petit que les VLA concurrents à 7B, StableVLA atteint une robustesse comparable à ces modèles sur des tâches à horizon long, et surpasse OpenPi sous corruptions visuelles synthétiques et physiques, sans pré-entraînement sur le jeu de données Open X-Embodiment. Ce résultat adresse un angle mort critique du déploiement robotique réel : il est structurellement impossible de couvrir dans un dataset d'entraînement l'ensemble des conditions visuelles dégradées rencontrées en production (éclairage adverse, occlusions partielles, flou de bougé, saleté sur les capteurs). Les VLA actuels, malgré leurs performances en benchmark, accusent une chute significative dès qu'une perturbation inédite apparaît, ce qui constitue un frein majeur à leur industrialisation. L'approche proposée réduit ce gap sim-to-real sans alourdir les pipelines de collecte de données, ce qui est pertinent pour les intégrateurs cherchant à déployer des systèmes génériques sans ingénierie de dataset coûteuse. Le contexte de ce travail est la montée en puissance des architectures VLA pour la manipulation robotique généraliste, portée notamment par Physical Intelligence avec Pi-0 (OpenPi), qui fait office de référence dans la catégorie 7B. Open X-Embodiment, le corpus de référence pour le pré-entraînement multi-robot, reste difficile d'accès pour des équipes à ressources limitées. StableVLA se positionne explicitement contre cette tendance à l'échelle, en pariant sur l'efficacité paramétrique. Le papier reste un preprint arXiv sans validation industrielle annoncée, et les métriques de robustesse présentées gagneraient à être confrontées à des évaluations sur matériel réel dans des conditions non contrôlées.

IA physiqueOpinion
1 source
3arXiv cs.RO 

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

Des chercheurs ont publié sur arXiv (arXiv:2511.02239) LACY, un cadre unifié reposant sur un modèle vision-langage (VLM) qui introduit une cartographie bidirectionnelle entre instructions textuelles et actions robotiques. Contrairement aux architectures VLA classiques qui se limitent à traduire du langage vers des actions (L2A), LACY entraîne simultanément trois tâches complémentaires : la génération d'actions paramétrées à partir d'une instruction (L2A), l'explication en langage naturel d'une action observée (A2L), et la vérification de cohérence sémantique entre deux descriptions (L2C). Le système a été évalué sur des tâches de pick-and-place en simulation et en environnement réel, où il améliore le taux de succès de 56,46 % en moyenne par rapport aux baselines. Un mécanisme d'augmentation active cible les cas à faible confiance pour générer et filtrer automatiquement de nouvelles données d'entraînement, sans annotation humaine supplémentaire. L'intérêt principal de LACY pour les intégrateurs et les équipes R&D tient à sa boucle auto-améliorante : le robot ne se contente plus d'exécuter, il peut rationaliser ses propres gestes, ce qui enrichit les représentations internes et réduit la dépendance aux datasets labellisés manuellement. La capacité A2L constitue une avancée pour la supervision et le débogage en production, car un système capable d'expliquer ses actions facilite la validation humaine. Sur le plan de la généralisation, le signal L2C fonctionne comme un filtre de cohérence sémantique qui élimine les augmentations bruyantes, un problème récurrent dans l'entraînement sim-to-real. Cela dit, les expériences restent limitées au pick-and-place, tâche canonique mais peu représentative de la complexité des workflows industriels réels. LACY s'inscrit dans une vague de travaux VLA post-RT-2 qui cherchent à dépasser le paradigme unidirectionnel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA explorent des espaces proches mais n'intègrent pas de branche A2L explicite. La page projet (vla2026.github.io/LACY) laisse entrevoir des extensions vers des tâches de manipulation plus complexes. L'absence de données sur les temps de cycle, les charges utiles ou les plateformes matérielles testées rend difficile toute évaluation directe pour un déploiement industriel, et le saut de 56,46 % mérite d'être lu avec prudence tant que les conditions expérimentales complètes ne sont pas publiées.

IA physiqueOpinion
1 source
VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)
4arXiv cs.RO 

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Une équipe de recherche vient de publier VLA-REPLICA (arXiv:2605.20774, mai 2026), un banc d'évaluation réel, bas coût et reproductible, conçu pour tester les modèles de type Vision-Language-Action (VLA) sur des tâches de manipulation robotique. L'architecture repose entièrement sur des composants disponibles dans le commerce, ce qui permet à n'importe quel laboratoire d'assembler le setup en quelques jours et de reproduire les mêmes conditions expérimentales. Le benchmark intègre une suite de tâches de manipulation variées, un dataset de démonstrations de petite taille pour l'adaptation au domaine cible, ainsi que des protocoles d'évaluation distincts pour des scénarios en distribution et hors distribution. Les expériences menées couvrent l'apprentissage par imitation classique et plusieurs modèles VLA de l'état de l'art, avec des résultats cohérents obtenus sur des setups construits indépendamment dans différents sites. L'enjeu derrière VLA-REPLICA est directement lié à un problème structurel du secteur : l'évaluation réelle des modèles VLA reste fragmentée, coûteuse, et difficile à comparer d'un labo à l'autre. Les benchmarks en simulation ne capturent pas la complexité du monde physique, tandis que les benchmarks réels existants exigent souvent du matériel spécialisé onéreux ou une évaluation centralisée. Ce benchmark vise à combler ce fossé en fournissant une infrastructure standardisée et décentralisée, ce qui est une condition nécessaire pour que la communauté puisse comparer honnêtement les modèles et identifier leurs limites réelles, notamment face au sim-to-real gap qui affecte encore la plupart des politiques de manipulation. Les modèles VLA ont connu une montée en puissance rapide ces deux dernières années, avec des systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu des travaux de Stanford et Berkeley. Malgré des performances impressionnantes en démo, leur déploiement industriel reste freiné par l'absence de protocoles d'évaluation partagés et comparables. VLA-REPLICA s'inscrit dans un mouvement plus large de standardisation des benchmarks robotiques, comparable à ce qu'ont représenté BOP ou NIST Task Board pour d'autres sous-domaines. La prochaine étape logique serait l'adoption de ce protocole par plusieurs équipes tier-1 pour valider la reproductibilité à grande échelle et créer une baseline commune sur laquelle ancrer les publications futures.

UELes laboratoires européens de robotique (CEA-List, INRIA, universités) peuvent adopter ce benchmark reproductible bas coût pour évaluer leurs modèles VLA sur une infrastructure standardisée, abaissant la barrière d'entrée aux comparaisons internationales sans dépendre de matériel onéreux ou de benchmarks centralisés.

💬 C'est le genre de truc qu'on attendait depuis deux ans, même si ça fait moins de bruit qu'un nouveau modèle. Les benchmarks en simulation ne capturent pas le monde physique, et les vrais setups coûtaient trop cher pour être reproduits d'un labo à l'autre. Du matos grand public et des protocoles partagés, c'est la fondation qui manquait pour que les comparaisons aient enfin du sens.

IA physiquePaper
1 source