GeoTLM : modèles tactile-langage sensibles à la…

Raisonnement continu pour les modèles vision-langage-action (VLA)

43

1arXiv cs.RO

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion

1 source

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

38

2arXiv cs.RO

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

Ils entraînent GeoMoLa (Geometry-Aware Motion Latents) en prédisant l'évolution de nuages de points plutôt qu'en reconstruisant des images, pour capturer les transformations géométriques 3D sous-jacentes aux gestes de manipulation. Contrairement aux approches existantes qui nécessitent une reconstruction multi-vues, GeoMoLa atteint des performances état de l'art avec une seule caméra RGB-D en entrée. Les auteurs valident la méthode sur plusieurs bancs d'essai de manipulation robotique standards, ainsi que sur des expériences en conditions réelles, où le système parvient à manipuler des objets dans des environnements encombrés avec un nombre minimal de démonstrations. Leurs études d'ablation confirment que c'est la prédiction géométrique, et non la richesse visuelle, qui pilote la performance du modèle. Ce résultat pèse sur un débat central de la robotique manipulative actuelle: faut-il apprendre le mouvement à partir de motifs visuels (pixels, textures, apparence) ou à partir de la géométrie sous-jacente de la scène (formes, profondeur, déplacement des points dans l'espace)? En montrant que des latents entraînés sur la géométrie 4D (espace + temps) généralisent à des scènes visuellement inédites tout en produisant des transformations physiquement cohérentes, l'étude apporte un argument empirique en faveur d'une abstraction du mouvement indépendante de l'apparence. Pour les équipes qui développent des politiques de manipulation type VLA (vision-language-action) destinées à des bras robotiques ou des humanoïdes, cela suggère une voie pour réduire la dépendance à des configurations multi-caméras coûteuses, tout en gagnant en robustesse face au bruit visuel et au clutter, un problème récurrent des déploiements industriels réels. Cette recherche s'inscrit dans la lignée des travaux sur les représentations latentes discrètes pour le contrôle robotique, où plusieurs équipes académiques cherchent depuis quelques années à dépasser les limites des politiques purement pixel-to-action, jugées fragiles hors distribution. L'approche par nuages de points 4D rejoint des efforts plus larges en robotique combinant perception 3D (depth, LiDAR, RGB-D) et apprentissage de politiques, un axe également exploré par des laboratoires travaillant sur les modèles VLA généralistes comme Pi-0 ou GR00T N2. Le papier, publié sur arXiv début juillet 2026, ne précise pas de partenariat industriel ni de déploiement commercial: il s'agit à ce stade d'une contribution de recherche fondamentale, dont la prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes robotiques commerciales.

RecherchePaper

1 source

DC-WAM : supervision et raisonnement visuels centrés sur la dynamique pour les modèles monde-action

45

3arXiv cs.RO

DC-WAM : supervision et raisonnement visuels centrés sur la dynamique pour les modèles monde-action

Une nouvelle publication arXiv (2607.25918v1) présente DC-WAM (Dynamic-Centric World-Action Model), un framework qui repense la manière dont les modèles monde-action (WAM) utilisés pour piloter des robots doivent exploiter la vidéo prédictive. Les WAM couplent une politique de contrôle à une prédiction du futur visuel de la scène, mais jusqu'ici la question de ce que cette modalité vidéo doit réellement apprendre restait ouverte : une prédiction photoréaliste dense coûte cher en calcul et gaspille de la capacité sur la texture, l'éclairage ou l'arrière-plan, des éléments peu liés à la décision d'action. DC-WAM redistribue la supervision et le calcul de la branche vidéo RGB sans ajouter d'entrée ou de prédiction supplémentaire au déploiement. Concrètement, la méthode combine un appariement de flux par différence temporelle avec une pondération guidée par la trajectoire, pour concentrer l'apprentissage sur les changements denses et les zones où la pince, les objets manipulés et les points de contact bougent. Un second mécanisme, DynaRoute, prédit une pertinence dynamique token par token et la convertit en biais d'attention pour orienter le modèle vers les tokens futurs réellement utiles au contrôle. L'intérêt principal tient à la validation expérimentale : en simulation comme sur des tâches réelles de manipulation, DC-WAM améliore systématiquement la performance des politiques, avec un gain particulièrement marqué sous perturbations hors distribution (changements d'éclairage, d'apparence des objets, de texture de fond). Cela conforte une intuition déjà présente dans les WAM efficaces récents : le bénéfice de la branche vidéo ne vient pas tant du rendu futur en lui-même que des représentations visuelles orientées contrôle qu'elle induit pendant l'entraînement. Pour les équipes qui développent des politiques robotiques génériques, c'est un argument concret contre le tout-photoréaliste et en faveur d'une supervision ciblée sur la dynamique d'interaction, un axe pertinent face à l'écart classique entre performance en démonstration et robustesse en conditions réelles. DC-WAM s'inscrit dans la lignée des travaux sur les modèles monde appliqués au contrôle robotique et sur les architectures vision-langage-action (VLA), où plusieurs équipes cherchent à réduire le coût de la prédiction future tout en conservant son bénéfice pour l'apprentissage de politiques. La démarche des auteurs consiste à repartir d'un WAM RGB existant plutôt que d'ajouter une modalité dédiée, une approche incrémentale qui vise l'adoption pratique plutôt que la rupture architecturale. Le papier ne précise pas de partenaire industriel ni de calendrier de déploiement : il s'agit à ce stade d'un résultat de recherche, dont la prochaine étape logique serait une évaluation sur des plateformes robotiques plus variées et des tâches de manipulation plus complexes.

RecherchePaper

1 source

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

42

4arXiv cs.RO

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

Des chercheurs ont publié en mai 2026 HCSG (Human-Centric Semantic-Geometric Reasoning), un cadre de navigation en langage naturel (VLN) conçu pour les environnements intérieurs dynamiques peuplés de piétons, déposé sur arXiv sous la référence 2605.13321. Contrairement aux approches existantes qui traitent les humains comme de simples obstacles mobiles détectés par indices visuels, HCSG introduit un module unifié de compréhension humaine combinant deux capacités complémentaires : la prévision géométrique, qui anticipe poses et trajectoires futures des personnes, et l'interprétation sémantique, qui exploite un modèle vision-langage (VLM) pour générer des descriptions textuelles des actions et intentions perçues. Ces représentations sont fusionnées dans une carte topologique sur laquelle l'agent planifie ses déplacements en fonction des instructions reçues. Une fonction de perte de distance sociale (social distance loss) contraint le robot à maintenir des distances d'interaction socialement acceptables. Sur le benchmark HA-VLNCE, le framework affiche un gain de 14 % sur le taux de succès et une réduction de 34 % du taux de collision face à l'état de l'art, des chiffres à interpréter avec la prudence habituelle réservée aux préprints non encore évalués en pair-à-pair. Ces résultats pointent un changement de paradigme pertinent pour la robotique de service en espace ouvert. La distinction clé de HCSG est de passer d'un évitement passif (détecter puis contourner) à une compréhension active des comportements : le robot infère si un piéton s'apprête à changer de direction, à s'arrêter ou à interagir, ce qui permet une planification plus fluide. L'intégration d'un VLM est cohérente avec la montée en puissance des architectures vision-langage-action (VLA), mais l'article valide ici leur utilité spécifique pour la navigation sociale, pas seulement la manipulation. Pour les intégrateurs de robots de livraison intérieure ou de guidage hospitalier, c'est un signal que les approches purement géométriques atteignent leurs limites dans des environnements non contrôlés. La navigation VLN a progressé rapidement depuis les benchmarks R2R et REVERIE, portée par les transformers de vision et des modèles comme CLIP. HA-VLNCE, sur lequel HCSG est évalué, est une extension de VLN-CE intégrant des agents humains dynamiques, le rapprochant davantage des conditions de déploiement réelles. Les approches concurrentes en navigation sociale incluent des travaux issus de Stanford, CMU ou MIT, et des frameworks comme NaviSTAR. Côté industriel, les robots de Keenon, Aethon ou Savioke opèrent encore largement dans des couloirs semi-contrôlés précisément pour éviter ces problèmes de cohabitation. HCSG reste une contribution académique sans validation industrielle annoncée, mais une page de projet dédiée laisse entrevoir des travaux futurs sur robot physique.

RechercheOpinion

1 source

GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques

À lire aussi

Raisonnement continu pour les modèles vision-langage-action (VLA)

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

DC-WAM : supervision et raisonnement visuels centrés sur la dynamique pour les modèles monde-action

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage