RHO : votre agent de code est secrètement un…

Contrôle robotique sans démonstration via des agents LLM

45

1arXiv cs.RO

Contrôle robotique sans démonstration via des agents LLM

Des chercheurs ont publié FAEA (Frontier Agent as Embodied Agent), un framework qui applique directement aux manipulateurs robotiques les architectures d'agents LLM conçues pour le génie logiciel, sans démonstrations spécifiques à la tâche ni fine-tuning. Évalué sur trois benchmarks de référence en simulation avec accès privilégié à l'état de l'environnement (positions des objets fournies directement, sans perception visuelle brute), FAEA atteint des taux de succès de 84,9 % sur LIBERO, 85,7 % sur ManiSkill3, et 96 % sur MetaWorld, en utilisant le Claude Agent SDK d'Anthropic comme modèle frontier non modifié. Une itération optionnelle de feedback humain porte le score LIBERO à 88,2 %. Ces résultats se rapprochent des performances des modèles VLA (Vision-Language-Action) entraînés sur moins de 100 démonstrations par tâche, seuil qui représente aujourd'hui le plancher de coût pour la collecte de données en robotique incarnée. L'implication centrale est notable : pour les tâches de manipulation dominées par la planification délibérative à haut niveau, un agent généraliste non spécialisé peut suffire, sans pipeline de données propriétaire. FAEA peut en outre explorer de façon autonome des scénarios inédits en simulation et générer des trajectoires réussies pour augmenter les datasets d'entraînement, court-circuitant ainsi le goulot de la collecte humaine. Nuance critique : tous les tests restent en simulation avec état privilégié ; aucun transfert sim-to-real n'est validé dans ce travail, ce qui limite la portée des conclusions pour un déploiement industriel réel. Les modèles VLA entraînés bout-en-bout, pi-0 de Physical Intelligence, RT-2 de Google DeepMind, ou OpenVLA, dominent la recherche en manipulation depuis 2023 mais restent contraints par des pipelines de collecte de données coûteux et spécifiques à chaque domaine. FAEA s'inscrit dans un courant alternatif qui cherche à exploiter l'infrastructure d'agents software directement en robotique : la même boucle plan-act-observe-debug qui pilote les agents de coding est ici transférée sans modification au contrôle de manipulateurs. Ce positionnement implique un bénéfice passif : toute amélioration des modèles frontier se répercute directement sur les capacités robotiques sans retraining. Le préprint est disponible sur arXiv (2601.20334v2) et le code sur GitHub ; aucun déploiement industriel n'est annoncé à ce stade.

IA physiquePaper

1 source

XS-VLA : associe distillation spatiale à gros grain et appariement de flux latent pour un contrôle robotique léger

40

2arXiv cs.RO

XS-VLA : associe distillation spatiale à gros grain et appariement de flux latent pour un contrôle robotique léger

Des chercheurs publient sur arXiv (juillet 2026) XS-VLA, un modèle Vision-Language-Action en deux étapes conçu pour le contrôle robotique embarque a faible cout de calcul. La première étape distille les connaissances spatiales d'un grand modèle, Qwen3-VL-4B, vers un squelette léger SmolVLM2 de seulement 0,25 milliard de paramètres, via un fine-tuning sur des descriptions spatiales grossières. La seconde étape conditionne ce squelette enrichi avec une politique de Latent Flow Matching, qui combine un autoencodeur variationnel conditionnel (CVAE) et une dynamique de flow matching pour modéliser des distributions d'actions multimodales, plutôt qu'un contrôleur déterministe classique. Sur le benchmark de simulation LIBERO, XS-VLA atteint l'état de l'art parmi les modèles de moins de 0,5 milliard de paramètres, avec un gain de taux de réussite moyen allant jusqu'a 7,2 points par rapport a la base SmolVLA 0,25B, dont 23 points sur la tache LIBERO-Long, et dépasse même la version SmolVLA a 2,2 milliards de paramètres, près de neuf fois plus grosse. Les auteurs revendiquent aussi une accélération de 3,2 fois du temps d'exécution de mission face a la précédente politique de flow matching légère. Le résultat cible un problème concret pour l'industrie robotique: les grands modèles vision-langage comprennent bien l'espace mais sont trop lourds pour du contrôle temps réel embarque, tandis que les modèles légers souffrent généralement de "cécité spatiale". Si les chiffres se confirment au-delà de la simulation, cela suggère qu'un entrainement cible, distillation spatiale puis génération d'actions par flow matching, peut compenser un manque de paramètres, ce qui intéressé directement les intégrateurs cherchant a déployer des VLA sur du materiel edge limite plutôt que sur des clusters GPU. Ce travail s'inscrit dans la vague de modèles VLA ouverts lancée par des politiques comme Pi-0, GR00T N2 ou Helix, et prolonge spécifiquement la lignée SmolVLA d'Hugging Face en visant l'efficacité plutôt que la taille. Il reste toutefois a un stade de recherche: les résultats sont mesures sur LIBERO, un benchmark simule standard mais éloigné des conditions réelles, et aucune validation sur robot physique n'est mentionnée a ce stade.

IA physiqueActu

1 source

Qwen-RobotNav : un modèle de navigation extensible conçu pour un système de navigation à base d'agents

43

3arXiv cs.RO

Qwen-RobotNav : un modèle de navigation extensible conçu pour un système de navigation à base d'agents

Alibaba Research a publié le 24 juin 2026 le rapport technique de Qwen-RobotNav, un modèle de navigation robotique entraîné sur 15,6 millions d'échantillons et disponible en deux versions, 2B et 8B paramètres. Le modèle expose une interface paramétrée à deux dimensions : des modes de tâches sélectionnables (suivi d'instructions, recherche d'objets, tracking de cible, conduite autonome) et des paramètres d'observation configurables à l'inférence -- budget de tokens, pondération par caméra, fenêtre d'historique visuel. La randomisation de ces paramètres pendant l'entraînement rend le modèle robuste à toute configuration d'inférence sans modification architecturale. Le co-entraînement avec des données vision-langage (VLA) évite l'effondrement en simple mappeur action-séquence, un problème documenté sur les modèles entraînés uniquement sur trajectoires. Les benchmarks navigation annoncés sont en état de l'art sur les principales références du domaine, avec une généralisation zero-shot validée sur robots réels en environnements variés. L'intérêt industriel de Qwen-RobotNav réside dans son architecture modulaire : un planificateur de haut niveau peut décomposer un objectif long-horizon en sous-tâches, basculer dynamiquement le mode et la stratégie de contexte en cours d'épisode, et composer des comportements complexes via des appels répétés au même modèle de base. Pour un intégrateur ou un OEM robotique, cela signifie un seul backbone navigation réutilisable sur plusieurs verticales (logistique, inspection, assistance), sans refonte du pipeline perception-planification. Le passage de 2B à 8B paramètres montre un scaling favorable, avec émergence d'un substrat spatial-planning partagé qui transfère entre familles de tâches -- ce qui valide empiriquement l'hypothèse que l'entraînement multi-tâche peut remplacer des modèles spécialisés distincts. Qwen-RobotNav s'inscrit dans l'effort d'Alibaba DAMO Academy et du groupe Qwen pour étendre leur famille de modèles au-delà du langage pur vers l'action incarnée. En termes de positionnement concurrentiel, le modèle s'inscrit dans un espace occupé par des travaux comme NaviLLM (Microsoft), OpenFMNav et UniNav, tous cherchant un modèle de navigation généraliste. La différence revendiquée par Qwen-RobotNav est l'interface paramétrique unifiée permettant la reconfiguration à l'inférence sans fine-tuning, ce qui facilite l'intégration dans des systèmes agentiques multi-étapes. Le code et les poids ne semblent pas encore publiés au moment du rapport ; les résultats zero-shot sur robots réels restent à confirmer dans des conditions industrielles non contrôlées.

IA physiqueOpinion

1 source

La robotique ne connaîtra pas de moment Llama bien défini

46

4Robotics Business Review

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

IA physiqueOpinion

1 source

RHO : votre agent de code est secrètement un roboticien

À lire aussi

Contrôle robotique sans démonstration via des agents LLM

XS-VLA : associe distillation spatiale à gros grain et appariement de flux latent pour un contrôle robotique léger

Qwen-RobotNav : un modèle de navigation extensible conçu pour un système de navigation à base d'agents

La robotique ne connaîtra pas de moment Llama bien défini