Aller au contenu principal
RHO : votre agent de code est secrètement un roboticien
IA physiquearXiv cs.RO1h

RHO : votre agent de code est secrètement un roboticien

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils.

Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique.

Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.

À lire aussi

La robotique ne connaîtra pas de moment Llama bien défini
1Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

IA physiqueOpinion
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
2arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

IA physiqueOpinion
1 source
UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes
3arXiv cs.RO 

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

Une équipe de chercheurs propose UniJEPA (arXiv:2510.10642, troisième révision), un framework de politique robotique généraliste pré-entraîné sur plus d'un million de vidéos de manipulation instruite issues d'internet, puis affiné sur des données collectées directement sur le robot cible. L'architecture repose sur une approche JEPA (Joint Embedding Predictive Architecture) étendue pour modéliser des représentations visuelles continues de haute dimension. Les résultats expérimentaux annoncent un gain de 9 % en environnements de simulation et de 12 % sur des tâches réelles hors-distribution par rapport aux méthodes de référence actuelles. Il s'agit d'un preprint de recherche, pas d'un déploiement industriel. L'enjeu central est un angle mort persistant dans les politiques VLA (Vision-Language-Action) : elles s'appuient soit sur des VLM (modèles de langage visuels, forts en compréhension sémantique) soit sur des modèles génératifs (forts en modélisation de dynamiques visuelles), rarement les deux simultanément. Pour un intégrateur ou un COO industriel, cela se traduit par des politiques qui peinent à s'adapter à un nouvel atelier, un nouvel éclairage ou de nouvelles pièces sans re-collecte de données coûteuse. Le gain de 12 % sur les tâches hors-distribution est précisément la métrique critique ici : elle mesure la capacité de généralisation sans données supplémentaires, le graal opérationnel pour tout déploiement multi-site. UniJEPA répond en apprenant des représentations prédictives continues des futurs états visuels, converties ensuite en tokens d'action, validant l'applicabilité des architectures JEPA, originellement développées par Yann LeCun et son équipe chez Meta AI (I-JEPA, V-JEPA), au domaine de la politique robotique. Ce travail s'inscrit dans un paysage VLA très actif : Pi-0 de Physical Intelligence (combinant diffusion et VLM), OpenVLA, Octo et les modèles RT-X de Google DeepMind constituent les concurrents directs les plus cités. UniJEPA se distingue par son ancrage dans les architectures unifiées compréhension-génération, un territoire également exploré par des modèles comme Janus de DeepSeek. Publié en version 3 sur arXiv, le papier n'a pas encore passé la révision par les pairs d'une conférence de référence (ICRA, CoRL, RSS), ce qui invite à une lecture prudente des chiffres annoncés, dont le contexte exact des benchmarks n'est pas détaillé dans le résumé. Les prochaines étapes naturelles seraient une validation sur des embodiments commerciaux et un benchmark élargi au-delà des simulateurs utilisés dans les expériences actuelles.

IA physiqueOpinion
1 source
Le fondateur d'iRobot veut placer un compagnon robotique dans votre foyer
4IEEE Spectrum Robotics 

Le fondateur d'iRobot veut placer un compagnon robotique dans votre foyer

Colin Angle, cofondateur d'iRobot - la société derrière le Roomba et la plus grande réussite commerciale de l'histoire de la robotique domestique - a présenté le 4 mai 2026 le premier robot de sa nouvelle entreprise, Familiar Machines & Magic (FM&M). Baptisé "Familiar", ce quadrupède à 23 degrés de liberté est recouvert d'une peau tactile personnalisée, équipé d'un réseau de microphones, d'un système de vision et d'une pile d'IA embarquée reposant sur un modèle multimodal compact optimisé pour le raisonnement social, combinant en temps réel vision, audio, langage et mémoire. La forme est délibérément celle d'un ours très abstrait - ni chien, ni chat - suivant la stratégie de Paro et Pleo : l'absence de référent animal direct réduit les attentes préconçues de l'utilisateur. Destiné aux adultes, Familiar est conçu pour vivre dans un foyer, chercher le contact de ses habitants et les aider à instaurer des routines positives - limiter le temps d'écran, inciter à sortir marcher. Aucun prix ni date de commercialisation n'ont été communiqués : il s'agit à ce stade d'un premier prototype présenté publiquement. Morgan Pope, ancien chercheur chez Disney Research, figure parmi les cofondateurs clés. Ce lancement teste une hypothèse industrielle précise : deux avancées récentes rendraient aujourd'hui crédible un robot social grand public viable. Pope identifie d'abord les robots bipèdes de Disney pilotés par apprentissage par renforcement (RL), qui ont démontré qu'une locomotion adaptative sur terrain varié ne nécessite plus d'actionneurs coûteux à faible jeu mécanique. Ensuite, les modèles génératifs multimodaux, dont Pope reconnaît ouvertement qu'ils excellent à créer "l'illusion plausible d'intelligence" - suffisante pour rendre un personnage cohérent sans compréhension profonde du monde physique. Pour les intégrateurs et décideurs, c'est un signal que le ratio performance/coût du hardware embarqué et du software a franchi un seuil. Le positionnement "coaching comportemental" tente de distinguer Familiar des gadgets de compagnie en lui assignant une utilité mesurable, là où ses prédécesseurs peinaient à justifier leur prix. La catégorie des robots sociaux grand public accumule les échecs commerciaux : Jibo, Cozmo, et le premier AIBO de Sony ont illustré la difficulté à convaincre au-delà des early adopters. Angle dispose d'une crédibilité rare dans ce contexte : iRobot a vendu des dizaines de millions de Roombas avant d'être racheté par Amazon en 2022, puis revendu. FM&M se positionne face à l'AIBO actuel de Sony (quadrupède social, environ 2 900 euros), mais avec une proposition d'IA comportementale plus ambitieuse et un traitement local plutôt que cloud. Aucun acteur français ou européen n'opère directement sur ce segment résidentiel - Enchanted Tools avec Miroki cible le secteur tertiaire. Les prochaines étapes de FM&M restent non communiquées : pas de timeline de lancement, pas de partenaire distributeur annoncé.

IA physiqueOpinion
1 source