
RHO : votre agent de code est secrètement un roboticien
Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils.
Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique.
Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.
Dans nos dossiers




