
Apprentissage robotique ludique à base d'agents
RATs (Robotics Agent Teams) est un système d'apprentissage robotique agentic présenté dans le preprint arXiv 2606.19419 qui introduit une phase de "jeu" auto-dirigé avant toute tâche explicite. L'agent, basé sur le paradigme Code-as-Policy (CaP), propose lui-même des tâches exploratoires, exécute des politiques en code, vérifie les progrès intermédiaires, diagnostique les échecs avec un feedback dense à chaque étape et distille les exécutions réussies dans une bibliothèque de compétences persistante. À l'inférence, cette bibliothèque gelée est réutilisée par d'autres agents pour résoudre des tâches inédites, sans fine-tuning du modèle sous-jacent. Sur les benchmarks LIBERO-PRO et MolmoSpaces, RATs surpasse la baseline CaP-Agent0 de 20,6 et 17,0 points de pourcentage respectivement ; les compétences acquises sont également transférables à d'autres agents CaP, avec des gains de 8,9 points sur RoboSuite et 8,8 points en déploiement réel.
La portée industrielle de cette approche tient principalement à deux éléments. La séparation entre phase d'acquisition de compétences et phase d'exécution crée une bibliothèque réutilisable partageable entre agents hétérogènes sans réentraînement, ouvrant la voie à des bibliothèques de primitives robotiques mutualisées sur des flottes entières. Les gains en transfert réel (+8,8 points) suggèrent par ailleurs que l'apprentissage par jeu améliore la robustesse sim-to-real, défi persistant pour les systèmes VLA (Vision-Language-Action) déployés hors simulation. Il convient toutefois de nuancer : le preprint ne détaille ni les conditions de déploiement réel ni le profil précis des tâches testées, ce qui limite l'évaluation en contexte industriel non contrôlé.
Le paradigme Code-as-Policy, introduit par Google DeepMind avec SayCan et Code as Policies entre 2022 et 2023, utilise des LLMs pour générer du code Python interprétable comme politique robotique. RATs y greffe un mécanisme d'exploration issu de la robotique développementale, prolongeant une lignée de travaux sur les agents curieux et l'apprentissage non supervisé de compétences. Dans un paysage dominé par des architectures VLA end-to-end, comme Pi-0 et Helix de Physical Intelligence ou Figure 03 de Figure Robotics, cette approche code-first se distingue par sa modularité et sa moindre dépendance aux données d'annotation denses. Le travail reste à ce stade non revu par des pairs, et des validations à plus grande échelle dans des environnements variés et non structurés seront nécessaires pour confirmer sa portée opérationnelle.
La vraie idée ici, c'est pas le "jeu" (ça fait bien dans un abstract), c'est la bibliothèque de compétences gelée et partageable entre agents sans ré-entraînement. Si ça tient hors labo, tu peux imaginer des flottes entières qui mutualisent leurs primitives robotiques comme des développeurs partagent des packages. Les +8,8 points en déploiement réel sont le seul chiffre qui compte, et il est là.
Dans nos dossiers




