
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé.
Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute.
RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.
Dans nos dossiers




