Aller au contenu principal
RecherchearXiv cs.RO2h

Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (ref. 2606.26588) un système baptisé ReStruct, conçu pour modifier le comportement d'un robot en cours de déploiement sans nécessiter de réentraînement. Le problème visé est ce que les chercheurs appellent le "steering à l'inférence" : forcer une politique robotique apprise à respecter une préférence utilisateur imprévue lors de l'entraînement, au moment du test uniquement. ReStruct repose sur une architecture en deux niveaux : un squelette de haut niveau modélisé comme une machine à états finis (automate neural), qui encode la structure de la tâche, et un contrôleur bas niveau sous forme de politique résiduelle, qui reste entièrement gelé. Lors de la modification d'une préférence, c'est uniquement l'automate qui est reconfiguré via un produit synchrone, mettant à jour les prior d'action transmis au contrôleur. Sur banc de test en simulation et en environnement réel, ReStruct dépasse les modèles VLA (Vision-Language-Action) existants de jusqu'à 25 % en taux de réussite de tâche et en respect des préférences, pour des spécifications allant de contraintes sur des objets spécifiques jusqu'à des contraintes de logique temporelle.

L'enjeu industriel est significatif : le réentraînement d'une politique robotique pour chaque nouvelle variante de tâche ou préférence opérateur représente aujourd'hui un verrou majeur à la scalabilité des déploiements. Les approches bout-en-bout (fine-tuning, guidance experte) sont trop coûteuses en pratique, tandis que les méthodes neuro-symboliques classiques génèrent des plans logiquement cohérents mais physiquement irréalisables, ce que ReStruct corrige en intégrant la faisabilité physique directement dans la reconfiguration de la structure de tâche. Le fait que la méthode surpasse les modèles VLA sur ces métriques est notable : les VLA représentent actuellement le paradigme dominant en robotique manipulatrice apprise, et cette architecture hybride formelle-neuronale suggère une voie complémentaire plutôt que concurrente.

Ce travail s'inscrit dans un débat de fond entre approches purement end-to-end et méthodes symboliques pour la robotique généraliste. Les modèles VLA comme pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) misent sur des fondations neuronales massives adaptées par fine-tuning, ce qui les rend rigides face aux variations de préférences non anticipées. ReStruct propose une alternative légère, fondée sur la théorie des automates, qui n'impose pas de réentraîner le contrôleur. Il s'agit d'un preprint académique sans affiliation industrielle annoncée ni déploiement terrain mentionné, mais la démonstration en conditions réelles renforce la crédibilité de l'approche. Les prochaines étapes naturelles seraient l'intégration dans des pipelines de déploiement existants et l'évaluation sur des manipulateurs commerciaux multi-tâches.

À lire aussi

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée
1arXiv cs.RO 

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

Une équipe de chercheurs a publié le 11 juin 2026 (arXiv:2606.11489) une méthode baptisée CLAE (Closed-Loop Affine Activation Editing), permettant de piloter le comportement d'une flotte de robots sans modifier les poids du modèle de base. Plutôt que de recourir au fine-tuning ou au réentraînement complet de la politique, CLAE intervient à l'inférence en éditant directement les activations intermédiaires du réseau neuronal. Concrètement, la méthode entraîne d'abord un auto-encodeur sparse sur les activations d'une politique gelée, identifie les features latentes pertinentes pour le comportement visé via sondage post-hoc, puis apprend une politique de pilotage légère par renforcement qui applique des transformations affines sur ces latents en temps réel. Les validations portent sur une flotte de quadrotors en simulation et en tests physiques, naviguant vers des positions objectif tout en évitant des obstacles. CLAE y démontre trois capacités distinctes : contrôle du profil de vitesse individuel de chaque appareil, maintien d'une formation configurable entre plusieurs robots, et émergence d'un comportement entièrement nouveau consistant à minimiser l'exposition aux caméras de surveillance présentes dans l'environnement. Ce que cette approche prouve, c'est qu'il est possible de découpler l'adaptation comportementale du cycle de réentraînement, un point structurant pour les intégrateurs industriels et les équipes de déploiement en production. Le risque d'oubli catastrophique, bien documenté lors du fine-tuning de politiques obtenues après des milliers d'heures de simulation, est écarté puisque les poids de base restent intacts. La couche de pilotage est légère et s'adapte en boucle fermée à l'état courant du robot et au contexte multi-agents, ce qui la distingue des approches d'activation patching offline utilisées dans les LLMs. La diversité des comportements obtenus sur une même architecture gelée, de la gestion de formation à l'esquive de surveillance, suggère une généralité de la méthode au-delà des tâches de navigation. Les résultats restent cependant limités aux quadrotors pour l'instant, et la transférabilité à des robots manipulateurs ou humanoïdes n'est pas encore démontrée. CLAE s'inscrit dans un courant de recherche actif autour du steering de réseaux de neurones via sparse autoencoders, popularisé par les travaux d'Anthropic sur l'interpretabilité des LLMs et les techniques d'activation patching dans les transformers. Appliqué à la robotique incarnée, ce paradigme impose une contrainte supplémentaire : la boucle fermée exige des corrections adaptées en temps réel à la dynamique du système, contrairement à l'édition statique en NLP. Parmi les approches concurrentes figurent les méthodes de parameter-efficient fine-tuning (LoRA, adaptateurs), le meta-learning de type MAML et les residual policies. La prochaine étape naturelle serait une validation sur des architectures VLA (Vision-Language-Action), où le coût prohibitif de réentraînement rend encore plus pertinente une solution d'édition à l'inférence, notamment pour les déploiements industriels à grande échelle.

RecherchePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
2arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
3arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
Coordination du changement de tâches dans un système multi-agents robotique à l'aide d'arbres de comportement
4arXiv cs.RO 

Coordination du changement de tâches dans un système multi-agents robotique à l'aide d'arbres de comportement

L'équipe ThundeRatz de l'Universidade de São Paulo a publié en juin 2026 un article (arXiv:2606.01170) présentant une nouvelle architecture de coordination pour ses robots de football miniature, dans le cadre de la catégorie IEEE Very Small Size Soccer (VSSS). Ce format de compétition met en jeu deux équipes de trois robots chacune, évoluant dans un environnement particulièrement dynamique. Pour gérer les changements de rôle et de comportement en temps réel, l'équipe a remplacé son système historique à base d'automates finis (FSM, Finite State Machine) par une architecture fondée sur des arbres de comportement (Behavior Trees, BT). La comparaison entre les deux approches a été conduite sur le simulateur FIRASim, puis validée lors d'une compétition académique réelle. Le passage FSM vers BT représente un choix architectural significatif dans le domaine de la coordination multi-agents en robotique. Les FSM sont réputés fragiles à mesure que le nombre d'états croît : chaque nouvelle transition requiert une mise à jour manuelle de l'ensemble du graphe, ce qui génère rapidement un code difficile à maintenir dans des environnements où les comportements doivent être recomposés dynamiquement. Les Behavior Trees offrent, à l'inverse, une structure modulaire et hiérarchique qui facilite le changement de tâche en cours d'exécution. Appliqué au football multi-robots, cela signifie une meilleure réactivité aux situations de jeu imprévues, attaquant, défenseur, gardien pouvant échanger leurs rôles de manière coordonnée sans régression comportementale. Ce type de résultat, même dans un cadre académique et à petite échelle, alimente directement les travaux sur la coordination de flottes de robots industriels (AMR, bras collaboratifs) où la commutation de tâche est un point de défaillance récurrent. La compétition VSSS existe depuis plusieurs années sous l'égide de l'IEEE et constitue un banc d'essai reconnu en robotique collective, notamment en Amérique du Sud. ThundeRatz est l'une des équipes historiques du circuit, et ses publications alimentent régulièrement la littérature sur la coordination embarquée à faibles ressources. Sur le plan concurrentiel, les approches BT sont désormais adoptées par plusieurs frameworks robotiques majeurs, dont ROS 2 via BehaviorTree.CPP, ainsi que par des acteurs industriels comme Boston Dynamics pour la gestion comportementale de Spot. L'article ne détaille pas de métriques de performance chiffrées dans son résumé, ce qui rend difficile toute comparaison directe avec d'autres travaux ; les résultats complets restent à consulter dans le corps du papier.

RecherchePaper
1 source