Une architecture neuronale à impulsions pour…

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes

35

1arXiv cs.RO

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes

Un groupe de chercheurs a publié sur arXiv (preprint 2605.15352) une politique de contrôle fondée sur la diffusion, capable de faire ouvrir et franchir une porte à loquet auto-fermant par un robot mobile équipé de deux bras. La tâche ciblée, une porte lourde nécessitant une traction, est décomposée en plusieurs phases enchaînées sans intervention manuelle : rotation de la poignée, traction progressive, maintien de l'ouverture, transfert d'appui entre les deux membres, déplacement de la base, puis passage complet. Le robot repose sur une base non-holonome (incapable de se déplacer latéralement sans rotation préalable), ce qui contraint fortement la coordination simultanée entre châssis et manipulateurs. Les auteurs ne communiquent ni le nom du robot utilisé ni de taux de succès chiffré dans l'abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt technique réside dans l'abandon des automates à états finis classiques, où chaque transition (tirer une fois la poignée tournée, passer une fois l'ouverture suffisante) est programmée manuellement et échoue dès que les conditions réelles dévient du scénario prévu. L'approche par imitation learning, via une diffusion policy (modèle génératif entraîné à reproduire des démonstrations humaines en capturant une distribution de trajectoires plutôt qu'une unique solution), produit une politique unique de bout en bout qui gère l'intégralité de la séquence longue sans découpage explicite. Les auteurs signalent également une robustesse aux perturbations extérieures, comme des poussées appliquées au robot en cours de tâche, résultat difficile à atteindre avec des méthodes classiques. Pour les intégrateurs industriels, les variables clés à valider restent le sim-to-real et la généralisation à la diversité physique des portes réelles. La diffusion policy s'est imposée comme paradigme dominant en manipulation robotique depuis les travaux de Chi et al. (Columbia, 2023) et irrigue aujourd'hui des laboratoires académiques et des start-ups comme Physical Intelligence (Pi-0), 1X Technologies ou Covariant. Ce preprint s'inscrit dans un effort plus large vers la manipulation mobile bimanuelle, segment encore peu couvert commercialement : Boston Dynamics (Spot + bras ARM), Hello Robot (Stretch) ou Kinova opèrent principalement en manipulation unimanuelle ou sur base fixe. Aucune collaboration industrielle ni timeline de déploiement n'est mentionnée, ce qui situe ce travail résolument côté recherche fondamentale, malgré des résultats préliminaires prometteurs sur les longues séquences gestuelles.

RecherchePaper

1 source

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

43

2arXiv cs.RO

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

Des chercheurs ont publié sur arXiv (référence 2601.08514v2) une architecture modulaire pour ROS2 qui sépare explicitement la logique de gestion des références de celle des lois de contrôle. Le composant central, baptisé Reference Generator, reçoit des références depuis des noeuds externes (planificateurs de trajectoire, operateurs humains) sous forme de points isolés ou de trajectoires complètes, puis écrit des références point-à-point à la période d'échantillonnage du contrôleur via le mécanisme de chaînage existant de ros2control. Deux générateurs de références ont été implémentés : un pour l'espace articulaire (joint-space) et un pour les références cartésiennes. Trois nouveaux contrôleurs accompagnent l'architecture : un contrôleur PD avec compensation de gravité, un contrôleur de pose cartésienne, et un contrôleur d'admittance. La validation a été conduite en simulation et sur du matériel réel, avec des manipulateurs Universal Robots et Franka Emika. L'enjeu n'est pas anodin pour les intégrateurs robotiques : aujourd'hui, chaque contrôleur ros2control qui veut gérer des trajectoires doit embarquer sa propre logique d'acquisition, de validation et d'interpolation de références, ce qui génère du code dupliqué difficile à maintenir et à faire évoluer. L'architecture proposée factorise ce code en un composant réutilisable et robot-agnostique, ce qui simplifie la construction de pipelines de contrôle complexes (par exemple, chaîner un contrôleur d'admittance en aval d'un planificateur cartésien). Les résultats montrent un suivi fiable des références dans tous les scénarios testés, sans dégradation des performances de contrôle, ce qui valide l'approche sur des plateformes industrielles courantes plutôt que sur du matériel expérimental. Le contexte est celui de la maturité croissante de l'écosystème ros2control, devenu le standard de fait pour le contrôle de manipulateurs sous ROS2. Universal Robots (UR3, UR5, UR10) et Franka Emika (Panda/FR3) sont les deux références canoniques du marché des cobots de recherche et d'intégration légère, ce qui donne à cette validation une portée pratique immédiate. L'approche s'inscrit dans une tendance plus large vers des architectures de contrôle composables, comparable aux efforts du projet ros2control community et aux frameworks comme mcrtc (CNRS/AIST). Les auteurs ne mentionnent pas de timeline de contribution upstream ni de release packagée, et il reste à voir si ce Reference Generator sera proposé en merge request dans le dépôt officiel ros2control.

UELa validation sur des cobots Universal Robots (danois) et Franka Emika (allemand), standards de l'intégration robotique européenne, et la parenté avec mcrtc (CNRS/AIST) rendent cette architecture directement applicable aux intégrateurs FR/EU travaillant sous ROS2.

RecherchePaper

1 source

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

37

3arXiv cs.RO

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper

1 source

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

45

4arXiv cs.RO

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper

1 source

Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion

À lire aussi

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes