RecherchearXiv cs.RO 2 juin 2026

Contrôle de posture par apprentissage par renforcement profond pour robots à double direction Ackermann en conditions d'incertitude

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs présentent une méthode de contrôle de pose complète pour robots mobiles à double direction Ackermann, basée sur l'apprentissage par renforcement profond (DRL), en ciblant directement l'un des obstacles centraux à l'industrialisation du DRL : l'écart de performance entre simulation et monde réel. Partant du cadre ManeuverNet, l'équipe étend son objectif initial (contrôle de position) vers un contrôle de pose complet, position et orientation combinées, ce qui constitue une tâche sensiblement plus exigeante. Les robots à double direction Ackermann, utilisés notamment en logistique lourde et inspection industrielle, imposent des contraintes non-holonomes strictes liées à la géométrie du châssis. Les résultats quantifient précisément le problème : une politique entraînée avec des modèles d'actionnement simplifiés atteint 100 % de succès dans PyBullet, mais chute à 25 % dans Gazebo sous des conditions d'évaluation plus strictes, une dégradation qui illustre le sim-to-real gap à un stade intermédiaire, avant même le passage sur robot physique.

La contribution principale repose sur une approche "sim-to-sim-to-real" : les effets d'actionnement caractéristiques de Gazebo sont modélisés, puis réinjectés dans l'environnement d'entraînement PyBullet. Combinée à un entraînement multi-environnements via les algorithmes SAC (Soft Actor-Critic) et CrossQ, cette stratégie remonte le taux de succès à 92 % dans Gazebo (69 % sous seuils stricts) et permet un transfert direct sur robot réel sans réajustement supplémentaire. Ce résultat intéresse directement les intégrateurs d'AGV et AMR : il suggère que la modélisation fine de l'actionnement, davantage que la complexité architecturale du réseau, constitue le levier principal pour réduire l'écart sim-to-real sur des plateformes non-holonomes.

Le problème de la double direction Ackermann reste moins étudié que les bases omnidirectionnelles ou les rovers différentiels, malgré sa pertinence pour les chariots élévateurs autonomes et les véhicules industriels de grande taille. SAC et CrossQ représentent l'état de l'art en DRL hors politique (off-policy) ; leur combinaison avec une approche sim-to-sim structurée sur ce type de plateforme constitue une contribution nouvelle. L'article est publié en preprint arXiv (2606.00313) et n'a pas encore été évalué par les pairs ; les conditions exactes du test sur robot réel, notamment la diversité des scénarios testés, restent à préciser avant toute conclusion définitive sur la robustesse industrielle de la méthode.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Une seule démonstration suffit pour l'apprentissage par renforcement robotique en conditions réelles

Des chercheurs présentent AutoSERL, un framework d'apprentissage par renforcement (RL) pour robots qui n'a besoin que d'une seule démonstration humaine pour apprendre des tâches de manipulation complexes en conditions réelles, sans intervention humaine continue pendant l'entraînement. Le système repose sur trois mécanismes complémentaires : une fenêtre glissante d'intervention qui guide l'exploration pour éviter les minima locaux et les mouvements dangereux, un mécanisme de récupération de sécurité qui détecte les échecs et corrige la trajectoire via des points de reprise prédéfinis, et un critère d'arrêt automatique qui coupe le guidage dès que la politique apprise devient autonome. Les auteurs ont testé AutoSERL sur six tâches de manipulation à contact intensif (insertion, accrochage, tâches à charnière) réparties sur deux plateformes robotiques différentes. Le framework atteint 100% de réussite sur les tâches d'insertion et dépasse systématiquement SERL entraîné avec 20 démonstrations, l'apprentissage par imitation classique (behavior cloning) et MILES, une méthode dédiée à l'apprentissage en un coup, tout en égalant les performances de HIL-SERL qui nécessite lui une supervision humaine continue. L'intérêt pour l'industrie tient à la réduction drastique du coût de collecte de données, généralement le principal frein au déploiement de RL sur du matériel physique. La plupart des approches existantes exigent soit des dizaines de démonstrations, soit un opérateur qui intervient en permanence pendant l'entraînement, ce qui limite le passage à l'échelle en usine ou en intégration industrielle. En automatisant l'intervention à partir d'un seul exemple tout en conservant une robustesse aux variations de position des pièces, AutoSERL rapproche le RL réel de tâches d'assemblage fin, un terrain où les approches purement basées sur l'imitation ou les politiques VLA préentraînées peinent encore à garantir une fiabilité industrielle. Ce travail s'inscrit dans la lignée de SERL et HIL-SERL, frameworks de référence pour le RL avec intervention humaine sur robots physiques, en cherchant à supprimer leur principale contrainte opérationnelle. Le code et les vidéos de démonstration sont publiés par les auteurs sur un site dédié, mais le papier, déposé sur arXiv le 1er juillet 2026, reste à ce stade une contribution de recherche académique évaluée en laboratoire sur deux plateformes robotiques, sans indication de déploiement industriel ni de partenariat commercial annoncé.

RecherchePaper

1 source

2arXiv cs.RO

Contrôle de formation haute précision pour systèmes multi-robots hétérogènes via apprentissage par renforcement profond hiérarchique et hybride, informé par la physique

Des chercheurs proposent un nouveau cadre de contrôle pour la formation de flottes de robots hétérogènes, baptisé HHy-PIDRL (hierarchical hybrid physics-informed deep reinforcement learning), publié sur arXiv début juillet 2026. L'architecture repose sur deux couches. La couche supérieure gère la navigation autonome d'un robot leader à direction Ackermann via un algorithme Soft Actor-Critic (SAC), une méthode de deep reinforcement learning reconnue pour sa stabilité d'entraînement. La couche inférieure combine trois briques pour les robots suiveurs omnidirectionnels : un contrôleur physique feed-forward haute-fidélité, un correcteur proportionnel-dérivé (PD) classique, et un contrôleur résiduel adaptatif par apprentissage par renforcement, l'ensemble formant une politique hybride baptisée HM-DRL. Une fonction de récompense hiérarchique spécifique a été conçue pour guider l'apprentissage des suiveurs vers une politique de contrôle stable et affinée. Selon les auteurs, les taux de réussite atteignent 100% aussi bien pour la navigation du leader que pour le maintien de formation des suiveurs, des résultats validés par des expériences d'ablation. Ce travail s'attaque à un problème concret pour l'industrie robotique multi-agents : les méthodes de contrôle classiques exigent des modèles physiques précis et tiennent mal face aux incertitudes de modélisation et aux perturbations externes, tandis que les approches de reinforcement learning bout-en-bout souffrent traditionnellement d'une faible efficacité d'échantillonnage et de convergences instables. En hybridant modèle physique et apprentissage résiduel, l'équipe cherche à concilier la robustesse théorique du contrôle classique avec l'adaptabilité du RL, un enjeu direct pour les opérateurs de flottes de robots mobiles autonomes (AMR) en entrepôt ou en logistique, où l'hétérogénéité des plateformes (Ackermann versus omnidirectionnel) complique la coordination de formation. Cette publication s'inscrit dans une lignée de recherches visant à combiner physics-informed learning et RL pour dépasser les limites respectives des approches purement analytiques ou purement data-driven, une tendance déjà explorée pour la locomotion de robots humanoïdes et le contrôle de bras manipulateurs. Les auteurs annoncent des expériences d'ablation pour isoler la contribution de chaque module, mais les résultats à 100% de réussite, obtenus en simulation selon toute vraisemblance, restent à confirmer en conditions réelles avant tout déploiement industriel.

RecherchePaper

1 source

3arXiv cs.RO

Introduction aux représentations d'actions SO(3) en apprentissage par renforcement profond

Une étude publiée sur arXiv (référence 2510.11103, troisième révision) analyse systématiquement comment les différentes représentations mathématiques du groupe SO(3), l'espace des rotations 3D, influencent l'apprentissage par renforcement appliqué au contrôle robotique. Les chercheurs ont comparé quatre familles de représentations courantes : angles d'Euler, quaternions, matrices de rotation et coordonnées d'algèbre de Lie, en les évaluant sur trois algorithmes d'RL continus de référence (PPO, SAC et TD3), sous deux régimes de récompenses (dense et sparse), et sur une suite de benchmarks robotiques standardisés. Le résultat central : représenter les actions comme des vecteurs tangents dans le repère local donne les résultats les plus fiables et les plus stables, quel que soit l'algorithme utilisé. Le code et la page projet sont disponibles à amacati.github.io/so3_primer. Ce résultat a une portée directe pour les ingénieurs qui développent des politiques de contrôle pour la manipulation ou la locomotion humanoïde. Le choix de représentation n'est pas neutre : la géométrie induite par chaque paramétrisation conditionne la manière dont l'agent explore l'espace des actions, interagit avec la régularisation entropique (notamment dans SAC), et converge, ou échoue à converger, lors de l'entraînement. Les angles d'Euler souffrent de singularités connues (gimbal lock), les quaternions imposent une contrainte de norme unitaire difficile à respecter en sortie de réseau neuronal, et les matrices de rotation introduisent des redondances qui compliquent la projection sur SO(3) valide. L'étude fournit des recommandations directement applicables, ce qui est rare dans la littérature RL sur la rotation. La problématique SO(3) est bien documentée pour l'apprentissage supervisé, notamment dans les pipelines d'estimation de pose, mais ses implications pour les actions en RL restaient peu explorées. Ce travail comble ce manque à un moment où les politiques d'entrée-sortie continues (VLA, diffusion policies, flux-matching) deviennent centrales dans les robots manipulateurs commerciaux. Les équipes qui développent des politiques pour des plateformes comme Figure 03, Unitree H1 ou des manipulateurs industriels s'appuient de plus en plus sur SAC et TD3 ; savoir que la représentation en vecteur tangent surpasse systématiquement les alternatives simplifie un choix d'architecture souvent fait de manière empirique. Les auteurs publient le code en open source, ce qui permettra à la communauté de valider ces résultats sur d'autres benchmarks et accélérera potentiellement l'adoption de cette convention dans les frameworks d'RL robotique.

RecherchePaper

1 source

4arXiv cs.RO

Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles

Des chercheurs ont publié sur arXiv (réf. 2604.07945, version 2) une méthode baptisée IRRL, Incremental Residual Reinforcement Learning, conçue pour permettre aux robots mobiles d'apprendre à naviguer parmi les piétons directement dans des environnements physiques réels, sans passer par une étape de simulation exhaustive. L'approche combine deux mécanismes distincts : l'apprentissage incrémental, un processus léger qui ne nécessite ni replay buffer ni mise à jour par batch, et le RL résiduel, qui restreint l'apprentissage aux corrections à apporter par rapport à une politique de base préexistante. Les expériences couvrent à la fois des environnements simulés et des déploiements réels sur robot physique, avec pour cible explicite les dispositifs edge à ressources computationnelles contraintes. L'enjeu industriel est concret : la navigation sociale, faire circuler un robot autonome parmi des piétons en respectant les conventions implicites de déplacement, est un verrou majeur pour les AMR déployés dans des espaces publics, des entrepôts partagés ou des établissements de santé. Le problème du sim-to-real gap est ici particulièrement prononcé, car les dynamiques piétonnes varient fortement selon les régions, les cultures et les configurations d'espace, rendant toute couverture exhaustive par simulation illusoire. IRRL propose une réponse directe : laisser le robot continuer à apprendre une fois déployé, en se limitant aux résidus par rapport à une politique de base, ce qui réduit drastiquement la charge computationnelle. Les résultats publiés montrent des performances comparables aux méthodes classiques avec replay buffer en simulation, et une supériorité sur les approches d'apprentissage incrémental existantes. Les expériences en environnement réel confirment une adaptation effective à des situations inédites. Ces résultats restent toutefois à interpréter avec prudence : il s'agit d'un preprint académique, sans benchmark standardisé ni déploiement à l'échelle annoncé. Le domaine de la navigation sociale par deep RL est actif depuis plusieurs années, porté par des travaux comme CrowdNav (ICRA 2019) ou des méthodes basées sur ORCA et ses extensions apprenantes. L'approche résiduelle n'est pas nouvelle en soi, elle est notamment utilisée dans le contrôle de robots manipulateurs pour corriger une politique classique, mais son application à la navigation sociale en conditions réelles avec contrainte edge reste peu explorée. Aucune institution ni entreprise n'est identifiée dans l'abstract disponible, et aucun partenariat industriel ni pilote terrain n'est mentionné. Les prochaines étapes naturelles seraient une validation sur des plateformes AMR commerciales (type Clearpath ou unitree) et une confrontation aux benchmarks publics de navigation sociale tels que BARN ou SocNavBench.

RecherchePaper

1 source