Contrôle de posture par apprentissage par renforcement profond pour robots à double direction Ackermann en conditions d'incertitude
Des chercheurs présentent une méthode de contrôle de pose complète pour robots mobiles à double direction Ackermann, basée sur l'apprentissage par renforcement profond (DRL), en ciblant directement l'un des obstacles centraux à l'industrialisation du DRL : l'écart de performance entre simulation et monde réel. Partant du cadre ManeuverNet, l'équipe étend son objectif initial (contrôle de position) vers un contrôle de pose complet, position et orientation combinées, ce qui constitue une tâche sensiblement plus exigeante. Les robots à double direction Ackermann, utilisés notamment en logistique lourde et inspection industrielle, imposent des contraintes non-holonomes strictes liées à la géométrie du châssis. Les résultats quantifient précisément le problème : une politique entraînée avec des modèles d'actionnement simplifiés atteint 100 % de succès dans PyBullet, mais chute à 25 % dans Gazebo sous des conditions d'évaluation plus strictes, une dégradation qui illustre le sim-to-real gap à un stade intermédiaire, avant même le passage sur robot physique.
La contribution principale repose sur une approche "sim-to-sim-to-real" : les effets d'actionnement caractéristiques de Gazebo sont modélisés, puis réinjectés dans l'environnement d'entraînement PyBullet. Combinée à un entraînement multi-environnements via les algorithmes SAC (Soft Actor-Critic) et CrossQ, cette stratégie remonte le taux de succès à 92 % dans Gazebo (69 % sous seuils stricts) et permet un transfert direct sur robot réel sans réajustement supplémentaire. Ce résultat intéresse directement les intégrateurs d'AGV et AMR : il suggère que la modélisation fine de l'actionnement, davantage que la complexité architecturale du réseau, constitue le levier principal pour réduire l'écart sim-to-real sur des plateformes non-holonomes.
Le problème de la double direction Ackermann reste moins étudié que les bases omnidirectionnelles ou les rovers différentiels, malgré sa pertinence pour les chariots élévateurs autonomes et les véhicules industriels de grande taille. SAC et CrossQ représentent l'état de l'art en DRL hors politique (off-policy) ; leur combinaison avec une approche sim-to-sim structurée sur ce type de plateforme constitue une contribution nouvelle. L'article est publié en preprint arXiv (2606.00313) et n'a pas encore été évalué par les pairs ; les conditions exactes du test sur robot réel, notamment la diversité des scénarios testés, restent à préciser avant toute conclusion définitive sur la robustesse industrielle de la méthode.
Dans nos dossiers




