Façonnage de la réalité des actionneurs pour l'apprentissage robotique sim-vers-réel en zero-shot
Des chercheurs proposent une nouvelle méthode pour résoudre le problème classique du transfert simulation-vers-réel en robotique, détaillée dans un article publié sur arXiv (référence 2607.02205v1). Baptisée "actuator reality shaping" (mise en forme de la réalité des actionneurs), l'approche inverse la logique habituelle : plutôt que de rendre le simulateur plus fidèle au monde réel via identification de système, randomisation de domaine ou modèles d'actionneurs appris, elle façonne le comportement en boucle fermée des actionneurs physiques pour qu'ils collent à la dynamique idéalisée du second ordre utilisée en simulation. Concrètement, chaque articulation est équipée d'un contrôleur à deux degrés de liberté combinant retour d'état (feedback) et anticipation (feedforward), ce qui sépare la mise en forme de la réponse de référence de la stabilisation robuste et crée une interface actionneur standardisée pour les politiques d'apprentissage par renforcement. Les chercheurs ont validé leur méthode sur un servomoteur mono-articulation à fort rapport de réduction soumis à des charges externes, ainsi que sur un bras robotique à 7 degrés de liberté (DOF) effectuant une tâche d'atteinte de cible, avec des politiques déployées en zero-shot, sans réglage fin ni modèle d'actionneur appris.
Cette approche s'attaque directement à l'un des points de friction les plus persistants du secteur : l'écart entre démonstrations en simulation et performances réelles, souvent masqué par des vidéos soigneusement sélectionnées chez les acteurs commerciaux. Si la méthode tient ses promesses à plus grande échelle, elle offrirait une alternative moins coûteuse aux pipelines classiques de randomisation de domaine ou de modélisation fine des moteurs, avec un intérêt direct pour les intégrateurs qui peinent à faire tenir en conditions réelles des politiques entraînées uniquement en simulation.
Les auteurs ont également testé le transfert zero-shot sur un robot à roues et jambes franchissant une pente, ainsi que sur un robot humanoïde en marche, suggérant une portée transversale à plusieurs morphologies. La méthode est comparée à des approches classiques de contrôle servo et à des références de type real-to-sim-to-real, avec une réduction substantielle de l'erreur de suivi rapportée dans les deux cas.
Dans nos dossiers




