ConCent : apprentissage centré sur le contact réel-vers-sim-vers-réel depuis une seule démonstration
Déposé sur arXiv fin juin 2026 (arXiv:2606.30268), ConCent (Contact-Centric Real-to-Sim-to-Real) est un framework d'apprentissage par renforcement conçu pour résoudre le transfert sim-to-real dans les tâches de manipulation robotique riche en contacts. L'approche part d'une seule démonstration réelle : à partir de celle-ci, elle extrait automatiquement la séquence d'événements de contact (quand, où et comment les contacts surviennent), puis optimise en simulation la géométrie des objets, approximés comme des groupes de primitives géométriques, pour que la dynamique locale reproduise fidèlement les transitions d'état observées. Cette séquence de contact devient un signal de récompense structuré qui guide la politique RL vers des régimes de contact physiquement plausibles, l'empêchant d'exploiter des artefacts irréalistes du simulateur. Aucune conception manuelle de fonction de récompense par tâche n'est nécessaire.
Le noeud du problème que ConCent attaque est le reality gap sur les tâches à fort couplage mécanique (vissage, assemblage précis, manipulation d'objets déformables), où une légère différence de dynamique de contact suffit à invalider une politique entière. Contrairement aux approches par domain randomization ou aux pipelines nécessitant de larges corpus de données réelles, ConCent impose une contrainte structurelle : la politique ne peut progresser qu'en respectant les séquences de contact validées dans le monde réel. Les résultats présentés montrent une meilleure stabilité et robustesse du transfert face à des baselines RL non contraintes. L'absence de reward engineering par tâche représente un gain opérationnel concret pour les équipes souhaitant déployer de nouvelles tâches sans reconfiguration coûteuse.
Le problème du sim-to-real pour la manipulation remonte aux travaux fondateurs sur la domain randomization (OpenAI Dactyl, 2019) et aux pipelines de learning from demonstration. Des approches récentes comme la simulation différentiable (DiffTaichi) ou les VLA de type pi0 (Physical Intelligence) et GR00T N2 (NVIDIA) s'attaquent au même reality gap, mais avec des architectures et des volumes de données très différents. ConCent se distingue en ancrant la dynamique simulée sur une démonstration réelle unique, sans calibration manuelle du simulateur. Il s'agit à ce stade d'un preprint académique sans déploiement industriel annoncé, les résultats étant validés en conditions de laboratoire. La suite logique serait une évaluation sur des cycles d'assemblage industriels réels et une comparaison directe avec des architectures VLA pour quantifier l'avantage de l'approche contact-centric à l'échelle.




