
Combinaison d'échantillonnage contraint et d'apprentissage par renforcement pour la manipulation robotique
Manipulation robotique non préhensile : des chercheurs de la TU Berlin combinent échantillonnage contraint et apprentissage par renforcement
Une équipe de la TU Berlin, associée au laboratoire de Marc Toussaint, publie une nouvelle version de ses travaux sur l'entraînement de politiques de manipulation robotique en environnement riche en contacts (arXiv:2602.08557v2). Le problème visé est la manipulation dite non préhensile, c'est à dire pousser, faire glisser ou réorienter un objet sans le saisir, une tâche où l'apprentissage par renforcement (RL) peine souvent à explorer suffisamment l'espace des stratégies possibles. La méthode proposée combine deux idées existantes mais rarement associées : d'une part des stratégies de réinitialisation qui contrôlent la distribution des états de départ de chaque épisode d'entraînement, et d'autre part un échantillonnage basé modèle sur des variétés contraintes, une technique reconnue pour son efficacité à générer des états physiquement valides. Le nouvel échantillonneur tient explicitement compte de la structure des contacts pour couvrir un large éventail de modes de contact, le tout combiné à une interpolation projetée et à un apprentissage curriculaire progressif.
Sur le plan des résultats, l'équipe affirme surpasser à la fois le RL classique sans échantillonnage contraint et les méthodes alternatives de réinitialisation, en entraînant des politiques universelles, non préhensiles et dynamiques. L'intérêt pour le secteur tient moins à un produit qu'à une brique méthodologique : la manipulation en contact riche, aujourd'hui l'un des points durs de la robotique appliquée (tri industriel, réorientation d'objets sur convoyeur, préhension d'objets déformables), reste largement dominée par des politiques apprises en simulation qui échouent à généraliser sur des configurations de contact non vues à l'entraînement. Une méthode qui améliore la couverture des modes de contact pendant l'apprentissage adresse directement ce problème de généralisation, sans dépendre d'un matériel ou d'un actionneur particulier.
Il s'agit ici d'une contribution académique, pas d'une annonce produit ni d'un déploiement industriel, du matériel supplémentaire étant disponible sur le site du laboratoire. Le travail s'inscrit dans la continuité des recherches de Toussaint sur la planification géométrico logique et les approches hybrides modèle/apprentissage, un courant de recherche européen qui contraste avec les approches purement data-driven (type VLA) privilégiées par les laboratoires américains sur les plateformes humanoïdes commerciales.
Contribution de la TU Berlin (laboratoire de Marc Toussaint) qui renforce l'expertise europeenne en manipulation robotique hybride modele/apprentissage, une approche qui se distingue des methodes VLA data-driven privilegiees par les laboratoires americains.
Dans nos dossiers




