AffordGen : génération de démonstrations variées pour la manipulation d'objets généralisable par correspondance d'affordances
Des chercheurs présentent AffordGen, un framework conçu pour résoudre l'un des goulets d'étranglement centraux de l'apprentissage par imitation en robotique : la rareté et le manque de diversité géométrique des données d'entraînement. Le système combine des modèles génératifs 3D à grande échelle avec des vision foundation models (VFMs) pour produire automatiquement de nouvelles trajectoires de manipulation. Le mécanisme repose sur la correspondance sémantique de keypoints fonctionnels (les affordances) entre des maillages 3D issus de bibliothèques volumineuses : AffordGen localise les points pertinents (prise, contact, pivot) sur un objet de référence, puis les transpose à de nouvelles géométries pour générer des démonstrations synthétiques variées. Ce dataset affordance-aware entraîne ensuite une politique visuomotrice en boucle fermée qui combine généralisation sémantique et robustesse réactive de l'apprentissage de bout en bout. Des expériences en simulation et dans le monde réel rapportent des taux de réussite élevés et, surtout, une capacité de généralisation zero-shot à des objets réellement inédits lors de l'entraînement.
L'enjeu industriel est direct. Collecter manuellement des démonstrations robotiques reste coûteux, lent et difficile à diversifier sur des variantes géométriques d'objets. AffordGen génère cette diversité de façon programmatique, sans requérir de téléopération supplémentaire. La généralisation zero-shot représente un indicateur fort de viabilité en déploiement réel, car les environnements industriels exposent en permanence des objets non anticipés. Le fait que la politique reste en boucle fermée la distingue des approches open-loop souvent fragiles hors laboratoire. Ces résultats renforcent l'hypothèse que le "data gap" de la manipulation peut être partiellement comblé par génération synthétique, à condition que les affordances soient correctement modélisées, ce que les auteurs n'ont toutefois démontré que sur un périmètre de tâches restreint.
AffordGen s'inscrit dans un courant de recherche visant à augmenter les données de manipulation sans démonstrations humaines massives, aux côtés de MimicGen (NVIDIA), RoboAgent ou RoboGen. La diffusion policy et ACT (Action Chunking Transformer) ont démontré la puissance de l'imitation learning conditionnée à un volume de données suffisant ; AffordGen attaque précisément ce prérequis amont. Le papier est disponible sur arXiv (arXiv:2604.10579v2, version mise à jour). Les prochaines étapes naturelles concernent la scalabilité sur des tâches de manipulation multi-étapes et l'intégration dans des stacks industrielles telles que celles de 1X Technologies, Boston Dynamics ou Apptronik, qui restent tributaires de la diversité des données pour déployer des politiques robustes hors des environnements contrôlés.
Dans nos dossiers




