Titre découverte conjointe de symboles d'objets et d'actions par prédiction d'effets pour la planification de manipulation robotique
Ce travail de recherche, publié sur arXiv, s'attaque à un problème central en planification robotique : comment faire en sorte qu'un robot autonome transforme des interactions sensorimotrices continues et complexes en représentations discrètes exploitables pour planifier ses actions. Les auteurs proposent un modèle qui découvre simultanément des primitives de manipulation de haut niveau et des catégories d'objets, via une couche binaire dite « bottleneck », entraînée à prédire des résultats multimodaux (mouvement de l'objet, contact, retour de force) à partir de données d'interaction générées aléatoirement. Le système s'appuie ensuite sur une méthode de planification discrète qui utilise les étapes intermédiaires de la trajectoire d'effets prédite, permettant des exécutions partielles d'actions pour un contrôle précis à bas niveau. Les expériences portent sur des tâches de repositionnement et d'empilement d'objets sur table, et montrent une précision de planification supérieure à un état de l'art existant et à une méthode alternative fondée sur la vision, aussi bien sur des objets déjà vus que sur des objets nouveaux.
L'enjeu dépasse la simple performance de laboratoire. Les approches classiques de catégorisation d'objets en robotique reposent soit sur l'apparence visuelle, ce qui échoue dès que deux objets se ressemblent mais réagissent différemment à la manipulation, soit sur les effets observés, mais avec des actions figées à l'avance. En liant les deux via l'apprentissage, cette méthode permet une généralisation en few-shot fondée sur le comportement réel de l'objet plutôt que sur son aspect, un enjeu direct pour les intégrateurs industriels confrontés à des objets non standardisés en entrepôt ou en logistique, où deux boîtes identiques visuellement peuvent avoir un contenu, un poids ou une rigidité totalement différents.
Ce travail s'inscrit dans la lignée des recherches sur l'ancrage symbolique (symbol grounding) pour la planification robotique, un champ qui cherche depuis plusieurs années à dépasser les limites de la perception purement visuelle. Les auteurs annoncent vouloir étendre cette approche à des tâches de manipulation plus variées et à des objets plus complexes, une piste qui pourrait à terme nourrir les architectures de type VLA utilisées par les bras industriels et les robots humanoïdes.
Dans nos dossiers




