
Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels
Des chercheurs publient sur arXiv (2606.05248) un cadre hybride pour la manipulation inverse en robotique : restaurer l'état initial d'un objet après qu'un bras manipulateur a exécuté une tâche. Le système extrait automatiquement des opérateurs de type STRIPS à partir de démonstrations humaines, via des prédicats géométriques souples (soft geometric predicates). Pour chaque opérateur, il dérive un objectif de restauration inverse qui préserve les préconditions, restaure les effets supprimés et annule les effets ajoutés. Quand le planificateur symbolique ne parvient pas à tout résoudre seul, les prédicats irrésolus déclenchent un apprentissage résiduel par algorithme Soft Actor-Critic (SAC). L'évaluation porte sur la tâche PushCube du benchmark de simulation ManiSkill3 : le plan symbolique effectue une restauration grossière par pick-and-place, puis le SAC affine la pose du cube pour satisfaire les prédicats restants.
Ce travail s'attaque à un problème industriellement critique mais peu formalisé : inverser une tâche robotique ne se résume ni à rejouer les trajectoires moteur à rebours, ni à inverser les transitions symboliques d'un plan. La dynamique continue des contacts physiques crée des effets irréversibles qu'aucune de ces deux approches seules ne corrige. En combinant planification symbolique pour la restauration grossière et RL résiduel pour le raffinement précis, les auteurs montrent qu'un inverse approximatif peut devenir une compétence physiquement fondée. Pour les intégrateurs industriels, cela ouvre la voie à des systèmes capables de récupération d'erreur automatique sans reprogrammation manuelle, une lacune réelle des installations robotiques actuelles.
Ce preprint s'inscrit dans la tension croissante entre deux paradigmes : les modèles tout-neuronal de type VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur l'apprentissage de bout en bout, et les approches hybrides symbolique-neuronal. Les auteurs parient sur STRIPS, formalisé en 1971, comme couche de représentation structurée des effets d'actions. ManiSkill3 est un benchmark de simulation standardisé développé à l'Université de San Diego ; les résultats restent donc entièrement en simulation, sans transfert sim-to-real démontré ni partenaire industriel annoncé. L'extension à des tâches aux effets réellement irréversibles (assemblage, coupe, collage) constitue la prochaine étape non résolue, et conditionnera l'intérêt concret de cette approche pour le déploiement réel.
Dans nos dossiers




