Aller au contenu principal
Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels
RecherchearXiv cs.RO2h

Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs publient sur arXiv (2606.05248) un cadre hybride pour la manipulation inverse en robotique : restaurer l'état initial d'un objet après qu'un bras manipulateur a exécuté une tâche. Le système extrait automatiquement des opérateurs de type STRIPS à partir de démonstrations humaines, via des prédicats géométriques souples (soft geometric predicates). Pour chaque opérateur, il dérive un objectif de restauration inverse qui préserve les préconditions, restaure les effets supprimés et annule les effets ajoutés. Quand le planificateur symbolique ne parvient pas à tout résoudre seul, les prédicats irrésolus déclenchent un apprentissage résiduel par algorithme Soft Actor-Critic (SAC). L'évaluation porte sur la tâche PushCube du benchmark de simulation ManiSkill3 : le plan symbolique effectue une restauration grossière par pick-and-place, puis le SAC affine la pose du cube pour satisfaire les prédicats restants.

Ce travail s'attaque à un problème industriellement critique mais peu formalisé : inverser une tâche robotique ne se résume ni à rejouer les trajectoires moteur à rebours, ni à inverser les transitions symboliques d'un plan. La dynamique continue des contacts physiques crée des effets irréversibles qu'aucune de ces deux approches seules ne corrige. En combinant planification symbolique pour la restauration grossière et RL résiduel pour le raffinement précis, les auteurs montrent qu'un inverse approximatif peut devenir une compétence physiquement fondée. Pour les intégrateurs industriels, cela ouvre la voie à des systèmes capables de récupération d'erreur automatique sans reprogrammation manuelle, une lacune réelle des installations robotiques actuelles.

Ce preprint s'inscrit dans la tension croissante entre deux paradigmes : les modèles tout-neuronal de type VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur l'apprentissage de bout en bout, et les approches hybrides symbolique-neuronal. Les auteurs parient sur STRIPS, formalisé en 1971, comme couche de représentation structurée des effets d'actions. ManiSkill3 est un benchmark de simulation standardisé développé à l'Université de San Diego ; les résultats restent donc entièrement en simulation, sans transfert sim-to-real démontré ni partenaire industriel annoncé. L'extension à des tâches aux effets réellement irréversibles (assemblage, coupe, collage) constitue la prochaine étape non résolue, et conditionnera l'intérêt concret de cette approche pour le déploiement réel.

À lire aussi

ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile
1arXiv cs.RO 

ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile

Une équipe de recherche du laboratoire elpis-lab a publié sur arXiv en juin 2025 (identifiant 2506.04646, désormais à sa quatrième révision) un framework baptisé ActivePusher, dédié à la manipulation non-préhensile, c'est-à-dire le déplacement d'objets par poussée ou roulement, sans saisie. L'approche combine deux blocs techniques : un modèle de dynamique par physique résiduelle, qui superpose un correctif appris par réseau de neurones à un modèle physique analytique de base, et un mécanisme d'apprentissage actif guidé par l'incertitude, qui oriente automatiquement la collecte de données vers les paramètres de compétence les moins bien couverts. Le framework s'intègre avec des planificateurs kinodynamiques à base de modèle, en pondérant l'échantillonnage de commandes selon les zones de faible incertitude du modèle appris. Les auteurs valident l'approche en simulation et sur robot réel, avec des taux de succès de planification supérieurs aux méthodes de référence, à volume de données d'entraînement égal. L'enjeu est significatif pour les intégrateurs et équipes R&D travaillant sur la manipulation en environnement non structuré. La manipulation non-préhensile reste un goulot d'étranglement dans de nombreuses lignes d'assemblage et de tri, précisément parce que les modèles analytiques (friction, contact multipoint) sont difficiles à calibrer et fragiles face aux variations de surface ou de géométrie. ActivePusher attaque ce problème sous deux angles simultanément : réduire le coût de collecte de données en évitant les interactions aléatoires peu informatives, et rendre la planification longue-portée plus fiable en évitant les régions d'incertitude élevée. C'est une réponse directe au "sim-to-real gap" structurel qui plombe les déploiements industriels de bras manipulateurs sur tâches de contact. La manipulation non-préhensile est un axe de recherche actif depuis les travaux fondateurs sur la mécanique du contact des années 1990, mais les approches purement analytiques ont montré leurs limites face à la variabilité du monde réel. Des frameworks comme MPPI (Model Predictive Path Integral) ou les planificateurs kinodynamiques basés sur des modèles appris (travaux de Karol Hausman, Pieter Abbeel) forment le paysage concurrent direct. ActivePusher se distingue par le couplage explicite entre acquisition active et planification, là où la plupart des approches traitent ces deux problèmes séparément. Le code source est disponible publiquement sur GitHub (elpis-lab/ActivePusher), ce qui devrait favoriser la reproductibilité. Aucun partenaire industriel ni timeline de transfert n'est mentionné : il s'agit d'une contribution académique, sans déploiement annoncé à ce stade.

RecherchePaper
1 source
NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste
2arXiv cs.RO 

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper
1 source
Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement
3arXiv cs.RO 

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper
1 source
RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés
4arXiv cs.RO 

RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés

Des chercheurs de l'ISRI-AIST, le laboratoire national de recherche industrielle japonais, ont publié RoboManipBaselines, un framework open-source unifié pour l'apprentissage par imitation appliqué à la manipulation robotique. Disponible sur GitHub et accompagné d'une page projet dédiée, ce cadre couvre l'intégralité du pipeline d'imitation learning : collecte de données, entraînement de politiques et exécution en rollout, aussi bien en simulation que sur robots réels. Concrètement, il supporte plusieurs simulateurs et environnements physiques via une interface unifiée, intègre des capteurs multimodaux (dont tactiles et capteurs 3D), et propose une bibliothèque de modèles de politiques variés. Les évaluations publiées s'appuient sur des datasets publics, ce qui est explicitement conçu pour garantir la reproductibilité des résultats. Plusieurs applications de recherche sont démontrées : augmentation de données, intégration de modèles tactiles, systèmes robotiques interactifs, évaluation de la perception 3D, et extensions matérielles. Ce framework répond à un problème structurel de la recherche en manipulation robotique : l'absence de benchmarks standardisés reproductibles, qui rend la comparaison entre approches quasi impossible et ralentit les transferts vers l'industrie. En proposant un pipeline cohérent du sim au réel, RoboManipBaselines facilite l'évaluation du sim-to-real gap, l'un des verrous critiques avant tout déploiement industriel. Pour un intégrateur ou un ingénieur robotique, l'extensibilité annoncée (ajout de nouveaux robots, tâches et politiques) réduit le coût d'entrée pour tester des architectures de type VLA (Vision-Language-Action) sur des configurations matérielles propres. C'est aussi un outil de validation expérimentale qui peut accélérer la qualification de politiques avant passage en production. L'imitation learning pour la manipulation connaît une effervescence depuis 2023-2024, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA, ou encore les travaux de Stanford et Berkeley. Dans cet écosystème, plusieurs frameworks concurrents existent déjà, notamment LeRobot de HuggingFace, RoboSuite (Stanford), ou MimicGen. RoboManipBaselines se distingue par son accent explicite sur la reproductibilité via datasets publics et son ancrage dans un laboratoire national disposant de plateformes matérielles réelles. L'AIST, acteur historique de la robotique japonaise (humanoïde HRP inclus), apporte une crédibilité expérimentale que les frameworks purement académiques n'ont pas toujours. La prochaine étape naturelle serait une adoption par des équipes industrielles pour valider des politiques sur des tâches d'assemblage ou de picking en conditions non contrôlées.

RecherchePaper
1 source