RecherchearXiv cs.RO 5 juin 2026

Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs publient sur arXiv (2606.05248) un cadre hybride pour la manipulation inverse en robotique : restaurer l'état initial d'un objet après qu'un bras manipulateur a exécuté une tâche. Le système extrait automatiquement des opérateurs de type STRIPS à partir de démonstrations humaines, via des prédicats géométriques souples (soft geometric predicates). Pour chaque opérateur, il dérive un objectif de restauration inverse qui préserve les préconditions, restaure les effets supprimés et annule les effets ajoutés. Quand le planificateur symbolique ne parvient pas à tout résoudre seul, les prédicats irrésolus déclenchent un apprentissage résiduel par algorithme Soft Actor-Critic (SAC). L'évaluation porte sur la tâche PushCube du benchmark de simulation ManiSkill3 : le plan symbolique effectue une restauration grossière par pick-and-place, puis le SAC affine la pose du cube pour satisfaire les prédicats restants.

Ce travail s'attaque à un problème industriellement critique mais peu formalisé : inverser une tâche robotique ne se résume ni à rejouer les trajectoires moteur à rebours, ni à inverser les transitions symboliques d'un plan. La dynamique continue des contacts physiques crée des effets irréversibles qu'aucune de ces deux approches seules ne corrige. En combinant planification symbolique pour la restauration grossière et RL résiduel pour le raffinement précis, les auteurs montrent qu'un inverse approximatif peut devenir une compétence physiquement fondée. Pour les intégrateurs industriels, cela ouvre la voie à des systèmes capables de récupération d'erreur automatique sans reprogrammation manuelle, une lacune réelle des installations robotiques actuelles.

Ce preprint s'inscrit dans la tension croissante entre deux paradigmes : les modèles tout-neuronal de type VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur l'apprentissage de bout en bout, et les approches hybrides symbolique-neuronal. Les auteurs parient sur STRIPS, formalisé en 1971, comme couche de représentation structurée des effets d'actions. ManiSkill3 est un benchmark de simulation standardisé développé à l'Université de San Diego ; les résultats restent donc entièrement en simulation, sans transfert sim-to-real démontré ni partenaire industriel annoncé. L'extension à des tâches aux effets réellement irréversibles (assemblage, coupe, collage) constitue la prochaine étape non résolue, et conditionnera l'intérêt concret de cette approche pour le déploiement réel.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile

Une équipe de recherche du laboratoire elpis-lab a publié sur arXiv en juin 2025 (identifiant 2506.04646, désormais à sa quatrième révision) un framework baptisé ActivePusher, dédié à la manipulation non-préhensile, c'est-à-dire le déplacement d'objets par poussée ou roulement, sans saisie. L'approche combine deux blocs techniques : un modèle de dynamique par physique résiduelle, qui superpose un correctif appris par réseau de neurones à un modèle physique analytique de base, et un mécanisme d'apprentissage actif guidé par l'incertitude, qui oriente automatiquement la collecte de données vers les paramètres de compétence les moins bien couverts. Le framework s'intègre avec des planificateurs kinodynamiques à base de modèle, en pondérant l'échantillonnage de commandes selon les zones de faible incertitude du modèle appris. Les auteurs valident l'approche en simulation et sur robot réel, avec des taux de succès de planification supérieurs aux méthodes de référence, à volume de données d'entraînement égal. L'enjeu est significatif pour les intégrateurs et équipes R&D travaillant sur la manipulation en environnement non structuré. La manipulation non-préhensile reste un goulot d'étranglement dans de nombreuses lignes d'assemblage et de tri, précisément parce que les modèles analytiques (friction, contact multipoint) sont difficiles à calibrer et fragiles face aux variations de surface ou de géométrie. ActivePusher attaque ce problème sous deux angles simultanément : réduire le coût de collecte de données en évitant les interactions aléatoires peu informatives, et rendre la planification longue-portée plus fiable en évitant les régions d'incertitude élevée. C'est une réponse directe au "sim-to-real gap" structurel qui plombe les déploiements industriels de bras manipulateurs sur tâches de contact. La manipulation non-préhensile est un axe de recherche actif depuis les travaux fondateurs sur la mécanique du contact des années 1990, mais les approches purement analytiques ont montré leurs limites face à la variabilité du monde réel. Des frameworks comme MPPI (Model Predictive Path Integral) ou les planificateurs kinodynamiques basés sur des modèles appris (travaux de Karol Hausman, Pieter Abbeel) forment le paysage concurrent direct. ActivePusher se distingue par le couplage explicite entre acquisition active et planification, là où la plupart des approches traitent ces deux problèmes séparément. Le code source est disponible publiquement sur GitHub (elpis-lab/ActivePusher), ce qui devrait favoriser la reproductibilité. Aucun partenaire industriel ni timeline de transfert n'est mentionné : il s'agit d'une contribution académique, sans déploiement annoncé à ce stade.

RecherchePaper

1 source

2arXiv cs.RO

Apprentissage résiduel multi-échelle et adaptation en ligne pour manipulateurs aériens

Des chercheurs présentent, dans un preprint arXiv (2603.11638v2, juin 2026), un cadre de modélisation adaptative en temps réel pour les manipulateurs aériens autonomes (AAMs), c'est-à-dire des drones équipés de bras robotiques destinés à l'inspection, la saisie ou l'assemblage en environnements difficiles d'accès. L'architecture repose sur deux modules : le Factorized Dynamics Transformer (FDT), qui traite chaque variable physique comme un token indépendant et sépare explicitement les effets inertiels à court terme des effets aérodynamiques à long horizon, et le Latent Residual Adapter (LRA), qui adapte les résidus de dynamique en temps réel dans l'espace latent via les Moindres Carrés Récursifs (RLS). Les expériences en conditions réelles, avec des charges utiles inédites non vues à l'entraînement, montrent une meilleure fidélité de prédiction, une atténuation des perturbations plus rapide et une précision de suivi en boucle fermée supérieure aux baselines de l'état de l'art, tout en respectant la contrainte temps réel. Ce travail adresse un verrou central de la manipulation aérienne : la dynamique d'un AAM change brutalement lors de la reconfiguration du bras ou d'une variation de charge, ce que ni les modèles analytiques à paramètres fixes ni les modèles ML statiques ne gèrent correctement. En factorisant explicitement les couplages inter-variables et en adaptant les résidus sans ré-entraînement complet, le framework réduit le coût computationnel tout en préservant la représentation non-linéaire apprise hors-ligne. Pour les intégrateurs industriels, c'est un signal que le gap sim-to-real des AAMs peut être partiellement comblé par adaptation en ligne, évitant des cycles coûteux de re-collecte de données sur site. Les AAMs font l'objet de recherches actives depuis le milieu des années 2010, avec des débouchés visés dans l'inspection d'infrastructures électriques, la construction et la logistique verticale. Les approches concurrentes misent sur le MPC robuste ou les réseaux récurrents pour la compensation de dynamiques résiduelles. Ce preprint n'est pas encore évalué par les pairs, et les résultats constituent des validations en laboratoire sur charges limitées, pas un déploiement industriel. Les prochaines étapes naturelles incluent des tests sur des configurations de bras plus complexes, des amplitudes de payload plus importantes, et une validation sur sites opérationnels réels.

RecherchePaper

1 source

3arXiv cs.RO

Politique de carte d'action : apprentissage de la manipulation 3D en boucle fermée par classification de pixels

Des chercheurs viennent de publier sur arXiv (2607.10706, 14 juillet 2026) un nouveau cadre baptisé Action Map Policy (AMP), qui reformule l'apprentissage de politiques de manipulation robotique en boucle fermée comme un problème de classification dans l'espace image plutôt que comme une régression continue. L'idée centrale consiste à projeter les actions 3D du bras robotique sur le plan de la caméra et à traiter chaque pixel comme une classe discrète à prédire, ce qui limite l'explosion combinatoire du vocabulaire tout en conservant une précision de l'ordre du millimètre. Contrairement aux approches par diffusion, qui nécessitent un débruitage itératif coûteux en temps de calcul, AMP prédit l'intégralité d'un segment d'actions en une seule passe avant, ce qui accélère nettement l'inférence. Les auteurs rapportent des taux de réussite supérieurs à plusieurs méthodes de référence sur diverses tâches de manipulation, ainsi qu'un raisonnement spatial amélioré. Le choix de la représentation d'action reste l'un des obstacles majeurs des politiques robotiques modernes, notamment pour les modèles vision-langage-action (VLA) qui cherchent à généraliser au-delà des tâches d'entraînement. La classification par pixels s'inspire du succès des modèles génératifs de langage, où la prédiction du prochain token a supplanté les approches par régression directe. En robotique, cette analogie est plus délicate car l'espace d'action est continu et de haute dimension, avec des solutions optimales souvent multimodales. En résolvant le compromis entre discrétisation fine et vocabulaire gérable, AMP répond directement à une limite pratique des politiques par diffusion, jugées précises mais lentes, un frein pour les applications nécessitant un contrôle réactif en temps réel. Il s'agit pour l'instant d'un travail de recherche académique, sans lien annoncé avec un produit commercial ou un déploiement industriel. AMP s'inscrit dans une lignée d'alternatives aux politiques par diffusion (popularisées par Diffusion Policy) et aux approches autorégressives de type VLA (Pi-0, GR00T N2, OpenVLA). Les prochaines étapes attendues incluent une validation sur robots physiques au-delà des expériences en simulation ou banc de test décrites dans l'article, ainsi qu'un examen par les pairs.

RecherchePaper

1 source

4arXiv cs.RO

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper

1 source