Aller au contenu principal
UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable
RecherchearXiv cs.RO6sem

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié UniDomain, un cadre de pré-entraînement qui construit automatiquement un domaine PDDL (Planning Domain Definition Language) unifié à partir de démonstrations robotiques réelles, pour être ensuite appliqué à la planification de tâches en ligne. Le système ingère 12 393 vidéos de manipulation robotique, en extrait des domaines atomiques, et les fusionne en un domaine unifié comprenant 3 137 opérateurs, 2 875 prédicats et 16 481 arêtes causales. Face à une nouvelle classe de tâches, UniDomain récupère les atomes pertinents et les assemble dynamiquement en méta-domaines adaptés. Les expériences sur des tâches réelles inédites montrent des gains allant jusqu'à 58 % sur le taux de succès et 160 % sur l'optimalité des plans, comparé aux meilleures bases LLM seuls et LLM couplés à PDDL manuel, le tout en mode zéro-shot.

Ce résultat s'attaque à l'un des verrous centraux de la robotique manipulatrice : la capacité à raisonner sur des séquences longues d'actions avec des contraintes implicites issues du langage et de la vision. Les LLM et VLM actuels fournissent de bons priors sémantiques, mais peinent à maintenir une cohérence causale sur des horizons temporels étendus et à ancrer les symboles dans le réel. UniDomain propose une voie médiane : extraire la structure symbolique directement depuis des démonstrations, évitant ainsi la fragilité des domaines PDDL codés à la main, souvent trop étroits pour généraliser. La généralisation compositionnelle zéro-shot, validée sur des tâches jamais vues, est ici une affirmation forte, bien que la sélection des vidéos sources et des scénarios de test mériterait une vérification indépendante pour écarter un biais de distribution.

La planification symbolique robotique via PDDL est un paradigme ancien, remontant aux travaux STRIPS des années 1970, mais qui a souffert du coût élevé de l'ingénierie des domaines. Des approches récentes comme SayCan (Google), Code-as-Policies (Google Brain) ou les travaux de planification LLM de MetaAI ont tenté de contourner ce problème par la génération de code ou de plans en langage naturel, avec des résultats limités en environnements ouverts. UniDomain repositionne PDDL non plus comme une contrainte d'ingénierie mais comme un artefact appris, ce qui le rapproche conceptuellement des travaux sur l'apprentissage de modèles du monde. Les prochaines étapes naturelles incluent l'extension à la manipulation déformable, l'intégration avec des architectures VLA comme pi-0 ou GR00T N2, et une validation en environnement industriel réel, aujourd'hui absente de l'article.

À lire aussi

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations
1arXiv cs.RO 

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

Des chercheurs ont présenté SID (Sliding into Distribution), un cadre structuré pour la manipulation robotique capable de généraliser à partir de seulement deux démonstrations humaines. Évalué sur six tâches réelles variées (saisies, manipulations d'objets), SID atteint environ 90 % de taux de succès dans des configurations hors-distribution (OOD), c'est-à-dire avec des poses d'objets, des points de vue ou des conditions d'éclairage non vus lors de l'entraînement. La dégradation reste inférieure à 10 % en présence de distracteurs visuels ou de perturbations physiques externes. Le système s'appuie sur deux composants clés : un champ de mouvement centré sur l'objet, appris depuis des démonstrations "canonicalisées" (normalisées en pose), et une politique d'exécution égocentrique légère entraînée par flow matching conditionné, complétée par une augmentation de données par reprojection de nuage de points cinématiquement cohérente. L'intérêt de SID tient à sa frugalité en données : là où les politiques visuomotrices end-to-end standard (type ACT, Diffusion Policy) réclament des dizaines à centaines de démonstrations, SID opère à deux. C'est un signal fort pour les intégrateurs industriels qui peinent à collecter des données en volume sur cellule réelle. Le mécanisme de correction distributional est particulièrement notable : le champ de mouvement génère de larges corrections quand le robot s'écarte de la trajectoire démontrée, puis s'annule naturellement à l'approche de la zone fiable, avant de passer la main à la politique locale. Ce découplage explicite entre récupération hors-distribution et exécution fine constitue une alternative architecturale aux approches purement régressives. Les résultats suggèrent que le "sim-to-real gap" n'est pas le seul problème à résoudre : gérer le glissement distributional en ligne, sans recollecte de données, est un levier sous-exploité. Cette publication s'inscrit dans une vague de travaux sur la manipulation à faible donnée qui cherchent à dépasser les limites des transformeurs d'actions (ACT, π0 de Physical Intelligence, GR00T N2 de NVIDIA) en introduisant des structures géométriques explicites plutôt que de tout apprendre de bout en bout. Le flow matching, popularisé ces deux dernières années comme alternative plus stable à la diffusion pour la génération de trajectoires, est ici combiné à une représentation canonique de l'objet, une approche qui rappelle les travaux sur les réseaux de catégorie neurale (NCF) ou les politiques basées sur des keypoints. Le papier ne mentionne pas de partenaires industriels ni de timeline de déploiement, et reste pour l'instant au stade de preuve de concept académique sur banc réel. Les prochaines étapes naturelles seraient une extension à des objets déformables et une validation sur des bras commerciaux (Franka, xArm) dans des environnements moins contrôlés que le labo.

RecherchePaper
1 source
Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique
2arXiv cs.RO 

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique

Des chercheurs ont publié une approche pour apprendre des représentations structurées de tâches bimanuelles directement à partir de démonstrations humaines, sans annotation manuelle des actions. Le système, baptisé représentation sémantique-géométrique par graphe, combine un encodeur de type Message Passing Neural Network (MPNN) avec un décodeur Transformer. L'encodeur opère sur un graphe de scène temporel : il capture les identités des objets, leurs relations sémantiques mutuelles et l'historique de leurs mouvements. Le décodeur, conditionné par le contexte d'action, prédit l'action suivante, les objets impliqués et leurs trajectoires. L'ensemble a été évalué sur onze tâches bimanuelles issues de deux jeux de données distincts, et déployé avec succès sur deux tâches réelles en boucle fermée, via un planificateur couplant les prédictions à des Probabilistic Movement Primitives (ProDMP). L'apport principal réside dans le découplage entre encodeur et décodeur : l'encodeur produit des représentations dites agnostiques à la tâche, réutilisables sur différents robots via un simple fine-tuning du décodeur sur un petit dataset robot. En pratique, cela réduit significativement le coût de ré-entraînement lors d'un changement de plateforme ou d'effecteur. Les résultats montrent que le bénéfice des représentations sémantiques-géométriques sur les modèles séquentiels plus simples s'accentue avec la variabilité des tâches : plus l'ordre des actions et les objets impliqués varient d'une exécution à l'autre, plus l'avantage est marqué. Le système surpasse des baselines incluant un Transformer pur, un décodeur seul, et des modèles vision-langage fine-tunés (VLM), ce qui est notable même si les benchmarks utilisés restent internes aux auteurs et non standardisés dans la communauté. Ce travail s'inscrit dans un effort plus large visant à combler le fossé entre manipulation bimanuelle en laboratoire et déploiement industriel, là où la reproductibilité d'exécutions variables reste un verrou. Il fait écho à des approches concurrentes comme les Vision-Language-Action models (VLA) de Google DeepMind ou les travaux sur les graphes de tâches de l'ETH Zurich, mais se distingue par son orientation vers le transfert inter-robots à faible coût de données. Les auteurs n'annoncent pas de partenaire industriel ni de timeline de déploiement commercial ; il s'agit d'un résultat académique, présenté en version révisée sur arXiv (v2, janvier 2026), dont les suites probables incluent une extension à des scènes plus encombrées et à des horizons de planification plus longs.

RecherchePaper
1 source
VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable
3arXiv cs.RO 

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

Des chercheurs ont publié sur arXiv (ref. 2509.21723, quatrième révision) VLBiMan, un framework d'apprentissage pour la manipulation bimanuels robotique qui vise à réduire drastiquement le nombre de démonstrations humaines nécessaires à l'entraînement d'un robot à deux bras. Le principe central : à partir d'un seul exemple humain, le système décompose la tâche en primitives réutilisables dites "invariantes" (les composantes stables d'un geste, comme saisir un outil dans un axe donné) et en composantes "ajustables" (position exacte, orientation selon le contexte). Ces ajustements sont pilotés en temps réel par un ancrage vision-langage (VLA) qui parse sémantiquement la scène et applique des contraintes de faisabilité géométrique, sans nécessiter de réentraînement lorsque le fond change, qu'un objet est déplacé ou que du désordre visuel perturbe la scène. Le système prend également en charge un contrôle hybride des deux bras, autorisant une utilisation synchrone ou asynchrone selon la sous-tâche. L'intérêt industriel porte sur deux points. D'abord, la réduction du coût d'acquisition de données : les approches par imitation classiques exigent des dizaines à centaines de démonstrations pour couvrir les variations d'une tâche, VLBiMan en revendique une seule -- sans que le papier ne quantifie précisément ce ratio dans des conditions industrielles représentatives, ce qui mérite prudence. Ensuite, le transfert cross-embodiment : les primitives apprises à partir de démonstrations humaines se réinstancient sur différentes plateformes robotiques sans réentraînement, ce qui ouvrirait la voie à une bibliothèque de compétences portables. Les expériences couvrent des tâches d'utilisation d'outils et de manipulation multi-objets, et montrent une robustesse aux objets sémantiquement similaires mais visuellement inédits, ainsi qu'aux perturbations externes. Ce travail s'inscrit dans la vague des architectures VLA (Vision-Language-Action) qui cherchent à remplacer la collecte massive de données par une généralisation sémantique. Il se positionne face aux approches par imitation pure (comme ACT ou Diffusion Policy) qui saturent rapidement en capacité de généralisation, et aux méthodes modulaires classiques, moins flexibles dans les scènes dynamiques. Les concurrents directs incluent des frameworks comme RoboFlamingo, OpenVLA ou UniManipulate. VLBiMan reste à ce stade un travail académique sans déploiement industriel annoncé ni partenaire industriel cité, avec des validations conduites en environnement de laboratoire contrôlé.

RechercheOpinion
1 source
Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement
4arXiv cs.RO 

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper
1 source