Aller au contenu principal
RecherchearXiv cs.RO3h

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié une approche pour apprendre des représentations structurées de tâches bimanuelles directement à partir de démonstrations humaines, sans annotation manuelle des actions. Le système, baptisé représentation sémantique-géométrique par graphe, combine un encodeur de type Message Passing Neural Network (MPNN) avec un décodeur Transformer. L'encodeur opère sur un graphe de scène temporel : il capture les identités des objets, leurs relations sémantiques mutuelles et l'historique de leurs mouvements. Le décodeur, conditionné par le contexte d'action, prédit l'action suivante, les objets impliqués et leurs trajectoires. L'ensemble a été évalué sur onze tâches bimanuelles issues de deux jeux de données distincts, et déployé avec succès sur deux tâches réelles en boucle fermée, via un planificateur couplant les prédictions à des Probabilistic Movement Primitives (ProDMP).

L'apport principal réside dans le découplage entre encodeur et décodeur : l'encodeur produit des représentations dites agnostiques à la tâche, réutilisables sur différents robots via un simple fine-tuning du décodeur sur un petit dataset robot. En pratique, cela réduit significativement le coût de ré-entraînement lors d'un changement de plateforme ou d'effecteur. Les résultats montrent que le bénéfice des représentations sémantiques-géométriques sur les modèles séquentiels plus simples s'accentue avec la variabilité des tâches : plus l'ordre des actions et les objets impliqués varient d'une exécution à l'autre, plus l'avantage est marqué. Le système surpasse des baselines incluant un Transformer pur, un décodeur seul, et des modèles vision-langage fine-tunés (VLM), ce qui est notable même si les benchmarks utilisés restent internes aux auteurs et non standardisés dans la communauté.

Ce travail s'inscrit dans un effort plus large visant à combler le fossé entre manipulation bimanuelle en laboratoire et déploiement industriel, là où la reproductibilité d'exécutions variables reste un verrou. Il fait écho à des approches concurrentes comme les Vision-Language-Action models (VLA) de Google DeepMind ou les travaux sur les graphes de tâches de l'ETH Zurich, mais se distingue par son orientation vers le transfert inter-robots à faible coût de données. Les auteurs n'annoncent pas de partenaire industriel ni de timeline de déploiement commercial ; il s'agit d'un résultat académique, présenté en version révisée sur arXiv (v2, janvier 2026), dont les suites probables incluent une extension à des scènes plus encombrées et à des horizons de planification plus longs.

Dans nos dossiers

À lire aussi

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique
1arXiv cs.RO 

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

Des chercheurs de Stanford (TML, Tamara Manipulation Lab) ont publié sur arXiv (arXiv:2605.21811) un cadre mathématique baptisé SafePBDS (Safe Pullback Bundle Dynamical Systems) destiné à la manipulation dextre robotique. Le système opère sur des espaces géométriques hétérogènes simultanément : une configuration en R^7 pour le bras, des poses d'effecteur en SE(3), et des marges d'évitement d'obstacles en R. Validé sur une plateforme Franka Panda avec main Allegro à 23 degrés de liberté, SafePBDS atteint 92,5 % de succès sur 120 essais de saisie couvrant 20 objets du quotidien. Une interface d'action permet en outre d'exclure n'importe quel doigt de la préhension via une action unidimensionnelle, avec 94,4 % de succès en saisie à trois doigts sur 36 essais. Plus significatif encore : les auteurs revendiquent la première réorientation in-hand palm-down entièrement actionnée et basée sur un modèle, atteignant plus de 360° de rotation en lacet dans les deux sens, sous différents poids d'objet et mouvements de poignet. La contribution centrale de SafePBDS est double. D'abord, une construction de "pullback control barrier function" qui convertit les conditions de sécurité définies sur n'importe quelle variété tâche en contraintes linéaires sur les accélérations en espace de configuration, ce qui permet des garanties de sécurité certifiables, pas seulement empiriques. Ensuite, une interface d'action qui laisse une politique de haut niveau (un VLA, un planificateur, un opérateur humain) injecter des résidus de mouvement de faible dimension, sans jamais violer les contraintes de sécurité. Entrée nulle = comportement autonome préservé. Ce découplage entre planification stratégique et contrôle précis répond à un problème récurrent des architectures VLA : la difficulté à garantir formellement la sécurité physique lors de la phase d'exploration en monde réel. Le travail s'inscrit dans une tradition de dynamical systems pour la manipulation, prolongeant des approches comme les DS-based motion policies de l'EPFL et les travaux de Riemannian motion policies (RMP). Les concurrents directs incluent les méthodes d'apprentissage par imitation avec contraintes CBF (type Berkeley Humanoid, Physical Intelligence pi0) et les architectures modèle-libre qui sacrifient les garanties formelles à la généralisation. SafePBDS reste pour l'instant un résultat de laboratoire sur preprint non relu par les pairs, validé en simulation et sur banc de test mono-robot. Les prochaines étapes annoncées pointent vers l'intégration avec des politiques d'apprentissage de haut niveau et la généralisation à d'autres morphologies de mains.

RecherchePaper
1 source
Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique
2arXiv cs.RO 

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

Une équipe de recherche propose, dans un prépublication arXiv (identifiant 2605.21258, mai 2026), un nouveau cadre de pré-entraînement pour la perception 3D appliquée à la manipulation robotique. L'idée centrale est une représentation hybride baptisée "structural latent points" : les auteurs insèrent un variational autoencoder (VAE) point-à-point dans l'espace latent d'un autoencoder de nuages de points (point cloud), en régularisant simultanément les coordonnées et les features vers une distribution gaussienne. Le résultat est une représentation compacte qui capture des tendances structurelles globales, une forme approximative et une information sémantique, sans encoder une géométrie précise. Le pipeline de rendu repose sur la 3D Gaussian Splatting (3DGS), délibérément allégée pour laisser la capacité représentationnelle au module latent frontal. Les évaluations sont menées sur RLBench, ManiSkill2, et une plateforme robot réelle, avec des ablations confirmant la contribution de chaque composant. L'intérêt de cette approche tient à un problème connu des intégrateurs et des équipes de recherche en manipulation : les représentations implicites (champs neuronaux, NeRF) sont expressives mais manquent de repères structurels exploitables, tandis que les représentations explicites (primitives géométriques, meshes) préservent la géométrie au prix d'une résolution limitée et d'une faible généralisation hors distribution. L'architecture proposée tente de cumuler les avantages des deux familles. Les auteurs revendiquent des gains en taux de succès de tâche, en efficacité d'échantillonnage et en robustesse aux variations de point de vue, trois métriques directement pertinentes pour le déploiement industriel. Nuance à noter : l'abstract ne fournit aucun chiffre absolu, ce qui rend la comparaison indépendante impossible sans lire les tableaux complets du papier. Cette publication s'inscrit dans une vague dense de travaux sur le pré-entraînement 3D pour la manipulation incarnée, domaine en ébullition depuis l'émergence des VLA (Vision-Language-Action models) et des politiques diffusion comme pi0 ou ACT. Les benchmarks choisis, RLBench (simulation tabletop, DeepMind) et ManiSkill2 (simulation GPU-parallèle, UCSD), sont des standards de facto du domaine. L'absence de mention d'affiliation institutionnelle ou industrielle dans l'abstract empêche tout positionnement concurrentiel précis, mais la direction prise converge avec les efforts de groupes comme Physical Intelligence, Google DeepMind ou CMU sur la représentation perceptuelle robuste comme socle pour la généralisation des politiques de manipulation.

RecherchePaper
1 source
UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable
3arXiv cs.RO 

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

Une équipe de chercheurs a publié UniDomain, un cadre de pré-entraînement qui construit automatiquement un domaine PDDL (Planning Domain Definition Language) unifié à partir de démonstrations robotiques réelles, pour être ensuite appliqué à la planification de tâches en ligne. Le système ingère 12 393 vidéos de manipulation robotique, en extrait des domaines atomiques, et les fusionne en un domaine unifié comprenant 3 137 opérateurs, 2 875 prédicats et 16 481 arêtes causales. Face à une nouvelle classe de tâches, UniDomain récupère les atomes pertinents et les assemble dynamiquement en méta-domaines adaptés. Les expériences sur des tâches réelles inédites montrent des gains allant jusqu'à 58 % sur le taux de succès et 160 % sur l'optimalité des plans, comparé aux meilleures bases LLM seuls et LLM couplés à PDDL manuel, le tout en mode zéro-shot. Ce résultat s'attaque à l'un des verrous centraux de la robotique manipulatrice : la capacité à raisonner sur des séquences longues d'actions avec des contraintes implicites issues du langage et de la vision. Les LLM et VLM actuels fournissent de bons priors sémantiques, mais peinent à maintenir une cohérence causale sur des horizons temporels étendus et à ancrer les symboles dans le réel. UniDomain propose une voie médiane : extraire la structure symbolique directement depuis des démonstrations, évitant ainsi la fragilité des domaines PDDL codés à la main, souvent trop étroits pour généraliser. La généralisation compositionnelle zéro-shot, validée sur des tâches jamais vues, est ici une affirmation forte, bien que la sélection des vidéos sources et des scénarios de test mériterait une vérification indépendante pour écarter un biais de distribution. La planification symbolique robotique via PDDL est un paradigme ancien, remontant aux travaux STRIPS des années 1970, mais qui a souffert du coût élevé de l'ingénierie des domaines. Des approches récentes comme SayCan (Google), Code-as-Policies (Google Brain) ou les travaux de planification LLM de MetaAI ont tenté de contourner ce problème par la génération de code ou de plans en langage naturel, avec des résultats limités en environnements ouverts. UniDomain repositionne PDDL non plus comme une contrainte d'ingénierie mais comme un artefact appris, ce qui le rapproche conceptuellement des travaux sur l'apprentissage de modèles du monde. Les prochaines étapes naturelles incluent l'extension à la manipulation déformable, l'intégration avec des architectures VLA comme pi-0 ou GR00T N2, et une validation en environnement industriel réel, aujourd'hui absente de l'article.

RecherchePaper
1 source
VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable
4arXiv cs.RO 

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

Des chercheurs ont publié sur arXiv (ref. 2509.21723, quatrième révision) VLBiMan, un framework d'apprentissage pour la manipulation bimanuels robotique qui vise à réduire drastiquement le nombre de démonstrations humaines nécessaires à l'entraînement d'un robot à deux bras. Le principe central : à partir d'un seul exemple humain, le système décompose la tâche en primitives réutilisables dites "invariantes" (les composantes stables d'un geste, comme saisir un outil dans un axe donné) et en composantes "ajustables" (position exacte, orientation selon le contexte). Ces ajustements sont pilotés en temps réel par un ancrage vision-langage (VLA) qui parse sémantiquement la scène et applique des contraintes de faisabilité géométrique, sans nécessiter de réentraînement lorsque le fond change, qu'un objet est déplacé ou que du désordre visuel perturbe la scène. Le système prend également en charge un contrôle hybride des deux bras, autorisant une utilisation synchrone ou asynchrone selon la sous-tâche. L'intérêt industriel porte sur deux points. D'abord, la réduction du coût d'acquisition de données : les approches par imitation classiques exigent des dizaines à centaines de démonstrations pour couvrir les variations d'une tâche, VLBiMan en revendique une seule -- sans que le papier ne quantifie précisément ce ratio dans des conditions industrielles représentatives, ce qui mérite prudence. Ensuite, le transfert cross-embodiment : les primitives apprises à partir de démonstrations humaines se réinstancient sur différentes plateformes robotiques sans réentraînement, ce qui ouvrirait la voie à une bibliothèque de compétences portables. Les expériences couvrent des tâches d'utilisation d'outils et de manipulation multi-objets, et montrent une robustesse aux objets sémantiquement similaires mais visuellement inédits, ainsi qu'aux perturbations externes. Ce travail s'inscrit dans la vague des architectures VLA (Vision-Language-Action) qui cherchent à remplacer la collecte massive de données par une généralisation sémantique. Il se positionne face aux approches par imitation pure (comme ACT ou Diffusion Policy) qui saturent rapidement en capacité de généralisation, et aux méthodes modulaires classiques, moins flexibles dans les scènes dynamiques. Les concurrents directs incluent des frameworks comme RoboFlamingo, OpenVLA ou UniManipulate. VLBiMan reste à ce stade un travail académique sans déploiement industriel annoncé ni partenaire industriel cité, avec des validations conduites en environnement de laboratoire contrôlé.

RechercheOpinion
1 source