RecherchearXiv cs.RO 2 juin 2026

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié une approche pour apprendre des représentations structurées de tâches bimanuelles directement à partir de démonstrations humaines, sans annotation manuelle des actions. Le système, baptisé représentation sémantique-géométrique par graphe, combine un encodeur de type Message Passing Neural Network (MPNN) avec un décodeur Transformer. L'encodeur opère sur un graphe de scène temporel : il capture les identités des objets, leurs relations sémantiques mutuelles et l'historique de leurs mouvements. Le décodeur, conditionné par le contexte d'action, prédit l'action suivante, les objets impliqués et leurs trajectoires. L'ensemble a été évalué sur onze tâches bimanuelles issues de deux jeux de données distincts, et déployé avec succès sur deux tâches réelles en boucle fermée, via un planificateur couplant les prédictions à des Probabilistic Movement Primitives (ProDMP).

L'apport principal réside dans le découplage entre encodeur et décodeur : l'encodeur produit des représentations dites agnostiques à la tâche, réutilisables sur différents robots via un simple fine-tuning du décodeur sur un petit dataset robot. En pratique, cela réduit significativement le coût de ré-entraînement lors d'un changement de plateforme ou d'effecteur. Les résultats montrent que le bénéfice des représentations sémantiques-géométriques sur les modèles séquentiels plus simples s'accentue avec la variabilité des tâches : plus l'ordre des actions et les objets impliqués varient d'une exécution à l'autre, plus l'avantage est marqué. Le système surpasse des baselines incluant un Transformer pur, un décodeur seul, et des modèles vision-langage fine-tunés (VLM), ce qui est notable même si les benchmarks utilisés restent internes aux auteurs et non standardisés dans la communauté.

Ce travail s'inscrit dans un effort plus large visant à combler le fossé entre manipulation bimanuelle en laboratoire et déploiement industriel, là où la reproductibilité d'exécutions variables reste un verrou. Il fait écho à des approches concurrentes comme les Vision-Language-Action models (VLA) de Google DeepMind ou les travaux sur les graphes de tâches de l'ETH Zurich, mais se distingue par son orientation vers le transfert inter-robots à faible coût de données. Les auteurs n'annoncent pas de partenaire industriel ni de timeline de déploiement commercial ; il s'agit d'un résultat académique, présenté en version révisée sur arXiv (v2, janvier 2026), dont les suites probables incluent une extension à des scènes plus encombrées et à des horizons de planification plus longs.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 CORE (Common Outcome Regularities from Action-Free Visual Demonstrations), un cadre d'apprentissage de politique robotique conçu pour exploiter des vidéos humaines sans annotations de mouvements, afin d'entraîner des robots manipulateurs. La méthode s'appuie sur une observation clé : bien que les trajectoires menant à une même tâche varient, leurs états terminaux partagent des configurations d'objets stables, des relations spatiales et des contraintes de contact reproductibles. CORE entraîne d'abord un encodeur d'état terminal par apprentissage contrastif et objectifs temporels auxiliaires, agrège ensuite les embeddings terminaux réussis en prototypes visuels de but (visual goal prototypes), puis injecte ces prototypes comme conditions globales dans la politique de contrôle du robot. Les gains de taux de succès mesurés sur les benchmarks de référence sont de +3,9 points de pourcentage sur Meta-World, +11,1 pp sur RoboTwin 2.0, et jusqu'à +17,0 pp en manipulation réelle. L'enjeu est direct pour les intégrateurs : collecter des démonstrations robotiques est coûteux en équipement, en opérateurs et en temps de setup, tandis que des millions d'heures de vidéos humaines d'assemblage, de logistique ou de cuisine existent déjà. L'écart morphologique entre la main humaine et un préhenseur robotique a jusqu'ici rendu ces vidéos inutilisables pour l'apprentissage par imitation direct. CORE contourne le problème en ne cherchant pas à transférer les actions elles-mêmes, mais uniquement les régularités des états finaux. Le gain de +17 pp en conditions réelles est particulièrement notable car il indique une réduction du fossé sim-to-real sans contrainte sur la morphologie du robot. En surpassant les variantes conditionnées par texte (architecture VLA classique), CORE suggère que les prototypes visuels de but apportent des contraintes géométriques et physiques plus exploitables que les instructions en langage naturel, une nuance importante pour la calibration de politiques multi-tâches. L'apprentissage par imitation depuis des vidéos humaines est un axe de recherche actif, porté notamment par Google DeepMind avec RT-2, Physical Intelligence avec pi-0, et Meta FAIR. Des méthodes comme R3M ou VIP apprennent des représentations visuelles transférables depuis des vidéos humaines, mais CORE cible spécifiquement les états terminaux plutôt que les représentations d'observation générales, ce qui constitue sa distinction architecturale principale. Les benchmarks retenus, Meta-World et RoboTwin 2.0, sont reconnus sans être universellement adoptés, ce qui limite les comparaisons directes avec les résultats concurrents. Aucun partenariat industriel ni déploiement commercial n'est mentionné : il s'agit d'un preprint arXiv, dont les suites dépendront de réplications indépendantes et d'extensions vers des tâches plus complexes, notamment la manipulation en chaîne longue ou en environnements non structurés.

RechercheOpinion

1 source

2arXiv cs.RO

STORM : représentation par slots centrée objet et sensible à la tâche pour la manipulation robotique

Des chercheurs ont publié STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), un module d'adaptation léger conçu pour augmenter les modèles visuels de fondation figés avec des représentations centrées sur les objets. Plutôt que de réentraîner de grands backbones visuels, coûteux en calcul et en données étiquetées, STORM insère un ensemble restreint de "slots", des vecteurs appris qui capturent chaque objet de la scène de manière distincte. L'entraînement se déroule en deux phases : un préentraînement visuo-sémantique qui stabilise les slots via des embeddings de langage, puis une adaptation conjointe avec la politique de manipulation. Les expériences, menées sur des benchmarks de découverte d'objets et des tâches de manipulation simulée, montrent des gains de robustesse face aux distracteurs visuels et une meilleure performance de contrôle par rapport à l'utilisation directe des features figées ou à l'entraînement end-to-end de représentations object-centriques. L'enjeu est structurel pour la robotique de manipulation. Les modèles visuels de fondation comme DINOv2 ou SigLIP fournissent des features perceptuelles puissantes, mais leurs représentations denses traitent la scène comme une grille de pixels sans distinguer explicitement les objets. Pour une tâche du type "saisir la boîte rouge parmi plusieurs objets", cette absence de structure oblige le réseau de politique à apprendre lui-même la décomposition de la scène, ce qui nuit à la généralisation hors distribution. STORM contourne ce problème sans toucher au backbone. Le résultat valide l'hypothèse que l'adaptation multi-phase (stabilisation sémantique d'abord, alignement tâche ensuite) évite la dégénérescence des slots, phénomène où plusieurs slots capturent le même objet ou des régions non pertinentes pour la tâche. La ligne de recherche sur les représentations object-centriques remonte à Slot Attention (Locatello et al., 2020, DeepMind) et à MONet. L'originalité de STORM est d'ancrer ces slots dans la sémantique linguistique et de les greffer sur des fondations pré-entraînées plutôt que de repartir de zéro. Dans un écosystème où les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence ou OpenVLA cherchent à intégrer langage et action de bout en bout, STORM propose une alternative modulaire et économe. Les résultats restent limités à la simulation, ce qui laisse entière la question du sim-to-real gap. Les prochaines étapes logiques incluent la validation sur robots physiques et le test face à des perturbations visuelles plus agressives que les benchmarks actuels.

RecherchePaper

1 source

3arXiv cs.RO

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

Des chercheurs de Stanford (TML, Tamara Manipulation Lab) ont publié sur arXiv (arXiv:2605.21811) un cadre mathématique baptisé SafePBDS (Safe Pullback Bundle Dynamical Systems) destiné à la manipulation dextre robotique. Le système opère sur des espaces géométriques hétérogènes simultanément : une configuration en R^7 pour le bras, des poses d'effecteur en SE(3), et des marges d'évitement d'obstacles en R. Validé sur une plateforme Franka Panda avec main Allegro à 23 degrés de liberté, SafePBDS atteint 92,5 % de succès sur 120 essais de saisie couvrant 20 objets du quotidien. Une interface d'action permet en outre d'exclure n'importe quel doigt de la préhension via une action unidimensionnelle, avec 94,4 % de succès en saisie à trois doigts sur 36 essais. Plus significatif encore : les auteurs revendiquent la première réorientation in-hand palm-down entièrement actionnée et basée sur un modèle, atteignant plus de 360° de rotation en lacet dans les deux sens, sous différents poids d'objet et mouvements de poignet. La contribution centrale de SafePBDS est double. D'abord, une construction de "pullback control barrier function" qui convertit les conditions de sécurité définies sur n'importe quelle variété tâche en contraintes linéaires sur les accélérations en espace de configuration, ce qui permet des garanties de sécurité certifiables, pas seulement empiriques. Ensuite, une interface d'action qui laisse une politique de haut niveau (un VLA, un planificateur, un opérateur humain) injecter des résidus de mouvement de faible dimension, sans jamais violer les contraintes de sécurité. Entrée nulle = comportement autonome préservé. Ce découplage entre planification stratégique et contrôle précis répond à un problème récurrent des architectures VLA : la difficulté à garantir formellement la sécurité physique lors de la phase d'exploration en monde réel. Le travail s'inscrit dans une tradition de dynamical systems pour la manipulation, prolongeant des approches comme les DS-based motion policies de l'EPFL et les travaux de Riemannian motion policies (RMP). Les concurrents directs incluent les méthodes d'apprentissage par imitation avec contraintes CBF (type Berkeley Humanoid, Physical Intelligence pi0) et les architectures modèle-libre qui sacrifient les garanties formelles à la généralisation. SafePBDS reste pour l'instant un résultat de laboratoire sur preprint non relu par les pairs, validé en simulation et sur banc de test mono-robot. Les prochaines étapes annoncées pointent vers l'intégration avec des politiques d'apprentissage de haut niveau et la généralisation à d'autres morphologies de mains.

RecherchePaper

1 source

4arXiv cs.RO

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

Une équipe de recherche propose, dans un prépublication arXiv (identifiant 2605.21258, mai 2026), un nouveau cadre de pré-entraînement pour la perception 3D appliquée à la manipulation robotique. L'idée centrale est une représentation hybride baptisée "structural latent points" : les auteurs insèrent un variational autoencoder (VAE) point-à-point dans l'espace latent d'un autoencoder de nuages de points (point cloud), en régularisant simultanément les coordonnées et les features vers une distribution gaussienne. Le résultat est une représentation compacte qui capture des tendances structurelles globales, une forme approximative et une information sémantique, sans encoder une géométrie précise. Le pipeline de rendu repose sur la 3D Gaussian Splatting (3DGS), délibérément allégée pour laisser la capacité représentationnelle au module latent frontal. Les évaluations sont menées sur RLBench, ManiSkill2, et une plateforme robot réelle, avec des ablations confirmant la contribution de chaque composant. L'intérêt de cette approche tient à un problème connu des intégrateurs et des équipes de recherche en manipulation : les représentations implicites (champs neuronaux, NeRF) sont expressives mais manquent de repères structurels exploitables, tandis que les représentations explicites (primitives géométriques, meshes) préservent la géométrie au prix d'une résolution limitée et d'une faible généralisation hors distribution. L'architecture proposée tente de cumuler les avantages des deux familles. Les auteurs revendiquent des gains en taux de succès de tâche, en efficacité d'échantillonnage et en robustesse aux variations de point de vue, trois métriques directement pertinentes pour le déploiement industriel. Nuance à noter : l'abstract ne fournit aucun chiffre absolu, ce qui rend la comparaison indépendante impossible sans lire les tableaux complets du papier. Cette publication s'inscrit dans une vague dense de travaux sur le pré-entraînement 3D pour la manipulation incarnée, domaine en ébullition depuis l'émergence des VLA (Vision-Language-Action models) et des politiques diffusion comme pi0 ou ACT. Les benchmarks choisis, RLBench (simulation tabletop, DeepMind) et ManiSkill2 (simulation GPU-parallèle, UCSD), sont des standards de facto du domaine. L'absence de mention d'affiliation institutionnelle ou industrielle dans l'abstract empêche tout positionnement concurrentiel précis, mais la direction prise converge avec les efforts de groupes comme Physical Intelligence, Google DeepMind ou CMU sur la représentation perceptuelle robuste comme socle pour la généralisation des politiques de manipulation.

RecherchePaper

1 source