Aller au contenu principal
RecherchearXiv cs.RO1h

Compositional : apprentissage de la manipulation fonctionnelle dextérique sans démonstrations

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

CoDex est un nouveau framework de manipulation dextre presente par un article arXiv (2606.31909v1) issu du Robin Lab de l'universite du Texas a Austin. Il s'attaque a la manipulation fonctionnelle compositionnelle d'objets, c'est a dire des taches ou il faut a la fois orienter un objet vers une cible et actionner son mecanisme interne, comme viser une plante avec un pulverisateur ou appliquer de la colle chaude sur du bois. Le systeme a ete teste sur un bras robotique a 7 degres de liberte equipe d'une main multi-doigts a 16 degres de liberte, sur six taches impliquant des objets jamais vus a l'entrainement: pulverisateurs, pistolets a colle, soufflettes a air, lampes de poche et moulins a poivre. Sans aucune demonstration humaine, CoDex utilise des modeles vision-langage pour deduire les contraintes semantiques de la tache et de la scene, genere ensuite une courte liste de prises fonctionnelles candidates par optimisation analytique sous contrainte, puis affine ces prises via apprentissage par renforcement pour produire des politiques completes de saisie, deplacement et actionnement, transferables de la simulation au monde reel.

L'interet principal tient a l'approche zero-demonstration. La plupart des systemes de manipulation dextre recents, des modeles VLA comme Pi-0, GR00T N2 ou Helix, dependent d'immenses jeux de demonstrations teleoperees, un goulot d'etranglement couteux quand il faut couvrir la longue traine d'outils du quotidien. En montrant qu'un pipeline combinant VLM et RL peut generaliser a des objets et mecanismes inedits sans collecte de donnees humaines, CoDex propose une alternative credible pour les integrateurs confrontes a des catalogues d'objets trop vastes pour etre demontres un par un.

Le travail s'inscrit dans la lignee des recherches sur le grasping fonctionnel et la manipulation dextre, en rupture avec le paradigme dominant de l'imitation learning massive. Il reste a ce stade une demonstration academique limitee a six taches et un seul bras robotique, sans annonce de deploiement industriel; les prochaines etapes attendues concernent l'extension a un plus grand nombre de categories d'objets et de mecanismes d'actionnement plus complexes.

Dans nos dossiers

À lire aussi

Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive
1arXiv cs.RO 

Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive

Des chercheurs ont déposé sur arXiv (réf. 2605.26828) une méthode combinant apprentissage par démonstration (LfD) et programmation logique inductive (ILP) pour extraire des règles symboliques à partir d'exemples fournis par un opérateur humain. Plutôt que de reproduire les gestes observés, le système décompose une tâche complexe en une hiérarchie d'objectifs d'apprentissage à plusieurs niveaux d'abstraction ontologique : les règles inférées au bas de la hiérarchie sont réutilisées comme briques pour construire des structures de tâches plus élaborées, selon un principe de raisonnement compositionnel. Les expériences ont été conduites dans un scénario synthétique d'assemblage de blocs, et montrent une généralisation aux configurations inédites, y compris avec des objets absents de la phase d'entraînement. À mesure que les robots industriels gagnent en autonomie, la lisibilité et la réutilisabilité de leurs représentations internes de tâches deviennent des enjeux critiques pour les intégrateurs et les équipes de validation. L'ILP produit des règles symboliques explicites et modifiables par un ingénieur, à l'opposé des approches neuronales d'imitation telles que le behavior cloning ou les VLA (vision-language-action models), dont les décisions restent opaques et difficiles à auditer. La capacité du système à généraliser à des tâches plus difficiles avec des objets jamais vus est un résultat encourageant, que les auteurs qualifient eux-mêmes de "preuve préliminaire" : l'évaluation se limite à un environnement entièrement simulé, sans validation sur robot physique ni mesure du sim-to-real gap. L'apprentissage par démonstration est un paradigme fondateur de la robotique programmable, mais les méthodes récentes basées sur le deep learning sacrifient souvent l'interprétabilité à la performance brute. L'ILP, issu de l'IA symbolique des années 1990, connaît un regain d'intérêt dans le mouvement plus large du raisonnement neurosymbolique, qui cherche à allier la flexibilité du machine learning et la rigueur du raisonnement logique. Ce travail s'inscrit dans ce courant sans prétendre à un déploiement industriel immédiat : les étapes suivantes attendues sont la validation sur hardware réel et des scénarios de manipulation plus diversifiés, seuls capables de mesurer la robustesse effective de l'approche hors simulation.

RecherchePaper
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
2arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
ForceBand : apprentissage de la manipulation de force par sEMG
3arXiv cs.RO 

ForceBand : apprentissage de la manipulation de force par sEMG

Une équipe de chercheurs a présenté ForceBand, un bracelet sEMG (électromyographie de surface) porté au poignet et conçu pour enrichir les démonstrations humaines destinées à l'apprentissage de politiques de manipulation robotique. Le système capture l'activité musculaire du poignet via des électrodes de surface et, combiné à une IMU, alimente un modèle pré-entraîné baptisé EMG2Force qui prédit les forces exercées par chaque doigt. Pour entraîner ce modèle, les chercheurs ont constitué un jeu de données multimodal de 10 heures combinant vidéo égocentrique, signaux sEMG, données inertielles et mesures de forces au bout des doigts, couvrant des actions et objets variés. Après une courte calibration propre à l'utilisateur, celui-ci peut collecter de nouvelles démonstrations avec seulement le bracelet et une caméra : EMG2Force étiquette automatiquement ces séquences avec les traces de force par doigt. Les expériences rapportent une réduction d'erreur de prédiction de force supérieure à 50 % par rapport aux baselines fondées uniquement sur la vision, et un taux de succès de 87 % sur des tâches de saisie, compression et dépose impliquant des objets de formes, tailles et poids variés. L'apport clé de ForceBand réside dans la résolution d'un angle mort structurel des pipelines d'imitation learning : les sources courantes de démonstrations humaines, capture de mouvement ou vidéos internet, fournissent trajectoire et apparence mais ignorent les forces de contact, pourtant déterminantes pour toute manipulation sensible au toucher. Serrer un emballage souple sans l'écraser, insérer un connecteur, manipuler des objets fragiles ou déformables sont des tâches où le contrôle en effort prime sur le contrôle en position. En rendant ces forces observables à faible coût matériel, le système ouvre la voie à des politiques VLA (vision-language-action) capables de généraliser sur des propriétés mécaniques d'objets non vus, sans capteurs de force onéreux montés sur le robot. Ce travail s'inscrit dans une dynamique active autour de l'augmentation des données de démonstration : plusieurs laboratoires explorent des gants haptiques, des capteurs tactiles intégrés aux mains robotiques ou des méthodes de reconstruction de force par vision stéréo. ForceBand se positionne comme une alternative légère et bon marché, accessible sans infrastructure de motion capture. L'article est pour l'instant un preprint arXiv (2606.26093), non encore soumis à une conférence majeure, et les résultats reposent sur un protocole contrôlé en laboratoire. La robustesse au bruit musculaire inter-sujets, à la fatigue et aux variations de placement du bracelet en conditions industrielles reste à démontrer. Les prochaines étapes naturelles impliqueront des tests sur des robots à mains dextrères (dexterous hands) et une validation sur des tâches d'assemblage réelles, là où la complémentarité avec des plateformes comme les mains Allegro ou Shadow est la plus directe.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
4arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source