Aller au contenu principal
GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle
RecherchearXiv cs.RO6sem

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont soumis sur arXiv (arXiv:2604.19522) un framework baptisé GenerativeMPC, destiné aux robots manipulateurs mobiles bimanaux. Le système articule un modèle de vision-langage couplé à une génération augmentée par récupération (VLM-RAG) avec un contrôleur prédictif sur le corps entier (Whole-Body MPC). Concrètement, le module VLM-RAG analyse la scène en temps réel, visuellement et en langage naturel, puis génère des contraintes de contrôle numériques directement exploitables: limites de vitesse dynamiques et marges de sécurité injectées dans le MPC. Parallèlement, il module les gains de raideur et d'amortissement virtuels d'un contrôleur impédance-admittance unifié pour adapter la compliance du robot au contexte. Les expériences menées dans les simulateurs MuJoCo et IsaacSim, puis sur une plateforme physique bimanuale, font état d'une réduction de vitesse de 60% à proximité des humains. Le système s'appuie sur une base de données vectorielle alimentée par l'expérience passée, ce qui permet d'ancrer les paramètres de contrôle sans ré-entraînement du modèle.

L'enjeu architectural est significatif pour les intégrateurs et les décideurs industriels. Les approches end-to-end de type VLA, comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), délèguent entièrement la traduction sémantique-physique au réseau neuronal, rendant les garanties de sécurité difficiles à certifier formellement. GenerativeMPC propose une architecture hybride explicite: le grand modèle raisonne sur le contexte (présence humaine, nature de la tâche) et produit des paramètres numériques interprétables qui alimentent un MPC classique au comportement auditable et déterministe. Pour les secteurs à forte contrainte réglementaire, c'est un argument de poids. La réduction de 60% reste cependant une métrique à contextualiser: le papier ne précise pas la vitesse de référence initiale ni les conditions exactes des essais physiques, un bémol courant dans les publications de ce type.

La manipulation mobile bimanuale est l'un des problèmes ouverts les plus exigeants de la robotique collaborative, coincé entre contrôleurs classiques contextuellement aveugles et modèles end-to-end difficilement certifiables. L'utilisation du RAG pour paramétrer des contrôleurs physiques est une direction de recherche émergente, distincte de l'apprentissage par renforcement. Dans l'écosystème concurrent, Figure AI (Figure 03), Boston Dynamics (Atlas) et 1X Technologies explorent des architectures hybrides pour des tâches bimanales. En Europe, Enchanted Tools (France) et des laboratoires comme le LAAS-CNRS avancent sur des architectures de contrôle sûres pour la collaboration humain-robot. GenerativeMPC reste pour l'instant un résultat de recherche académique sans déploiement industriel annoncé, mais son approche explicitement certifiable ouvre des perspectives concrètes pour la logistique collaborative et la robotique médicale.

Impact France/UE

Le LAAS-CNRS et Enchanted Tools (France) travaillent sur des architectures de contrôle sûres similaires ; l'approche hybride certifiable de GenerativeMPC pourrait renforcer le positionnement européen dans les débats réglementaires sur la certification des robots collaboratifs au titre de l'AI Act.

À lire aussi

SM2ITH : manipulation mobile sécurisée avec prédiction interactive des humains via contrôle prédictif hiérarchique par niveaux
1arXiv cs.RO 

SM2ITH : manipulation mobile sécurisée avec prédiction interactive des humains via contrôle prédictif hiérarchique par niveaux

Des chercheurs ont publié sur arXiv (référence 2511.17798, deuxième version) un framework baptisé SM²ITH, pour Safe Mobile Manipulation with Interactive Human Prediction via Task-Hierarchical Bilevel Model Predictive Control. L'objectif : permettre à des robots mobiles manipulateurs d'évoluer en sécurité dans des espaces partagés avec des humains, sans que ces derniers se comportent de façon prévisible ou coopérative. Le système a été validé expérimentalement sur deux plateformes distinctes, le Stretch 3 de Hello Robot et le Ridgeback-UR10 (Clearpath + bras Universal Robots), dans trois configurations : tâches de livraison avec priorités navigation/manipulation variables, séquences pick-and-place en présence de piétons, et scénarios dits "adversariaux" où l'humain adopte délibérément un comportement perturbateur vis-à-vis du robot. La contribution technique centrale est l'intégration d'un modèle de prédiction interactive du mouvement humain dans un contrôleur MPC hiérarchique via une optimisation bilinéaire. Contrairement aux approches classiques qui modélisent les humains comme des obstacles passifs (modèle en boucle ouverte) ou qui fondent les objectifs en une somme pondérée, SM²ITH anticipe la façon dont le robot influence lui-même la trajectoire de l'humain, et résout conjointement les dynamiques des deux agents. Les résultats montrent une coordination plus sûre et plus efficace que les baselines testées. Pour les intégrateurs industriels ou les équipes déployant des robots de service en milieu hospitalier ou logistique, cela signifie qu'un robot peut maintenir des priorités de tâches strictes (hiérarchie de type HTMPC) tout en s'adaptant en temps réel à un comportement humain non scriptié, y compris hostile. SM²ITH s'inscrit dans une lignée de travaux sur le Hierarchical Task MPC, une famille de méthodes d'optimisation qui gèrent simultanément des tâches de navigation et de manipulation avec des niveaux de priorité explicites, mais jusqu'ici réservées à des environnements structurés ou statiques. L'extension aux dynamiques humaines interactives est le verrou que ce papier prétend lever, au stade de la validation expérimentale en laboratoire. Sur le plan de la compétition académique, les approches concurrentes s'appuient soit sur des politiques apprises (RL, diffusion), soit sur des MPC sans modèle réactif de l'humain. Aucun acteur européen n'est directement impliqué dans cette publication. Les prochaines étapes naturelles seraient une validation hors laboratoire, sur des robots à plus haute charge utile, et une comparaison avec des méthodes de prédiction basées sur des VLA ou des modèles de fondation pour l'humain.

RecherchePaper
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
2arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable
3arXiv cs.RO 

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

Des chercheurs ont publié sur arXiv (ref. 2509.21723, quatrième révision) VLBiMan, un framework d'apprentissage pour la manipulation bimanuels robotique qui vise à réduire drastiquement le nombre de démonstrations humaines nécessaires à l'entraînement d'un robot à deux bras. Le principe central : à partir d'un seul exemple humain, le système décompose la tâche en primitives réutilisables dites "invariantes" (les composantes stables d'un geste, comme saisir un outil dans un axe donné) et en composantes "ajustables" (position exacte, orientation selon le contexte). Ces ajustements sont pilotés en temps réel par un ancrage vision-langage (VLA) qui parse sémantiquement la scène et applique des contraintes de faisabilité géométrique, sans nécessiter de réentraînement lorsque le fond change, qu'un objet est déplacé ou que du désordre visuel perturbe la scène. Le système prend également en charge un contrôle hybride des deux bras, autorisant une utilisation synchrone ou asynchrone selon la sous-tâche. L'intérêt industriel porte sur deux points. D'abord, la réduction du coût d'acquisition de données : les approches par imitation classiques exigent des dizaines à centaines de démonstrations pour couvrir les variations d'une tâche, VLBiMan en revendique une seule -- sans que le papier ne quantifie précisément ce ratio dans des conditions industrielles représentatives, ce qui mérite prudence. Ensuite, le transfert cross-embodiment : les primitives apprises à partir de démonstrations humaines se réinstancient sur différentes plateformes robotiques sans réentraînement, ce qui ouvrirait la voie à une bibliothèque de compétences portables. Les expériences couvrent des tâches d'utilisation d'outils et de manipulation multi-objets, et montrent une robustesse aux objets sémantiquement similaires mais visuellement inédits, ainsi qu'aux perturbations externes. Ce travail s'inscrit dans la vague des architectures VLA (Vision-Language-Action) qui cherchent à remplacer la collecte massive de données par une généralisation sémantique. Il se positionne face aux approches par imitation pure (comme ACT ou Diffusion Policy) qui saturent rapidement en capacité de généralisation, et aux méthodes modulaires classiques, moins flexibles dans les scènes dynamiques. Les concurrents directs incluent des frameworks comme RoboFlamingo, OpenVLA ou UniManipulate. VLBiMan reste à ce stade un travail académique sans déploiement industriel annoncé ni partenaire industriel cité, avec des validations conduites en environnement de laboratoire contrôlé.

RechercheOpinion
1 source
Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles
4arXiv cs.RO 

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

Des chercheurs ont publié en mai 2026 (arXiv:2605.12228) une méthode d'apprentissage par imitation qui exploite la symétrie bilatérale des robots bimanuels mobiles pour améliorer leur efficacité d'entraînement et leur généralisation. L'approche, baptisée C₂-equivariant flow matching, formalise la symétrie réflective inhérente aux robots bimanuels autour de leur plan sagittal (le plan vertical séparant le côté gauche du côté droit) et l'intègre directement dans l'architecture de la politique de contrôle. Deux mécanismes d'application sont proposés : une perte d'entraînement régularisée ou un réseau de vitesse intrinsèquement équivariant. La méthode est évaluée sur des tâches de manipulation planaires et en 6 degrés de liberté (6-DoF), puis validée en conditions réelles sur un robot TIAGo++ de PAL Robotics (Barcelone, Espagne). L'intérêt de cette contribution tient à une observation structurelle peu exploitée : savoir accomplir une tâche dans une configuration donnée détermine mécaniquement la solution pour sa configuration en miroir. Pourtant, la quasi-totalité des méthodes d'imitation learning actuelles (ACT, Diffusion Policy, et leurs dérivés) ignorent cette contrainte. En l'intégrant comme biais inductif, les auteurs montrent que les politiques résultantes sont ambidextres et généralisent à zéro-shot vers des configurations en miroir absentes des données d'entraînement. Concrètement, cela réduit le volume de démonstrations nécessaires et supprime le besoin de collecter symétriquement les trajectoires des deux côtés. Pour un intégrateur ou un opérateur industriel déployant un système bimanuel, c'est un levier direct sur le coût de téléopération et de labellisation des données, deux postes majeurs dans le déploiement de la robotique généraliste. Le flow matching est une alternative aux modèles de diffusion : il apprend un champ de vitesse qui transporte une distribution simple vers la distribution cible des actions, avec une formulation plus directe et un entraînement souvent plus stable. Son efficacité en apprentissage robotique a déjà été démontrée par Physical Intelligence avec pi0, qui en fait le coeur de sa politique généraliste. La contribution ici complète ce cadre en y injectant une contrainte de symétrie morphologique, un biais générique potentiellement applicable à toute architecture équivariante. Face aux approches concurrentes de Stanford (Mobile ALOHA), CMU ou des équipes de Boston Dynamics, la méthode se distingue par son caractère généraliste : les auteurs suggèrent que la symétrie exploitée est extensible à d'autres classes de robots présentant des propriétés géométriques analogues, au-delà des seuls humanoïdes bimanuels.

UELa validation en conditions réelles sur le TIAGo++ de PAL Robotics (Barcelone) positionne un acteur européen au cœur d'une avancée en imitation learning bimanuel généraliste, directement applicable par les intégrateurs EU déployant des systèmes bimanuels.

RecherchePaper
1 source