Aller au contenu principal
Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques
RecherchearXiv cs.RO6sem

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (2507.00990) un système baptisé RIGVid (Robots Imitating Generated Videos) permettant à un robot de réaliser des tâches de manipulation complexe, comme verser un liquide, essuyer une surface ou mélanger des ingrédients, en imitant uniquement des vidéos générées par IA, sans aucune démonstration physique ni données d'entraînement spécifiques au robot. Le pipeline fonctionne en trois étapes : à partir d'une commande en langage naturel et d'une image de la scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration candidates, un VLM (vision-language model) filtre automatiquement celles qui ne correspondent pas à la commande, puis un tracker de pose 6D extrait les trajectoires d'objets. Ces trajectoires sont ensuite retargetées vers le robot de manière agnostique à l'embodiment, c'est-à-dire sans nécessiter de recalibration spécifique à la morphologie du bras utilisé.

L'impact est notable pour les intégrateurs et les équipes de recherche en manipulation robotique : supprimer la collecte de démonstrations physiques, étape longue et coûteuse dans les pipelines d'imitation learning, est un verrou industriel majeur. Les évaluations en conditions réelles montrent que les vidéos générées et filtrées atteignent une efficacité équivalente aux démonstrations humaines réelles, et que la performance progresse avec la qualité du modèle génératif utilisé. Le système surpasse également des alternatives plus compactes comme la prédiction de keypoints via VLM, et le tracking 6D de pose s'avère supérieur au tracking dense de points de features. Ces résultats valident expérimentalement l'hypothèse que les générateurs vidéo state-of-the-art constituent une source de supervision viable pour la manipulation robotique, au moins sur des tâches de difficulté modérée.

Ce travail s'inscrit dans un champ de recherche en effervescence autour du "learning from video" sans interaction physique, en concurrence directe avec des approches comme les VLA (vision-language-action) de Physical Intelligence (pi-0), les politiques de diffusion type Diffusion Policy, ou encore l'usage de données synthétiques issues de simulateurs. L'approche RIGVid se distingue par son absence totale de données robot et son pipeline entièrement basé sur des modèles généralistes off-the-shelf. À noter que ce papier est une prépublication arXiv (v3, donc ayant déjà subi plusieurs révisions), sans validation par peer-review complet à ce stade, et que les tâches évaluées restent relativement contraintes en termes de variabilité de scène et de généralisation out-of-distribution.

À lire aussi

Générer des mains robotiques à partir de démonstrations humaines
1arXiv cs.RO 

Générer des mains robotiques à partir de démonstrations humaines

Des chercheurs ont publié un framework de co-conception de mains robotiques guidé par les données (arXiv:2506.20549, juin 2025). Le problème visé est le co-design corps/contrôleur: optimiser simultanément la morphologie d'un effecteur et son contrôleur crée un espace combinatoire difficilement tractable. La solution exploite plus de 4 millions de frames de mouvements de bouts de doigts humains issus de manipulations quotidiennes pour optimiser des mains à structure arborescente, en utilisant une politique de contrôle minimale commune à la phase de recherche et à la phase opérationnelle: le suivi de position des fingertips par cinématique inverse (IK). Deux catégories de designs ont été produites: une main à 6 degrés de liberté (DoF) à usage général, et des mains spécialisées à 3 DoF équipées de joints "mimic" à quadrilatère articulé (four-bar spatial). Un acteur entraîné par apprentissage par renforcement (RL) accélère la recherche morphologique, réduisant le temps de calcul de plusieurs heures à quelques minutes; les structures finales sont fabriquées en impression 3D print-in-place, en une seule pièce articulée sans assemblage. En expériences réelles, la main 6-DoF dépasse des mains robotiques commerciales non identifiées sur la précision de suivi télé-opéré, tandis que les mains 3-DoF reproduisent des trajectoires structurées avec une complexité mécanique réduite. L'apport principal est la résolution d'un verrou de fond en co-design: en imposant la même politique IK simple pendant l'optimisation et après fabrication, les auteurs découplent la recherche morphologique de l'apprentissage d'un contrôleur complexe, rendant l'exploration de l'espace de design tractable à grande échelle. Ce résultat soutient une hypothèse émergente: des données massives de mouvement humain non conçues pour la robotique peuvent informer l'optimisation de l'embodiment physique d'un robot, et pas seulement son contrôleur. La comparaison avec des mains commerciales reste difficile à évaluer, le preprint ne précisant ni les références comparées ni les conditions d'évaluation; prudence sur ce point en l'absence de benchmark standardisé. Ce travail prolonge une tendance croissante qui vise à utiliser des données humaines non seulement pour entraîner des politiques robotiques (VLA, imitation learning), mais pour co-générer le hardware lui-même. Les approches concurrentes en evolutionary robotics et en simulation différentiable existent depuis des années mais restent coûteuses en calcul ou peu généralisables; l'originalité de cette contribution réside dans la décorrélation design/contrôle et dans l'usage du RL comme heuristique de recherche morphologique efficace. À ce stade, il s'agit d'un preprint non encore peer-reviewed, sans déploiement industriel ni partenaire commercial annoncé; les suites naturelles seraient une validation sur un spectre plus large de tâches de manipulation et une comparaison rigoureuse avec des benchmarks établis. Aucun acteur européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable
2arXiv cs.RO 

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

Des chercheurs ont publié sur arXiv (ref. 2509.21723, quatrième révision) VLBiMan, un framework d'apprentissage pour la manipulation bimanuels robotique qui vise à réduire drastiquement le nombre de démonstrations humaines nécessaires à l'entraînement d'un robot à deux bras. Le principe central : à partir d'un seul exemple humain, le système décompose la tâche en primitives réutilisables dites "invariantes" (les composantes stables d'un geste, comme saisir un outil dans un axe donné) et en composantes "ajustables" (position exacte, orientation selon le contexte). Ces ajustements sont pilotés en temps réel par un ancrage vision-langage (VLA) qui parse sémantiquement la scène et applique des contraintes de faisabilité géométrique, sans nécessiter de réentraînement lorsque le fond change, qu'un objet est déplacé ou que du désordre visuel perturbe la scène. Le système prend également en charge un contrôle hybride des deux bras, autorisant une utilisation synchrone ou asynchrone selon la sous-tâche. L'intérêt industriel porte sur deux points. D'abord, la réduction du coût d'acquisition de données : les approches par imitation classiques exigent des dizaines à centaines de démonstrations pour couvrir les variations d'une tâche, VLBiMan en revendique une seule -- sans que le papier ne quantifie précisément ce ratio dans des conditions industrielles représentatives, ce qui mérite prudence. Ensuite, le transfert cross-embodiment : les primitives apprises à partir de démonstrations humaines se réinstancient sur différentes plateformes robotiques sans réentraînement, ce qui ouvrirait la voie à une bibliothèque de compétences portables. Les expériences couvrent des tâches d'utilisation d'outils et de manipulation multi-objets, et montrent une robustesse aux objets sémantiquement similaires mais visuellement inédits, ainsi qu'aux perturbations externes. Ce travail s'inscrit dans la vague des architectures VLA (Vision-Language-Action) qui cherchent à remplacer la collecte massive de données par une généralisation sémantique. Il se positionne face aux approches par imitation pure (comme ACT ou Diffusion Policy) qui saturent rapidement en capacité de généralisation, et aux méthodes modulaires classiques, moins flexibles dans les scènes dynamiques. Les concurrents directs incluent des frameworks comme RoboFlamingo, OpenVLA ou UniManipulate. VLBiMan reste à ce stade un travail académique sans déploiement industriel annoncé ni partenaire industriel cité, avec des validations conduites en environnement de laboratoire contrôlé.

RechercheOpinion
1 source
RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
3arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source
SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations
4arXiv cs.RO 

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

Des chercheurs ont présenté SID (Sliding into Distribution), un cadre structuré pour la manipulation robotique capable de généraliser à partir de seulement deux démonstrations humaines. Évalué sur six tâches réelles variées (saisies, manipulations d'objets), SID atteint environ 90 % de taux de succès dans des configurations hors-distribution (OOD), c'est-à-dire avec des poses d'objets, des points de vue ou des conditions d'éclairage non vus lors de l'entraînement. La dégradation reste inférieure à 10 % en présence de distracteurs visuels ou de perturbations physiques externes. Le système s'appuie sur deux composants clés : un champ de mouvement centré sur l'objet, appris depuis des démonstrations "canonicalisées" (normalisées en pose), et une politique d'exécution égocentrique légère entraînée par flow matching conditionné, complétée par une augmentation de données par reprojection de nuage de points cinématiquement cohérente. L'intérêt de SID tient à sa frugalité en données : là où les politiques visuomotrices end-to-end standard (type ACT, Diffusion Policy) réclament des dizaines à centaines de démonstrations, SID opère à deux. C'est un signal fort pour les intégrateurs industriels qui peinent à collecter des données en volume sur cellule réelle. Le mécanisme de correction distributional est particulièrement notable : le champ de mouvement génère de larges corrections quand le robot s'écarte de la trajectoire démontrée, puis s'annule naturellement à l'approche de la zone fiable, avant de passer la main à la politique locale. Ce découplage explicite entre récupération hors-distribution et exécution fine constitue une alternative architecturale aux approches purement régressives. Les résultats suggèrent que le "sim-to-real gap" n'est pas le seul problème à résoudre : gérer le glissement distributional en ligne, sans recollecte de données, est un levier sous-exploité. Cette publication s'inscrit dans une vague de travaux sur la manipulation à faible donnée qui cherchent à dépasser les limites des transformeurs d'actions (ACT, π0 de Physical Intelligence, GR00T N2 de NVIDIA) en introduisant des structures géométriques explicites plutôt que de tout apprendre de bout en bout. Le flow matching, popularisé ces deux dernières années comme alternative plus stable à la diffusion pour la génération de trajectoires, est ici combiné à une représentation canonique de l'objet, une approche qui rappelle les travaux sur les réseaux de catégorie neurale (NCF) ou les politiques basées sur des keypoints. Le papier ne mentionne pas de partenaires industriels ni de timeline de déploiement, et reste pour l'instant au stade de preuve de concept académique sur banc réel. Les prochaines étapes naturelles seraient une extension à des objets déformables et une validation sur des bras commerciaux (Franka, xArm) dans des environnements moins contrôlés que le labo.

RecherchePaper
1 source