Aller au contenu principal
EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement
RecherchearXiv cs.RO2h

EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2606.14665) EgoGuide, une interface de collecte de démonstrations robotiques sans robot physique. Le système enregistre simultanément deux flux vidéo : une caméra au poignet de l'opérateur (wrist view) et une caméra égocentrique portée sur la tête (egocentric view). Un module de guidage visuel-géométrique en ligne évalue la qualité de chaque épisode en temps réel et signale les données redondantes ou peu informatives avant leur accumulation dans le jeu d'entraînement. Les auteurs introduisent également une "Gated Egocentric Residual Policy", une architecture qui mobilise la vue égocentrique pour corriger les ambiguïtés de la vue poignet, tout en préservant la stabilité du contrôle moteur local. Les expériences en conditions réelles confirment une réduction du nombre d'épisodes de démonstration nécessaires et une meilleure robustesse face aux occultations visuelles.

L'apport principal est de s'attaquer à un goulot d'étranglement bien identifié dans le domaine : le coût humain de la collecte de données de qualité. Les pipelines de type UMI (Universal Manipulation Interface), qui permettent à un opérateur de collecter des démonstrations manuellement sans robot dédié, produisent souvent des épisodes redondants et manquent de contexte global de scène. Le guidage en ligne réduit ce gaspillage dès la source. La politique résiduelle répond à un problème concret des systèmes d'imitation : la vue poignet seule est ambiguë lors d'occultations ou de passages critiques dans la trajectoire. Donner au modèle un accès conditionnel (gated) à la vue globale lève ces ambiguïtés sans déstabiliser le contrôle fin. Pour un intégrateur, cela signifie potentiellement moins d'heures de collecte humaine pour atteindre un niveau de performance équivalent.

EgoGuide s'inscrit dans la lignée directe de l'UMI, développé par Cheng Chi et ses collaborateurs à Stanford et Columbia, qui a popularisé la collecte de démonstrations via des dispositifs portatifs instrumentés. Le verrou adressé ici n'est pas la quantité brute de données mais leur qualité et leur diversité informationnelle. Les approches concurrentes incluent ACT (Action Chunking Transformer), Diffusion Policy et les plateformes de téléopération à faible coût comme ALOHA. Ce travail reste une publication académique arXiv sans déploiement industriel annoncé, et les expériences présentées restent à l'échelle laboratoire. La combinaison guidage en ligne et politique bi-caméra présente toutefois un intérêt direct pour les équipes cherchant à réduire le coût opérationnel de la démonstration à grande échelle.

Dans nos dossiers

À lire aussi

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique
1arXiv cs.RO 

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion
1 source
RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
2arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source
EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot
3arXiv cs.RO 

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

EgoHumanoid, publié sur arXiv (identifiant 2602.10106), propose un framework pour entraîner des robots humanoïdes à la loco-manipulation, c'est-à-dire la coordination simultanée de la locomotion et de la manipulation d'objets, en exploitant des démonstrations humaines égocentrées plutôt que de la télé-opération robotique classique. L'architecture co-entraîne une politique VLA (vision-language-action) sur un corpus mixte composé de larges volumes de vidéos humaines en vue à la première personne, complétés par un volume limité de données robot. Pour réduire le fossé morphologique entre humains et robots, les auteurs ont développé un système portable de collecte de données et deux modules d'alignement : un alignement de vue corrigeant les différences de hauteur et de perspective entre caméra humaine et capteur robot, et un alignement d'action transposant les mouvements humains vers un espace cinématiquement réalisable par le robot. Les expériences en environnements réels montrent que l'ajout des données égocentrées humaines dépasse les baselines entraînées sur données robot seules de 51 %, avec un gain particulièrement marqué sur des environnements non vus lors de l'entraînement. La loco-manipulation humanoïde est l'un des problèmes les plus gourmands en données de la robotique moderne : le robot doit simultanément planifier ses déplacements et interagir avec des objets dans des espaces non structurés. EgoHumanoid valide l'hypothèse que la diversité des démonstrations humaines compense la différence morphologique, à condition de résoudre correctement les alignements de vue et d'action. Pour les intégrateurs et décideurs industriels, cela signale une voie de scaling de la donnée nettement moins chère que la télé-opération spécialisée, sans dépendre de simulateurs dont le transfert sim-to-real reste incertain. La démonstration humaine pour les robots manipulateurs d'établis est une pratique établie, mais son extension aux humanoïdes en loco-manipulation restait peu explorée. EgoHumanoid se positionne directement face aux pipelines de collecte adoptés par les grands acteurs, notamment Figure AI avec Helix, Physical Intelligence avec Pi-0 et NVIDIA avec GR00T N2, qui s'appuient tous sur des approches intensives en télé-opération ou en simulation. Il s'agit d'une publication académique, sans annonce de produit ni déploiement commercial associé. Les suites logiques seraient une validation à plus grande échelle du protocole de collecte humaine et une intégration dans des frameworks VLA existants pour tester la montée en charge sur des tâches industrielles réelles.

RechercheOpinion
1 source
Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations
4arXiv cs.RO 

Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations

Des chercheurs ont publié fin mai 2026 (arXiv:2605.22123) un framework permettant d'apprendre des fonctions de récompense symboliques invariantes à partir de seulement cinq démonstrations pour des tâches de manipulation robotique. Le système repose sur deux composants couplés : une formulation structurelle de récompense encodant des stratégies de niveau tâche et des contraintes physiques, et une procédure hybride symbolique-numérique qui distille des invariants comportementaux depuis ces démonstrations sans requérir d'interaction en ligne avec l'environnement. La méthode a été évaluée sur huit tâches du benchmark Meta-World et trois tâches de manipulation sur bras Franka, affichant de meilleures capacités d'alignement procédural et de classement de rollouts de politique par rapport aux baselines existantes. Trois expériences réelles out-of-distribution valident une généralisation zero-shot à des variations de position, de point de vue caméra et d'instances d'objets inédites. Le problème adressé est structurel : les modèles de récompense basés sur la vision tendent à mémoriser des distributions de pixels spécifiques et s'effondrent dès que les conditions visuelles changent, qu'il s'agisse d'un objet déplacé, d'un angle de caméra différent ou d'une variante d'objet inconnue. Pour un intégrateur déployant un système de manipulation en milieu industriel, cela impose de recollectecter des démonstrations ou de réentraîner le modèle à chaque variation du contexte opérationnel. Le passage aux invariants symboliques, c'est-à-dire des propriétés comportementales constantes indépendamment de l'apparence visuelle, propose une représentation de récompense réutilisable sur de multiples variantes de tâche sans interaction supplémentaire, ce qui réduit significativement le coût itératif du déploiement en apprentissage par renforcement. Ce travail s'inscrit dans une dynamique de recherche active visant à résoudre le goulot d'étranglement du reward engineering en RL robotique. Les approches récentes fondées sur des embeddings visuels issus de VLMs, comme VIP ou RoboCLIP, ont progressé sur la généralisation visuelle mais restent fragilisées par les variations de distribution en dehors des conditions d'entraînement. La méthode proposée se distingue en substituant aux embeddings bruts une abstraction symbolique de la tâche. Des laboratoires comme Berkeley BAIR, Stanford ou le CMU Robotics Institute travaillent sur des directions similaires d'abstraction pour le RL. La capacité à bootstrapper une récompense généralisable depuis cinq démonstrations seulement ouvre la voie à des pipelines de fine-tuning robotique plus accessibles, potentiellement utilisables par des intégrateurs sans expertise RL avancée.

RecherchePaper
1 source