RecherchearXiv cs.RO 17 juin 2026

EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

EgoInfinity est un moteur de données 4D présenté en juin 2026 dans un article arXiv (2606.17385), conçu pour convertir automatiquement des vidéos RGB de manipulation humaine en données d'entraînement exploitables par des robots. Son architecture modulaire enchaîne perception, segmentation, reconstruction 3D, raffinement contextuel et reciblage cinématique. À partir d'une vidéo ordinaire, le système produit des représentations 4D indépendantes de l'agent : trajectoires de main, poses d'objets à 6 degrés de liberté (6-DoF) et états de contact. Un module de reciblage de mouvement compile ensuite ces données en trajectoires articulaires exécutables pour n'importe quelle morphologie de robot, à partir de tout angle de vue ou cadrage, même lorsque le corps humain n'est que partiellement visible. Le pipeline a été validé sur des tâches de préhension, coupe, essuyage et versage en conditions réelles.

L'enjeu industriel est direct : les données de manipulation collectées en laboratoire ou en usine restent rares, coûteuses et peu diversifiées, plafonnant la généralisation des systèmes d'apprentissage par imitation. EgoInfinity ouvre théoriquement l'accès à Internet comme réservoir de données à l'échelle du web, sans annotation humaine dans la boucle. Le raffinement dit "interaction-aware" (conscient des contacts) corrige les dérives métriques et incohérences de contact fréquentes dans les reconstructions purement visuelles, problème récurrent dans les pipelines sim-to-real. Pour un intégrateur ou un COO industriel, l'argument clé est la portabilité : un même pipeline produit des trajectoires pour des morphologies différentes, sans re-collecte de données.

Ce travail s'inscrit dans une compétition intense autour de la donnée pour robots manipulateurs. Les approches concurrentes incluent les datasets collaboratifs comme Open X-Embodiment, les données téléopérées de Physical Intelligence (Pi-0) ou 1X Technologies, et les efforts open-source de HuggingFace (Paris) avec LeRobot, qui cible précisément la démocratisation de la collecte de données à faible coût. L'originalité d'EgoInfinity est d'exploiter des vidéos "in the wild" plutôt que des démonstrations contrôlées, une approche qui reste à valider à grande échelle : les résultats publiés portent sur des tâches isolées, et le passage à des scénarios industriels complexes n'est pas documenté.

Impact France/UE

Concurrence directe pour HuggingFace/LeRobot (Paris) sur le segment de la démocratisation des données de manipulation robotique à faible coût.

Dans nos dossiers

1X Technologies Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

Une équipe de chercheurs publie sur arXiv (ref. 2605.23987, mai 2026) un modèle d'interaction pensée-apprentissage (thinking-learning interaction model) pour robots autonomes évoluant en environnements ouverts et changeants. Le problème visé est structurel : la quasi-totalité des méthodes d'apprentissage robot actuelles fixent à l'avance leurs objets d'apprentissage, qu'il s'agisse des features d'entrée, des catégories de sortie, de l'architecture réseau ou des séquences d'action, ce qui bloque toute adaptation lorsque l'environnement dérive en exploitation longue durée. Le modèle proposé repose sur un mécanisme bidirectionnel : la pensée guide l'apprentissage en identifiant les changements potentiels, en sélectionnant les preuves pertinentes et en planifiant des actions de vérification, tandis que l'apprentissage améliore en retour les processus de raisonnement. Les résultats expérimentaux font état d'une progression de la précision de reconnaissance de 0,419 à 0,845 en adaptation de features, d'une réduction de la longueur moyenne des séquences d'action de 13,0 à 4,0 étapes, et d'une hausse du taux de sélection de preuves utiles de 0,272 à 0,965. L'enjeu est concret pour quiconque déploie des robots en environnement non structuré sur la durée. Les approches VLA (vision-language-action) et d'apprentissage par renforcement supposent généralement un espace d'états relativement stable : toute dérive contextuelle, nouvelle référence produit sur une ligne, réaménagement d'entrepôt, apparition d'obstacle inédit, impose un recalibrage humain ou un nouveau cycle d'entraînement coûteux. Un système capable de redéfinir ses propres catégories de sortie et de reconstruire ses routines d'action sans intervention extérieure réduirait considérablement le coût total de maintenance dans des contextes à forte variabilité, comme la logistique ou le manufacturing discret. Ces résultats restent toutefois issus d'expériences de laboratoire sur des scénarios contrôlés, et la généralisation à des déploiements industriels réels n'est pas encore démontrée. Ce travail s'inscrit dans un courant actif autour de l'apprentissage continu (continual learning), en réponse aux limites du fine-tuning ponctuel. Les approches concurrentes incluent le meta-apprentissage (MAML), les architectures à mémoire épisodique, et les agents LLM embarqués pour la planification robotique comme SayCan (Google DeepMind) ou Code-as-Policies. La spécificité de la contribution est de viser l'autonomie dans la définition des objets d'apprentissage eux-mêmes, pas seulement dans l'exécution de tâches prédéfinies. Le papier est un preprint sans annonce de déploiement ni partenariat industriel ; les prochaines étapes naturelles seraient une validation sur des benchmarks standardisés comme RLBench ou Open X-Embodiment, et des tests sur des plateformes physiques diversifiées.

RecherchePaper

1 source

2arXiv cs.RO

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion

1 source

3arXiv cs.RO

Imagine2Real : vers l'interaction robot humanoïde-objet sans apprentissage préalable grâce aux priors génératifs vidéo

Une équipe de chercheurs présente Imagine2Real, un framework zéro-shot pour la manipulation humanoïde d'objets, publié sur arXiv en mai 2026. L'Humanoid-Object Interaction (HOI) en corps entier, soit la capacité d'un humanoïde à interagir physiquement avec des objets en coordonnant l'ensemble de ses degrés de liberté, reste historiquement freinée par la rareté des données 3D haute fidélité. Imagine2Real contourne cette limitation en s'appuyant sur des vidéos génératives comme priors de mouvement, sans recourir à des modèles CAO explicites. Les déplacements du robot et des objets sont formalisés comme des trajectoires 4D en points discrets. Un module appelé Keypoints Tracker suit uniquement trois repères critiques (base, mains, objet), court-circuitant le retargeting morphologique, source classique d'amplification d'erreurs. Pour maintenir des allures naturelles malgré ces signaux épars, le système exploite l'espace latent d'un Behavior Foundation Model (BFM), un modèle de fondation entraîné sur des comportements locomoteurs. Une stratégie d'entraînement progressive complète le pipeline, permettant un déploiement physique zéro-shot en environnement de capture de mouvement (mocap). Le travail s'attaque à deux verrous documentés dans la littérature : le "Representation Misalignment", décalage entre les priors géométriques et la réalité physique du robot, et la "Retargeting Complexity", difficulté d'adapter des mouvements humains à une morphologie robotique différente. En réduisant le retargeting à trois points-clés et en supprimant la dépendance aux modèles CAO, Imagine2Real compresse le pipeline de données nécessaire pour générer de nouveaux comportements. Le zéro-shot démontré en déploiement physique, et non uniquement en simulation, distingue la contribution des approches antérieures. Pour un intégrateur ou un décideur industriel, l'enjeu est clair : bootstrapper de nouvelles compétences de manipulation sans dataset 3D dédié ni séquences mocap par tâche. Imagine2Real s'inscrit dans un courant de recherche exploitant les video diffusion models comme source de connaissance pour la robotique, en parallèle des travaux de Physical Intelligence (pi0, pi0-FAST), de NVIDIA (GR00T N2) et des approches VLA de Google DeepMind. La distinction revendiquée est l'abandon des priors géométriques là où les méthodes concurrentes les jugent incontournables. Aucun partenaire industriel ni calendrier de déploiement réel n'est mentionné dans ce preprint : il s'agit d'une contribution de recherche fondamentale, dont les suites naturelles incluront l'extension à des catégories d'objets plus larges et une validation hors environnement mocap contrôlé.

RechercheOpinion

1 source

4arXiv cs.RO

EgoVerse : un ensemble de données humaines égocentriques pour l'apprentissage des robots, venu du monde entier

Une équipe de chercheurs vient de publier une nouvelle version de son article sur arXiv (2604.07607v2) présentant EgoVerse, une plateforme collaborative de données humaines égocentriques destinée à l'apprentissage robotique. La version actuelle du jeu de données regroupe 1 362 heures d'enregistrements, soit environ 80 000 épisodes de démonstrations humaines, couvrant 1 965 tâches différentes réalisées dans 240 environnements distincts par 2 087 démonstrateurs uniques. Les données sont standardisées avec des annotations pertinentes pour la manipulation et des outils dédiés à l'entraînement de modèles en aval. Le projet est conçu pour recevoir des contributions aussi bien de chercheurs individuels que de laboratoires académiques et d'acteurs industriels, dans un cadre commun de collecte et de traitement. Ce travail répond à un problème concret du secteur robotique : la collecte de données réelles sur robot reste coûteuse et difficile à faire passer à l'échelle, tandis que les données humaines égocentriques offrent une alternative bien moins onéreuse pour capturer des comportements de manipulation dans des environnements du quotidien. Les auteurs ont mené une étude à grande échelle sur le transfert humain-vers-robot, avec des expériences répliquées dans plusieurs laboratoires, sur différentes tâches et différentes plateformes robotiques, selon des protocoles partagés. Résultat notable : la performance des politiques s'améliore globalement avec davantage de données humaines, mais ce passage à l'échelle n'est efficace que si ces données sont alignées avec les objectifs d'apprentissage du robot ciblé, un nuance importante pour les équipes qui espèrent simplement empiler du volume de données sans questionner leur pertinence. Le problème que EgoVerse cherche à résoudre est la fragmentation des jeux de données humains existants, souvent limités en portée et difficiles à étendre au-delà de l'institution qui les a produits. En unifiant collecte, traitement et accès sous un même cadre partagé, la plateforme se positionne comme une infrastructure de recherche reproductible plutôt qu'un simple jeu de données figé, avec vocation à s'enrichir au fil des contributions externes. Les vidéos et informations complémentaires sont disponibles sur egoverse.ai.

RecherchePaper

1 source