Aller au contenu principal
EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales
RecherchearXiv cs.RO1j

EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

EgoMoD (arXiv:2603.00167v2) est une méthode de navigation robotique qui prédit des cartes globales de dynamique de mouvement, appelées Maps of Dynamics (MoDs), depuis de courtes séquences vidéo égocentrées collectées par le robot lui-même. Les MoDs représentent de façon structurée les tendances de mouvement dans un espace donné, offrant un support pour la planification à long terme. L'architecture, conditionnée par la vidéo et la pose du robot, est entraînée par supervision privilégiée : des MoDs calculées depuis des capteurs externes servent de signal d'apprentissage, mais à l'inférence, seuls les capteurs embarqués standards sont requis. Les expériences couvrent de grands environnements simulés, et une validation sur images réelles démontre un transfert zéro-shot sans fine-tuning.

L'enjeu pour les robots mobiles autonomes (AMR) déployés dans des environnements peuplés est concret : la navigation réactive, limitée au champ de vision immédiat, contraint la fluidité des déplacements dans des espaces denses comme les entrepôts ou les hôpitaux. Les MoDs permettent une planification préemptive en anticipant la position probable des personnes avant qu'elles n'entrent dans le périmètre de détection. Jusqu'ici, ce type de carte dynamique exigeait une infrastructure fixe (caméras de surveillance, systèmes de suivi centralisés), incompatible avec des déploiements agiles. EgoMoD supprime cette contrainte : la carte prédictive se construit depuis les données d'opération courante, ce qui ouvre la voie à des déploiements sans modifier l'infrastructure existante.

Les MoDs s'inscrivent dans un champ de recherche actif sur les représentations dynamiques, au-delà des cartes d'occupation statiques ; les approches antérieures nécessitaient des capteurs fixes sur de longues périodes, ce qui ralentissait le déploiement opérationnel. EgoMoD rejoint une tendance à exploiter des architectures vidéo pour inférer des priors dynamiques, terrain partagé avec des modèles comme Trajectron++ ou Social-LSTM. À noter : les résultats quantitatifs principaux sont issus de simulations ; la validation sur images réelles démontre le transfert zéro-shot mais sans évaluation end-to-end de navigation complète. Aucun partenaire industriel ni calendrier de production n'est mentionné dans la publication, et la disponibilité du code source reste à confirmer.

Dans nos dossiers

À lire aussi

CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables
1arXiv cs.RO 

CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables

Des chercheurs ont publié sur arXiv (identifiant arXiv:2602.21331v2) un modèle de simulation neuronal pour robots à câbles, baptisé CableRobotGraphSim. L'architecture repose sur un réseau de neurones graphiques (GNN) : les corps rigides du robot forment les noeuds du graphe, les câbles et les points de contact constituent les arêtes. Cette représentation permet au modèle d'inférer la dynamique du système à partir d'observations partielles uniquement, sans exiger un accès complet à l'état interne du robot. L'entraînement combine données de simulation et données réelles (sim-and-real co-training) pour améliorer la robustesse au bruit des capteurs. Le modèle est ensuite intégré à un contrôleur MPPI (Model Predictive Path Integral) pour la navigation en boucle fermée. L'abstract ne fournit aucune métrique quantitative précise sur la précision ou les temps de cycle, ce qui rend difficile toute évaluation indépendante des performances revendiquées. L'apport technique central est de s'affranchir des deux contraintes majeures des simulateurs traditionnels à base de premiers principes : l'exigence d'observabilité complète de l'état du robot, et la nécessité d'une identification paramétrique coûteuse. Pour les robots à câbles (CDPR, Cable-Driven Parallel Robots), utilisés notamment en logistique grande portée, en plateformes de simulation de mouvement et dans des projets de construction, ces contraintes ont historiquement bloqué le déploiement de pipelines sim-to-real fiables. Un modèle adaptatif capable d'ingérer des données bruitées et partiellement observées ouvre la voie à un transfert plus direct vers des applications industrielles réelles, en rapprochant la mécanique câblée des pipelines qui ont déjà transformé la manipulation et la locomotion bipedale. Les CDPR suscitent un intérêt croissant dans des contextes à grande échelle, du radiotélescope FAST en Chine aux projets logistiques en entrepôt. Sur le terrain de la simulation, les environnements généralistes comme MuJoCo, Isaac Sim de NVIDIA ou PyBullet modélisent mal la dynamique câble-contact, laissant un angle mort que cette approche data-driven spécialisée cherche à combler. Des travaux antérieurs avaient tenté des modèles analytiques ou d'apprentissage, sans traiter explicitement l'observabilité partielle. Le papier, en version v2, ne précise pas d'affiliation institutionnelle claire dans l'abstract et ne mentionne pas de dépôt open-source, deux éléments qui conditionneront son adoption réelle par la communauté robotique.

RecherchePaper
1 source
Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions
2arXiv cs.RO 

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

PIEGraph est un modèle hybride de dynamique d'objets pour la manipulation robotique, présenté dans un preprint arXiv publié en mai 2025 (arXiv:2605.02699). Conçu pour opérer avec peu de données d'interaction réelles, il repose sur deux composants couplés : un modèle analytique basé sur des particules physiquement informé, implémenté comme un système masse-ressort, et un réseau de neurones graphique équivariant (GNN équivariant) qui exploite les symétries des interactions entre particules pour corriger et guider ce modèle analytique. Les objets sont représentés comme des ensembles de particules 3D, une convention répandue dans la recherche en manipulation d'objets déformables. PIEGraph a été évalué sur des tâches de réorientation et de repositionnement impliquant des cordes, du tissu, des peluches et des objets rigides, à la fois en simulation et sur hardware robotique physique, où il surpasse les approches de référence actuelles selon les auteurs. Le problème que PIEGraph cherche à résoudre est bien identifié dans le domaine : les modèles purement neuronaux de dynamique de particules perdent la cohérence physique sur des horizons temporels longs et exigent de larges volumes de données d'entraînement, deux contraintes rédhibitoires pour un déploiement industriel. L'approche hybride, avec des contraintes physiques analytiques comme biais inductif et une correction par GNN équivariant, démontre que l'intégration explicite de symétries et de lois physiques dans l'architecture améliore la généralisation à partir de peu d'expériences réelles. Pour les intégrateurs robotiques qui manipulent des pièces souples (textiles, câbles, joints), c'est un signal pertinent : le sim-to-real gap pour les objets déformables n'est pas uniquement un problème de qualité de simulation, mais aussi de structure du modèle d'apprentissage lui-même. La représentation d'objets par nuages de particules 3D est au cœur de travaux antérieurs comme DPI-Net, RoboCraft ou les approches issues de PlasticineLab. Les GNN purs ont montré leurs limites pour la prédiction à long terme et hors distribution d'entraînement. La direction "physique hybride et apprentissage" est partagée par plusieurs groupes, notamment autour de DiffTaichi et des formulations position-based dynamics (PBD). PIEGraph s'inscrit dans cette lignée en ajoutant l'équivariance comme levier supplémentaire de data-efficiency. Une limite notable : le résumé disponible ne quantifie pas précisément le nombre d'interactions réelles nécessaires, un chiffre décisif pour juger de l'applicabilité industrielle. Les prochaines étapes naturelles seraient de tester sur des tâches impliquant des contacts déformable-rigide et de publier ces métriques de sample efficiency.

RecherchePaper
1 source
Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos
3arXiv cs.RO 

Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos

Une nouvelle méthode d'apprentissage par imitation pour robots humanoïdes vient d'être publiée sur arXiv (2605.23762, mai 2026), proposant un cadre à étape unique baptisé Direct Dynamic Retargeting (DDR). L'objectif est d'apprendre des comportements moteurs complexes à partir de simples vidéos monoculaires de démonstration humaine, sans capteurs de mouvement ni combinaisons de capture. Le défi central est morphologique : un humain et un robot humanoïde ne partagent ni les mêmes proportions, ni les mêmes centres de masse, ni les mêmes contraintes articulaires, ce qui rend la transposition directe des trajectoires impossible. Les approches standards, dites Geometric Retargeting ou Indirect Dynamic Retargeting, projettent d'abord le mouvement humain dans un espace cinématique intermédiaire avant de générer les commandes robot, introduisant ce que les auteurs appellent un biais géométrique qui restreint l'espace de solutions et produit des comportements sous-optimaux. DDR supprime cette étape intermédiaire en formulant le problème directement dans l'espace des tâches (task space), couplé à un solveur de contrôle prédictif par modèle (Model Predictive Control, MPC) à base d'échantillonnage, exécuté au sein d'un simulateur physique. Ce couplage permet au système d'optimiser nativement les séquences de contact sol-pied tout en limitant la dérive des entrées, garantissant la faisabilité dynamique des trajectoires générées. Les expériences montrent que DDR surpasse les méthodes de référence en précision de suivi des démonstrations. Plus significatif pour les praticiens : fournir ces références physiquement viables à un agent d'apprentissage par renforcement accélère la convergence de l'entraînement et améliore l'exécution finale de comportements agiles et d'équilibrage dynamique. L'apprentissage par imitation à partir de vidéo est devenu un axe majeur de la robotique humanoïde, porté par des travaux comme Pi-0 de Physical Intelligence ou les pipelines de données de téléopération développés chez Figure AI et Agility Robotics. Ces approches cherchent à exploiter l'immense corpus de vidéos de mouvements humains disponibles en ligne pour réduire le coût prohibitif de la collecte de données sur robot. DDR s'inscrit dans cette tendance mais attaque le problème par la dynamique plutôt que par la géométrie, un pari prometteur qui reste à valider en conditions réelles : aucun résultat physique sur robot n'est présenté dans cet article, uniquement des évaluations en simulation. Le code source sera rendu public, ce qui permettra à la communauté de reproduire et d'étendre ces résultats.

RecherchePaper
1 source
EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet
4arXiv cs.RO 

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Des chercheurs ont publié en juin 2026 sur arXiv un framework baptisé EgoAERO, capable d'apprendre la manipulation dextre à partir d'une unique démonstration vidéo RGB-D égocentrique humaine, sans recourir à aucun asset 3D de l'objet manipulé. Le pipeline enchaîne trois modules : un tracking et une reconstruction de l'objet sans asset préalable, une compensation du mouvement égocentrique de la caméra, et une optimisation adaptative des contacts main-objet. Les trajectoires cohérentes obtenues sont ensuite converties en politiques robotiques via un apprentissage résiduel en deux étapes. Les auteurs introduisent également un mécanisme d'évaluation de qualité en ligne et publient EgoDex-R, un dataset de 4,3 millions de frames RGB-D pour l'entraînement de politiques dextres. En simulation comme en conditions réelles, EgoAERO atteint des performances proches des reconstructions assistées par modèles CAD sur le benchmark HOI4D, référence standard pour l'interaction main-objet. Le verrou technique levé ici est structurant pour la robotique dextre : jusqu'ici, les méthodes d'imitation à partir de vidéo humaine exigeaient soit des scans 3D préalables des objets, soit plusieurs démonstrations, soit des marqueurs visuels. Or, scanner chaque objet d'un environnement industriel ou domestique est un frein majeur à la scalabilité des systèmes. EgoAERO suggère qu'une caméra RGB-D standard (de type Intel RealSense ou intégrée à des lunettes connectées) et une seule prise vidéo suffisent pour bootstrapper une politique robotique fonctionnelle. C'est un signal fort en faveur d'une démocratisation de la collecte de données dextres, potentiellement réalisable par des opérateurs non spécialisés plutôt que par des sessions de télé-opération coûteuses. Ce travail s'inscrit dans une vague de recherche visant à exploiter les corpus vidéo égocentrique à grande échelle (Ego4D, HOI4D, EPIC-Kitchens), jusqu'ici sous-utilisés pour le robot learning faute de géométrie objet exploitable. Les approches concurrentes en manipulation dextre reposent encore largement sur la télé-opération avec gants haptiques (Physical Intelligence avec pi0, Dexterous Manipulation Lab de CMU) ou sur des assets CAD (DITTO, DexMV). EgoAERO n'est à ce stade qu'un preprint, sans déploiement industriel annoncé ni validation sur une large variété d'objets du monde réel : les expériences rapportées restent sur des scènes contrôlées du benchmark HOI4D, et la robustesse à des objets déformables ou transparents reste à démontrer.

RecherchePaper
1 source