EgoMoD : prédire des cartes globales de…

PokeNet : apprentissage de modèles cinématiques d'objets articulés à partir d'observations humaines

39

1arXiv cs.RO

PokeNet : apprentissage de modèles cinématiques d'objets articulés à partir d'observations humaines

PokeNet, un nouveau framework de recherche présenté dans un article arXiv (2602.02741v2, version révisée), apprend le modèle cinématique complet d'un objet articulé à partir d'une seule démonstration humaine, sans connaissance préalable du nombre ou du type d'articulations. Le système reçoit une séquence d'observations en nuages de points capturant une personne en train de manipuler un objet inconnu (porte, tiroir, appareil à plusieurs axes), et en déduit trois choses simultanément : les paramètres des articulations (position et orientation des axes), l'ordre dans lequel les liaisons doivent être actionnées, et l'évolution de l'état de chaque articulation au fil du temps. Sur un ensemble d'objets variés, y compris des catégories jamais vues à l'entraînement, PokeNet améliore la précision d'estimation des axes et des états articulaires de plus de 27% en moyenne par rapport aux meilleures méthodes existantes, avec des résultats validés à la fois en simulation et en conditions réelles. L'enjeu dépasse la simple prouesse technique : la modélisation d'articulations est une brique de base pour toute manipulation robotique d'objets du quotidien, en amont de l'apprentissage de compétences ou de la planification de mouvements. Les approches précédentes butaient sur plusieurs limites pratiques, à commencer par la dépendance à des priors sur l'objet, l'incapacité à récupérer des articulations occultées qui ne se révèlent que pendant l'interaction, ou le besoin de dizaines d'images multi-vues par objet, difficilement compatible avec un déploiement réel. PokeNet s'attaque aussi à un point souvent négligé : l'ordre des manipulations, crucial pour des objets à plusieurs degrés de liberté comme un lave-vaisselle, où il faut ouvrir la porte avant de pouvoir sortir le panier. Un robot capable d'apprendre ce modèle à partir d'une simple démonstration humaine, sans instrumentation lourde, se rapproche d'un déploiement générique en environnement domestique ou industriel non structuré. Le travail s'inscrit dans la lignée des méthodes de "articulation modeling" qui cherchent à généraliser au-delà des catégories d'objets prédéfinies, un axe de recherche actif en robotique de manipulation ces dernières années. En s'appuyant uniquement sur une observation humaine plutôt que sur une exploration robotique coûteuse en essais, PokeNet ouvre la voie à des pipelines où un robot apprend par observation avant d'agir. Les auteurs ne précisent pas de calendrier d'intégration dans un système robotique complet, mais les résultats en environnement réel suggèrent une maturité suffisante pour des tests d'intégration à court terme sur des plateformes de manipulation existantes.

RecherchePaper

1 source

CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables

34

2arXiv cs.RO

CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables

Des chercheurs ont publié sur arXiv (identifiant arXiv:2602.21331v2) un modèle de simulation neuronal pour robots à câbles, baptisé CableRobotGraphSim. L'architecture repose sur un réseau de neurones graphiques (GNN) : les corps rigides du robot forment les noeuds du graphe, les câbles et les points de contact constituent les arêtes. Cette représentation permet au modèle d'inférer la dynamique du système à partir d'observations partielles uniquement, sans exiger un accès complet à l'état interne du robot. L'entraînement combine données de simulation et données réelles (sim-and-real co-training) pour améliorer la robustesse au bruit des capteurs. Le modèle est ensuite intégré à un contrôleur MPPI (Model Predictive Path Integral) pour la navigation en boucle fermée. L'abstract ne fournit aucune métrique quantitative précise sur la précision ou les temps de cycle, ce qui rend difficile toute évaluation indépendante des performances revendiquées. L'apport technique central est de s'affranchir des deux contraintes majeures des simulateurs traditionnels à base de premiers principes : l'exigence d'observabilité complète de l'état du robot, et la nécessité d'une identification paramétrique coûteuse. Pour les robots à câbles (CDPR, Cable-Driven Parallel Robots), utilisés notamment en logistique grande portée, en plateformes de simulation de mouvement et dans des projets de construction, ces contraintes ont historiquement bloqué le déploiement de pipelines sim-to-real fiables. Un modèle adaptatif capable d'ingérer des données bruitées et partiellement observées ouvre la voie à un transfert plus direct vers des applications industrielles réelles, en rapprochant la mécanique câblée des pipelines qui ont déjà transformé la manipulation et la locomotion bipedale. Les CDPR suscitent un intérêt croissant dans des contextes à grande échelle, du radiotélescope FAST en Chine aux projets logistiques en entrepôt. Sur le terrain de la simulation, les environnements généralistes comme MuJoCo, Isaac Sim de NVIDIA ou PyBullet modélisent mal la dynamique câble-contact, laissant un angle mort que cette approche data-driven spécialisée cherche à combler. Des travaux antérieurs avaient tenté des modèles analytiques ou d'apprentissage, sans traiter explicitement l'observabilité partielle. Le papier, en version v2, ne précise pas d'affiliation institutionnelle claire dans l'abstract et ne mentionne pas de dépôt open-source, deux éléments qui conditionneront son adoption réelle par la communauté robotique.

RecherchePaper

1 source

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

42

3arXiv cs.RO

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

PIEGraph est un modèle hybride de dynamique d'objets pour la manipulation robotique, présenté dans un preprint arXiv publié en mai 2025 (arXiv:2605.02699). Conçu pour opérer avec peu de données d'interaction réelles, il repose sur deux composants couplés : un modèle analytique basé sur des particules physiquement informé, implémenté comme un système masse-ressort, et un réseau de neurones graphique équivariant (GNN équivariant) qui exploite les symétries des interactions entre particules pour corriger et guider ce modèle analytique. Les objets sont représentés comme des ensembles de particules 3D, une convention répandue dans la recherche en manipulation d'objets déformables. PIEGraph a été évalué sur des tâches de réorientation et de repositionnement impliquant des cordes, du tissu, des peluches et des objets rigides, à la fois en simulation et sur hardware robotique physique, où il surpasse les approches de référence actuelles selon les auteurs. Le problème que PIEGraph cherche à résoudre est bien identifié dans le domaine : les modèles purement neuronaux de dynamique de particules perdent la cohérence physique sur des horizons temporels longs et exigent de larges volumes de données d'entraînement, deux contraintes rédhibitoires pour un déploiement industriel. L'approche hybride, avec des contraintes physiques analytiques comme biais inductif et une correction par GNN équivariant, démontre que l'intégration explicite de symétries et de lois physiques dans l'architecture améliore la généralisation à partir de peu d'expériences réelles. Pour les intégrateurs robotiques qui manipulent des pièces souples (textiles, câbles, joints), c'est un signal pertinent : le sim-to-real gap pour les objets déformables n'est pas uniquement un problème de qualité de simulation, mais aussi de structure du modèle d'apprentissage lui-même. La représentation d'objets par nuages de particules 3D est au cœur de travaux antérieurs comme DPI-Net, RoboCraft ou les approches issues de PlasticineLab. Les GNN purs ont montré leurs limites pour la prédiction à long terme et hors distribution d'entraînement. La direction "physique hybride et apprentissage" est partagée par plusieurs groupes, notamment autour de DiffTaichi et des formulations position-based dynamics (PBD). PIEGraph s'inscrit dans cette lignée en ajoutant l'équivariance comme levier supplémentaire de data-efficiency. Une limite notable : le résumé disponible ne quantifie pas précisément le nombre d'interactions réelles nécessaires, un chiffre décisif pour juger de l'applicabilité industrielle. Les prochaines étapes naturelles seraient de tester sur des tâches impliquant des contacts déformable-rigide et de publier ces métriques de sample efficiency.

RecherchePaper

1 source

MEMORA : mémoire d'action incarnée à partir de vidéos égocentriques pour le raisonnement et la planification

39

4arXiv cs.RO

MEMORA : mémoire d'action incarnée à partir de vidéos égocentriques pour le raisonnement et la planification

Des chercheurs présentent MEMORA, un système de mémoire d'action incarnée pour la planification robotique à long horizon, détaillé dans un article publié le 17 juillet 2026 sur arXiv (2607.14252v1). L'architecture repose sur un cycle formation-consolidation-récupération et quatre magasins de mémoire typés : Environment Memory (lieux), Entity Memory (identité et états des objets), Activity Memory (procédures répétées) et Inferred Knowledge (régularités déduites de l'expérience). Les auteurs ont construit MEMORA-Bench, évalué sur 45 heures de vidéos égocentriques issues d'une extension du jeu de données EPIC-KITCHENS-100 couvrant 18 participants, avec des tâches de planification ancrée en mémoire incluant des objectifs inédits. Testée sur quatre modèles de langage à poids ouverts, la version complète de MEMORA obtient les meilleurs résultats agrégés parmi toutes les conditions comparées, avec un gain jusqu'à 20,5 points de précision sur l'évaluation de mémoire et une amélioration relative jusqu'à 16,6% du score de plan ancré au robot en généralisation hors distribution. Une étude qualitative de déploiement sur deux tâches robotiques illustre l'interfaçage entre plans en langage naturel et contrôle réel. L'enjeu dépasse le simple score de benchmark. La plupart des modèles vision-langage-action actuels, de Pi-0 à GR00T N2 en passant par Helix, raisonnent surtout à partir de la scène présente, sans mémoire persistante des lieux, états d'objets ou procédures déjà rencontrées. Or planifier à long horizon dans un entrepôt, une cuisine industrielle ou un atelier suppose de se souvenir où est rangé tel outil ou quelle procédure a déjà fonctionné. En montrant qu'une mémoire éditable et consolidée améliore la généralisation à des objectifs inédits, MEMORA plaide pour une architecture hybride perception-action plus mémoire structurée, plutôt qu'un modèle unique de bout en bout. Pour les équipes de recherche robotique, le signal est que le goulot d'étranglement du raisonnement long horizon tient autant à l'absence de représentation persistante de l'expérience qu'à la politique d'action elle-même. Ce travail s'inscrit dans la recherche émergente sur l'agentivité incarnée à mémoire longue, en marge des humanoïdes commerciaux comme Figure 03 ou Optimus. À ce stade, MEMORA reste un travail académique évalué sur benchmark et testé qualitativement sur seulement deux tâches robotiques, loin d'un déploiement industriel. Les auteurs le positionnent comme complémentaire aux modèles VLA existants, une couche de contexte en amont plutôt qu'un concurrent. La suite logique serait une intégration à des pipelines VLA en conditions réelles et une extension du benchmark au-delà des tâches de cuisine, vers la logistique ou l'assemblage. Détails et code sur la page projet des auteurs.

RecherchePaper

1 source

EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales

À lire aussi

PokeNet : apprentissage de modèles cinématiques d'objets articulés à partir d'observations humaines

CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

MEMORA : mémoire d'action incarnée à partir de vidéos égocentriques pour le raisonnement et la planification