Aller au contenu principal
RecherchearXiv cs.RO1h

Exploration de poses-clés : étiquetage automatique de trajectoires et transfert de politique entre robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv en juin 2026 une méthode d'étiquetage automatique de trajectoires pour la manipulation robotique, baptisée Keypose Exploration. Le pipeline combine des modèles vision-langage (VLM) pour la détection sémantique d'événements avec une analyse classique de trajectoire pour l'alignement temporel précis, en limitant l'inférence VLM à une seule démonstration par tâche parmi des répétitions. Les données labellisées entraînent une Diffusion Policy (DP) guidée par keyposes, des points de passage critiques qui décomposent des tâches longues en sous-étapes apprenables. Le transfert inter-embodiment est également exploré : des keyposes candidates sont filtrées via une carte d'accessibilité cinématique (reachability map) pour n'orienter la politique que vers des configurations atteignables par le robot cible. Les résultats préliminaires portent sur deux tâches du benchmark robomimic en simulation (assemblage et insertion multimodale).

L'annotation manuelle des données de démonstration reste un goulot d'étranglement majeur pour le déploiement de politiques de manipulation à l'échelle industrielle. Réduire l'inférence VLM à un seul exemple par tâche est une contribution pragmatique pour industrialiser l'apprentissage par imitation sans exploser les coûts de labellisation. Sur le transfert inter-embodiment, les conclusions restent prudentes : le conditionnement par keyposes filtrés cinématiquement "peut bénéficier" au transfert zéro-shot sur l'insertion multimodale, mais seulement "lorsque des candidats faisables sont disponibles", une restriction importante que les auteurs reconnaissent explicitement. Il s'agit d'une étude de faisabilité préliminaire en simulation, sans validation sur robots physiques.

Ce travail s'inscrit dans l'écosystème de la Diffusion Policy (Chi et al., Columbia/MIT, 2023), devenue socle expérimental standard pour la manipulation généraliste. Le transfert inter-embodiment est un défi structurant du secteur où Physical Intelligence (π0), Google DeepMind (RT-2) et NVIDIA (GR00T N2) investissent massivement pour réduire le coût de re-spécialisation d'une politique entre robots distincts. Le benchmark robomimic (Mandlekar et al., Stanford/NVIDIA) est un standard de simulation, mais le gap sim-to-real reste non adressé dans cet article, et la suite logique serait une validation sur des robots physiques avec mesure de taux de réussite en conditions réelles.

À lire aussi

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données
1arXiv cs.RO 

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion
1 source
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
2arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert
3arXiv cs.RO 

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Des chercheurs ont publié sur arXiv (arXiv:2606.10743, juin 2026) HOWTransfer, un cadre algorithmique centré sur la main pour transférer des démonstrations humaines filmées en trajectoires exécutables par un bras robotique. Le système fonctionne en trois étapes : reconstruction 3D temporellement cohérente du mouvement du poignet humain, localisation automatique des intervalles de contact main-objet à partir de cues visuels d'interaction, puis génération d'hypothèses de saisie en pince parallèle (parallel-jaw grasp) propagées le long de la trajectoire du poignet. Une phase finale d'édition raffine l'alignement de contact et produit plusieurs variantes exécutables depuis une seule vidéo de démonstration. Sur un ensemble de tâches de manipulation variées, le système atteint 86 % de taux de succès et est préféré aux trajectoires téléopérées dans une étude comparative en aveugle. Ce résultat mérite attention parce qu'il attaque directement le goulot d'étranglement principal du learning from demonstration (LfD) : collecter suffisamment de données de qualité. La téléopération reste coûteuse, lente et non scalable en industrie ; si un système peut extraire des trajectoires robotes directement depuis des vidéos de travailleurs humains filmés sur une chaîne d'assemblage ou en entrepôt, le coût d'entrée pour déployer de la manipulation apprise s'effondre. Fait notable : HOWTransfer ne s'appuie pas sur des descripteurs d'objets prédéfinis ni sur un tracking d'état explicite, ce qui le rend potentiellement généraliste sur des objets non vus. Le 86 % de succès annoncé est encourageant, mais les conditions expérimentales exactes (diversité des objets, profondeur de la caméra, nombre de tâches, robot cible) ne sont pas précisées dans le résumé, ce qui justifie une lecture du papier complet avant toute intégration industrielle. Le transfert de démonstration humaine vers robot via vidéo est un domaine en pleine effervescence depuis 2022-2023, porté par des travaux comme DROID, RoboAgent ou les approches VLA (Vision-Language-Action) de Google DeepMind et Physical Intelligence (Pi-0). HOWTransfer se distingue en adoptant une approche sans modèle de langage ni segmentation objet, ce qui le rend plus léger mais aussi plus fragile sur les scènes encombrées. Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit pour l'instant d'un preprint académique, pas d'un produit. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Franka, UR, ou humanoïdes comme Figure 03 ou Unitree G1) et une évaluation sur des benchmarks standardisés comme RLBench ou LIBERO pour situer la performance par rapport à l'état de l'art.

RecherchePaper
1 source
Apprentissage d'une politique de suivi de trajectoire asynchrone dans l'espace des tâches du haut du corps pour robots humanoïdes
4arXiv cs.RO 

Apprentissage d'une politique de suivi de trajectoire asynchrone dans l'espace des tâches du haut du corps pour robots humanoïdes

Des chercheurs ont publié le 25 juin 2026 sur arXiv (preprint 2606.25706) un cadre de contrôle baptisé "asynchronous upper body task-space tracking" pour robots humanoïdes. Le problème qu'ils adressent est architectural : les planificateurs de haut niveau génèrent des trajectoires dans l'espace des tâches à faible fréquence (quelques Hz), alors que les contrôleurs de corps entier tournent à haute fréquence (typiquement plusieurs centaines de Hz). Cette désynchronisation temporelle entre planification et exécution produit des dérives de référentiel et des incohérences dans le contrôle. Pour y remédier, l'équipe propose une politique étudiante initialisée par distillation enseignant-étudiant, conditionnée sur la trajectoire future complète mise en cache et un index d'exécution temporel, puis entraînée avec une récompense globale à fenêtre glissante. Un module MPC (Model Predictive Control) complète les références creuses en guidage corps flottant et membre supérieur, tandis que des contraintes au niveau des actions et de la cinématique directe (FK) limitent la dérive de la politique. Les expériences ont été conduites en simulation et sur le robot Unitree G1, un humanoïde commercial à 23 degrés de liberté. Ce travail touche un goulot d'étranglement concret qui freine la commercialisation des humanoïdes : la chaîne planification-exécution reste fragmentée dans la quasi-totalité des architectures actuelles, forçant des compromis entre réactivité et cohérence de mouvement. Le fait que la politique obtienne de meilleures performances que les baselines synchrones et découplées, et qu'elle s'adapte plus sûrement aux mouvements hors distribution, suggère une progression vers un déploiement robuste en environnement non contrôlé. L'approche sans estimation explicite de référentiel réduit aussi la charge computationnelle, ce qui est pertinent pour les intégrateurs industriels cherchant à embarquer le traitement. Toutefois, il s'agit d'un preprint non encore évalué par les pairs, et les métriques de suivi de trajectoire présentées restent contextualisées à des scénarios de laboratoire ; la généralisabilité à des tâches industrielles réelles reste à démontrer. Unitree Robotics, fabricant chinois fondé en 2016, s'est imposé comme fournisseur de plateformes de recherche abordables avec des robots quadrupèdes puis le G1 humanoïde. Ce contexte explique le choix du matériel : le G1 est accessible à de nombreux labos académiques, ce qui élargit la portée reproductible des résultats. Sur le fond, la course à la maîtrise du pipeline planification-exécution pour les humanoïdes mobilise simultanément Figure (02 et bientôt 03), Tesla Optimus, Agility Robotics, 1X Technologies et les laboratoires académiques liés à Physical Intelligence (Pi-0) et à NVIDIA (GR00T N2). La distillation enseignant-étudiant couplée au MPC comme module de complétion de trajectoire s'inscrit dans une tendance plus large : combler le sim-to-real gap par des architectures hybrides apprises/optimisées plutôt que par du RL pur. Les prochaines étapes naturelles seraient une validation sur des cycles de manipulation répétitifs en cadence industrielle et une intégration avec des VLA (Vision-Language-Action models) pour fermer la boucle perception-planification-exécution.

RecherchePaper
1 source