Traduction du titre :

55

1arXiv cs.RO

Titre traduit :

Une équipe de recherche présente ELMP (Efficient Learning for Motion Planning), une méthode d'apprentissage pour l'adaptation rapide des planificateurs de mouvement neuronaux (Neural Motion Planners, NMP) à de nouveaux environnements. Le problème identifié : recolter de nouvelles trajectoires expertes via des planificateurs globaux classiques pour chaque nouvel environnement coûte cher en calcul. ELMP contourne cette étape en optimisant directement la politique via une couche cinématique différentiable, avec des objectifs denses de collision, d'atteinte de cible et de fluidité, remplaçant ainsi la génération de données expertes par un simple échantillonnage de problèmes. Résultat : le coût d'adaptation par échantillon chute d'environ deux ordres de grandeur. Les auteurs ajoutent un mécanisme encodant explicitement la géométrie des outils via des nuages de points, pour généraliser à des chaînes cinématiques changeantes. Sur des benchmarks comparés à des baselines classiques et neuronales, ELMP atteint un taux de réussite moyen de 84,8%, avec une latence de démarrage à froid inférieure de plusieurs ordres de grandeur aux méthodes classiques. Sur des environnements inédits, le fine-tuning auto-supervisé fait passer le taux de réussite de 57,3% en zero-shot à 89,8%. La latence d'inférence reste de l'ordre de la milliseconde, et la méthode a été validée sur un bras robotique physique Franka Emika Panda. Ce travail s'attaque directement au goulot d'étranglement des planificateurs de mouvement neuronaux : leur dépendance à de vastes jeux de trajectoires expertes, coûteux à générer et à recollecter dès qu'un environnement ou un outil change. En réduisant le coût d'adaptation de deux ordres de grandeur tout en conservant une inférence milliseconde, ELMP rapproche les NMP d'un usage industriel réaliste, où les cellules robotiques changent fréquemment de configuration (nouvel outil, nouvelle disposition d'obstacles, nouvelle chaîne cinématique). Pour les intégrateurs et les équipes R&D en robotique manipulatrice, l'enjeu est concret : pouvoir redéployer un planificateur appris sur une nouvelle tâche sans repasser par des semaines de collecte de données ni par un planificateur global lent en temps réel. La validation sur un bras physique Panda, plutôt qu'uniquement en simulation, renforce la crédibilité du résultat, même si l'écart habituel entre benchmarks contrôlés et conditions industrielles réelles (encombrement, capteurs bruités, cadences de production) reste à vérifier à plus grande échelle. Les planificateurs de mouvement neuronaux se sont imposés ces dernières années comme alternative rapide aux méthodes classiques d'échantillonnage ou d'optimisation (RRT, CHOMP, planificateurs basés sur des solveurs), au prix d'un entraînement gourmand en données expertes générées hors ligne. ELMP s'inscrit dans une lignée de travaux cherchant à rendre ces modèles adaptables sans réentraînement lourd, en s'appuyant sur des gradients de politique analytiques et des couches différentiables plutôt que sur de l'apprentissage par renforcement classique ou de l'imitation pure. La comparaison directe avec des baselines classiques et neuronales situe la contribution dans le sillage des efforts récents pour combiner rapidité d'inférence et robustesse à la généralisation, un axe suivi par plusieurs laboratoires travaillant sur la manipulation robotique généraliste. Les prochaines étapes attendues incluent des tests sur des bras à davantage de degrés de liberté, des scénarios multi-outils plus complexes, et une évaluation en conditions de production réelles au-delà du cadre de laboratoire présenté ici.

RecherchePaper

1 source

$$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction$

38

2arXiv cs.RO

$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction

Des chercheurs présentent μ₀ (mu-zéro), un modèle mondial 3D à base de traces d'interaction, publié en préprint sur arXiv (2506.13769) en juin 2025. Plutôt que de reconstruire des pixels denses comme les modèles vidéo, ou d'exiger des étiquettes d'action spécifiques à chaque morphologie robotique, μ₀ prédit des trajectoires 3D lisses pour des points saillants : objets, outils, mains et zones de contact, encodées en points de contrôle B-spline. Le système TraceExtract extrait automatiquement cette supervision depuis des vidéos diversifiées, en sélectionnant des points clés, construisant des traces alignées globalement et associant chaque segment à des légendes linguistiques hiérarchiques. L'architecture couple un backbone vision-langage préentraîné à un expert de traces modulaire. Dans les expériences de laboratoire, μ₀ dépasse les baselines en prédiction de traces 2D et 3D, y compris les approches VLM tokenisées. L'enjeu central est l'interopérabilité cross-embodiment : permettre à une politique robotique d'opérer sur différentes morphologies sans données d'action spécifiques. Les VLA comme π₀ de Physical Intelligence ou GR00T N2 de NVIDIA nécessitent des téléopérations coûteuses pour étiqueter les actions, freinant la scalabilité. μ₀ contourne ce verrou en apprenant une représentation intermédiaire agnostique à l'embodiment, couplable ensuite à des experts d'action légers par morphologie cible. Résultat notable : malgré un préentraînement entièrement sans étiquettes d'action, les politiques trace-conditionnées atteignent des performances compétitives avec π₀, un VLA entraîné avec supervision d'action complète. Si cette généralisation se confirme à l'échelle, des politiques de manipulation pourraient être entraînées massivement sur des vidéos génériques, humaines ou issues de la simulation, sans collecte de données robot-spécifiques. La robotique de manipulation cherche depuis des années à s'affranchir des données proprioceptives labellisées, coûteuses à collecter. Deux approches dominent actuellement : les modèles vidéo pixel-dense comme UniSim ou Genie, et les VLA directs comme OpenVLA, π₀ ou GR00T N2, chacun présentant ses propres limites de scalabilité ou de spécificité. μ₀ propose un troisième espace latent, la trace 3D compacte, entraînable sur des vidéos brutes. Les concurrents les plus proches incluent les travaux de point-tracking tels que TAPIR et CoTracker, ainsi que les modèles d'action en espace latent. Le papier reste un préprint de laboratoire sans déploiement industriel annoncé, et la robustesse en environnement réel non contrôlé reste à démontrer. Les prochaines étapes logiques incluent la validation sur des flottes multi-robots hétérogènes et l'intégration dans des pipelines d'imitation learning à grande échelle.

RechercheOpinion

1 source

50

3arXiv cs.RO

Traduction du monde des demonstrations spatio-temporelles pour systèmes d'Euler-Lagrange inconnus, apprentissage à partir de démonstrations via tubes spatio-temporels

Voici l'article traduit et résumé en français : Des chercheurs présentent STT-LfD, un nouveau cadre d'apprentissage par démonstration (Learning from Demonstration) qui unifie l'apprentissage du mouvement et le contrôle pour des systèmes Euler-Lagrange dont la dynamique reste inconnue, c'est-à-dire la plupart des robots mobiles et manipulateurs industriels réels. Publié sur arXiv (2607.00534) début juillet 2026, l'article décrit une méthode qui s'appuie sur des processus gaussiens hétéroscédastiques pour apprendre des tubes spatio-temporels, une enveloppe qui encode les exigences de précision variables dans le temps d'une tâche démontrée. Un contrôleur en boucle fermée, à forme close, applique ensuite ces contraintes tout en respectant les limites physiques des actionneurs, sans passer par une identification explicite du système. Les auteurs valident l'approche sur deux plateformes matérielles : un robot mobile et un bras manipulateur à 7 degrés de liberté (DOF), et rapportent de meilleures performances que les méthodes de référence en robustesse face aux perturbations et en vitesse de calcul. L'enjeu dépasse la seule prouesse technique. Les approches classiques d'apprentissage par démonstration découplent généralement la planification de mouvement du contrôle : elles apprennent une trajectoire de référence fixe, puis la suivent avec un contrôleur classique, quitte à perdre en robustesse dès qu'une perturbation survient. STT-LfD renverse la logique en traitant la démonstration elle-même comme une spécification de sécurité pilotée par les données, plutôt que comme une cible rigide à reproduire. Pour les intégrateurs industriels, l'intérêt pratique est de pouvoir déployer un contrôleur performant sans phase coûteuse d'identification dynamique du système, un frein courant au déploiement rapide de bras manipulateurs ou de robots mobiles sur des lignes hétérogènes. Cela va dans le sens d'une tendance plus large en robotique : réduire la dépendance à des modèles physiques précis au profit de méthodes data-driven plus rapides à mettre en œuvre. Le travail s'inscrit dans la lignée des recherches sur les tubes de sécurité et le contrôle par barrières (funnel control), déjà explorées pour garantir des performances sous incertitude, mais appliquées ici spécifiquement au cadre de l'apprentissage par démonstration. Il reste à ce stade un résultat de recherche académique, publié en prépublication sans revue par les pairs, testé sur un nombre limité de plateformes matérielles en laboratoire. Les prochaines étapes attendues concernent l'extension à des tâches de manipulation plus complexes et la comparaison directe avec des architectures d'apprentissage de politiques plus récentes, du type transformeurs vision-langage-action, sur des benchmarks communs.

RecherchePaper

1 source

Discussion sur la prédiction de trajectoires conditionnelles

37

4arXiv cs.RO

Discussion sur la prédiction de trajectoires conditionnelles

Des chercheurs ont déposé en avril 2026 sur arXiv (référence 2604.18126) une nouvelle méthode de prédiction de trajectoire conditionnelle baptisée CiT, pour Cross-time-domain intention-interactive method for conditional Trajectory prediction. L'objectif est de permettre à un robot évoluant parmi des humains ou d'autres agents mobiles de prédire précisément leurs trajectoires futures, en tenant compte non seulement de leurs interactions sociales mutuelles, mais aussi du mouvement propre du robot lui-même. Le système génère un ensemble de trajectoires candidates pour chaque agent environnant, en fonction des intentions de déplacement possibles de l'ego agent. Testé sur plusieurs benchmarks standards du domaine, CiT dépasse selon ses auteurs les méthodes de l'état de l'art existantes. La distinction centrale de CiT par rapport aux approches concurrentes réside dans l'intégration explicite du mouvement de l'ego agent dans la boucle de prédiction. La quasi-totalité des méthodes existantes modélisent les interactions sociales à partir d'informations statiques, ignorant le fait que le robot lui-même modifie le comportement des agents qui l'entourent. CiT s'inspire du concept de "théorie de l'esprit" en robotique sociale : chaque agent anticipe les intentions des autres pour ajuster les siennes. Techniquement, la méthode opère une analyse conjointe des intentions comportementales sur plusieurs domaines temporels, permettant aux informations d'interaction d'un domaine de corriger et affiner les estimations d'intention de l'autre. Cette complémentarité temporelle est présentée comme le levier principal du gain de performance. Pour des intégrateurs de systèmes de navigation autonome ou de robots collaboratifs (cobots), cette capacité à modéliser la réciprocité comportementale est directement exploitable dans des modules de planification de chemin et de contrôle. La prédiction de trajectoire conditionelle est un champ de recherche en pleine activité, alimenté par les besoins des véhicules autonomes et de la robotique de service. Des équipes comme Waymo, NVIDIA (avec son framework Isaac Perceptor) ou des laboratoires académiques comme Stanford et ETH Zurich ont posé les bases de la modélisation sociale de trajectoires. CiT s'inscrit dans cette lignée en ciblant explicitement les systèmes d'interaction humain-robot, un segment distinct des systèmes véhiculaires. L'article reste à ce stade un preprint non évalué par les pairs, sans données de déploiement réel ni validation hors benchmarks publics, ce qui limite l'interprétation des résultats annoncés. Les prochaines étapes naturelles seraient une validation en conditions réelles et une intégration dans des architectures ROS2 ou similaires.

RecherchePaper

1 source

Traduction du titre :

À lire aussi

Titre traduit :

$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction

Traduction du monde des demonstrations spatio-temporelles pour systèmes d'Euler-Lagrange inconnus, apprentissage à partir de démonstrations via tubes spatio-temporels

Discussion sur la prédiction de trajectoires conditionnelles