Aller au contenu principal
Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées
IA physiquearXiv cs.RO6sem

Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2506.01568, version 3) une méthode nommée "Trajectory First", un curriculum d'entraînement en deux étapes conçu pour produire des politiques comportementales diversifiées en apprentissage par renforcement (RL). La contribution centrale est l'introduction d'un a priori de trajectoires splines comme biais inductif durant la première phase : ce prior géométrique guide l'exploration de l'espace des comportements, permettant de générer un ensemble de stratégies à haute récompense mais distinctes. La seconde phase distille ces comportements en politiques réactives pas-à-pas, utilisables en temps réel. Les expériences valident l'approche sur des tâches de manipulation robotique en simulation, domaine où les méthodes de diversité contrainte existantes montrent des lacunes d'exploration marquées.

La diversité comportementale est un enjeu opérationnel concret pour les intégrateurs et les équipes de robotique industrielle : un robot capable de saisir un objet selon plusieurs stratégies est nettement plus robuste aux variations de position, d'éclairage ou de géométrie qu'un système limité à une unique politique apprise. Les cadres actuels d'optimisation de diversité contrainte, malgré leurs progrès théoriques, convergent fréquemment vers des optima locaux en manipulation dextre, bridant la robustesse effective des systèmes en production. "Trajectory First" propose une voie pour contourner cette limite sans sacrifier la performance sur la tâche principale, ce qui est précisément le compromis clef que la communauté cherche à résoudre depuis plusieurs années. L'approche ne nécessite pas d'entraînement spécifique à chaque configuration, ce qui renforce sa portée généraliste.

L'optimisation de diversité en RL s'est structurée autour de paradigmes comme Quality-Diversity (QD-RL), MAP-Elites, DIAYN ou DADS, qui peinent tous sur des espaces d'action continus à horizon long. "Trajectory First" s'inscrit dans un courant combinant curriculum learning et représentations géométriques du mouvement pour améliorer l'exploration initiale avant de contraindre la politique finale. Cette publication est une contribution de recherche fondamentale, validée en simulation uniquement, sans déploiement industriel ni partenaires commerciaux annoncés. Les extensions naturelles incluent le transfert sim-to-real et la manipulation bimanuelle, deux axes très actifs dans les laboratoires académiques (Inria, ETH Zurich, CMU) comme chez les acteurs industriels tels que Physical Intelligence (Pi-0), Covariant ou le Boston Dynamics AI Institute.

À lire aussi

RoboRouter : sélection de politiques sans entraînement pour la manipulation robotique
1arXiv cs.RO 

RoboRouter : sélection de politiques sans entraînement pour la manipulation robotique

Des chercheurs ont publié RoboRouter (arXiv:2603.07892, version 4), un système de routage intelligent entre politiques robotiques hétérogènes pour les tâches de manipulation. Plutôt que d'entraîner une nouvelle politique monolithique, RoboRouter maintient un pool de politiques existantes -- modèles vision-langage-action (VLA), politiques vision-action (VA) et approches compositionnelles par code -- et sélectionne automatiquement la meilleure pour chaque nouvelle tâche. Le mécanisme repose sur une représentation sémantique de la tâche, une recherche dans l'historique d'exécutions similaires, puis une prédiction directe sans trial-and-error. Le retour structuré après chaque exécution affine les décisions suivantes. En simulation et en conditions réelles, RoboRouter améliore le taux de succès moyen de plus de 3 points en simulation et de 13 points en environnement réel par rapport aux politiques individuelles, sans dégradation de la vitesse d'exécution. Intégrer une nouvelle politique dans le système ne requiert qu'une évaluation légère, sans coût de réentraînement. Ce résultat a une portée concrète pour les intégrateurs. Le problème central de la manipulation robotique est que chaque paradigme excelle sur sa distribution d'entraînement mais généralise mal hors distribution. RoboRouter contourne ce mur non pas en cherchant un meilleur modèle universel, mais en exploitant les forces complémentaires de politiques spécialisées existantes. Le gain de 13 % en réel est notable car le sim-to-real gap ronge habituellement les gains obtenus en simulation. L'absence de réentraînement signifie que le système peut absorber de nouveaux modèles au fil du temps -- une propriété utile à mesure que les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) sortent des cycles de recherche pour entrer en déploiement. Ce travail prend place dans un contexte de prolifération rapide des paradigmes de contrôle robotique. Les équipes de Figure (Figure 03), Tesla (Optimus Gen 3) ou 1X parient sur l'unification via un seul grand modèle entraîné à grande échelle. RoboRouter incarne une thèse adverse: l'hétérogénéité contrôlée, avec un orchestrateur léger, peut surpasser la politique unique sans le coût computationnel associé. Les auteurs ne précisent pas de déploiement industriel annoncé ni de partenariats, ce qui place cette contribution dans le registre recherche applicable plutôt que produit shipé. Les prochaines étapes naturelles seraient l'évaluation sur des benchmarks standardisés plus larges (LIBERO, RoboSuite) et l'intégration de politiques récentes à mesure qu'elles sont rendues publiques.

IA physiqueOpinion
1 source
Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA
2arXiv cs.RO 

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Des chercheurs ont publié mi-mai 2026 sur arXiv (référence 2605.11459) une méthode baptisée "Pace-and-Path Correction" pour corriger un angle mort structurel des modèles VLA (Vision-Language-Action). Ces modèles, socle technique des bras manipulateurs de nouvelle génération, sont entraînés sur des observations à image unique (single-frame), ce qui les rend incapables de percevoir les dynamiques temporelles lors de l'exécution d'une séquence planifiée. En pratique, dès qu'un objet bouge pendant que le robot exécute un "action chunk", les performances chutent sévèrement, même après fine-tuning sur des datasets dynamiques. L'opérateur proposé s'applique à l'inférence sans ré-entraînement, comme une couche wrapper autour de tout VLA à action chunking, et se décompose en deux canaux orthogonaux issus d'une minimisation de coût quadratique unique : un canal "pace" compressant l'exécution le long de la trajectoire prévue, et un canal "path" appliquant un décalage spatial orthogonal pour absorber les perturbations dynamiques dans la fenêtre temporelle du chunk. Évalué sur MoveBench, un benchmark conçu pour isoler le mouvement comme seule variable contrôlée, la méthode améliore le taux de succès de 28,8 points de pourcentage en environnement purement dynamique et de 25,9 points en contexte mixte statique-dynamique, surpassant les VLAs de base ainsi que les approches dynamiques-adaptatives existantes. L'enjeu est directement opérationnel : les VLAs actuels comme pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de Nvidia peinent dès qu'un convoyeur avance ou qu'un opérateur interfère avec la scène, soit le cas standard en environnement industriel réel. Corriger ce "dynamics gap" exigeait jusqu'ici un ré-entraînement coûteux, souvent rédhibitoire pour un intégrateur sans infrastructure ML dédiée. Le caractère training-free de Pace-and-Path Correction signifie qu'elle peut s'intégrer sur un modèle déjà déployé sans modifier les poids ni la pipeline d'apprentissage, abaissant drastiquement la barrière d'adoption pour des déploiements en conditions réelles. La "dynamics-blindness" des VLAs est une critique récurrente depuis l'émergence de pi-0 et OpenVLA en 2024-2025, la majorité des démonstrations publiques ayant lieu sur scènes statiques et laissant ouvert le demo-to-reality gap dès que les conditions industrielles se compliquent. Ce travail s'inscrit dans la course à la manipulation robuste que se livrent Nvidia, Figure (Figure 03), Boston Dynamics et 1X Technologies. Aucun acteur français n'est directement cité, mais les conclusions intéressent des intégrateurs comme Exotec et des équipes de recherche comme le LAAS-CNRS travaillant sur la manipulation en environnement non-structuré. La prochaine étape logique est une validation sur hardware réel - le papier reste à ce stade un benchmark simulé - et une intégration dans des stacks open-source comme LeRobot de Hugging Face.

UELes équipes LAAS-CNRS travaillant sur la manipulation non-structurée et des intégrateurs comme Exotec pourraient adopter cette correction sans ré-entraînement pour améliorer la robustesse de déploiements VLA en environnement industriel dynamique, sans infrastructure ML dédiée.

💬 Le dynamics gap des VLAs, on le connaissait depuis l'émergence de pi-0 : dès qu'un objet bouge pendant l'exécution d'un chunk, c'est la déroute. Ce qui change ici, c'est que la correction s'applique à l'inférence sans toucher aux poids, comme une couche qu'on pose par-dessus n'importe quel modèle déjà déployé. +28 points sur MoveBench, training-free : si ça tient sur hardware réel, les intégrateurs n'ont plus d'excuse pour rester sur des scènes statiques.

IA physiqueOpinion
1 source
ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde
3arXiv cs.RO 

ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (2606.16542) une méthode baptisée ADAPT (Analytical Disturbance-Aware Policy Training), destinée à améliorer la robustesse locomotrice des robots humanoïdes soumis à des perturbations externes. Le système a été validé sur un Unitree G1 dans trois scénarios représentatifs : poussées au niveau du torse, perturbations en posture statique, et charges asymétriques appliquées aux mains. Dans chaque cas, ADAPT surpasse une politique de référence basée uniquement sur la proprioception (capteurs internes articulaires), avec un meilleur suivi de vitesse et une meilleure stabilité, y compris face à des perturbations hors distribution, c'est-à-dire non rencontrées lors de l'entraînement. La méthode n'exige aucun capteur de force/couple externe : elle s'appuie uniquement sur la dynamique interne du robot pour estimer en ligne les résidus de force et de couple appliqués au corps entier. L'intérêt technique d'ADAPT tient à son observateur de perturbations analytique, fondé sur la physique du corps rigide plutôt que sur un réseau de neurones ou une large randomisation de domaine. Les approches existantes présentent chacune un défaut structurel : la randomisation de domaine dégrade la précision, les objectifs de force spécifiques à une tâche limitent la transférabilité, et les estimateurs appris depuis l'historique de mouvement peinent hors distribution. ADAPT contourne ces compromis en fournissant à la politique un signal d'entrée explicite et physiquement fondé sur les forces et couples perturbateurs estimés, ce qui lui permet de se généraliser à des scénarios jamais vus. Un bénéfice secondaire notable : en pénalisant les perturbations inférées au niveau des articulations inférieures, le système favorise une locomotion plus légère, réduisant les impacts au sol, ce qui peut prolonger la durée de vie mécanique et améliorer la discrétion sonore en milieu de travail. Le Unitree G1 est une plateforme humanoïde commerciale abordable, largement utilisée dans la recherche sur la locomotion apprise, ce qui confère à ces résultats une portée pratique directe. Ce travail s'inscrit dans une tendance plus large où les laboratoires cherchent à combler le fossé sim-to-real sans ajouter de capteurs coûteux, une contrainte forte pour les déploiements industriels à grande échelle. Côté concurrence, des approches similaires ont été explorées par des équipes travaillant sur Boston Dynamics Atlas, Agility Robotics Digit et les humanoïdes Figure et 1X, mais souvent avec des capteurs de force dédiés. ADAPT représente une direction sensorless qui, si elle se confirme sur d'autres plateformes, pourrait simplifier l'intégration matérielle. L'article étant un preprint arXiv non encore évalué par les pairs, la reproductibilité reste à confirmer indépendamment, et les conditions exactes des expériences (vitesses testées, amplitude des poussées) ne sont pas précisées dans le résumé disponible.

IA physiquePaper
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
4arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source