Aller au contenu principal
HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique
RecherchearXiv cs.RO1h

HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent HORIZON (arXiv:2606.05143, juin 2026), un curriculum d'entraînement pour politiques robotiques qui régule l'expansion des domaines physiques via un principe de recouvrabilité. Évalué sur la locomotion quadrupède, HORIZON remplace la randomisation fixe des paramètres physiques par un processus de frontière adaptative : la politique n'est exposée à des conditions dynamiques plus difficiles que si elle reste capable de générer des données correctrices à partir de ces nouvelles conditions, sans s'effondrer en échecs irrécupérables. Concrètement, le curriculum s'étend par étapes vérifiées avec mécanisme de rollback si la frontière de recouvrabilité est franchie, transformant une randomisation statique en croissance continue du domaine physique.

L'article documente trois régularités qui contredisent des pratiques répandues. Premièrement, l'élargissement direct des domaines est non uniforme selon les axes physiques et souvent impossible à apprendre sans ordonnancement progressif. Deuxièmement, la composition de domaines est non monotone : au-delà d'un noyau compact, ajouter des domaines supplémentaires dilue les échantillons recouvrables conjoints et dégrade la robustesse globale plutôt que de l'améliorer. Troisièmement, la distillation hors-politique d'experts isolés ne peut pas substituer l'interaction jointe produite par le curriculum on-policy. Ces résultats ont des implications directes pour les équipes sim-to-real : la stratégie courante "plus de randomisation égale plus de robustesse" est invalidée dans certains régimes, et la séquence d'exposition aux domaines devient un paramètre de conception critique au même titre que l'architecture du réseau.

Le sim-to-real gap reste l'un des verrous centraux de la robotique embodied. Les approches de domain randomization, popularisées notamment par OpenAI et ETH Zurich avec ANYmal, postulaient qu'une couverture suffisamment large des variations physiques produit des politiques robustes. HORIZON s'inscrit dans un courant émergent qui déplace le facteur limitant de la couverture vers la recouvrabilité. Les travaux concurrents incluent les curriculums adaptatifs ALP-GMM et PAIRED, ainsi que les approches teacher-student. La méthode est présentée sur le quadrupède mais les auteurs suggèrent une généralisation à d'autres plateformes embodied. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit d'une contribution de recherche fondamentale, sans produit ni annonce commerciale associée.

Dans nos dossiers

À lire aussi

EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon
1arXiv cs.RO 

EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon

Une équipe de chercheurs propose EvolvingAgent, un agent incarné conçu pour accomplir des tâches à horizon long (Long-Horizon, LH) dans des mondes ouverts, sans intervention humaine. Publié sur arXiv (2502.05907, version 3), le système repose sur trois modules en boucle fermée : un planificateur de tâches piloté par les expériences accumulées, qui utilise un LLM pour décomposer une tâche complexe en sous-tâches exécutables ; un contrôleur d'actions guidé par un World Model (WM) continu, chargé de générer les actions de bas niveau et de mettre à jour automatiquement la base d'expériences multimodales via un mécanisme de vérification interne ; et un réflecteur fondé sur l'apprentissage par curriculum (Curriculum Learning, CL) en deux étapes, qui sélectionne les expériences pertinentes pour adapter le WM à chaque nouvelle tâche. Les expériences ont été conduites principalement sur Minecraft, environnement de référence pour les agents incarnés. Résultats revendiqués : +111,74 % de taux de succès moyen par rapport aux approches existantes, réduction d'un facteur supérieur à 6 des actions inefficaces, et généralisation à l'environnement Atari avec des performances comparables au niveau humain. L'apport central d'EvolvingAgent est de s'attaquer simultanément à deux limitations bien documentées dans la littérature : la dépendance aux curricula et données créés par l'humain, et l'oubli catastrophique lors de l'exposition à de nouvelles tâches. La boucle planificateur-contrôleur-réflecteur permet une mise à jour autonome des connaissances du monde sans réentraînement explicite. Pour les chercheurs en IA incarnée et les équipes travaillant sur des agents opérationnels en environnement dynamique (robotique industrielle, systèmes autonomes), cela représente un pas vers une adaptabilité continue sans supervision humaine permanente. Le gain de +111,74 % est néanmoins à contextualiser : il s'appuie sur Minecraft, un sandbox 3D simulé, et les vidéos ou démonstrations n'ont pas été publiées en open access à ce stade. Les travaux sur les agents LH en monde ouvert ont connu une accélération notable depuis Voyager (2023, Microsoft/UT Austin, GPT-4), DEPS, et les approches basées sur des planificateurs symboliques. EvolvingAgent s'inscrit dans ce courant en remplaçant la supervision humaine par une boucle d'auto-amélioration multimodale. Côté concurrent, des systèmes comme GROOT (vidéo-conditionné) ou les agents Minecraft basés sur MineRL continuent de servir de baseline. L'article reste à ce stade un preprint arXiv (v3, sans revue par les pairs confirmée), et aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des environnements physiques simulés (Isaac Sim, MuJoCo) ou des robots réels, pour mesurer le sim-to-real gap de l'approche.

RecherchePaper
1 source
Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes
2arXiv cs.RO 

Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes

Une équipe de chercheurs a déposé le 1er mai 2026 sur arXiv (référence 2605.00416) un cadre d'apprentissage par renforcement appelé Learning While Deploying (LWD), conçu pour améliorer en continu des politiques généralisées de type Vision-Language-Action (VLA) directement en conditions réelles. Le système a été validé sur une flotte de 16 robots à deux bras, engagés sur huit tâches de manipulation en environnement physique, dont le réassort sémantique de produits d'épicerie et des séquences longues de 3 à 5 minutes. Partant d'une politique VLA pré-entraînée hors ligne, LWD collecte les rollouts autonomes et les corrections humaines réalisés sur l'ensemble de la flotte, puis les intègre dans un cycle continu d'amélioration et de redéploiement. Techniquement, le framework combine le Distributional Implicit Value Learning (DIVL), pour une estimation de valeur robuste sur des données hétérogènes à récompense sparse, avec le Q-learning via Adjoint Matching (QAM), adapté aux générateurs d'actions de type flow-based. Au terme de l'accumulation d'expérience de flotte, la politique généraliste unique atteint un taux de succès moyen de 95 %, les gains les plus marqués étant observés sur les tâches longue durée. Ce résultat est significatif non parce qu'il affiche un chiffre élevé, mais parce qu'il démontre que l'écart entre données d'entraînement et déploiement réel peut être réduit par apprentissage continu in situ. Les politiques VLA, de plus en plus utilisées comme backbone généralisé en robotique manipulation, souffrent d'un problème bien identifié : les datasets de démonstration fixes ne capturent ni les variations de distribution rencontrées sur le terrain, ni les pannes rares, ni les corrections opérateur. LWD formalise un pipeline où ces signaux de terrain sont directement réintégrés dans la boucle d'entraînement, sans nécessiter une phase offline séparée. Pour un intégrateur ou un COO industriel, la promesse est concrète : une flotte déployée s'améliore d'elle-même à mesure qu'elle travaille, et les interventions humaines alimentent le modèle plutôt que d'être perdues. Cette publication s'inscrit dans une course active à la post-formation de politiques VLA pour la manipulation robotique. Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou 1X Technologies investissent tous dans des politiques généralisées robustes au transfert réel. Le point de différenciation de LWD est le paradigme fleet-scale : là où la majorité des travaux publiés portent sur un ou deux robots en laboratoire, les auteurs valident leur approche sur 16 unités en parallèle. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans le preprint, et les vidéos de démonstration n'ont pas été évaluées de manière indépendante, ce qui invite à traiter ces résultats comme une preuve de concept académique solide plutôt que comme une annonce produit.

RechercheOpinion
1 source
SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique
3arXiv cs.RO 

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique

Une équipe de chercheurs publie SeedPolicy, une nouvelle méthode d'apprentissage par imitation (IL) pour la manipulation robotique, dans un preprint arXiv (2503.05117). L'innovation centrale est SEGA (Self-Evolving Gated Attention), un module temporel qui maintient un état latent évolutif via de l'attention à porte (gated attention), permettant des mises à jour récurrentes qui accumulent le contexte à long terme tout en filtrant les informations temporelles non pertinentes. Intégré à la Diffusion Policy (DP), le modèle résultant, SeedPolicy, est évalué sur le benchmark RoboTwin 2.0 avec 50 tâches de manipulation distinctes. Les résultats, moyennés sur des backbones CNN et Transformer : +36,8 % d'amélioration relative par rapport à la DP standard en conditions propres, et +169 % en conditions aléatoires et perturbées. Face à RDT, un modèle vision-langage-action (VLA) de 1,2 milliard de paramètres, SeedPolicy obtient de meilleures performances en conditions propres avec un à deux ordres de grandeur de moins en taille de modèle. Le problème de la manipulation à long horizon, enchaîner des séquences d'actions sur des périodes étendues, constitue un goulot d'étranglement persistant en IL. La Diffusion Policy standard se dégrade lorsqu'on empile davantage d'horizons d'observation, perdant la capacité à maintenir le contexte temporel. SEGA règle ce problème sans le coût computationnel des grands VLAs. Le +169 % en conditions perturbées (contre +36,8 % en conditions propres) est le chiffre le plus significatif : il indique une meilleure généralisation sous perturbation, critique pour tout déploiement réel. L'argument d'efficacité paramétrique conteste directement l'hypothèse selon laquelle la mise à l'échelle serait nécessaire pour la manipulation complexe. La Diffusion Policy est issue des travaux de Columbia University (Chi et al., 2023) et constitue aujourd'hui une baseline de référence en robot learning. Le domaine s'est depuis bifurqué : un camp mise sur les modèles de fondation et les VLAs (RDT, Pi-0 de Physical Intelligence, OpenVLA, Octo), l'autre sur la modélisation temporelle efficiente à moindre coût. SeedPolicy s'inscrit résolument dans le second. À noter : l'ensemble des résultats est obtenu en simulation sur RoboTwin 2.0, sans démonstration de transfert sim-to-réel, ce qui reste l'épreuve déterminante pour les intégrateurs industriels. Le code est disponible sous dépôt anonyme, ce qui suggère un article en cours de révision par les pairs. Aucun déploiement industriel ni calendrier commercial n'est annoncé.

RechercheOpinion
1 source
ElasticFlow : une politique à horizon temporel élastique pour la manipulation guidée par le langage
4arXiv cs.RO 

ElasticFlow : une politique à horizon temporel élastique pour la manipulation guidée par le langage

ElasticFlow est un cadre de politique robotique pour la manipulation guidée par le langage, présenté dans un preprint arXiv (2605.08799) publié en mai 2026. L'approche vise à résoudre le principal défaut des politiques de diffusion, dominantes en robotique incarnée depuis 2023: leur processus itératif de débruitage génère une latence incompatible avec le contrôle temps réel. ElasticFlow atteint une inférence en une seule évaluation réseau (1-NFE, Neural Function Evaluation) à environ 71 Hz, sans recourir à la distillation. La méthode est validée sur trois benchmarks standard: LIBERO, CALVIN et RoboTwin, où elle surpasse OpenVLA et Pi-0 (Physical Intelligence) sur des tâches à long horizon temporel. Le coeur de la contribution est double. D'une part, les auteurs reconstruisent la Mean Field Theory pour modéliser directement le champ de vitesse moyen, ce qui permet un mapping direct bruit-vers-action en une seule passe, sans sacrifier la cohérence physique des trajectoires. D'autre part, le mécanisme "Elastic Time Horizons" encode explicitement la granularité de contrôle afin d'aligner les instructions sémantiques en langage naturel avec les horizons d'exécution physique, adressant le Spectral Bias inherent aux réseaux neuronaux profonds. Si ces gains se confirment sur matériel réel, l'impact pour les intégrateurs est concret: des politiques VLA (Vision-Language-Action) déployables en temps réel sur des contrôleurs embarqués à ressources limitées, sans pipeline de distillation complexe à maintenir. Ce travail s'inscrit dans une compétition dense autour des architectures VLA: Pi-0 de Physical Intelligence, OpenVLA de Berkeley, RT-2 de Google DeepMind, ou encore les récents modèles de manipulation de Figure AI et 1X Technologies ont tous posé des jalons dans cette catégorie. Le backbone diffusion en robotique a été popularisé par Diffusion Policy (Chi et al., 2023), devenu une référence de facto. ElasticFlow cible précisément son goulot d'étranglement computationnel. Le papier reste un preprint non évalué par les pairs, et les expériences présentées reposent exclusivement sur des benchmarks simulés. Aucune validation sur plateforme matérielle réelle n'est annoncée, ce qui laisse entière la question du sim-to-real gap et nuance les affirmations de "cohérence physique" avancées par les auteurs.

RechercheOpinion
1 source