Entraînement et évaluation des politiques de…

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

44

1Robohub

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

Une équipe de recherche présente un simulateur de monde interactif destiné à l'entraînement et à l'évaluation de politiques robotiques, conçu pour remplacer une partie du travail réalisé aujourd'hui sur robot réel. Il s'agit d'un modèle de prédiction vidéo conditionné par l'action, entraîné sans aucun moteur physique intégré : à partir d'une image et d'une séquence d'actions robotiques, le système prédit les frames suivantes directement en pixels. Concrètement, un opérateur peut brancher un dispositif de téléopération et piloter un bras robotique à travers ce modèle appris pendant plus de dix minutes, à 15 images par seconde, sur une seule carte graphique RTX 4090, tout en conservant une vidéo stable et physiquement plausible. Le modèle a été entraîné sur quatre tâches de manipulation aux régimes physiques très différents : le poussage d'un objet en T (contact rigide), le routage d'une corde dans un clip (interaction déformable-rigide), la préhension d'une tasse (dynamique fine de la pince) et le balayage de tas d'objets. L'architecture repose sur deux étapes : un autoencodeur compresse d'abord les images RGB en représentations latentes compactes, puis un modèle de dynamique conditionné par l'action, entraîné dans cet espace latent gelé, prédit les états latents futurs qui sont ensuite décodés en images, de manière autorégressive. L'enjeu dépasse la simple démonstration technique. La collecte de démonstrations et l'évaluation de politiques sur robot réel restent les deux goulots d'étranglement classiques de l'apprentissage robotique : matériel qui casse, éclairage qui varie, objets qui dérivent, chaque nouvelle tâche exigeant des heures de manipulation en laboratoire. Si un simulateur appris atteint un niveau de fidélité suffisant, il devient possible de générer des données d'entraînement à moindre coût directement dans le simulateur, et surtout d'évaluer plusieurs politiques dans des conditions rigoureusement identiques et reproductibles, ce qu'un banc de test physique ne permet pas. Les exemples montrés, comme la distinction correcte entre une corde effectivement insérée dans un clip et une corde qui le frôle sans contact, ou la simulation d'une tasse qui glisse hors de la pince, suggèrent que le modèle capture des dynamiques fines sans recourir à des a priori physiques codés en dur, un point que le secteur observe de près depuis l'essor des modèles VLA (vision-language-action). Cette approche s'inscrit dans une lignée de travaux sur les "world models" appliqués à la robotique, où l'ambition est de remplacer les simulateurs physiques classiques, coûteux à construire et souvent imparfaitement fidèles à la réalité, par des modèles vidéo appris directement à partir de données d'interaction. Le projet met à disposition une démonstration interactive en ligne, jouable au clavier depuis un navigateur, ce qui permet une vérification indépendante des affirmations avancées. Les prochaines étapes attendues par le secteur portent sur le passage à l'échelle vers davantage de tâches et de configurations matérielles, ainsi que sur la démonstration effective que des politiques entraînées dans ce simulateur transfèrent avec succès vers des robots réels, condition encore non confirmée à ce stade par l'article.

RecherchePaper

1 source

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

44

2arXiv cs.RO

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié. L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement. Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

RechercheOpinion

1 source

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

43

3arXiv cs.RO

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles. Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs. Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.

UEImpact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.

RechercheOpinion

1 source

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

33

4arXiv cs.RO

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper

1 source

Entraînement et évaluation des politiques de diffusion avec de longs contextes

À lire aussi

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture