Politique de dérive implicite : génération…

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

45

1arXiv cs.RO

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

Des chercheurs ont publié DISC (Decoupling Instruction from State-Conditioned Control via Policy Generation), une architecture de politique de manipulation robotique conditionnée par le langage, déposée sur arXiv (2605.20856) en mai 2026. L'approche repose sur un hyperréseau qui génère l'intégralité des paramètres d'une politique visuomotrice spécifique à la tâche à partir de la seule instruction textuelle. La politique générée n'accède jamais directement au langage : sa compréhension de la tâche provient exclusivement des poids produits par l'hyperréseau. Sur les benchmarks LIBERO-90 et Meta-World, DISC surpasse l'ensemble des architectures couplées évaluées, et dépasse pi-0 (Physical Intelligence) malgré l'absence de tout préentraînement sur données externes. Le code est disponible publiquement sur GitHub. Ce résultat touche à un problème structurel bien documenté dans le domaine des VLA (Vision-Language-Action models) : l'"observation leakage", c'est-à-dire la tendance des réseaux couplés à apprendre des raccourcis scène-à-action qui contournent le grounding linguistique. En pratique, cela signifie qu'un modèle peut réussir une tâche en exploitant des corrélations visuelles parasites plutôt qu'en comprenant l'instruction. DISC élimine ce chemin de fuite par construction, et non par régularisation post-hoc. Le fait de surpasser pi-0 sans préentraînement est notable : pi-0 est entraîné sur des volumes de données multi-robots à grande échelle, ce qui rend la comparaison significative pour les équipes qui cherchent à calibrer le retour sur investissement du préentraînement massif versus des architectures mieux conçues. L'hyperréseau apprend également un manifold de paramètres structuré sémantiquement, ce qui permet une adaptation few-shot à partir de très peu de démonstrations et une robustesse aux reformulations d'instructions. Les architectures de politiques conditionnées par le langage sont au coeur de la course aux robots généralistes depuis 2023, avec des travaux fondateurs comme RT-2 (Google DeepMind), OpenVLA, et pi-0 de Physical Intelligence qui ont structuré le débat autour du préentraînement à grande échelle. DISC propose une alternative architecturale plutôt que scalaire : résoudre le problème de couplage instruction-état en amont, plutôt que de le noyer dans des données. Côté concurrents directs, les approches hyperréseau pour la génération de politiques restent peu explorées en robotique de manipulation, ce qui laisse DISC dans un espace relativement dégagé pour l'instant. Les prochaines étapes naturelles seraient une validation sur hardware physique à plus grande échelle (les expériences réelles mentionnées dans le papier restent limitées à un benchmark à contexte visuel partagé) et une évaluation de la latence de génération des paramètres en conditions de déploiement industriel, deux points que le papier ne documente pas encore précisément.

RechercheOpinion

1 source

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

40

2arXiv cs.RO

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

Une équipe de chercheurs propose le Drifting Field Policy (DFP), une politique générative à inférence en une seule étape pour l'apprentissage de tâches robotiques, publiée sur arXiv (ref. 2605.07727) en mai 2025. Contrairement aux politiques basées sur des équations différentielles ordinaires (ODE) comme les politiques de diffusion ou de flow matching, DFP n'itère pas sur plusieurs pas de débruitage : une seule passe réseau suffit pour générer l'action. Techniquement, la mise à jour de la politique est formulée comme un flux de gradient de Wasserstein-2 en divergence KL inverse vers une politique cible souple, ce qui revient à effectuer un pas de gradient dans l'espace des probabilités. Ce gradient se décompose en deux termes : une montée vers les régions d'actions à haute valeur estimée par un critique, et un score matching avec la politique d'ancrage servant de région de confiance. Pour rendre l'optimisation tractable, les auteurs dérivent un surrogate simplifié, équivalent à du behavior cloning sur les actions top-K sélectionnées par le critique. Évalué sur les benchmarks Robomimic et OGBench, DFP atteint des performances état de l'art sur plusieurs tâches de manipulation, surpassant les politiques ODE-based à nombre de paramètres comparable. L'enjeu principal est la latence d'inférence : les politiques à base de diffusion ou de flow matching, comme Pi-0 de Physical Intelligence ou les variantes de Diffusion Policy de Chi et al. (2023), requièrent typiquement 10 à 100 pas de débruitage, ce qui est prohibitif pour un contrôle robotique en temps réel. DFP atteint des performances comparables ou supérieures avec une seule évaluation du réseau, sans recourir à la distillation (consistency models, DDIM), qui dégrade souvent la qualité des trajectoires générées. Un résultat notable est que le surrogate loss via top-K behavior cloning bénéficie spécifiquement au backbone non-ODE de DFP, les auteurs montrant expérimentalement que cette combinaison n'améliore pas les architectures ODE-based de la même façon, ce qui valide la cohérence architecturale de l'approche. Les politiques de diffusion pour la robotique ont été popularisées par Chi et al. en 2023, puis étendues via le flow matching, paradigme utilisé notamment par Pi-0 et GR00T N2 de NVIDIA. Plusieurs travaux ont cherché à en réduire le coût computationnel par distillation ou quantification, sans parvenir à éviter une dégradation des performances. DFP propose une rupture en changeant le paradigme de génération lui-même plutôt qu'en compressant un modèle existant. Il n'existe à ce stade aucune annonce de déploiement ou de partenariat industriel : il s'agit d'un résultat académique pur. Les suites naturelles seraient une validation sur robots réels en manipulation dextère, une comparaison directe avec les variantes distillées de Diffusion Policy, et une intégration potentielle dans des pipelines VLA (Vision-Language-Action) où la latence d'inférence est un goulot d'étranglement critique.

RechercheOpinion

1 source

D'une seule démonstration à une politique générale pour la manipulation avec contact

42

3arXiv cs.RO

D'une seule démonstration à une politique générale pour la manipulation avec contact

Une équipe de recherche publie sur arXiv (réf. 2605.17601, mai 2026) un framework d'apprentissage par démonstration capable de généraliser à partir d'un seul exemple sur des tâches de manipulation impliquant des contacts répétés avec l'environnement. Le système repose sur un pipeline en quatre étapes : abstraction de la démonstration en primitives de contraintes environnementales, exploration autonome pour lever les ambiguïtés, correction ciblée par un opérateur humain pour couvrir les variantes hors-distribution, et enfin récupération en ligne des détails géométriques via interaction compliante. Validé sur sept tâches réelles multi-étapes à contact riche, le framework atteint un taux de succès supérieur à 90 %. Aucune entreprise spécifique ni plateforme robotique n'est mentionnée dans le préprint, qui reste une contribution académique sans déploiement industriel annoncé. Le point central de l'approche est de représenter une tâche non pas comme une trajectoire à imiter, mais comme une séquence de contraintes environnementales à exploiter. Ce changement de paradigme permet au robot de distinguer la structure générale d'une tâche (types de contraintes, transitions entre elles) des détails spécifiques à une instance donnée (poses exactes, géométrie locale). Pour un intégrateur ou un décideur industriel, cela signifie qu'une seule démonstration suffit potentiellement là où les méthodes de behavior cloning classiques en réclament des centaines. Le résultat de 90 %+ sur des tâches à contact riche est notable car ce domaine concentre la majorité des échecs en manipulation robotique réelle, notamment à cause de la sensibilité aux variations de pose et aux dynamiques de contact non modélisées. L'apprentissage par démonstration est un champ très actif depuis une décennie, concurrencé récemment par les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence), les architectures VLA (RT-2, GR00T N2 de NVIDIA) et les méthodes ACT (Action Chunking with Transformers). L'originalité revendiquée ici est de traiter les contraintes environnementales comme biais inductif plutôt que d'augmenter massivement les données d'entraînement ou la puissance du modèle. La limite principale reste l'absence d'évaluation sur des plateformes humanoïdes ou collaboratives standard, ce qui rend difficile la comparaison directe avec les benchmarks du secteur. Les suites naturelles seraient un passage à des environnements ouverts et une validation sur des robots commerciaux comme le Franka Research 3 ou les bras UR.

RecherchePaper

1 source

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

45

4arXiv cs.RO

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper

1 source

Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel

À lire aussi

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

D'une seule démonstration à une politique générale pour la manipulation avec contact

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste