Aller au contenu principal
Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
RecherchearXiv cs.RO5j

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation.

Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets.

Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

À lire aussi

Diffusion hybride pour la planification symbolique et continue simultanée
1arXiv cs.RO 

Diffusion hybride pour la planification symbolique et continue simultanée

Des chercheurs ont publié sur arXiv (identifiant 2509.21983, version 2) une méthode baptisée "Hybrid Diffusion" qui combine génération de trajectoires continues et planification symbolique de haut niveau pour les robots accomplissant des tâches complexes et longues. Le constat de départ est empirique : les modèles de diffusion purement continus, pourtant plébiscités pour générer des trajectoires robotiques, échouent sur les tâches à long horizon. En pratique, ils confondent différents modes de comportement, enchaînant des séquences d'actions incompatibles qui provoquent des échecs en cascade. La solution proposée consiste à diffuser simultanément deux types de variables : des variables discrètes formant un plan symbolique de haut niveau, et des variables continues décrivant la trajectoire physique du robot. Ce double processus, mélange inédit de diffusion discrète et continue, surpasse significativement les baselines selon les auteurs, et permet également de conditionner la génération d'actions sur des conditions symboliques partielles ou complètes. Ce travail s'attaque au "long-horizon planning gap", un verrou fondamental de la robotique cognitive : l'incapacité des systèmes actuels à enchaîner de nombreuses étapes cohérentes. Les approches purement continues, notamment les Visual Language Action models (VLA), souffrent d'une absence de structure symbolique explicite, les rendant fragiles face aux tâches multi-étapes structurées. En générant conjointement un plan symbolique, le modèle maintient une représentation explicite de ce qu'il doit faire et dans quel ordre, réduisant les confusions de modes. Cela dit, le papier est un preprint arXiv non encore soumis à peer review ; les résultats sur robots physiques réels restent à valider de manière indépendante. Les modèles de diffusion pour la robotique ont émergé comme alternative à l'imitation learning classique, notamment via Diffusion Policy (Chi et al., 2023). Hybrid Diffusion s'inscrit dans une tendance combinant raisonnement symbolique (TAMP, planification PDDL) et apprentissage par données, un terrain également exploré par Google avec SayCan et RT-2, ainsi que par les architectures utilisant des LLM comme planificateurs de haut niveau couplés à des policies continues. La prochaine étape naturelle sera la validation sur plateformes physiques, manipulateurs industriels ou robots mobiles, dans des environnements non contrôlés, ce que ce travail, centré sur des expériences en simulation, ne démontre pas encore.

RecherchePaper
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
2arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source
SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique
3arXiv cs.RO 

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique

Une équipe de chercheurs publie SeedPolicy, une nouvelle méthode d'apprentissage par imitation (IL) pour la manipulation robotique, dans un preprint arXiv (2503.05117). L'innovation centrale est SEGA (Self-Evolving Gated Attention), un module temporel qui maintient un état latent évolutif via de l'attention à porte (gated attention), permettant des mises à jour récurrentes qui accumulent le contexte à long terme tout en filtrant les informations temporelles non pertinentes. Intégré à la Diffusion Policy (DP), le modèle résultant, SeedPolicy, est évalué sur le benchmark RoboTwin 2.0 avec 50 tâches de manipulation distinctes. Les résultats, moyennés sur des backbones CNN et Transformer : +36,8 % d'amélioration relative par rapport à la DP standard en conditions propres, et +169 % en conditions aléatoires et perturbées. Face à RDT, un modèle vision-langage-action (VLA) de 1,2 milliard de paramètres, SeedPolicy obtient de meilleures performances en conditions propres avec un à deux ordres de grandeur de moins en taille de modèle. Le problème de la manipulation à long horizon, enchaîner des séquences d'actions sur des périodes étendues, constitue un goulot d'étranglement persistant en IL. La Diffusion Policy standard se dégrade lorsqu'on empile davantage d'horizons d'observation, perdant la capacité à maintenir le contexte temporel. SEGA règle ce problème sans le coût computationnel des grands VLAs. Le +169 % en conditions perturbées (contre +36,8 % en conditions propres) est le chiffre le plus significatif : il indique une meilleure généralisation sous perturbation, critique pour tout déploiement réel. L'argument d'efficacité paramétrique conteste directement l'hypothèse selon laquelle la mise à l'échelle serait nécessaire pour la manipulation complexe. La Diffusion Policy est issue des travaux de Columbia University (Chi et al., 2023) et constitue aujourd'hui une baseline de référence en robot learning. Le domaine s'est depuis bifurqué : un camp mise sur les modèles de fondation et les VLAs (RDT, Pi-0 de Physical Intelligence, OpenVLA, Octo), l'autre sur la modélisation temporelle efficiente à moindre coût. SeedPolicy s'inscrit résolument dans le second. À noter : l'ensemble des résultats est obtenu en simulation sur RoboTwin 2.0, sans démonstration de transfert sim-to-réel, ce qui reste l'épreuve déterminante pour les intégrateurs industriels. Le code est disponible sous dépôt anonyme, ce qui suggère un article en cours de révision par les pairs. Aucun déploiement industriel ni calendrier commercial n'est annoncé.

RechercheOpinion
1 source
Assemblage robotique à contacts multiples dans la construction par politique de diffusion
4arXiv cs.RO 

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

Des chercheurs ont publié sur arXiv (arXiv:2511.17774, version 3) une étude portant sur l'application de l'apprentissage par diffusion à l'assemblage robotique dans le secteur de la construction. Le cas d'usage retenu est l'assemblage tenon-mortaise en bois, une jonction à contact riche soumise à des contraintes de friction et de géométrie strictes, avec des jeux inférieurs au millimètre. Les politiques de diffusion sensori-motrices ont été entraînées à partir de démonstrations téléopérées collectées sur un poste de travail robotique industriel équipé de capteurs force/couple. L'évaluation s'est déroulée en deux phases : une baseline en conditions nominales et un test de robustesse avec des perturbations positionnelles aléatoires allant jusqu'à 10 mm, soit un ordre de grandeur au-delà de la tolérance d'assemblage. La politique la plus performante atteint 100 % de taux de succès en conditions nominales et 75 % en moyenne sous perturbation. Ce résultat est notable car il adresse directement un verrou industriel structurel : l'accumulation de tolérances dans la construction empêche depuis longtemps l'automatisation fiable des tâches d'assemblage à contact. Le fait qu'une politique diffusion parvienne à compenser des désalignements de 10 mm pour des jeux sub-millimétriques suggère que ces architectures apprennent implicitement une stratégie de compliance active via le retour d'effort, sans modélisation géométrique explicite. Pour un intégrateur industriel ou un bureau de méthodes, cela signifie que le sim-to-real gap sur des tâches de précision en construction pourrait être en partie résorbé par l'apprentissage par imitation couplé à la force/couple, sans recalibration manuelle systématique. L'assemblage tenon-mortaise n'est pas un choix anodin : cette technique millénaire est revenue en force dans la construction bois massive (CLT, charpente lamellée-croisée), un segment en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann. Les politiques de diffusion appliquées à la robotique manipulatrice ont été popularisées par des travaux comme le Diffusion Policy de Chi et al. (2023, Columbia/Toyota) et sont désormais explorées par des labos comme Physical Intelligence (pi) avec Pi-0, ou par Boston Dynamics Research. Cette étude se distingue en ciblant explicitement la construction industrielle plutôt que la cuisine ou la logistique. La prochaine étape logique serait un déploiement en conditions chantier réelles, avec variation de matériaux et de géométries, ce que les auteurs n'ont pas encore testé.

UELe segment construction bois massive (CLT, charpente lamellée-croisée) est en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann ; une automatisation fiable des assemblages à contact ouvrirait une voie d'industrialisation directement applicable sur les chantiers européens.

RecherchePaper
1 source