Aller au contenu principal
HITL-D : contrôle partagé assisté par diffusion avec humain dans la boucle
RecherchearXiv cs.RO7h

HITL-D : contrôle partagé assisté par diffusion avec humain dans la boucle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

HITL-D (Human-In-The-Loop Diffusion) est un framework de contrôle partagé pour la téléopération robotique, présenté dans un preprint arXiv (2605.21460) non encore évalué par des pairs. Le système combine une politique de diffusion apprise avec le contrôle humain classique : l'opérateur pilote le robot via joystick pour les déplacements en position cartésienne, tandis que le système prend en charge automatiquement l'orientation de l'effecteur terminal. Cette orientation autonome est conditionnée en temps réel par un nuage de points 3D de la scène et la position courante de l'effecteur. Résultat : le nombre d'axes de contrôle que l'opérateur doit gérer simultanément diminue, réduisant mécaniquement la charge cognitive. Une étude utilisateur menée sur 12 participants dans des tâches multi-étapes, d'insertion et de manipulation fine démontre une réduction de 40 % du temps d'exécution des tâches, une baisse de 37 % de la charge mentale perçue, et des scores Likert supérieurs pour l'indépendance, l'intuitivité et la confiance, comparés à une téléopération classique sans assistance.

Ces résultats adressent un problème central du déploiement industriel : la pleine autonomie robotique reste fragile sur les tâches d'assemblage précis (insertion, ajustement fin), tandis que la téléopération pure est coûteuse en ressources humaines et génère de la fatigue opérateur. HITL-D occupe ce no man's land en déléguant sélectivement les degrés de liberté les moins intuitifs à la politique apprise. L'approche par diffusion conditionnée sur nuage de points est techniquement notable : contrairement à un lissage de trajectoire, elle intègre une représentation géométrique de l'environnement pour générer une assistance contextuelle. Il faut toutefois relativiser : 12 participants constituent un échantillon limité, et l'abstract ne précise ni la complexité exacte des scènes testées, ni si les expériences ont été conduites sur robot réel ou en simulation.

Le travail s'inscrit dans la continuité directe des Diffusion Policies (Chi et al., Columbia, 2023), devenues un paradigme dominant en manipulation robotique apprise. Le contrôle partagé et la "sliding autonomy" sont des concepts étudiés depuis les années 2000 (notamment en robotique médicale et spatiale), mais leur combinaison avec des politiques génératives modernes reste peu explorée. Face aux approches VLA full-autonomy comme pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les modèles dérivés de RT-2, HITL-D ne cherche pas à remplacer l'humain mais à l'augmenter, ce qui le positionne sur un marché différent : téléopération industrielle assistée, chirurgie robotique, déminage. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans le preprint ; l'étape suivante naturelle serait une validation sur tâches réelles à plus grande échelle et avec des opérateurs non experts.

À lire aussi

Assemblage robotique à contacts multiples dans la construction par politique de diffusion
1arXiv cs.RO 

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

Des chercheurs ont publié sur arXiv (arXiv:2511.17774, version 3) une étude portant sur l'application de l'apprentissage par diffusion à l'assemblage robotique dans le secteur de la construction. Le cas d'usage retenu est l'assemblage tenon-mortaise en bois, une jonction à contact riche soumise à des contraintes de friction et de géométrie strictes, avec des jeux inférieurs au millimètre. Les politiques de diffusion sensori-motrices ont été entraînées à partir de démonstrations téléopérées collectées sur un poste de travail robotique industriel équipé de capteurs force/couple. L'évaluation s'est déroulée en deux phases : une baseline en conditions nominales et un test de robustesse avec des perturbations positionnelles aléatoires allant jusqu'à 10 mm, soit un ordre de grandeur au-delà de la tolérance d'assemblage. La politique la plus performante atteint 100 % de taux de succès en conditions nominales et 75 % en moyenne sous perturbation. Ce résultat est notable car il adresse directement un verrou industriel structurel : l'accumulation de tolérances dans la construction empêche depuis longtemps l'automatisation fiable des tâches d'assemblage à contact. Le fait qu'une politique diffusion parvienne à compenser des désalignements de 10 mm pour des jeux sub-millimétriques suggère que ces architectures apprennent implicitement une stratégie de compliance active via le retour d'effort, sans modélisation géométrique explicite. Pour un intégrateur industriel ou un bureau de méthodes, cela signifie que le sim-to-real gap sur des tâches de précision en construction pourrait être en partie résorbé par l'apprentissage par imitation couplé à la force/couple, sans recalibration manuelle systématique. L'assemblage tenon-mortaise n'est pas un choix anodin : cette technique millénaire est revenue en force dans la construction bois massive (CLT, charpente lamellée-croisée), un segment en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann. Les politiques de diffusion appliquées à la robotique manipulatrice ont été popularisées par des travaux comme le Diffusion Policy de Chi et al. (2023, Columbia/Toyota) et sont désormais explorées par des labos comme Physical Intelligence (pi) avec Pi-0, ou par Boston Dynamics Research. Cette étude se distingue en ciblant explicitement la construction industrielle plutôt que la cuisine ou la logistique. La prochaine étape logique serait un déploiement en conditions chantier réelles, avec variation de matériaux et de géométries, ce que les auteurs n'ont pas encore testé.

UELe segment construction bois massive (CLT, charpente lamellée-croisée) est en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann ; une automatisation fiable des assemblages à contact ouvrirait une voie d'industrialisation directement applicable sur les chantiers européens.

RecherchePaper
1 source
DSSP : une politique d'état de diffusion avec encodage de l'historique complet
2arXiv cs.RO 

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles. Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs. Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.

UEImpact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.

RechercheOpinion
1 source
Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage
3arXiv cs.RO 

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage

Une équipe de chercheurs a déposé le 14 mai 2026 sur arXiv (arXiv:2605.14417) un framework hiérarchique nommé DAJI (Dynamics-Aligned Joint Intent), destiné au contrôle en continu du corps entier d'humanoïdes via des instructions en langage naturel. L'architecture repose sur deux modules distincts : DAJI-Act, une politique d'action par diffusion déployable, entraînée en distillant un modèle "teacher" conscient du futur via des rollouts guidés par un modèle étudiant ; et DAJI-Flow, qui génère de façon autorégressive des blocs d'"intentions articulaires" futures à partir d'une instruction linguistique et de l'historique d'intentions. Sur le benchmark HumanML3D, DAJI atteint 94,42 % de taux de succès en génération de séquences. Sur BABEL, le framework obtient un FID de sous-séquence de 0,152, une métrique de fidélité cinématique. Le problème que DAJI cherche à résoudre est central dans la commande des humanoïdes : les approches existantes génèrent des références cinématiques que le contrôleur bas niveau doit corriger de manière réactive, ce qui introduit des délais et des instabilités lors des transitions de support (transferts d'appui, changements de contact). DAJI propose à la place une interface d'"intention articulaire anticipatoire" qui encode explicitement les futures transitions de contact, les transferts de poids et les préparations à l'équilibre avant que le corps ne les exécute. Pour les intégrateurs de robots humanoïdes, c'est une piste sérieuse pour réduire le reality gap simulation-déploiement, puisque le pipeline diffusion + anticipation est conçu pour être réellement embarqué, pas seulement simulé. Cela valide aussi l'hypothèse qu'une représentation explicite et interprétable de l'intention mécanique future peut coexister avec un pilotage par langage naturel en streaming. Ce travail s'inscrit dans une compétition académique et industrielle dense sur le contrôle des humanoïdes conditionné par le langage. Des approches comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques VLA de Figure explorent des territoires proches, mais privilégient souvent des représentations latentes dont les sorties n'encodent pas explicitement l'état mécanique futur. DAJI se distingue en faisant de l'"intent" une variable interprétable et structurée. Il faut néanmoins noter que les résultats sont obtenus exclusivement sur des benchmarks de génération de mouvements (HumanML3D, BABEL) et non sur robot physique : il s'agit d'une preuve de concept académique, pas d'un système déployé. La validation sur plateforme réelle, sur un Unitree G1, un Agility Digit ou équivalent, reste la prochaine étape non annoncée.

RechercheOpinion
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
4arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source