Aller au contenu principal
DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique
RecherchearXiv cs.RO7h

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié DISC (Decoupling Instruction from State-Conditioned Control via Policy Generation), une architecture de politique de manipulation robotique conditionnée par le langage, déposée sur arXiv (2605.20856) en mai 2026. L'approche repose sur un hyperréseau qui génère l'intégralité des paramètres d'une politique visuomotrice spécifique à la tâche à partir de la seule instruction textuelle. La politique générée n'accède jamais directement au langage : sa compréhension de la tâche provient exclusivement des poids produits par l'hyperréseau. Sur les benchmarks LIBERO-90 et Meta-World, DISC surpasse l'ensemble des architectures couplées évaluées, et dépasse pi-0 (Physical Intelligence) malgré l'absence de tout préentraînement sur données externes. Le code est disponible publiquement sur GitHub.

Ce résultat touche à un problème structurel bien documenté dans le domaine des VLA (Vision-Language-Action models) : l'"observation leakage", c'est-à-dire la tendance des réseaux couplés à apprendre des raccourcis scène-à-action qui contournent le grounding linguistique. En pratique, cela signifie qu'un modèle peut réussir une tâche en exploitant des corrélations visuelles parasites plutôt qu'en comprenant l'instruction. DISC élimine ce chemin de fuite par construction, et non par régularisation post-hoc. Le fait de surpasser pi-0 sans préentraînement est notable : pi-0 est entraîné sur des volumes de données multi-robots à grande échelle, ce qui rend la comparaison significative pour les équipes qui cherchent à calibrer le retour sur investissement du préentraînement massif versus des architectures mieux conçues. L'hyperréseau apprend également un manifold de paramètres structuré sémantiquement, ce qui permet une adaptation few-shot à partir de très peu de démonstrations et une robustesse aux reformulations d'instructions.

Les architectures de politiques conditionnées par le langage sont au coeur de la course aux robots généralistes depuis 2023, avec des travaux fondateurs comme RT-2 (Google DeepMind), OpenVLA, et pi-0 de Physical Intelligence qui ont structuré le débat autour du préentraînement à grande échelle. DISC propose une alternative architecturale plutôt que scalaire : résoudre le problème de couplage instruction-état en amont, plutôt que de le noyer dans des données. Côté concurrents directs, les approches hyperréseau pour la génération de politiques restent peu explorées en robotique de manipulation, ce qui laisse DISC dans un espace relativement dégagé pour l'instant. Les prochaines étapes naturelles seraient une validation sur hardware physique à plus grande échelle (les expériences réelles mentionnées dans le papier restent limitées à un benchmark à contexte visuel partagé) et une évaluation de la latence de génération des paramètres en conditions de déploiement industriel, deux points que le papier ne documente pas encore précisément.

À lire aussi

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
1arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
Politique visuo-tactile dextérique avec ancrage génératif par contact
2arXiv cs.RO 

Politique visuo-tactile dextérique avec ancrage génératif par contact

Des chercheurs ont déposé sur arXiv (2603.05687, version 3) une architecture de politique visuotactile nommée Contact-Grounded Policy (CGP), conçue pour la manipulation dextre par contact. L'évaluation physique repose sur une main Allegro V5 à quatre doigts équipée de capteurs Digit360 à chaque phalange distale ; les expériences en simulation mobilisent une main Tesollo DG-5F à cinq doigts avec des matrices tactiles couvrant l'ensemble de la paume. CGP articule deux composants : un modèle de diffusion conditionnel qui prédit conjointement les trajectoires futures de l'état du robot et du retour tactile dans un espace latent compressé, et un module de cohérence de contact appris qui convertit ces prédictions en cibles exécutables pour un contrôleur de compliance. Les tâches évaluées couvrent la manipulation intra-main, la préhension d'objets délicats et l'utilisation d'outils. La majorité des politiques visuotactiles existantes traitent le signal tactile comme une observation supplémentaire, sans modéliser l'état de contact ni la façon dont les sorties d'action interagissent avec la dynamique du contrôleur bas niveau. CGP comble cette lacune en prédisant simultanément l'état du robot et le retour tactile, puis en forçant la cohérence entre les contacts anticipés et ce que le contrôleur peut physiquement réaliser. Selon les auteurs, CGP surpasse les baselines de diffusion visuomotrice et visuotactile sur tous les scénarios testés. Pour les intégrateurs travaillant sur des tâches à contact riche, cela indique qu'ancrer la politique dans la dynamique de contact améliore la robustesse aux variations de friction et de géométrie d'objets, sans recourir à des capteurs de force extérieurs. La manipulation dextre multi-doigts reste un problème ouvert : la sensibilité aux transitions frictionnelles et au glissement fragilise les approches purement visuomotrices dès que la géométrie de l'objet varie. Digit360 est un capteur issu de Meta FAIR, successeur du Digit originel. La main Allegro V5 est un standard de facto en recherche académique. Les approches concurrentes incluent les politiques de diffusion visuotactile de plusieurs laboratoires nord-américains et les travaux de Physical Intelligence sur la manipulation généraliste à large échelle. CGP n'est assorti d'aucun partenariat industriel ni calendrier de déploiement : il s'agit d'une avancée de recherche, pas d'un produit annoncé.

RecherchePaper
1 source
Assemblage robotique à contacts multiples dans la construction par politique de diffusion
3arXiv cs.RO 

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

Des chercheurs ont publié sur arXiv (arXiv:2511.17774, version 3) une étude portant sur l'application de l'apprentissage par diffusion à l'assemblage robotique dans le secteur de la construction. Le cas d'usage retenu est l'assemblage tenon-mortaise en bois, une jonction à contact riche soumise à des contraintes de friction et de géométrie strictes, avec des jeux inférieurs au millimètre. Les politiques de diffusion sensori-motrices ont été entraînées à partir de démonstrations téléopérées collectées sur un poste de travail robotique industriel équipé de capteurs force/couple. L'évaluation s'est déroulée en deux phases : une baseline en conditions nominales et un test de robustesse avec des perturbations positionnelles aléatoires allant jusqu'à 10 mm, soit un ordre de grandeur au-delà de la tolérance d'assemblage. La politique la plus performante atteint 100 % de taux de succès en conditions nominales et 75 % en moyenne sous perturbation. Ce résultat est notable car il adresse directement un verrou industriel structurel : l'accumulation de tolérances dans la construction empêche depuis longtemps l'automatisation fiable des tâches d'assemblage à contact. Le fait qu'une politique diffusion parvienne à compenser des désalignements de 10 mm pour des jeux sub-millimétriques suggère que ces architectures apprennent implicitement une stratégie de compliance active via le retour d'effort, sans modélisation géométrique explicite. Pour un intégrateur industriel ou un bureau de méthodes, cela signifie que le sim-to-real gap sur des tâches de précision en construction pourrait être en partie résorbé par l'apprentissage par imitation couplé à la force/couple, sans recalibration manuelle systématique. L'assemblage tenon-mortaise n'est pas un choix anodin : cette technique millénaire est revenue en force dans la construction bois massive (CLT, charpente lamellée-croisée), un segment en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann. Les politiques de diffusion appliquées à la robotique manipulatrice ont été popularisées par des travaux comme le Diffusion Policy de Chi et al. (2023, Columbia/Toyota) et sont désormais explorées par des labos comme Physical Intelligence (pi) avec Pi-0, ou par Boston Dynamics Research. Cette étude se distingue en ciblant explicitement la construction industrielle plutôt que la cuisine ou la logistique. La prochaine étape logique serait un déploiement en conditions chantier réelles, avec variation de matériaux et de géométries, ce que les auteurs n'ont pas encore testé.

UELe segment construction bois massive (CLT, charpente lamellée-croisée) est en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann ; une automatisation fiable des assemblages à contact ouvrirait une voie d'industrialisation directement applicable sur les chantiers européens.

RecherchePaper
1 source
D'une seule démonstration à une politique générale pour la manipulation avec contact
4arXiv cs.RO 

D'une seule démonstration à une politique générale pour la manipulation avec contact

Une équipe de recherche publie sur arXiv (réf. 2605.17601, mai 2026) un framework d'apprentissage par démonstration capable de généraliser à partir d'un seul exemple sur des tâches de manipulation impliquant des contacts répétés avec l'environnement. Le système repose sur un pipeline en quatre étapes : abstraction de la démonstration en primitives de contraintes environnementales, exploration autonome pour lever les ambiguïtés, correction ciblée par un opérateur humain pour couvrir les variantes hors-distribution, et enfin récupération en ligne des détails géométriques via interaction compliante. Validé sur sept tâches réelles multi-étapes à contact riche, le framework atteint un taux de succès supérieur à 90 %. Aucune entreprise spécifique ni plateforme robotique n'est mentionnée dans le préprint, qui reste une contribution académique sans déploiement industriel annoncé. Le point central de l'approche est de représenter une tâche non pas comme une trajectoire à imiter, mais comme une séquence de contraintes environnementales à exploiter. Ce changement de paradigme permet au robot de distinguer la structure générale d'une tâche (types de contraintes, transitions entre elles) des détails spécifiques à une instance donnée (poses exactes, géométrie locale). Pour un intégrateur ou un décideur industriel, cela signifie qu'une seule démonstration suffit potentiellement là où les méthodes de behavior cloning classiques en réclament des centaines. Le résultat de 90 %+ sur des tâches à contact riche est notable car ce domaine concentre la majorité des échecs en manipulation robotique réelle, notamment à cause de la sensibilité aux variations de pose et aux dynamiques de contact non modélisées. L'apprentissage par démonstration est un champ très actif depuis une décennie, concurrencé récemment par les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence), les architectures VLA (RT-2, GR00T N2 de NVIDIA) et les méthodes ACT (Action Chunking with Transformers). L'originalité revendiquée ici est de traiter les contraintes environnementales comme biais inductif plutôt que d'augmenter massivement les données d'entraînement ou la puissance du modèle. La limite principale reste l'absence d'évaluation sur des plateformes humanoïdes ou collaboratives standard, ce qui rend difficile la comparaison directe avec les benchmarks du secteur. Les suites naturelles seraient un passage à des environnements ouverts et une validation sur des robots commerciaux comme le Franka Research 3 ou les bras UR.

RecherchePaper
1 source