Aller au contenu principal
SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage
RecherchearXiv cs.RO2j

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2511.05203v3) SIL (Symbiotic Interactive Learning), un framework de co-adaptation bidirectionnelle pour l'interaction humain-agent. Contrairement aux systèmes actuels où l'agent exécute passivement des commandes en langage naturel, SIL maintient un espace latent partagé dans lequel humain et agent font évoluer conjointement leurs états de croyance (belief states) au fil des échanges. L'architecture repose sur des foundation models pour la perception spatiale et le raisonnement, un encodeur neuronal entraîné par triplet-loss qui ancre ces sorties dans des représentations spécifiques à la tâche, et des mémoires épisodique et sémantique régularisées via Elastic Weight Consolidation (EWC) pour prévenir l'oubli catastrophique. Sur des tâches simulées et réelles, suivi d'instructions, recherche d'information, raisonnement orienté requêtes et dialogue interactif, SIL atteint un taux de complétion de 90,4% et un score d'alignement de croyances ρ ≈ 0,83, soit un gain absolu d'environ 20 points de pourcentage sur les meilleures ablations.

L'enjeu est conceptuellement notable : presque tous les systèmes HRI (human-robot interaction) actuels fonctionnent en mode maître-apprenti unidirectionnel, l'agent n'apprenant rien de l'opérateur en cours d'interaction. SIL propose à l'inverse une co-adaptation mutuelle permettant des clarifications proactives, des suggestions de plan adaptées et un affinement continu de la compréhension de la tâche. Pour les intégrateurs de cobots ou les décideurs industriels, cela adresse un point de friction concret : gérer l'ambiguïté opérationnelle sans sollicitations humaines répétées. La régularisation EWC répond aussi à un problème récurrent des VLA (Vision-Language-Action models) : la dégradation des performances lors du fine-tuning continu sur des tâches évolutives.

Ce travail s'inscrit dans le courant d'intégration des foundation models dans la couche de contrôle robotique, aux côtés de RT-2 (Google DeepMind) et OpenVLA. La particularité de SIL réside dans sa boucle interactive bidirectionnelle plutôt que dans la seule généralisation task-to-task. Il s'agit à ce stade d'une preprint arXiv, sans revue par les pairs confirmée ni déploiement industriel annoncé ; les résultats sur tâches "réelles" méritent un examen attentif des protocoles expérimentaux, absents du résumé disponible. Les prochaines étapes naturelles sont une soumission en conférence (CoRL, ICRA) et une éventuelle intégration dans des plateformes d'agents embarqués pilotés par LLM.

Dans nos dossiers

À lire aussi

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage
1arXiv cs.RO 

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage

Une équipe de chercheurs a déposé le 14 mai 2026 sur arXiv (arXiv:2605.14417) un framework hiérarchique nommé DAJI (Dynamics-Aligned Joint Intent), destiné au contrôle en continu du corps entier d'humanoïdes via des instructions en langage naturel. L'architecture repose sur deux modules distincts : DAJI-Act, une politique d'action par diffusion déployable, entraînée en distillant un modèle "teacher" conscient du futur via des rollouts guidés par un modèle étudiant ; et DAJI-Flow, qui génère de façon autorégressive des blocs d'"intentions articulaires" futures à partir d'une instruction linguistique et de l'historique d'intentions. Sur le benchmark HumanML3D, DAJI atteint 94,42 % de taux de succès en génération de séquences. Sur BABEL, le framework obtient un FID de sous-séquence de 0,152, une métrique de fidélité cinématique. Le problème que DAJI cherche à résoudre est central dans la commande des humanoïdes : les approches existantes génèrent des références cinématiques que le contrôleur bas niveau doit corriger de manière réactive, ce qui introduit des délais et des instabilités lors des transitions de support (transferts d'appui, changements de contact). DAJI propose à la place une interface d'"intention articulaire anticipatoire" qui encode explicitement les futures transitions de contact, les transferts de poids et les préparations à l'équilibre avant que le corps ne les exécute. Pour les intégrateurs de robots humanoïdes, c'est une piste sérieuse pour réduire le reality gap simulation-déploiement, puisque le pipeline diffusion + anticipation est conçu pour être réellement embarqué, pas seulement simulé. Cela valide aussi l'hypothèse qu'une représentation explicite et interprétable de l'intention mécanique future peut coexister avec un pilotage par langage naturel en streaming. Ce travail s'inscrit dans une compétition académique et industrielle dense sur le contrôle des humanoïdes conditionné par le langage. Des approches comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques VLA de Figure explorent des territoires proches, mais privilégient souvent des représentations latentes dont les sorties n'encodent pas explicitement l'état mécanique futur. DAJI se distingue en faisant de l'"intent" une variable interprétable et structurée. Il faut néanmoins noter que les résultats sont obtenus exclusivement sur des benchmarks de génération de mouvements (HumanML3D, BABEL) et non sur robot physique : il s'agit d'une preuve de concept académique, pas d'un système déployé. La validation sur plateforme réelle, sur un Unitree G1, un Agility Digit ou équivalent, reste la prochaine étape non annoncée.

RechercheOpinion
1 source
HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action
2arXiv cs.RO 

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion
1 source
Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange
3arXiv cs.RO 

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

Un groupe de chercheurs publie sur arXiv (2606.09640v1, juin 2026) un framework d'apprentissage résiduel structuré pour corriger les modèles de dynamique robot basés sur le formalisme d'Euler-Lagrange. L'approche décompose l'écart entre le modèle nominal et la dynamique réelle en trois composantes : une correction d'inertie, le terme de Coriolis induit correspondant, et un résidu de force généralisée. La composante mécanique est apprise sous contraintes physiques explicites (symétrie, définie-positivité de la matrice d'inertie), tandis que la composante perturbatrice est représentée par un modèle d'interaction latent sparse dépendant de l'historique, adapté en ligne par régression linéaire bayésienne. Les validations couvrent trois types de plateformes : robots mobiles, systèmes aériens et bras manipulateurs, sur des scénarios de dynamique couplée et variable dans le temps. L'enjeu est structurel. La quasi-totalité des méthodes de correction par apprentissage résiduel introduisent un unique terme additif sans contraindre sa forme physique, ce qui dégrade les invariants mécaniques fondamentaux : symétrie de la matrice d'inertie, couplage cohérent entre termes inertiels et termes de vitesse. En pratique, un contrôleur modèle embarquant un tel résidu non contraint risque de produire des prédictions physiquement incohérentes aux limites de l'espace de travail ou sous charges variables. La séparation proposée contraint structurellement la partie mécanique et réserve l'adaptation bayésienne en ligne à la seule composante de perturbation, là où la plasticité est réellement nécessaire. Les auteurs rapportent une amélioration mesurable de la prédiction de dynamique et du suivi de trajectoire, mais les résultats restent au stade expérimental sur plateformes de laboratoire, sans données de déploiement industriel. Le contexte est celui d'une tension persistante dans la robotique à base de modèles : les formulations analytiques d'Euler-Lagrange sont précises en conditions nominales mais se dégradent sous variation de charge utile, friction non modélisée, effets aérodynamiques ou couplages imprévus. Ce travail s'inscrit dans un courant actif de physics-informed learning, aux côtés des Hamiltonian Neural Networks (Greydanus et al., 2019) et des approches par processus gaussiens à noyaux structurés. La différenciation réside dans l'adaptation online sélective via régression bayésienne, computationnellement plus légère que les GPs complets. Le preprint n'annonce ni partenariat industriel ni roadmap commerciale ; les extensions naturelles iraient vers les manipulateurs humanoïdes et la validation sous contraintes temps réel strictes.

RecherchePaper
1 source
Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique
4arXiv cs.RO 

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

Une équipe de chercheurs a publié le 23 avril 2026 Web-Gewu (arXiv:2604.17050), une plateforme pédagogique de robotique conçue pour permettre l'entraînement par renforcement (RL) directement depuis un navigateur web, sans installation locale. L'architecture repose sur un modèle cloud-edge-client s'appuyant sur WebRTC : toute la simulation physique et l'entraînement RL sont déportés sur un nœud edge, tandis que le serveur cloud ne joue qu'un rôle de relais de signalisation léger. La communication entre l'apprenant et le nœud de calcul s'effectue en pair-à-pair (P2P), avec une latence bout-en-bout annoncée comme faible, sans que des chiffres précis soient fournis dans le préprint. Les apprenants visualisent en temps réel les courbes de récompense RL et interagissent avec plusieurs formes de robots simulés, le tout via un protocole de communication de commandes prédéfini. L'intérêt de cette approche est structurel : elle attaque directement les deux verrous qui freinent l'enseignement de la robotique incarnée à grande échelle. D'un côté, les solutions cloud centralisées existantes entraînent des coûts GPU et de bande passante prohibitifs pour un déploiement massif en contexte éducatif. De l'autre, le calcul purement local bute sur les limitations matérielles des apprenants, souvent sans GPU dédié. En déplaçant la charge vers un nœud edge mutualisé et en réduisant le cloud à un simple relais, Web-Gewu réduit significativement le coût marginal par apprenant. Pour les institutions qui cherchent à former des ingénieurs au RL appliqué à la robotique, c'est un argument concret, même si la robustesse à l'échelle reste à démontrer hors environnement de laboratoire. Ce travail s'inscrit dans une tendance plus large de démocratisation des outils de simulation robotique, portée notamment par des environnements comme Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google) ou encore Genesis, tous nécessitant des ressources locales ou des accès cloud coûteux. Web-Gewu se positionne dans un créneau différent, celui de la formation et de l'expérimentation accessible, plutôt que de la recherche haute performance. Le code source n'est pas encore public au moment de la soumission, et la plateforme reste au stade de prototype académique avec une instance de démonstration exposée à l'adresse IP indiquée dans le papier. Les prochaines étapes naturelles seraient une évaluation quantitative de la latence, une montée en charge sur plusieurs dizaines d'apprenants simultanés, et une ouverture du code pour permettre un déploiement institutionnel autonome.

RecherchePaper
1 source