SIL : apprentissage interactif symbiotique pour…

Vers une intelligence physique semblable à l'humain : apprentissage vision-langage-action continu pour la manipulation robotique

37

1arXiv cs.RO

Vers une intelligence physique semblable à l'humain : apprentissage vision-langage-action continu pour la manipulation robotique

Des chercheurs proposent LifelongVLA, un nouveau framework d'apprentissage continu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique, décrit dans un article publié sur arXiv (2607.14852). Le système s'attaque à un problème classique de l'apprentissage séquentiel chez les robots : le compromis plasticité-stabilité, c'est-à-dire la capacité d'apprendre une nouvelle tâche sans effacer les compétences acquises précédemment. Concrètement, LifelongVLA introduit un module de gating LoRA à double échelle temporelle, séparant l'adaptation en deux voies légères : un adaptateur court terme pour la plasticité (apprentissage rapide de nouvelles tâches) et un adaptateur long terme pour la consolidation stable des compétences déjà maîtrisées. Une passerelle "task-aware" arbitre entre les deux. Le framework ajoute aussi une stratégie de rejeu ("replay") stochastique et économe en mémoire cache, qui préserve des signaux de rétention équilibrés sans avoir à stocker les trajectoires complètes des tâches passées. Les auteurs rapportent des résultats supérieurs aux méthodes existantes sur un bras robotique xArm en conditions réelles, avec une expansion efficace des compétences et une meilleure rétention des comportements de manipulation déjà appris. Cette avancée cible un angle mort réel des modèles VLA actuels (type Pi-0, GR00T N2 ou Helix) : la plupart sont entraînés une fois puis figés, ou doivent être ré-entraînés intégralement pour intégrer une nouvelle tâche, ce qui est coûteux et impraticable pour un déploiement industriel évolutif. Si un robot déployé en usine ou en entrepôt doit apprendre continuellement de nouvelles manipulations sans tout ré-apprendre à chaque fois ni oublier les précédentes, une méthode d'adaptation légère et peu gourmande en mémoire comme celle-ci intéresse directement les intégrateurs et décideurs qui cherchent à réduire les coûts de ré-entraînement et les temps d'arrêt liés à la mise à jour des compétences robotiques. C'est un pas vers des flottes de robots capables de monter en compétences sur site plutôt que de dépendre d'un redéploiement complet du modèle depuis un data center. Le travail s'inscrit dans la lignée de la recherche en "continual learning" appliquée à la robotique, un domaine longtemps dominé par les architectures de vision classique avant l'essor des VLA génératifs à grande échelle. Contrairement aux approches de fine-tuning complet ou à certaines méthodes de rejeu qui nécessitent de stocker l'intégralité des trajectoires passées (coûteux en stockage et en calcul), LifelongVLA mise sur des adaptateurs LoRA légers, une technique déjà largement utilisée pour le fine-tuning efficace des grands modèles de langage, ici transposée au contrôle robotique. L'article ne mentionne pas de partenaire industriel ni de déploiement commercial ; il s'agit d'un travail de recherche académique testé sur un seul bras xArm, avec des perspectives de validation à plus grande échelle et sur des plateformes robotiques plus variées à confirmer.

RechercheActu

1 source

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage

42

2arXiv cs.RO

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage

Une équipe de chercheurs a déposé le 14 mai 2026 sur arXiv (arXiv:2605.14417) un framework hiérarchique nommé DAJI (Dynamics-Aligned Joint Intent), destiné au contrôle en continu du corps entier d'humanoïdes via des instructions en langage naturel. L'architecture repose sur deux modules distincts : DAJI-Act, une politique d'action par diffusion déployable, entraînée en distillant un modèle "teacher" conscient du futur via des rollouts guidés par un modèle étudiant ; et DAJI-Flow, qui génère de façon autorégressive des blocs d'"intentions articulaires" futures à partir d'une instruction linguistique et de l'historique d'intentions. Sur le benchmark HumanML3D, DAJI atteint 94,42 % de taux de succès en génération de séquences. Sur BABEL, le framework obtient un FID de sous-séquence de 0,152, une métrique de fidélité cinématique. Le problème que DAJI cherche à résoudre est central dans la commande des humanoïdes : les approches existantes génèrent des références cinématiques que le contrôleur bas niveau doit corriger de manière réactive, ce qui introduit des délais et des instabilités lors des transitions de support (transferts d'appui, changements de contact). DAJI propose à la place une interface d'"intention articulaire anticipatoire" qui encode explicitement les futures transitions de contact, les transferts de poids et les préparations à l'équilibre avant que le corps ne les exécute. Pour les intégrateurs de robots humanoïdes, c'est une piste sérieuse pour réduire le reality gap simulation-déploiement, puisque le pipeline diffusion + anticipation est conçu pour être réellement embarqué, pas seulement simulé. Cela valide aussi l'hypothèse qu'une représentation explicite et interprétable de l'intention mécanique future peut coexister avec un pilotage par langage naturel en streaming. Ce travail s'inscrit dans une compétition académique et industrielle dense sur le contrôle des humanoïdes conditionné par le langage. Des approches comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques VLA de Figure explorent des territoires proches, mais privilégient souvent des représentations latentes dont les sorties n'encodent pas explicitement l'état mécanique futur. DAJI se distingue en faisant de l'"intent" une variable interprétable et structurée. Il faut néanmoins noter que les résultats sont obtenus exclusivement sur des benchmarks de génération de mouvements (HumanML3D, BABEL) et non sur robot physique : il s'agit d'une preuve de concept académique, pas d'un système déployé. La validation sur plateforme réelle, sur un Unitree G1, un Agility Digit ou équivalent, reste la prochaine étape non annoncée.

RechercheOpinion

1 source

Adaptation planificateur : apprentissage adaptatif des paramètres par modèle vision-langage-action

37

3arXiv cs.RO

Adaptation planificateur : apprentissage adaptatif des paramètres par modèle vision-langage-action

Article sur l'apprentissage adaptatif de paramètres de planification pour la navigation robotique. Des chercheurs ont présenté APPLV (Adaptive Planner Parameter Learning from Vision-Language-Action Model), une méthode qui utilise un modèle vision-langage pré-entraîné doté d'une tête de régression pour prédire les paramètres de configuration de planificateurs classiques de navigation, plutôt que de générer directement des actions comme le font les modèles VLA traditionnels. Deux stratégies d'entraînement ont été développées : un apprentissage supervisé à partir de trajectoires de navigation collectées, puis un affinage par apprentissage par renforcement pour optimiser davantage les performances. L'équipe a évalué APPLV sur plusieurs planificateurs de mouvement via le jeu de données simulé BARN (Benchmark Autonomous Robot Navigation), ainsi que lors d'expériences sur robot physique. Les résultats montrent qu'APPLV surpasse les méthodes existantes à la fois en performance de navigation et en capacité de généralisation à des environnements non vus durant l'entraînement. Cette avancée s'attaque à un problème concret pour les intégrateurs de robotique mobile : la navigation dans des espaces fortement contraints. Les approches classiques de navigation, bien que sûres, nécessitent un réglage manuel et fastidieux des paramètres pour chaque nouvel environnement, tandis que l'apprentissage de bout en bout contourne ce réglage mais échoue souvent sur le contrôle précis requis en espace confiné. APPLV se positionne dans une troisième voie déjà explorée par des travaux récents en robot learning, qui automatisent le réglage des paramètres tout en conservant les garanties de sécurité des systèmes classiques, mais qui peinaient jusqu'ici à généraliser à des environnements inédits. En s'appuyant sur les capacités de compréhension de scène des modèles fondation, APPLV cherche aussi à répondre aux limites connues des VLA appliqués à la navigation : latence d'inférence et manque de précision dans le contrôle, deux obstacles qui freinent leur déploiement industriel réel. Le travail s'inscrit dans la lignée des recherches sur les modèles Vision-Language-Action (VLA) appliqués à la robotique mobile, un domaine où la promesse de généralisation via les modèles fondation se heurte régulièrement à la réalité du contrôle bas niveau. En choisissant de faire prédire des paramètres de planificateur plutôt que des actions brutes, les auteurs combinent l'interprétabilité et la sécurité des planificateurs classiques avec la capacité d'adaptation contextuelle des modèles vision-langage. Le papier, une version révisée (v2) déposée sur arXiv, ne précise pas d'acteur industriel ni de calendrier de déploiement commercial ; il s'agit à ce stade d'une contribution de recherche académique, dont la portée pratique dépendra de futurs travaux de validation sur des flottes robotiques réelles et de comparaisons plus larges avec d'autres architectures de navigation apprise.

RechercheOpinion

1 source

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

42

4arXiv cs.RO

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion

1 source

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

À lire aussi

Vers une intelligence physique semblable à l'humain : apprentissage vision-langage-action continu pour la manipulation robotique

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage

Adaptation planificateur : apprentissage adaptatif des paramètres par modèle vision-langage-action

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action