Aller au contenu principal
QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes
RecherchearXiv cs.RO6sem

QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du MIT CLEAR Lab ont publié QuickLAP (Quick Language-Action Preference Learning), un cadre bayésien conçu pour apprendre les préférences d'un utilisateur en combinant deux types de retours : les corrections physiques (gestes, ajustements de trajectoire) et les instructions en langage naturel. L'article, déposé sur arXiv (2511.17855v2), présente des résultats obtenus dans un simulateur de conduite semi-autonome. L'approche utilise un LLM pour extraire, à partir d'énoncés libres, deux signaux distincts : un masque d'attention sur les caractéristiques de la fonction de récompense (quels critères comptent) et un vecteur de déplacement de préférence (dans quelle direction). Ces signaux sont intégrés avec les corrections physiques via une règle de mise à jour en forme fermée, sans nécessiter d'optimisation itérative à chaque cycle.

Les résultats quantitatifs sont notables : QuickLAP réduit l'erreur d'apprentissage de la récompense de plus de 70 % par rapport à des baselines utilisant uniquement le retour physique ou des fusions multimodales heuristiques. Une étude utilisateur menée avec 15 participants confirme que le système est perçu comme plus compréhensible et collaboratif, et que le comportement appris est préféré à celui des baselines. Pour les intégrateurs de systèmes semi-autonomes (robotique d'assistance, véhicules autonomes, cobots industriels), cela pointe vers une voie concrète pour réduire la charge de supervision humaine : au lieu d'imposer des interfaces de correction rigides, le système réconcilie des feedbacks ambigus en temps réel. La combinaison LLM + inférence bayésienne contourne l'ambiguïté classique des corrections gestuelles seules.

Le problème adressé est bien identifié dans la littérature sur l'apprentissage par renforcement interactif (IRL, RLHF, preference learning). Les approches précédentes traitaient soit le langage (via RLHF ou instruction following), soit le retour physique (DAgger, kinesthetic teaching), rarement les deux de façon cohérente. QuickLAP se positionne dans la lignée des travaux sur les VLAs et les reward models multimodaux, avec un angle applicatif sur les systèmes à supervision humaine partielle. Le code est disponible sur GitHub (MIT-CLEAR-Lab/QuickLAP). Les prochaines étapes naturelles seraient une validation sur robot physique et des expériences dans des domaines au-delà de la conduite, comme la manipulation ou la navigation en entrepôt.

Dans nos dossiers

À lire aussi

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique
1arXiv cs.RO 

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique

Des chercheurs présentent MAPL (Multi-Objective AI-Informed Preference Learning), un cadre d'apprentissage par renforcement pour la locomotion quadrupède qui remplace les fonctions de récompense manuelles par des préférences générées par LLM. Publié sur arXiv (réf. 2606.25398) en juin 2025, le système soumet des paires de trajectoires à un grand modèle de langage, qui les évalue selon plusieurs critères sémantiques distincts, formulés en langage naturel générique et invariants selon le terrain. Ces préférences par objectif alimentent un modèle de scoring à plusieurs têtes, dont les sorties sont agrégées en récompense scalaire pour l'optimisation de politique. Sur quatre environnements de simulation quadrupède, les auteurs rapportent des performances comparables ou supérieures à des récompenses conçues par des experts du domaine. L'intérêt de MAPL tient à sa décomposition structurée des objectifs, là où les méthodes LLM existantes se limitent à un jugement global entre comportements. En robotique industrielle, la conception de fonctions de récompense reste un goulot d'étranglement reconnu, exigeant de longues itérations entre ingénieurs RL et spécialistes métier. Substituer ce travail par des descriptions en langage naturel, réutilisables sans réécriture d'équations, réduirait le coût d'adaptation à de nouvelles tâches. La décomposition en critères distincts offre aussi une meilleure interprétabilité : il devient possible d'identifier quels objectifs sont en tension, ce qui facilite le débogage comportemental. MAPL s'inscrit dans la vague d'automatisation de la conception de récompenses via LLM, initiée notamment par EUREKA (NVIDIA, 2023), qui générait directement du code de récompense via GPT-4, et par RL-VLM-F, qui exploite des modèles vision-langage pour évaluer les comportements. La locomotion quadrupède est un benchmark standard utilisé par des projets comme ANYmal (ETH Zurich) et les plateformes Unitree. Plusieurs limites méritent d'être signalées : l'article reste un preprint non relu par les pairs, les expériences sont menées uniquement en simulation sans validation physique, et le LLM utilisé pour générer les préférences n'est pas spécifié, ce qui complique la reproductibilité. Les extensions naturelles concernent la validation sur robot réel et l'application à des morphologies plus complexes, comme les humanoïdes, où l'ingénierie de récompense est particulièrement coûteuse.

RecherchePaper
1 source
HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action
2arXiv cs.RO 

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
3arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées
4arXiv cs.RO 

Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées

Une équipe de chercheurs a publié sur arXiv (réf. 2604.01463) un cadre d'apprentissage des préférences conçu pour personnaliser les robots d'assistance physique à partir de retours en langage naturel, sans imposer de charge cognitive aux utilisateurs atteints de paralysie. Le système, entièrement hors ligne, traduit des commentaires vocaux non structurés en politiques de contrôle robotique déterministes. La validation a été menée avec 10 adultes tétraplégiques dans une étude simulée de préparation de repas. Le pipeline s'appuie sur des grands modèles de langage (LLM) ancrés dans l'Occupational Therapy Practice Framework (OTPF), référentiel clinique standard de l'ergothérapie américaine, pour déchiffrer les réactions subjectives des utilisateurs en besoins physiques et psychologiques explicites, puis les convertir en arbres de décision lisibles. Une étape de vérification automatisée, dite "LLM-as-a-Judge", contrôle la sûreté structurelle du code généré avant tout déploiement. L'enjeu est direct pour les intégrateurs de robotique d'assistance : les méthodes classiques d'apprentissage des préférences, notamment les comparaisons par paires exhaustives issues du paradigme RLHF, sont pratiquement inapplicables à des utilisateurs présentant des déficiences motrices sévères, tant la fatigue physique et cognitive est élevée. Ce travail propose une alternative qui réduit significativement la charge utilisateur selon les mesures rapportées, et dont les politiques générées ont été jugées sûres et fidèles aux préférences des patients par des ergothérapeutes certifiés. L'ancrage dans un cadre clinique structuré, plutôt qu'une simple inférence LLM libre, est le point différenciant : il impose une traçabilité entre le discours du patient et les paramètres de contrôle robot. Les arbres de décision produits restent interprétables, ce qui facilite la validation réglementaire. Le cadre s'inscrit dans une littérature croissante sur la personnalisation des robots d'assistance, domaine où Physical Intelligence (pi.ai) ou des acteurs académiques comme Stanford et Carnegie Mellon explorent les politiques VLA généralisables. Ici, l'approche est délibérément ciblée et offline, ce qui la distingue des pipelines end-to-end en ligne. La taille de l'étude reste limitée (10 participants, environnement simulé), et aucune timeline de déploiement clinique réel n'est annoncée, ce qui maintient ce travail au stade de la preuve de concept prometteuse plutôt que d'un produit shipped. La prochaine étape naturelle serait une validation en environnement réel avec un robot physique instrumenté.

RecherchePaper
1 source