
QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes
Des chercheurs du MIT CLEAR Lab ont publié QuickLAP (Quick Language-Action Preference Learning), un cadre bayésien conçu pour apprendre les préférences d'un utilisateur en combinant deux types de retours : les corrections physiques (gestes, ajustements de trajectoire) et les instructions en langage naturel. L'article, déposé sur arXiv (2511.17855v2), présente des résultats obtenus dans un simulateur de conduite semi-autonome. L'approche utilise un LLM pour extraire, à partir d'énoncés libres, deux signaux distincts : un masque d'attention sur les caractéristiques de la fonction de récompense (quels critères comptent) et un vecteur de déplacement de préférence (dans quelle direction). Ces signaux sont intégrés avec les corrections physiques via une règle de mise à jour en forme fermée, sans nécessiter d'optimisation itérative à chaque cycle.
Les résultats quantitatifs sont notables : QuickLAP réduit l'erreur d'apprentissage de la récompense de plus de 70 % par rapport à des baselines utilisant uniquement le retour physique ou des fusions multimodales heuristiques. Une étude utilisateur menée avec 15 participants confirme que le système est perçu comme plus compréhensible et collaboratif, et que le comportement appris est préféré à celui des baselines. Pour les intégrateurs de systèmes semi-autonomes (robotique d'assistance, véhicules autonomes, cobots industriels), cela pointe vers une voie concrète pour réduire la charge de supervision humaine : au lieu d'imposer des interfaces de correction rigides, le système réconcilie des feedbacks ambigus en temps réel. La combinaison LLM + inférence bayésienne contourne l'ambiguïté classique des corrections gestuelles seules.
Le problème adressé est bien identifié dans la littérature sur l'apprentissage par renforcement interactif (IRL, RLHF, preference learning). Les approches précédentes traitaient soit le langage (via RLHF ou instruction following), soit le retour physique (DAgger, kinesthetic teaching), rarement les deux de façon cohérente. QuickLAP se positionne dans la lignée des travaux sur les VLAs et les reward models multimodaux, avec un angle applicatif sur les systèmes à supervision humaine partielle. Le code est disponible sur GitHub (MIT-CLEAR-Lab/QuickLAP). Les prochaines étapes naturelles seraient une validation sur robot physique et des expériences dans des domaines au-delà de la conduite, comme la manipulation ou la navigation en entrepôt.
Dans nos dossiers




