Aller au contenu principal
Comment enseigner la même compétence à différents robots
RechercheRobohub6sem

Comment enseigner la même compétence à différents robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de l'EPFL ont publié en 2026 dans la revue Science Robotics un nouveau cadre de contrôle robotique baptisé "Kinematic Intelligence", développé au sein du laboratoire LASA (Learning Algorithms and Systems Laboratory) sous la direction d'Aude Billard. Le principe repose sur trois étapes : une tâche démontrée une seule fois par un opérateur humain est capturée via motion-capture, convertie mathématiquement en une stratégie de mouvement générique, puis automatiquement adaptée aux contraintes cinématiques de chaque robot cible (amplitudes articulaires, positions d'équilibre, limites mécaniques). Dans une expérience conduite sur une ligne d'assemblage, un humain démontre trois actions successives - pousser un bloc de bois d'un convoyeur vers un établi, le déposer sur une table, puis le lancer dans un panier - et trois robots commerciaux de morphologies différentes reproduisent fidèlement cette séquence, y compris lorsque la répartition des étapes entre machines est modifiée en cours d'exécution.

L'enjeu industriel est direct : reprogrammer une flotte de robots lors d'un changement de génération matérielle représente aujourd'hui un coût significatif en temps et en expertise, même quand les nouvelles machines remplissent des fonctions identiques. Kinematic Intelligence propose une alternative concrète : démontrer une fois, déployer sur plusieurs plateformes sans réécriture. Pour les intégrateurs et les décideurs industriels, cela ouvre la voie à une réduction du temps de mise en service et à une meilleure résilience face à l'évolution rapide du hardware robotique. La publication valide également une hypothèse structurante : un transfert de compétences cross-robot peut garantir formellement un comportement sûr et prédictible, sans recourir à de l'apprentissage par renforcement spécifique à chaque plateforme. Sthithpragya Gupta (doctorant LASA, co-premier auteur) et Durgesh Haribhau Salunkhe (chercheur LASA, co-premier auteur) soulignent que "chaque robot interprète la même compétence à sa façon, mais toujours dans des limites sûres et faisables". À noter : aucune métrique de taux de succès agrégé ni de temps de cycle n'est communiquée publiquement, ce qui limite l'évaluation quantitative de la robustesse à grande échelle.

Le LASA est un laboratoire de référence en apprentissage par démonstration (Learning from Demonstration), avec une trajectoire longue sur l'imitation du mouvement humain. La recherche s'inscrit dans un paysage concurrentiel dense : les approches VLA (Vision-Language-Action) de Google DeepMind, pi-0 de Physical Intelligence ou les frameworks sim-to-real de Figure AI et Boston Dynamics visent eux aussi à réduire le coût de déploiement cross-plateforme, mais s'appuient sur de grands volumes de données et du fine-tuning. Kinematic Intelligence se distingue par son approche analytique et sa garantie formelle de sécurité, deux propriétés potentiellement attractives dans des environnements réglementés comme l'industrie pharmaceutique, automobile ou agroalimentaire. Les prochaines étapes annoncées incluent la collaboration humain-robot et l'interaction en langage naturel, avec l'ambition de rendre le système opérable sans expertise en programmation robotique.

Impact France/UE

La recherche de l'EPFL-LASA ouvre une piste concrète pour les intégrateurs industriels européens souhaitant réduire les coûts de reprogrammation lors des renouvellements de flottes robotiques, notamment dans les secteurs pharmaceutique, automobile et agroalimentaire.

À lire aussi

Automatisation sans code : un seul guide vidéo pour piloter trois robots complètement différents
1Interesting Engineering 

Automatisation sans code : un seul guide vidéo pour piloter trois robots complètement différents

Des chercheurs du Laboratoire d'algorithmes d'apprentissage et de systèmes (LASA) à l'École Polytechnique Fédérale de Lausanne (EPFL) ont présenté un framework de contrôle robotique baptisé Kinematic Intelligence, capable de transférer une compétence apprise à partir d'une seule démonstration humaine vers des robots de morphologies entièrement différentes, sans réécrire une ligne de code. Dans une expérience sur ligne d'assemblage, une personne a démontré une séquence en trois étapes : pousser un bloc en bois d'un tapis roulant vers un établi, le placer sur une table, puis le jeter dans un panier. Trois robots commerciaux distincts ont ensuite reproduit cette séquence de manière fiable, chacun prenant en charge des étapes différentes. Le système a fonctionné même lorsque la répartition des tâches entre les robots a été modifiée en cours d'expérience, comme l'a précisé Sthithpragya Gupta, doctorant et co-premier auteur : "Chaque robot interprète la même compétence à sa façon, mais toujours dans des limites sûres et faisables." L'enjeu industriel est direct. Aujourd'hui, intégrer un nouveau modèle de robot dans une ligne de production existante implique souvent une reprogrammation complète des tâches, même si le robot entrant est fonctionnellement similaire au précédent. Chaque configuration articulaire différente, chaque amplitude de mouvement propre à un constructeur, exige un travail d'adaptation coûteux en temps et en expertise. Kinematic Intelligence adresse ce goulet d'étranglement en abstrayant la tâche démontrée non pas dans les coordonnées articulaires d'un robot spécifique, mais dans une représentation géométrique universelle ancrée sur la position et la trajectoire de l'effecteur terminal dans l'espace. Cette représentation est ensuite réexprimée dans les termes cinématiques du robot cible, avec une vérification explicite que chaque instruction traduite reste dans l'enveloppe physiquement et sûrement exécutable par la machine. Ce n'est donc pas une simple transposition de mouvements : c'est une garantie de faisabilité avant exécution, ce qui distingue le système d'approches par imitation directe souvent fragiles hors contexte de démonstration. Le LASA, dirigé par la professeure Aude Billard, travaille depuis plusieurs années sur l'apprentissage par démonstration et les systèmes dynamiques pour la robotique. Le framework s'inscrit dans un contexte de marché humanoïde en pleine accélération, où Figure, Agility Robotics, 1X ou Apptronik itèrent leurs plateformes matérielles tous les six à dix-huit mois, rendant la portabilité des compétences entre générations de hardware critique pour la viabilité économique des déploiements. Les chercheurs annoncent vouloir étendre Kinematic Intelligence à la collaboration homme-robot et à l'interaction en langage naturel, permettant à terme à un utilisateur non-technicien d'instruire un robot par commandes simples. Le papier complet n'était pas encore publié au moment de l'annonce : les résultats restent pour l'instant à valider par la communauté en dehors du cadre contrôlé de la démonstration EPFL.

UELe LASA de l'EPFL, institution de recherche européenne de premier rang, produit un framework directement applicable aux intégrateurs robotiques européens confrontés au coût de reprogrammation lors du remplacement de robots en ligne de production.

RecherchePaper
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
2arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots
3arXiv cs.RO 

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

Des chercheurs ont publié le 18 juin 2026 sur arXiv (2606.18328) un article présentant ReSYNC, pour Recovery-Driven Synthesis of Relational Concepts, un système d'apprentissage robotique capable d'extraire automatiquement des abstractions conceptuelles à partir de ses propres erreurs. Le principe repose sur un double cycle d'apprentissage incrémental : une phase d'apprentissage de compétences, où le robot utilise le renforcement (RL) pour récupérer d'échecs observés durant l'entraînement, et une phase d'apprentissage de concepts, où il construit et raffine des prédicats relationnels, c'est-à-dire des règles symboliques décrivant les états du monde pertinents pour éviter ces mêmes échecs. Testé sur quatre domaines simulés incluant des tâches de manipulation non préhensile (pousser, faire glisser des objets sans saisie ferme), ReSYNC surpasse les méthodes de référence de plus de 50 % sur des problèmes à horizon long et non vus à l'entraînement. Un transfert sim-to-réel est également démontré, avec exécution de comportements de manipulation en conditions physiques réelles. L'enjeu industriel central que pointe ce travail est l'inefficacité structurelle du RL classique face à la diversité des pannes : entraîner une politique distincte pour chaque mode d'échec ne passe pas à l'échelle. ReSYNC propose une alternative en transformant des récupérations locales, apprises sur des tâches spécifiques, en capacité d'évitement global sur des scénarios inédits. Pour les intégrateurs industriels ou les équipes de robotique mobile, cela suggère un chemin vers des robots capables de se "réparer" conceptuellement sans intervention humaine entre chaque environnement de déploiement. Le transfert sim-to-réel reste cependant présenté sur des tâches de manipulation relativement contraintes, et les vidéos de démonstration sélectionnées dans un preprint ne permettent pas encore d'évaluer la robustesse sur des cycles de production réels. ReSYNC s'inscrit dans un courant de recherche qui tente de réconcilier planification symbolique classique (TAMP, PDDL) et apprentissage par renforcement, un problème ouvert depuis plus d'une décennie. Des approches concurrentes incluent les méthodes guidées par LLM pour la génération de prédicats (Code as Policies, SayCan) ainsi que les travaux sur la découverte automatique de prédicats en TAMP (LEGO, GROOT). Ce qui distingue ReSYNC est son ancrage explicite dans l'expérience d'échec plutôt que dans des démonstrations d'expert. Le code et les environnements de simulation ne semblent pas encore publics au moment de la soumission, et aucun partenaire industriel ni calendrier de déploiement n'est mentionné, ce qui classe ce travail comme une contribution académique prometteuse plutôt qu'un produit opérationnel.

RecherchePaper
1 source
Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble
4arXiv cs.RO 

Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble

Une équipe de chercheurs publie en mai 2026 un preprint (arXiv:2605.21242) portant sur la prédiction automatique de compétences robotiques dans les flottes hétérogènes. À partir d'une description de tâche en langage naturel, le système identifie quelles capacités physiques sont requises parmi six catégories: vol, roues, pattes, navigation en surface aquatique, navigation sous-marine et manipulation avec mains. Faute de données labellisées existantes pour ce mapping, les auteurs ont construit un dataset synthétique via génération assistée par LLM et audit ciblé des étiquettes. Un ensemble de deux encodeurs de phrases fine-tunés (mpnet + MiniLM, environ 133 millions de paramètres au total) atteint 83,5 % de précision sur un jeu de test stratifié de 200 tâches, dépassant Kimi K2 (1 000 milliards de paramètres, architecture MoE) à 72,0 %, GPT-OSS-120B à 71,5 %, et Llama-4-Scout-17B à 69,0 %, tous évalués en zero-shot avec le même prompt. Ce résultat expose une asymétrie opérationnelle significative: un modèle de 133 millions de paramètres déployable localement surclasse des LLMs un millier de fois plus volumineux sur une tâche de routage de flotte. Pour les intégrateurs gérant des flottes mixtes (humanoïdes, quadrupèdes, drones, rovers), l'assignation automatique de la bonne plateforme à la bonne tâche reste un problème non résolu en production. Une limite mérite d'être soulignée: le jeu d'évaluation de 200 tâches synthétiques a été produit par les auteurs eux-mêmes, ce qui appelle une validation indépendante sur des scénarios réels avant de tirer des conclusions définitives. La gestion de flottes robotiques hétérogènes s'est intensifiée avec la multiplication des plateformes commerciales (Boston Dynamics Spot, Unitree B2, humanoïdes Figure ou Agility Digit, drones industriels), et les approches actuelles de routage reposent encore sur des règles manuelles peu scalables. Les auteurs s'inscrivent dans la tendance de distillation de capacités LLM vers des modèles compacts (famille SetFit, sentence-transformers), appliquée ici pour la première fois à la sélection de plateforme robotique. Ce preprint ne mentionne ni déploiement terrain ni partenariat industriel, mais l'utilisation de mpnet et MiniLM, disponibles en open-source sur Hugging Face, abaisse la barrière à une validation industrielle rapide.

RecherchePaper
1 source