Aller au contenu principal
Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble
RecherchearXiv cs.RO6sem

Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie en mai 2026 un preprint (arXiv:2605.21242) portant sur la prédiction automatique de compétences robotiques dans les flottes hétérogènes. À partir d'une description de tâche en langage naturel, le système identifie quelles capacités physiques sont requises parmi six catégories: vol, roues, pattes, navigation en surface aquatique, navigation sous-marine et manipulation avec mains. Faute de données labellisées existantes pour ce mapping, les auteurs ont construit un dataset synthétique via génération assistée par LLM et audit ciblé des étiquettes. Un ensemble de deux encodeurs de phrases fine-tunés (mpnet + MiniLM, environ 133 millions de paramètres au total) atteint 83,5 % de précision sur un jeu de test stratifié de 200 tâches, dépassant Kimi K2 (1 000 milliards de paramètres, architecture MoE) à 72,0 %, GPT-OSS-120B à 71,5 %, et Llama-4-Scout-17B à 69,0 %, tous évalués en zero-shot avec le même prompt.

Ce résultat expose une asymétrie opérationnelle significative: un modèle de 133 millions de paramètres déployable localement surclasse des LLMs un millier de fois plus volumineux sur une tâche de routage de flotte. Pour les intégrateurs gérant des flottes mixtes (humanoïdes, quadrupèdes, drones, rovers), l'assignation automatique de la bonne plateforme à la bonne tâche reste un problème non résolu en production. Une limite mérite d'être soulignée: le jeu d'évaluation de 200 tâches synthétiques a été produit par les auteurs eux-mêmes, ce qui appelle une validation indépendante sur des scénarios réels avant de tirer des conclusions définitives.

La gestion de flottes robotiques hétérogènes s'est intensifiée avec la multiplication des plateformes commerciales (Boston Dynamics Spot, Unitree B2, humanoïdes Figure ou Agility Digit, drones industriels), et les approches actuelles de routage reposent encore sur des règles manuelles peu scalables. Les auteurs s'inscrivent dans la tendance de distillation de capacités LLM vers des modèles compacts (famille SetFit, sentence-transformers), appliquée ici pour la première fois à la sélection de plateforme robotique. Ce preprint ne mentionne ni déploiement terrain ni partenariat industriel, mais l'utilisation de mpnet et MiniLM, disponibles en open-source sur Hugging Face, abaisse la barrière à une validation industrielle rapide.

À lire aussi

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
1arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Apprentissage de compétences atomiques sémantiques pour la manipulation robotique multitâche
2arXiv cs.RO 

Apprentissage de compétences atomiques sémantiques pour la manipulation robotique multitâche

Des chercheurs ont mis en ligne une nouvelle version (v2) de leur article "Learning Semantic Atomic Skills for Multi-Task Robotic Manipulation" sur arXiv (2512.18368), présentant AtomSkill, un framework d'apprentissage par imitation pour la manipulation robotique multi-tâches. La méthode s'attaque à trois obstacles connus de l'apprentissage par démonstration à grande échelle : démonstrations sous-optimales, multi-modalité des comportements et interférences destructrices entre tâches lorsqu'un même modèle doit apprendre plusieurs compétences simultanément. AtomSkill découpe les démonstrations en compétences atomiques de longueur variable, alignées sémantiquement grâce à un objectif contrastif qui impose à la fois cohérence sémantique et cohérence temporelle, formant une bibliothèque de compétences compacte et réutilisable. La politique apprise prédit à la fois la position finale (keypose) d'une compétence et les actions immédiates, ce qui permet des transitions fluides entre compétences en fonction de la progression. Lors de l'inférence, un échantillonneur par diffusion génère des séquences de compétences plausibles, tandis que les keyposes prédites déclenchent automatiquement l'enchaînement. Les auteurs annoncent des résultats supérieurs aux méthodes de référence en imitation learning et aux approches par compétences existantes, en simulation comme en conditions réelles. L'enjeu dépasse la seule prouesse technique : la plupart des bibliothèques de compétences actuelles sont soit trop dépendantes de la structure du langage utilisé pour les décrire, soit mal alignées sémantiquement d'une tâche à l'autre, ce qui limite leur capacité à généraliser. Résoudre ce compromis conditionne directement la viabilité des politiques multi-tâches pour des applications industrielles comme le picking, l'assemblage ou la manutention, où un même robot doit enchaîner des gestes variés sans réapprentissage complet à chaque nouvelle tâche. C'est aussi un signal dans le débat actuel sur les modèles vision-langage-action (VLA) : la promesse d'une politique unique capable de généraliser à grande échelle reste difficile à tenir, et des architectures hiérarchiques par compétences comme AtomSkill pourraient constituer une alternative plus robuste que les VLA monolithiques. L'article s'inscrit dans une lignée de recherche en concurrence directe avec des approches VLA de bout en bout telles que Pi-0 de Physical Intelligence, GR00T N2 de Nvidia ou Helix de Figure. Contrairement à ces annonces industrielles très médiatisées, il s'agit ici d'une publication académique sans chiffres de benchmark détaillés ni précisions sur le matériel utilisé dans l'abstract, et sans affiliation commerciale indiquée. Les auteurs renvoient vers une page de projet (atom-skill.github.io) pour le code et les démonstrations vidéo ; la validation à plus grande échelle sur robots physiques reste, comme souvent à ce stade de publication, la prochaine étape à surveiller.

RecherchePaper
1 source
Structure de prédiction latente 4D pour la planification robotique
3arXiv cs.RO 

Structure de prédiction latente 4D pour la planification robotique

Structured 4D Latent Predictive Model : un système de prédiction spatiale en 3D pour la planification robotique Une équipe de recherche publie sur arXiv (identifiant 2607.01166v1) un nouveau modèle baptisé « Structured 4D Latent Predictive Model », conçu pour la planification de tâches robotiques. Contrairement aux modèles prédictifs vidéo classiques, qui travaillent sur des séquences 2D, ce système prédit l'évolution de la structure 3D d'une scène dans un espace latent structuré, à partir d'observations visuelles et d'instructions textuelles. Cette représentation peut être décodée vers plusieurs formats 3D, offrant une compréhension plus complète et géométriquement cohérente de la scène. Le modèle sert de planificateur : il génère des scènes futures qui sont ensuite converties en actions exécutables par un module de dynamique inverse conditionné par l'objectif. Selon les auteurs, les expériences montrent une qualité visuelle élevée et une cohérence 3D et multi-vues nettement supérieure aux meilleurs planificateurs vidéo existants, avec de meilleures performances sur des tâches de manipulation complexes, une bonne généralisation à des conditions visuelles inédites, et une validation sur plateformes robotiques réelles. Un site dédié (structured-4d-model.github.io) présente le projet. L'enjeu dépasse la seule prouesse technique. Les modèles vidéo 2D dominent actuellement l'approche « world model » en robotique, notamment dans les architectures VLA (vision-language-action) qui inspirent des systèmes comme Pi-0 ou GR00T N2. Or ces approches peinent souvent à garantir une cohérence physique et spatiale suffisante pour une manipulation fine. En injectant explicitement une structure 3D dans l'espace latent, ce travail répond directement à une limite identifiée du secteur : le fossé entre démonstrations vidéo impressionnantes et exécution fiable sur du matériel réel, un problème central pour les intégrateurs industriels qui cherchent des systèmes robustes plutôt que des démonstrations sélectionnées. Il s'agit toutefois d'une publication académique à ce stade, sans laboratoire ni entreprise identifiés dans le résumé, et sans date de déploiement annoncée. Elle s'inscrit dans une compétition de recherche intense autour des modèles prédictifs pour la robotique, où plusieurs équipes explorent en parallèle des représentations 3D ou 4D pour dépasser les limites du tout-vidéo. Les prochaines étapes dépendront de la publication du code et de tests indépendants sur des plateformes tierces.

RecherchePaper
1 source
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
4arXiv cs.RO 

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper
1 source