Quand la recherche devient mémoire : transformer les es…

Apprentissage de compétences motrices transférables pour des tâches robotiques adaptées à la géométrie des surfaces

36

1arXiv cs.RO

Apprentissage de compétences motrices transférables pour des tâches robotiques adaptées à la géométrie des surfaces

Des chercheurs ont déposé sur arXiv (référence 2605.24881) un cadre modulaire visant à améliorer la robotique de surface sur des tâches comme la peinture par pulvérisation ou le soudage. L'idée centrale : séparer la planification géométrique du chemin et l'exécution experte du mouvement, deux problèmes que les approches actuelles couplent trop étroitement. Le savoir-faire opérateur est formalisé comme un vocabulaire de règles motrices atomiques interprétables - scaling de vitesse, offsets d'orientation - appliquées en surcouche d'un chemin planifié classiquement. Un réseau de neurones multimodal apprend à inférer les paramètres de ces règles à partir de trajectoires cinématiques et de géométrie CAO. L'évaluation porte sur des objets en L et en forme de fenêtre en simulation dynamique, où le modèle extrait correctement les règles de vitesse et d'orientation sur les deux topologies. L'enjeu est direct pour les intégrateurs industriels : la peinture et le soudage robotisés restent des domaines où les opérateurs experts surpassent les robots sur la qualité de surface. Le principal apport de l'approche est la transferabilité géométrique - une limitation connue du learning from demonstration, où les modèles entraînés sur une pièce échouent généralement sur des géométries différentes. En découplant expertise et géométrie, le framework permet théoriquement d'appliquer des règles apprises sur une forme simple à des pièces variées sans réentraînement complet. La représentation interprétable par règles atomiques offre également un levier de validation pour les ingénieurs procédés, critère souvent déterminant en aéronautique et automobile où les certifications imposent une traçabilité des décisions système. Cette publication s'inscrit dans la lignée des travaux sur les primitives motrices (DMP, ProDMP) mais avec une couche d'inférence CAO explicite, une direction explorée aussi par des équipes à Berkeley, ETH Zurich et l'INRIA. À noter que l'évaluation reste entièrement en simulation - aucun résultat sur robot physique n'est présenté, ce qui limite les conclusions sur le transfert sim-to-real effectif. Les prochaines étapes naturelles seraient une validation sur bras 6-DOF (UR10, FANUC) et un test sur des surfaces courbées continues, bien plus représentatives des conditions industrielles réelles que les géométries à arêtes vives utilisées ici.

UELa recherche sur les primitives motrices transférables appliquées à la peinture et au soudage intéresse directement les intégrateurs robotiques européens (aéronautique, automobile), et l'INRIA travaille sur des directions similaires, mais l'absence totale de validation sur robot physique limite l'impact opérationnel immédiat.

RecherchePaper

1 source

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

42

2arXiv cs.RO

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper

1 source

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

33

3arXiv cs.RO

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

RechercheActu

1 source

Apprentissage de compétences atomiques sémantiques pour la manipulation robotique multitâche

42

4arXiv cs.RO

Apprentissage de compétences atomiques sémantiques pour la manipulation robotique multitâche

Des chercheurs ont mis en ligne une nouvelle version (v2) de leur article "Learning Semantic Atomic Skills for Multi-Task Robotic Manipulation" sur arXiv (2512.18368), présentant AtomSkill, un framework d'apprentissage par imitation pour la manipulation robotique multi-tâches. La méthode s'attaque à trois obstacles connus de l'apprentissage par démonstration à grande échelle : démonstrations sous-optimales, multi-modalité des comportements et interférences destructrices entre tâches lorsqu'un même modèle doit apprendre plusieurs compétences simultanément. AtomSkill découpe les démonstrations en compétences atomiques de longueur variable, alignées sémantiquement grâce à un objectif contrastif qui impose à la fois cohérence sémantique et cohérence temporelle, formant une bibliothèque de compétences compacte et réutilisable. La politique apprise prédit à la fois la position finale (keypose) d'une compétence et les actions immédiates, ce qui permet des transitions fluides entre compétences en fonction de la progression. Lors de l'inférence, un échantillonneur par diffusion génère des séquences de compétences plausibles, tandis que les keyposes prédites déclenchent automatiquement l'enchaînement. Les auteurs annoncent des résultats supérieurs aux méthodes de référence en imitation learning et aux approches par compétences existantes, en simulation comme en conditions réelles. L'enjeu dépasse la seule prouesse technique : la plupart des bibliothèques de compétences actuelles sont soit trop dépendantes de la structure du langage utilisé pour les décrire, soit mal alignées sémantiquement d'une tâche à l'autre, ce qui limite leur capacité à généraliser. Résoudre ce compromis conditionne directement la viabilité des politiques multi-tâches pour des applications industrielles comme le picking, l'assemblage ou la manutention, où un même robot doit enchaîner des gestes variés sans réapprentissage complet à chaque nouvelle tâche. C'est aussi un signal dans le débat actuel sur les modèles vision-langage-action (VLA) : la promesse d'une politique unique capable de généraliser à grande échelle reste difficile à tenir, et des architectures hiérarchiques par compétences comme AtomSkill pourraient constituer une alternative plus robuste que les VLA monolithiques. L'article s'inscrit dans une lignée de recherche en concurrence directe avec des approches VLA de bout en bout telles que Pi-0 de Physical Intelligence, GR00T N2 de Nvidia ou Helix de Figure. Contrairement à ces annonces industrielles très médiatisées, il s'agit ici d'une publication académique sans chiffres de benchmark détaillés ni précisions sur le matériel utilisé dans l'abstract, et sans affiliation commerciale indiquée. Les auteurs renvoient vers une page de projet (atom-skill.github.io) pour le code et les démonstrations vidéo ; la validation à plus grande échelle sur robots physiques reste, comme souvent à ce stade de publication, la prochaine étape à surveiller.

RecherchePaper

1 source

Quand la recherche devient mémoire : transformer les essais de conception robotique en compétences transférables

À lire aussi

Apprentissage de compétences motrices transférables pour des tâches robotiques adaptées à la géométrie des surfaces

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Apprentissage de compétences atomiques sémantiques pour la manipulation robotique multitâche