Aller au contenu principal
Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel
RecherchearXiv cs.RO4h

Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont obtenu un jonglage stable à trois, quatre et cinq balles sur des bras robotiques Barrett WAM anthropomorphiques, grâce à une méthode d'apprentissage résiduel guidée par l'erreur directionnelle de tâche (arXiv:2606.16978, juin 2026). Le résultat le plus saisissant tient en deux chiffres : le système converge dès la deuxième tentative. La première tente échoue, et à partir de là, l'erreur de tâche décroît de façon monotone, sans aucune chute supplémentaire. L'équipe compare plusieurs stratégies d'apprentissage résiduel sur deux axes orthogonaux : la richesse directionnelle du signal de supervision, et le degré d'engagement de l'a priori analytique. Les méthodes évaluées vont des mises à jour newtoniennes par Jacobien fixe à l'optimisation bayésienne composite (CBO), en passant par des méthodes de recherche stochastique.

Le principal enseignement est que le goulot d'étranglement de l'apprentissage résiduel sur robots réels n'est pas la précision du modèle dynamique ni la fidélité de la simulation, mais bien la qualité informationnelle du signal de supervision. Un signal directionnel comme l'erreur de tâche vectorielle transporte bien plus d'information qu'une récompense scalaire standard, permettant une convergence avec un nombre très limité d'essais réels. Les deux axes se révèlent nécessaires conjointement : ni le signal directionnel seul, ni l'a priori informatif seul ne suffisent. Fait notable, la méthode la plus simple combinant les deux, la mise à jour newtonienne à Jacobien fixe, s'avère la plus fiable, devançant les approches plus sophistiquées. Ce résultat remet en cause l'hypothèse selon laquelle la complexité algorithmique serait le principal levier d'efficacité en échantillons sur hardware réel.

Le Barrett WAM est une plateforme de référence pour la manipulation dynamique en recherche, mais son utilisation pour le jonglage à cinq balles reste rarissime, un exercice que les humains atteignent après des années d'entraînement. Ce travail s'inscrit dans un courant qui cherche à réduire drastiquement le nombre d'interactions réelles nécessaires à la spécialisation fine d'un contrôleur, en parallèle d'approches comme les politiques visuomotrices (VLA) ou le sim-to-real par apprentissage par renforcement développés chez DeepMind ou CMU. Le fait que la méthode opère à travers une stack de planification simple et idéalisée, sans calibration fine, ouvre des perspectives pour des déploiements industriels rapides sur robots aux dynamiques partiellement inconnues. Les prochaines étapes naturelles seraient l'extension à des objets non sphériques et la mise à disposition publique du code.

Dans nos dossiers

À lire aussi

Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique
1arXiv cs.RO 

Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique

Une équipe de chercheurs publie BARD (Batched Articulated Rigid-body Dynamics), une implémentation PyTorch des algorithmes de dynamique corps rigides de Featherstone, conçue pour l'évaluation GPU en batch et la différentiation automatique. Sur cinq modèles de robots allant de 7 à 23 degrés de liberté, BARD atteint un débit jusqu'à 64 fois supérieur à Pinocchio pour la cinématique directe et 63 fois supérieur pour les jacobiens, à une taille de batch de 4096 sur un NVIDIA H200. La bibliothèque repose sur trois choix d'architecture : un cache à évaluation paresseuse par niveaux qui évite les traversées redondantes de l'arbre cinématique, des transformées de joints sans multiplication matricielle grâce à des constantes de Rodrigues précalculées, et une propagation parallèle par niveaux qui ramène les opérations séquentielles à des étapes batchées proportionnelles à la profondeur de l'arbre. La précision numérique est validée par identification de système sur un manipulateur 7-DOF, avec une erreur moyenne de 1,24 % sur les masses des segments sous 5 % de bruit sur les couples. Intégré dans le pipeline d'entraînement Isaac Lab AMP pour un quadrupède à colonne vertébrale de 11 DOF avec 4096 environnements parallèles, BARD est 8,5 fois plus rapide que Pinocchio et 2 fois plus rapide qu'ADAM pour le calcul de dynamique en boucle d'entraînement. Le code est disponible en open source sur GitHub. L'enjeu est structurel : à mesure que le contrôle robotique migre vers le reinforcement learning à grande échelle avec calcul de dynamique en boucle (in-loop), les librairies CPU comme Pinocchio deviennent un goulot d'étranglement dans les pipelines GPU. BARD élimine ce découplage CPU/GPU sans sacrifier la précision ni la différentiabilité, deux propriétés critiques pour l'optimisation par gradient. Pour les équipes qui entraînent des politiques de locomotion ou de manipulation sur des milliers d'environnements parallèles, ce gain de débit se traduit directement en temps de calcul réduit et en capacité à itérer plus vite sur l'architecture des récompenses et des politiques. Pinocchio reste la référence académique et industrielle pour la dynamique articulée depuis plus de dix ans, mais son architecture CPU-first n'a pas été pensée pour les pipelines d'apprentissage modernes sur GPU. ADAM, autre alternative GPU, est ici surpassé d'un facteur 2 en contexte in-loop. BARD se positionne donc entre les simulateurs physiques complets comme Isaac Sim ou MuJoCo MJX et les librairies de dynamique symbolique, en ciblant explicitement l'usage comme composant différentiable dans une boucle d'entraînement. L'article est une prépublication arXiv (2605.31481), non encore soumise à révision par les pairs, et les benchmarks présentés portent sur des scénarios contrôlés : des tests en conditions de déploiement réel, notamment sur des robots industriels ou des plateformes commerciales, restent à venir.

UEBARD surpasse directement Pinocchio, bibliothèque de dynamique articulée développée et maintenue par LAAS-CNRS et INRIA, ce qui constitue un signal fort pour les équipes de recherche robotique françaises qui l'utilisent comme référence dans leurs pipelines d'apprentissage par renforcement.

RecherchePaper
1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
2arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
Factorisation tâche-monde pour l'apprentissage robotique
3arXiv cs.RO 

Factorisation tâche-monde pour l'apprentissage robotique

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.02027) un framework d'apprentissage robotique baptisé "World-Task Factorization", dont le principe central est de séparer structurellement ce qui relève du monde physique de ce qui relève de la tâche à accomplir. Les facteurs "monde" regroupent les propriétés du corps du robot et de son environnement, indépendamment de toute intention ; les facteurs "tâche" encodent la logique de ce que le monde autorise à faire. Pour instancier cette séparation, les auteurs couplent un module analytique nommé AICON, un graphe différentiable d'estimateurs récursifs compositionnels opérant sans données spécifiques à la tâche, à une politique apprise compacte qui module les chemins de gradient. Ce mécanisme est testé sur trois familles de problèmes impliquant des robots hétérogènes, des modalités sensorimotrices variées et des logiques de tâche distinctes ; le framework surpasse les baselines bout-en-bout et les heuristiques analytiques dans tous les scénarios, et les auteurs rapportent un transfert vers du matériel réel sans réentraînement. L'intérêt industriel de cette approche tient à ce qu'elle adresse directement le problème de généralisation, obstacle majeur à la commercialisation des robots polyvalents. En factorisant explicitement monde et tâche, le framework promet de réduire le volume de données nécessaire au réentraînement lors d'un changement de contexte, de coéquipier ou de contrainte, là où les architectures bout-en-bout actuelles exigent de recollecterdes données à chaque variation. La capacité annoncée de généralisation zero-shot à des configurations hors distribution reste toutefois à valider à plus grande échelle : les expériences rapportées, bien que convaincantes sur trois domaines, demeurent de portée laboratoire, sans chiffres de volume de déploiement ni métriques de cycle time dans des contextes industriels réels. Sur le plan académique, ce travail s'inscrit dans un débat structurant du domaine : faut-il laisser la structure émerger du passage à l'échelle des données (approche des VLA de type Pi-0, GR00T N2 ou OpenVLA), ou l'encoder explicitement via des hiérarchies ou des bibliothèques de compétences ? Le framework proposé prend une troisième voie, fondée sur la théorie bayésienne (evidence du modèle, rasoir d'Occam) pour justifier la factorisation. Il se positionne ainsi face aux travaux de Physical Intelligence (Pi-0), de Boston Dynamics, et des laboratoires académiques comme Berkeley (RT-2, RoboAgent) ou Stanford (Mobile ALOHA). Les auteurs n'annoncent pas de partenariat industriel ni de calendrier de commercialisation ; l'étape suivante naturelle serait une validation sur des manipulateurs ou des humanoïdes dans des environnements semi-structurés, avec des métriques de robustesse publiées.

RecherchePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
4arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source