
Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel
Des chercheurs ont obtenu un jonglage stable à trois, quatre et cinq balles sur des bras robotiques Barrett WAM anthropomorphiques, grâce à une méthode d'apprentissage résiduel guidée par l'erreur directionnelle de tâche (arXiv:2606.16978, juin 2026). Le résultat le plus saisissant tient en deux chiffres : le système converge dès la deuxième tentative. La première tente échoue, et à partir de là, l'erreur de tâche décroît de façon monotone, sans aucune chute supplémentaire. L'équipe compare plusieurs stratégies d'apprentissage résiduel sur deux axes orthogonaux : la richesse directionnelle du signal de supervision, et le degré d'engagement de l'a priori analytique. Les méthodes évaluées vont des mises à jour newtoniennes par Jacobien fixe à l'optimisation bayésienne composite (CBO), en passant par des méthodes de recherche stochastique.
Le principal enseignement est que le goulot d'étranglement de l'apprentissage résiduel sur robots réels n'est pas la précision du modèle dynamique ni la fidélité de la simulation, mais bien la qualité informationnelle du signal de supervision. Un signal directionnel comme l'erreur de tâche vectorielle transporte bien plus d'information qu'une récompense scalaire standard, permettant une convergence avec un nombre très limité d'essais réels. Les deux axes se révèlent nécessaires conjointement : ni le signal directionnel seul, ni l'a priori informatif seul ne suffisent. Fait notable, la méthode la plus simple combinant les deux, la mise à jour newtonienne à Jacobien fixe, s'avère la plus fiable, devançant les approches plus sophistiquées. Ce résultat remet en cause l'hypothèse selon laquelle la complexité algorithmique serait le principal levier d'efficacité en échantillons sur hardware réel.
Le Barrett WAM est une plateforme de référence pour la manipulation dynamique en recherche, mais son utilisation pour le jonglage à cinq balles reste rarissime, un exercice que les humains atteignent après des années d'entraînement. Ce travail s'inscrit dans un courant qui cherche à réduire drastiquement le nombre d'interactions réelles nécessaires à la spécialisation fine d'un contrôleur, en parallèle d'approches comme les politiques visuomotrices (VLA) ou le sim-to-real par apprentissage par renforcement développés chez DeepMind ou CMU. Le fait que la méthode opère à travers une stack de planification simple et idéalisée, sans calibration fine, ouvre des perspectives pour des déploiements industriels rapides sur robots aux dynamiques partiellement inconnues. Les prochaines étapes naturelles seraient l'extension à des objets non sphériques et la mise à disposition publique du code.
Dans nos dossiers




