ATHENA : fonctions d'influence hétérogènes multi-tâches accélérées pour la curation de données robotiques
Des chercheurs ont publié ATHENA (Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation), un framework de sélection de données de démonstration conçu pour le fine-tuning de modèles Vision-Language-Action (VLA) à l'échelle du milliard de paramètres. La méthode repose sur les fonctions d'influence, un outil statistique qui quantifie l'effet de chaque démonstration robotique sur la performance finale d'une tâche. Pour contourner le coût de calcul prohibitif de ces fonctions à grande échelle, ATHENA exploite la structure de Kronecker des gradients de couches linéaires et approxime l'inversion de la matrice hessienne dense via une approximation tronquée de rang r (Random Truncated Approximation), atteignant un gain de vitesse de 313,4x sur le calcul d'influence. Le framework a été évalué sur le benchmark de simulation RoboTwin 2.0 (9,34 heures de démonstrations) et sur des déploiements réels (6,90 heures, six tâches). En ne conservant que 50 % des données en simulation et 66,7 % en conditions réelles, ATHENA égale ou surpasse un fine-tuning entraîné sur l'intégralité du jeu de données.
L'enjeu est directement opérationnel pour quiconque déploie des VLA multi-tâches en robotique industrielle ou de service. Le fine-tuning de modèles à un milliard de paramètres sur 50 tâches simultanées génère des coûts de collecte de données considérables ; réduire d'un tiers à moitié le volume nécessaire sans perte de performance change l'équation économique des pipelines d'imitation learning. ATHENA introduit également une notion d'influence globale et locale pour équilibrer la curation entre tâches hétérogènes, un problème rarement traité dans la littérature existante. Le fait que les gains tiennent sur du matériel réel, et pas uniquement en simulation, réduit le scepticisme habituel sur le sim-to-real gap dans ce type de contribution.
Les fonctions d'influence sont un outil classique du machine learning (initialement popularisé pour le diagnostic de données d'entraînement dans les réseaux profonds), mais leur application à la robotique multi-tâches était jusqu'ici bloquée par la complexité computationnelle des modèles VLA modernes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA). ATHENA s'inscrit dans un effort plus large de la communauté pour rendre le fine-tuning de ces fondations robotiques accessible sans infrastructure de données massive. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans cette publication arXiv préliminaire (arXiv:2606.16208) ; il s'agit d'une contribution académique, non d'un produit disponible. Les prochaines étapes probables incluent une validation sur des benchmarks plus larges et une intégration dans des pipelines de fine-tuning ouverts comme LeRobot (Hugging Face).
Potentiellement intégrable dans LeRobot (Hugging Face, Paris), ce framework réduit le coût de collecte de données pour le fine-tuning VLA, un avantage concret pour les équipes européennes de robotique d'imitation learning avec des budgets de données limités.
Dans nos dossiers




