Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique
Une équipe de chercheurs publie sur arXiv (référence 2410.18647, désormais à sa quatrième révision) une étude empirique sur les lois d'échelle des données appliquées à l'apprentissage par imitation en manipulation robotique. Le protocole est rigoureux : plus de 40 000 démonstrations collectées dans de nombreux environnements et avec des objets variés, suivies de plus de 15 000 exécutions réelles sur robot, ce qui en fait l'une des études de scaling en manipulation les plus extensives à ce jour. Résultat central : la performance de généralisation d'une politique d'imitation suit une relation en loi de puissance avec le nombre d'environnements et d'objets d'entraînement. Surtout, quatre collecteurs de données travaillant une seule après-midi ont suffi pour obtenir environ 90 % de taux de réussite en déploiement zéro-shot sur des objets inconnus dans des environnements non vus, sur deux tâches distinctes.
Ce que cette recherche établit, c'est que la diversité des environnements et des objets prime largement sur le volume brut de démonstrations : au-delà d'un certain seuil de démonstrations par environnement ou par objet, en ajouter davantage n'améliore plus la généralisation. Ce résultat remet en cause la stratégie intuitive qui consiste à multiplier les répétitions dans un même contexte, et oriente clairement la priorité vers la couverture de distribution plutôt que la densité d'annotation. Pour les intégrateurs industriels et les équipes robotique qui budgètent la collecte de données, l'implication est directe : mieux vaut disperser les efforts sur des scènes variées que d'accumuler des trajectoires dans un seul setup. Le fait d'atteindre 90 % de succès en zéro-shot sur des objets inédits est également un signal fort sur la maturité du paradigme VLA (Vision-Language-Action) en manipulation monomode.
Ce travail s'inscrit dans le sillage des succès de scaling en NLP et vision par ordinateur, que des équipes comme DeepMind (RT-2), Physical Intelligence avec Pi-0, ou encore NVIDIA avec GR00T cherchent à transposer en robotique. L'étude reste purement académique pour l'instant, aucun déploiement industriel n'étant annoncé, et les tâches testées demeurent mono-bras sur périmètre contrôlé. Une limite à noter : les vidéos de démonstration et les protocoles d'évaluation exacts ne sont pas tous publics dans la version arXiv, ce qui rend difficile la comparaison directe avec d'autres benchmarks. Les prochaines étapes logiques seront d'étendre ces lois d'échelle aux politiques multi-tâches et de tester leur robustesse sur des plateformes humanoïdes comme Figure 03 ou Optimus Gen 3, où la distribution des états physiques est bien plus large.
Dans nos dossiers




