Planification de mouvements précis pour la…

Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique

45

1arXiv cs.RO

Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (référence 2410.18647, désormais à sa quatrième révision) une étude empirique sur les lois d'échelle des données appliquées à l'apprentissage par imitation en manipulation robotique. Le protocole est rigoureux : plus de 40 000 démonstrations collectées dans de nombreux environnements et avec des objets variés, suivies de plus de 15 000 exécutions réelles sur robot, ce qui en fait l'une des études de scaling en manipulation les plus extensives à ce jour. Résultat central : la performance de généralisation d'une politique d'imitation suit une relation en loi de puissance avec le nombre d'environnements et d'objets d'entraînement. Surtout, quatre collecteurs de données travaillant une seule après-midi ont suffi pour obtenir environ 90 % de taux de réussite en déploiement zéro-shot sur des objets inconnus dans des environnements non vus, sur deux tâches distinctes. Ce que cette recherche établit, c'est que la diversité des environnements et des objets prime largement sur le volume brut de démonstrations : au-delà d'un certain seuil de démonstrations par environnement ou par objet, en ajouter davantage n'améliore plus la généralisation. Ce résultat remet en cause la stratégie intuitive qui consiste à multiplier les répétitions dans un même contexte, et oriente clairement la priorité vers la couverture de distribution plutôt que la densité d'annotation. Pour les intégrateurs industriels et les équipes robotique qui budgètent la collecte de données, l'implication est directe : mieux vaut disperser les efforts sur des scènes variées que d'accumuler des trajectoires dans un seul setup. Le fait d'atteindre 90 % de succès en zéro-shot sur des objets inédits est également un signal fort sur la maturité du paradigme VLA (Vision-Language-Action) en manipulation monomode. Ce travail s'inscrit dans le sillage des succès de scaling en NLP et vision par ordinateur, que des équipes comme DeepMind (RT-2), Physical Intelligence avec Pi-0, ou encore NVIDIA avec GR00T cherchent à transposer en robotique. L'étude reste purement académique pour l'instant, aucun déploiement industriel n'étant annoncé, et les tâches testées demeurent mono-bras sur périmètre contrôlé. Une limite à noter : les vidéos de démonstration et les protocoles d'évaluation exacts ne sont pas tous publics dans la version arXiv, ce qui rend difficile la comparaison directe avec d'autres benchmarks. Les prochaines étapes logiques seront d'étendre ces lois d'échelle aux politiques multi-tâches et de tester leur robustesse sur des plateformes humanoïdes comme Figure 03 ou Optimus Gen 3, où la distribution des états physiques est bien plus large.

RecherchePaper

1 source

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

36

2arXiv cs.RO

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion

1 source

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

40

3arXiv cs.RO

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

Des chercheurs ont publié en 2026 sur arXiv (référence 2502.00937v2) un nouveau framework de pré-entraînement 3D pour la manipulation robotique, baptisé CLAMP, pour Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining. Le principe : fusionner des images RGB-D avec les paramètres extrinsèques des caméras pour reconstruire un nuage de points 3D unifié, puis re-rendre des observations multi-vues à quatre canaux (RGB, profondeur, coordonnées 3D), incluant une vue dynamique au niveau du poignet du robot. Un encodeur est pré-entraîné par apprentissage contrastif sur de larges jeux de trajectoires simulées, en associant la géométrie spatiale des objets aux séquences d'actions du robot. Simultanément, une Diffusion Policy est pré-entraînée pour initialiser les poids lors du fine-tuning, avant d'être affinée sur un nombre limité de démonstrations réelles. CLAMP surpasse les baselines état de l'art sur six tâches en simulation et cinq tâches en environnement réel. La valeur opérationnelle de CLAMP tient principalement à son impact sur l'efficacité d'apprentissage. Les approches standards de behavior cloning s'appuient sur des représentations 2D pré-entraînées (ViT, ResNet), qui ignorent la profondeur et la géométrie spatiale, critiques pour les tâches de manipulation de précision. En injectant cette information 3D dès le pré-entraînement, CLAMP réduit le nombre de démonstrations humaines nécessaires pour atteindre des performances satisfaisantes sur de nouvelles tâches, ce qui est un levier concret pour les intégrateurs industriels. L'architecture hybride contrastive plus Diffusion Policy est potentiellement transférable. Prudence toutefois : les résultats en conditions réelles portent sur cinq tâches seulement, et le preprint ne détaille pas les protocoles de sélection des vidéos, ce qui invite à nuancer la portée des résultats. CLAMP s'inscrit dans un champ de recherche actif visant à dépasser les limites des politiques purement 2D et des VLA (Vision-Language-Action models) pour la manipulation. Il dialogue directement avec des travaux comme R3M, MVP, DP3 (Diffusion Policy 3D) ou SpatialVLA. La principale originalité est le conditionnement par les actions dans l'apprentissage contrastif 3D, combinaison peu explorée jusqu'ici. Le code et les vidéos sont disponibles sur clamp3d.github.io. Aucun déploiement industriel ni partenariat n'est annoncé ; il s'agit d'un résultat académique. La suite logique serait une évaluation à plus grande échelle, avec davantage de robots et de scénarios hors distribution, pour confirmer la généralisation sim-to-real à l'échelle.

RecherchePaper

1 source

40

4arXiv cs.RO

EDAR : apprentissage de représentations d'actions dépendantes de l'environnement pour la manipulation robotique

EDAR (Environment-Dependent Action Representation) est une nouvelle méthode d'apprentissage de représentations d'actions pour la manipulation robotique, présentée dans un article publié sur arXiv (référence 2607.11427v1). Le problème que les auteurs cherchent à résoudre est que les trajectoires de contrôle brutes utilisées pour entraîner des politiques robotiques sont bruitées, redondantes et difficiles à modéliser telles quelles. Les approches existantes se contentent généralement d'encoder la structure du flux d'actions lui-même, sans tenir compte explicitement de l'environnement dans lequel ces actions sont exécutées. EDAR propose au contraire de coupler les commandes moteur avec leurs effets visuels attendus, conditionnés par le contexte de la scène, afin que la représentation apprise capture la sémantique de l'interaction plutôt que de simples motifs au niveau des commandes. Les auteurs ont testé leur méthode sur des bancs d'essai de manipulation à la fois simulés et sur robot réel. Cette approche s'attaque à un angle mort connu des architectures VLA (vision-language-action) actuelles: le même segment d'action peut produire des résultats radicalement différents selon la disposition des objets, les propriétés physiques de la scène ou l'état initial de l'environnement. En ancrant les tokens d'action dans les conséquences visuelles attendues plutôt que dans la seule structure de commande, EDAR vise à améliorer la généralisation des politiques apprises, en particulier sur des tâches de manipulation à long horizon, où les erreurs de représentation s'accumulent au fil des étapes. Pour les équipes qui développent des politiques de manipulation généralistes, ce type de travail illustre une tendance de fond: le passage d'une modélisation purement centrée sur le contrôle vers des représentations conjointes action-perception, jugées nécessaires pour que les modèles de fondation robotiques (dans la lignée de GR00T N2, Pi-0 ou Helix) tiennent leurs promesses au-delà des démonstrations en environnement contrôlé. Le papier s'inscrit dans un courant de recherche plus large sur les représentations d'actions pour la robotique, où plusieurs travaux récents ont exploré la tokenisation d'actions, l'apprentissage par imitation conditionné par la vision, ou les modèles du monde pour anticiper les conséquences des actions. EDAR se positionne comme une contribution méthodologique plutôt qu'un produit ou un système déployé: il n'y a pas d'annonce de déploiement industriel ni de partenariat commercial associé à ce travail, qui reste à ce stade une publication de recherche évaluée sur des bancs d'essai académiques. Les prochaines étapes attendues pour ce type de travaux sont généralement l'intégration dans des pipelines VLA plus larges et des tests de transfert sur des plateformes robotiques commerciales, mais aucune feuille de route de ce type n'est mentionnée dans l'abstract.

RecherchePaper

1 source

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

À lire aussi

Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

EDAR : apprentissage de représentations d'actions dépendantes de l'environnement pour la manipulation robotique