Aller au contenu principal
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
RecherchearXiv cs.RO1j

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes.

Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère.

L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

À lire aussi

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action
1arXiv cs.RO 

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
2arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action
3arXiv cs.RO 

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

Des chercheurs ont publié en 2026 sur arXiv (référence 2502.00937v2) un nouveau framework de pré-entraînement 3D pour la manipulation robotique, baptisé CLAMP, pour Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining. Le principe : fusionner des images RGB-D avec les paramètres extrinsèques des caméras pour reconstruire un nuage de points 3D unifié, puis re-rendre des observations multi-vues à quatre canaux (RGB, profondeur, coordonnées 3D), incluant une vue dynamique au niveau du poignet du robot. Un encodeur est pré-entraîné par apprentissage contrastif sur de larges jeux de trajectoires simulées, en associant la géométrie spatiale des objets aux séquences d'actions du robot. Simultanément, une Diffusion Policy est pré-entraînée pour initialiser les poids lors du fine-tuning, avant d'être affinée sur un nombre limité de démonstrations réelles. CLAMP surpasse les baselines état de l'art sur six tâches en simulation et cinq tâches en environnement réel. La valeur opérationnelle de CLAMP tient principalement à son impact sur l'efficacité d'apprentissage. Les approches standards de behavior cloning s'appuient sur des représentations 2D pré-entraînées (ViT, ResNet), qui ignorent la profondeur et la géométrie spatiale, critiques pour les tâches de manipulation de précision. En injectant cette information 3D dès le pré-entraînement, CLAMP réduit le nombre de démonstrations humaines nécessaires pour atteindre des performances satisfaisantes sur de nouvelles tâches, ce qui est un levier concret pour les intégrateurs industriels. L'architecture hybride contrastive plus Diffusion Policy est potentiellement transférable. Prudence toutefois : les résultats en conditions réelles portent sur cinq tâches seulement, et le preprint ne détaille pas les protocoles de sélection des vidéos, ce qui invite à nuancer la portée des résultats. CLAMP s'inscrit dans un champ de recherche actif visant à dépasser les limites des politiques purement 2D et des VLA (Vision-Language-Action models) pour la manipulation. Il dialogue directement avec des travaux comme R3M, MVP, DP3 (Diffusion Policy 3D) ou SpatialVLA. La principale originalité est le conditionnement par les actions dans l'apprentissage contrastif 3D, combinaison peu explorée jusqu'ici. Le code et les vidéos sont disponibles sur clamp3d.github.io. Aucun déploiement industriel ni partenariat n'est annoncé ; il s'agit d'un résultat académique. La suite logique serait une évaluation à plus grande échelle, avec davantage de robots et de scénarios hors distribution, pour confirmer la généralisation sim-to-real à l'échelle.

RecherchePaper
1 source
Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique
4arXiv cs.RO 

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

Une équipe de recherche propose, dans un prépublication arXiv (identifiant 2605.21258, mai 2026), un nouveau cadre de pré-entraînement pour la perception 3D appliquée à la manipulation robotique. L'idée centrale est une représentation hybride baptisée "structural latent points" : les auteurs insèrent un variational autoencoder (VAE) point-à-point dans l'espace latent d'un autoencoder de nuages de points (point cloud), en régularisant simultanément les coordonnées et les features vers une distribution gaussienne. Le résultat est une représentation compacte qui capture des tendances structurelles globales, une forme approximative et une information sémantique, sans encoder une géométrie précise. Le pipeline de rendu repose sur la 3D Gaussian Splatting (3DGS), délibérément allégée pour laisser la capacité représentationnelle au module latent frontal. Les évaluations sont menées sur RLBench, ManiSkill2, et une plateforme robot réelle, avec des ablations confirmant la contribution de chaque composant. L'intérêt de cette approche tient à un problème connu des intégrateurs et des équipes de recherche en manipulation : les représentations implicites (champs neuronaux, NeRF) sont expressives mais manquent de repères structurels exploitables, tandis que les représentations explicites (primitives géométriques, meshes) préservent la géométrie au prix d'une résolution limitée et d'une faible généralisation hors distribution. L'architecture proposée tente de cumuler les avantages des deux familles. Les auteurs revendiquent des gains en taux de succès de tâche, en efficacité d'échantillonnage et en robustesse aux variations de point de vue, trois métriques directement pertinentes pour le déploiement industriel. Nuance à noter : l'abstract ne fournit aucun chiffre absolu, ce qui rend la comparaison indépendante impossible sans lire les tableaux complets du papier. Cette publication s'inscrit dans une vague dense de travaux sur le pré-entraînement 3D pour la manipulation incarnée, domaine en ébullition depuis l'émergence des VLA (Vision-Language-Action models) et des politiques diffusion comme pi0 ou ACT. Les benchmarks choisis, RLBench (simulation tabletop, DeepMind) et ManiSkill2 (simulation GPU-parallèle, UCSD), sont des standards de facto du domaine. L'absence de mention d'affiliation institutionnelle ou industrielle dans l'abstract empêche tout positionnement concurrentiel précis, mais la direction prise converge avec les efforts de groupes comme Physical Intelligence, Google DeepMind ou CMU sur la représentation perceptuelle robuste comme socle pour la généralisation des politiques de manipulation.

RecherchePaper
1 source