LACE : représentation visuelle latente pour l'apprentis…

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

35

1arXiv cs.RO

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

Une équipe de recherche propose, dans un prépublication arXiv (identifiant 2605.21258, mai 2026), un nouveau cadre de pré-entraînement pour la perception 3D appliquée à la manipulation robotique. L'idée centrale est une représentation hybride baptisée "structural latent points" : les auteurs insèrent un variational autoencoder (VAE) point-à-point dans l'espace latent d'un autoencoder de nuages de points (point cloud), en régularisant simultanément les coordonnées et les features vers une distribution gaussienne. Le résultat est une représentation compacte qui capture des tendances structurelles globales, une forme approximative et une information sémantique, sans encoder une géométrie précise. Le pipeline de rendu repose sur la 3D Gaussian Splatting (3DGS), délibérément allégée pour laisser la capacité représentationnelle au module latent frontal. Les évaluations sont menées sur RLBench, ManiSkill2, et une plateforme robot réelle, avec des ablations confirmant la contribution de chaque composant. L'intérêt de cette approche tient à un problème connu des intégrateurs et des équipes de recherche en manipulation : les représentations implicites (champs neuronaux, NeRF) sont expressives mais manquent de repères structurels exploitables, tandis que les représentations explicites (primitives géométriques, meshes) préservent la géométrie au prix d'une résolution limitée et d'une faible généralisation hors distribution. L'architecture proposée tente de cumuler les avantages des deux familles. Les auteurs revendiquent des gains en taux de succès de tâche, en efficacité d'échantillonnage et en robustesse aux variations de point de vue, trois métriques directement pertinentes pour le déploiement industriel. Nuance à noter : l'abstract ne fournit aucun chiffre absolu, ce qui rend la comparaison indépendante impossible sans lire les tableaux complets du papier. Cette publication s'inscrit dans une vague dense de travaux sur le pré-entraînement 3D pour la manipulation incarnée, domaine en ébullition depuis l'émergence des VLA (Vision-Language-Action models) et des politiques diffusion comme pi0 ou ACT. Les benchmarks choisis, RLBench (simulation tabletop, DeepMind) et ManiSkill2 (simulation GPU-parallèle, UCSD), sont des standards de facto du domaine. L'absence de mention d'affiliation institutionnelle ou industrielle dans l'abstract empêche tout positionnement concurrentiel précis, mais la direction prise converge avec les efforts de groupes comme Physical Intelligence, Google DeepMind ou CMU sur la représentation perceptuelle robuste comme socle pour la généralisation des politiques de manipulation.

RecherchePaper

1 source

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

42

2arXiv cs.RO

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion

1 source

MM-Nav : un modèle VLA multi-vues pour la navigation visuelle robuste par apprentissage multi-expert

36

3arXiv cs.RO

MM-Nav : un modèle VLA multi-vues pour la navigation visuelle robuste par apprentissage multi-expert

Des chercheurs ont publié MM-Nav (arXiv:2510.03142v2), un modèle de navigation visuelle de type Vision-Language-Action (VLA) capable d'exploiter des observations omnidirectionnelles à 360 degrés pour piloter un robot mobile sans recours à des capteurs de profondeur explicites comme le LiDAR. L'architecture repose sur des modèles de langage et des fondations visuelles pré-entraînés, auxquels s'ajoutent trois experts par renforcement (RL) entraînés séparément avec accès privilégié à l'information de profondeur dans des environnements synthétiques conçus pour trois compétences distinctes : l'atteinte de cible, le passage dans des espaces contraints (squeezing), et l'évitement d'obstacles. Les données générées par ces experts alimentent itérativement le modèle élève selon un ratio d'entraînement ajusté dynamiquement en fonction des performances par compétence. Des expériences en environnement réel viennent compléter la validation en simulation. L'intérêt principal de MM-Nav réside dans ce que les auteurs appellent un "effet synergique" : le modèle élève dépasse les performances de chacun de ses enseignants RL pris individuellement, ce qui suggère que la fusion multi-capacités via un VLA n'est pas simplement additive mais crée une généralisation émergente. Pour les intégrateurs robotiques, cela ouvre la voie à des politiques de navigation robustes sans nécessiter de capteurs LiDAR ou de cartes de profondeur explicites, en s'appuyant uniquement sur des caméras RGB omnidirectionnelles. La capacité à transférer une politique apprise en simulation vers le monde réel (sim-to-real) constitue le vrai enjeu ici, et les auteurs affirment l'avoir validé expérimentalement, bien que les détails sur les environnements réels testés restent limités dans le résumé disponible. MM-Nav s'inscrit dans une dynamique de recherche qui voit les VLA (Vision-Language-Action), popularisés par des travaux comme RT-2 de Google DeepMind ou Pi-0 de Physical Intelligence, s'étendre au-delà de la manipulation pour couvrir la navigation autonome. La différenciation de MM-Nav tient à son approche multi-expert à apprentissage itératif, par opposition aux approches à expert unique ou aux méthodes de distillation statique. Les acteurs concurrents dans ce segment incluent notamment des groupes académiques travaillant sur NavVLP ou ViNT, ainsi que des startups comme Skild AI qui ciblent des politiques de locomotion généralisées. Ce travail en est au stade de preprint arXiv (version 2, mise à jour d'un article d'octobre 2025) : il n'y a pas de déploiement industriel annoncé, et les résultats doivent être interprétés comme une validation académique en attente de revue par les pairs.

RechercheOpinion

1 source

Apprentissage de priors d'action pour la manipulation robotique multi-morphologies

44

4arXiv cs.RO

Apprentissage de priors d'action pour la manipulation robotique multi-morphologies

Des chercheurs ont soumis le 25 juin 2026 sur arXiv (réf. 2606.26095) un cadre d'entraînement en deux étapes pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique cross-embodiment. Le problème est structurel : dans l'architecture dominante, le module d'action est greffé sur un backbone Vision-Language Model (VLM) et co-optimisé dès le départ, ce qui contraint le modèle à découvrir simultanément la dynamique physique du mouvement et l'alignement visuo-linguistique. Les auteurs proposent de préentraîner d'abord le module d'action sur des trajectoires brutes via un encodeur-décodeur léger basé sur le flow-matching, sans aucune entrée visuelle ni linguistique, puis de transférer ce prior moteur à l'entraînement VLA par réutilisation du décodeur et distillation latente en début d'entraînement. La méthode est évaluée sur 13 tâches cross-embodiment en simulation et sur plateformes réelles. Le bénéfice principal est de découpler deux apprentissages que les VLA actuels co-optimisent de front : la structure temporelle du mouvement et la sémantique visuo-linguistique. Selon les résultats présentés, la méthode accélère la convergence, améliore les taux de succès globaux et génère des gains particulièrement nets sur les tâches à faible volume de données réelles, là où les pipelines existants décrochent. Le module encodeur joue par ailleurs le rôle de compresseur d'historique, résumant l'historique état-action en un unique token de contexte temporel à coût négligeable. Fait notable : augmenter le volume de données d'action en étape 1 améliore directement les performances downstream, sans requérir de nouvelles démonstrations robotiques coûteuses à collecter. Ce travail s'inscrit dans la compétition autour des politiques robotiques généralistes capables d'opérer sur des morphologies hétérogènes : Pi-0 (Physical Intelligence), OpenVLA, Octo (UC Berkeley) et RT-2 (Google DeepMind) constituent les références directes. La rareté des données réelles annotées et le sim-to-real gap restent les freins communs à l'ensemble du secteur, et une meilleure initialisation du prior moteur en offre une réponse partielle. Il s'agit d'un preprint non évalué par les pairs, sans déploiement industriel annoncé ; les suites naturelles seraient une intégration dans des frameworks open-source comme LeRobot (Hugging Face) ou une adoption par des équipes développant des humanoïdes généralistes.

UELa méthode pourrait être intégrée à LeRobot (Hugging Face, Paris), ce qui bénéficierait directement à l'écosystème de robotique open-source français.

RechercheOpinion

1 source

LACE : représentation visuelle latente pour l'apprentissage multi-robots

À lire aussi

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

MM-Nav : un modèle VLA multi-vues pour la navigation visuelle robuste par apprentissage multi-expert

Apprentissage de priors d'action pour la manipulation robotique multi-morphologies