Aller au contenu principal
LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées
RecherchearXiv cs.RO3h

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

LDA-1B est un modèle fondation pour la robotique à 1 milliard de paramètres, présenté dans un preprint arXiv (2602.12215v2, "replace", donc une version révisée). Ses auteurs introduisent ce qu'ils appellent une "ingestion universelle de données incarnées" : plutôt que le clonage comportemental classique, qui se borne à imiter des actions expertes en ignorant la connaissance des dynamiques physiques, LDA-1B entraîne simultanément un modèle de dynamiques, une politique d'action et un module de prévision visuelle. Pour opérer à cette échelle, les chercheurs ont constitué EI-30k, un jeu de données standardisé regroupant plus de 30 000 heures de trajectoires humaines et robotiques dans un format unifié. La prédiction s'effectue dans l'espace latent structuré de DINO (modèle de vision auto-supervisé de Meta), évitant la modélisation redondante au niveau pixel. L'architecture repose sur un transformeur de diffusion multimodal gérant des flux vidéo et d'action asynchrones. En simulation et en conditions réelles, LDA-1B dépasse π0.5 de Physical Intelligence de 21 % sur les tâches à contacts intenses, 48 % sur les tâches de dextérité, et 23 % sur les tâches à long horizon. Résultat contre-intuitif : en réintégrant 30 % de trajectoires de faible qualité habituellement écartées, le modèle gagne 10 % de performance supplémentaire.

Ce travail s'attaque à une limite structurelle des modèles robotiques actuels : le clonage comportemental traite comme déchets toutes les données sans annotation action-état précise, vidéos téléopérées approximatives, démonstrations ratées, captations partielles. En assignant des rôles distincts selon la qualité des données, LDA-1B récupère de la valeur dans ces corpus dégradés. Pour les intégrateurs et décideurs industriels, l'implication est concrète : si des trajectoires sous-optimales contribuent positivement à l'entraînement, le coût de constitution des jeux de données de référence diminue sensiblement. Les gains de 48 % sur la dextérité, talon d'Achille historique des robots manipulateurs, sont particulièrement significatifs, même si ces chiffres proviennent d'un preprint non encore évalué par les pairs, et que les conditions exactes des benchmarks méritent une lecture critique avant généralisation.

LDA-1B s'inscrit dans une course aux modèles fondation robotiques qui s'intensifie depuis 2024. Physical Intelligence (Pi), dont π0 puis π0.5 font référence sur les benchmarks manipulation, est le principal étalon ici. Google DeepMind pousse RT-2 et ses successeurs, tandis que des modèles open-source comme OpenVLA et Octo peinent à franchir le cap du milliard de paramètres avec des données hétérogènes. La formulation UWM (Unified World Model), que LDA-1B exploite et étend, tentait déjà de valoriser des données non-action (vidéos, interactions humaines), mais les tentatives précédentes manquaient d'échelle et de standardisation. EI-30k, avec ses 30 000 heures normalisées, est l'une des bases d'interaction incarnée les plus vastes publiées à ce jour. Ce preprint n'annonce ni produit commercial ni déploiement terrain, c'est de la recherche académique avec expériences en simulation et quelques validations réelles. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une intégration sur des plateformes humanoïdes comme Unitree H1 ou G1.

À lire aussi

DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique
1arXiv cs.RO 

DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique

Des chercheurs ont soumis sur arXiv (réf. 2605.17486) un nouveau framework d'optimisation pour les modèles VLA (Vision-Language-Action), baptisé DyGRO-VLA (Dynamic Grouped Residual Optimization for VLA). L'approche fonctionne en deux étapes : une phase de capture de représentations latentes inter-tâches fondée sur des principes de théorie de l'information, suivie d'un raffinement dynamique de la politique via un mécanisme de "mixture-of-RL-residuals". Les résultats sont évalués sur les benchmarks LIBERO et RoboTwin2, deux références standard en manipulation robotique multi-tâches, et validés sur robot réel. Les gains de performance sont présentés comme consistants face à des baselines solides, y compris sous distribution shift, c'est-à-dire face à des tâches absentes de l'ensemble d'entraînement. Le problème visé est structurel : lorsqu'on affine un modèle VLA généraliste avec du Reinforcement Learning, il finit généralement par ne bien performer que sur un sous-ensemble étroit de tâches, perdant la polyvalence qui le rendait intéressant. La plupart des optimiseurs RL actuels sont conçus pour une tâche unique, ce qui réduit ces modèles, pourtant pensés comme des contrôleurs généralistes, à des politiques spécialisées peu transférables. Pour un intégrateur ou un industriel déployant des robots sur des lignes à forte variabilité de tâches, ce phénomène est un frein opérationnel direct. DyGRO-VLA répond à ce problème en exploitant les représentations latentes partagées entre tâches tout en limitant les interférences lors de l'optimisation. Si ces résultats se confirment dans des conditions plus diversifiées, cela aurait des implications concrètes sur la viabilité du fine-tuning RL pour des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'essor des modèles VLA, qui combinent vision, langage et action dans un seul réseau de neurones, est l'une des tendances majeures de la robotique depuis 2023. Des acteurs comme Physical Intelligence (Pi-0, Pi-0.5), NVIDIA (GR00T N2), Google DeepMind (RT-2) ou des startups comme Figure AI et 1X Technologies s'appuient sur cette architecture. Le recours au RL pour dépasser les limites de l'imitation pure est une évolution naturelle, mais le maintien des performances sur plusieurs tâches reste un problème ouvert. DyGRO-VLA s'inscrit dans un courant de recherche actif qui inclut des approches comme ReinFT. L'absence de détails sur les conditions expérimentales exactes (nombre de tâches, hardware robot utilisé, comparaisons directes avec les VLA commerciaux) et l'absence de code public au moment de la soumission rendent difficile une évaluation indépendante, une limite fréquente des prépublications arXiv.

RechercheOpinion
1 source
HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
2arXiv cs.RO 

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle
4arXiv cs.RO 

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

Des chercheurs ont publié RoboDream (arXiv:2606.02577), un world model centré sur l'embodiment conçu pour générer des démonstrations photorealistic destinées à l'entraînement de politiques de manipulation robotique. Le système s'appuie sur des modèles de diffusion vidéo conditionnés simultanément sur le mouvement rendu du robot et sur des priors explicites de scène et d'objet, découplant ainsi l'exécution de trajectoire de la synthèse d'environnement. Cette architecture permet deux capacités distinctes : le "retrieval and rebirth", qui réutilise des trajectoires existantes dans des contextes entièrement nouveaux sans collecter de nouvelles données de mouvement, et la "prop-free teleoperation", où l'opérateur manipule dans le vide et le modèle génère a posteriori les objets cibles et la scène. Les expériences en conditions réelles montrent que les données ainsi synthétisées améliorent systématiquement les performances des politiques en aval et réduisent significativement les besoins en données réelles sur des tâches de manipulation variées. La télé-opération reste aujourd'hui le principal goulot d'étranglement du robot learning à grande échelle : coûteuse, lente, et contrainte par le temps de reset entre chaque démonstration (repositionner les objets, réorganiser la scène). RoboDream attaque ce problème en proposant une augmentation sémantique profonde plutôt qu'une simple modification de texture ou de couleur : le système génère des objets et des environnements entièrement nouveaux à partir d'une même trajectoire capturée. La "prop-free teleoperation" est opérationnellement significative car elle supprime le temps de reset, l'une des sources de coût caché les plus sous-estimées dans les pipelines de collecte actuels. Le fait que les politiques entraînées sur données synthétiques surpassent les baselines en conditions réelles valide partiellement la thèse que le sim-to-real gap peut être comblé par un générateur suffisamment ancré dans la géométrie et la cinématique du robot réel, contrairement aux approches purement visuelles. Cette publication s'inscrit dans une course à la mise à l'échelle des données robotiques qui s'est accélérée depuis 2023 avec l'essor des VLA (Vision-Language-Action models) : OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA. Ces architectures nécessitent des dizaines de milliers de démonstrations diversifiées pour être robustes. Face à ce besoin, deux voies coexistent : la collecte distribuée à grande échelle (projet Open X-Embodiment) et la génération synthétique. RoboDream s'inscrit dans la seconde, aux côtés de travaux comme UniSim ou RoboGen, mais se différencie par son ancrage explicite à la cinématique du robot, évitant les "embodiment hallucinations" qui affectent les générateurs purement visuels. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade. Les questions ouvertes portent sur la généralisation à des morphologies de robots différentes et sur les tâches de manipulation longue durée, où la cohérence temporelle des séquences générées reste un défi non résolu.

RechercheOpinion
1 source