RecherchearXiv cs.RO 4 juin 2026

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

LDA-1B est un modèle fondation pour la robotique à 1 milliard de paramètres, présenté dans un preprint arXiv (2602.12215v2, "replace", donc une version révisée). Ses auteurs introduisent ce qu'ils appellent une "ingestion universelle de données incarnées" : plutôt que le clonage comportemental classique, qui se borne à imiter des actions expertes en ignorant la connaissance des dynamiques physiques, LDA-1B entraîne simultanément un modèle de dynamiques, une politique d'action et un module de prévision visuelle. Pour opérer à cette échelle, les chercheurs ont constitué EI-30k, un jeu de données standardisé regroupant plus de 30 000 heures de trajectoires humaines et robotiques dans un format unifié. La prédiction s'effectue dans l'espace latent structuré de DINO (modèle de vision auto-supervisé de Meta), évitant la modélisation redondante au niveau pixel. L'architecture repose sur un transformeur de diffusion multimodal gérant des flux vidéo et d'action asynchrones. En simulation et en conditions réelles, LDA-1B dépasse π0.5 de Physical Intelligence de 21 % sur les tâches à contacts intenses, 48 % sur les tâches de dextérité, et 23 % sur les tâches à long horizon. Résultat contre-intuitif : en réintégrant 30 % de trajectoires de faible qualité habituellement écartées, le modèle gagne 10 % de performance supplémentaire.

Ce travail s'attaque à une limite structurelle des modèles robotiques actuels : le clonage comportemental traite comme déchets toutes les données sans annotation action-état précise, vidéos téléopérées approximatives, démonstrations ratées, captations partielles. En assignant des rôles distincts selon la qualité des données, LDA-1B récupère de la valeur dans ces corpus dégradés. Pour les intégrateurs et décideurs industriels, l'implication est concrète : si des trajectoires sous-optimales contribuent positivement à l'entraînement, le coût de constitution des jeux de données de référence diminue sensiblement. Les gains de 48 % sur la dextérité, talon d'Achille historique des robots manipulateurs, sont particulièrement significatifs, même si ces chiffres proviennent d'un preprint non encore évalué par les pairs, et que les conditions exactes des benchmarks méritent une lecture critique avant généralisation.

LDA-1B s'inscrit dans une course aux modèles fondation robotiques qui s'intensifie depuis 2024. Physical Intelligence (Pi), dont π0 puis π0.5 font référence sur les benchmarks manipulation, est le principal étalon ici. Google DeepMind pousse RT-2 et ses successeurs, tandis que des modèles open-source comme OpenVLA et Octo peinent à franchir le cap du milliard de paramètres avec des données hétérogènes. La formulation UWM (Unified World Model), que LDA-1B exploite et étend, tentait déjà de valoriser des données non-action (vidéos, interactions humaines), mais les tentatives précédentes manquaient d'échelle et de standardisation. EI-30k, avec ses 30 000 heures normalisées, est l'une des bases d'interaction incarnée les plus vastes publiées à ce jour. Ce preprint n'annonce ni produit commercial ni déploiement terrain, c'est de la recherche académique avec expériences en simulation et quelques validations réelles. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une intégration sur des plateformes humanoïdes comme Unitree H1 ou G1.

Dans nos dossiers

Unitree Physical Intelligence — π0 OpenVLA / RT-X World models

À lire aussi

1arXiv cs.RO

DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique

Des chercheurs ont soumis sur arXiv (réf. 2605.17486) un nouveau framework d'optimisation pour les modèles VLA (Vision-Language-Action), baptisé DyGRO-VLA (Dynamic Grouped Residual Optimization for VLA). L'approche fonctionne en deux étapes : une phase de capture de représentations latentes inter-tâches fondée sur des principes de théorie de l'information, suivie d'un raffinement dynamique de la politique via un mécanisme de "mixture-of-RL-residuals". Les résultats sont évalués sur les benchmarks LIBERO et RoboTwin2, deux références standard en manipulation robotique multi-tâches, et validés sur robot réel. Les gains de performance sont présentés comme consistants face à des baselines solides, y compris sous distribution shift, c'est-à-dire face à des tâches absentes de l'ensemble d'entraînement. Le problème visé est structurel : lorsqu'on affine un modèle VLA généraliste avec du Reinforcement Learning, il finit généralement par ne bien performer que sur un sous-ensemble étroit de tâches, perdant la polyvalence qui le rendait intéressant. La plupart des optimiseurs RL actuels sont conçus pour une tâche unique, ce qui réduit ces modèles, pourtant pensés comme des contrôleurs généralistes, à des politiques spécialisées peu transférables. Pour un intégrateur ou un industriel déployant des robots sur des lignes à forte variabilité de tâches, ce phénomène est un frein opérationnel direct. DyGRO-VLA répond à ce problème en exploitant les représentations latentes partagées entre tâches tout en limitant les interférences lors de l'optimisation. Si ces résultats se confirment dans des conditions plus diversifiées, cela aurait des implications concrètes sur la viabilité du fine-tuning RL pour des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'essor des modèles VLA, qui combinent vision, langage et action dans un seul réseau de neurones, est l'une des tendances majeures de la robotique depuis 2023. Des acteurs comme Physical Intelligence (Pi-0, Pi-0.5), NVIDIA (GR00T N2), Google DeepMind (RT-2) ou des startups comme Figure AI et 1X Technologies s'appuient sur cette architecture. Le recours au RL pour dépasser les limites de l'imitation pure est une évolution naturelle, mais le maintien des performances sur plusieurs tâches reste un problème ouvert. DyGRO-VLA s'inscrit dans un courant de recherche actif qui inclut des approches comme ReinFT. L'absence de détails sur les conditions expérimentales exactes (nombre de tâches, hardware robot utilisé, comparaisons directes avec les VLA commerciaux) et l'absence de code public au moment de la soumission rendent difficile une évaluation indépendante, une limite fréquente des prépublications arXiv.

RechercheOpinion

1 source

2arXiv cs.RO

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu

1 source

3arXiv cs.RO

Modèle vision-langage-action débiaisé causalement pour modèles du monde conditionnés par l'action incarnée

Des chercheurs publient sur arXiv (arXiv:2607.09185v1) un nouveau framework baptisé CD-LAM, destiné à améliorer les modèles du monde conditionnés par l'action (ACWM), ces systèmes qui simulent les observations futures d'un robot en fonction des actions qu'il pourrait exécuter. Ces modèles reposent sur des données massives étiquetées avec les actions correspondantes, coûteuses à collecter en conditions réelles. Pour contourner ce goulot d'étranglement, les modèles d'action latente (LAM) infèrent des actions directement depuis des vidéos non étiquetées, mais souffrent d'un biais connu : entraînés uniquement sur des objectifs de reconstruction, ils mélangent la dynamique liée à l'action avec des éléments visuels non pertinents comme l'arrière-plan ou des objets non manipulés. CD-LAM introduit trois objectifs de fine-tuning complémentaires, une reconstruction centrée sur le corps du robot, un apprentissage contrastif centré sur l'action, et une calibration de l'espace latent, pour produire des représentations plus fidèles et non dégénérées. Testé sur des backbones ACWM de 2 et 14 milliards de paramètres, CD-LAM améliore la contrôlabilité des actions latentes, le suivi des commandes en aval, la fidélité visuelle, et ne nécessite que 6 000 étapes de fine-tuning, soit plus de 12 fois moins de mises à jour d'adaptation que la méthode de référence. L'enjeu dépasse la seule performance technique : réduire d'un facteur 12 le coût d'adaptation d'un modèle du monde à un nouveau robot ou une nouvelle tâche s'attaque directement au principal frein à l'échelle des politiques robotiques actuelles, la rareté des données actions-étiquetées réelles. Ce type de travail nourrit la course aux modèles VLA (vision-language-action) comme Pi-0, GR00T N2 ou Helix, où la capacité à généraliser à partir de peu de démonstrations conditionne la viabilité commerciale des humanoïdes. Il faut toutefois distinguer clairement ce résultat, une contribution de recherche à l'échelle du benchmark, d'un déploiement en production. CD-LAM s'inscrit dans la lignée des travaux récents sur les modèles d'action latente, une direction de recherche née du constat que l'étiquetage manuel des actions robotiques ne passera jamais à l'échelle des humanoïdes commerciaux. L'abstract ne cite ni laboratoire ni entreprise précise, signe d'une publication académique classique plutôt que d'une annonce produit. Les auteurs évoquent des pistes de suite via l'adaptation à davantage de plateformes robotiques et de backbones plus larges, sans calendrier de déploiement communiqué.

RecherchePaper

1 source

4arXiv cs.RO

ACE-Brain-0.5 : un modèle fondation incarné unifié pour l'IA physique à base d'agents

Voici l'article en français : Une équipe de recherche présente ACE-Brain-0.5, un modèle de fondation embarqué unifié pour l'IA physique agentique, dans un article publié sur arXiv début juillet 2026. Le système s'appuie sur un backbone unique de 8 milliards de paramètres qui assure quatre fonctions simultanées : ancrage des objets et des affordances dans la scène, raisonnement spatial en 3D et en vue égocentrique, décomposition d'instructions en sous-objectifs, génération d'actions de navigation et de manipulation, et estimation de la progression pour vérifier ou corriger l'exécution. Une cinquième fonction, l'auto-amélioration, repose sur un cadre externe qui met à jour les schémas de tâches, la mémoire spatiale et les cas de récupération d'échec à partir des données de déploiement. Le modèle s'appuie sur un prédécesseur, ACE-Brain-0, et introduit une méthode nommée SSR+ (Scaffold-Specialize-Reconcile avec une étape de Réactivation après fusion des vecteurs de tâches) pour combiner ces capacités sans qu'elles n'interfèrent entre elles. Sur quinze bancs d'essai, ACE-Brain-0.5 surpasse son prédécesseur sur 14 des 18 tests de perception spatiale et d'ancrage, tout en restant compétitif en navigation et manipulation. Cette approche illustre une tendance de fond dans la robotique humanoïde et les agents physiques : le passage de politiques bout-en-bout, souvent dépourvues de raisonnement spatial explicite, vers des architectures qui unifient perception, planification, action et auto-évaluation dans une représentation partagée. C'est un pari différent de celui des modèles VLA généralistes type Pi-0 ou GR00T N2, qui privilégient l'apprentissage direct d'une politique d'action : ici, l'accent est mis sur la boucle fermée complète, avec vérification et récupération d'erreur intégrées, un point souvent négligé dans les démonstrations spectaculaires mais peu robustes du secteur. Le papier ne précise pas de partenariat industriel ni de déploiement sur plateforme commerciale à ce stade : il s'agit d'un travail de recherche fondamentale, positionné comme une étape vers une IA physique agentique plus générale, sans calendrier de mise en production annoncé.

RechercheOpinion

1 source