LUCID : modèles d'intention agnostiques au…

Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines

37

1arXiv cs.RO

Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines

Des chercheurs publient sur arXiv (2602.13197v2) un cadre d'apprentissage baptisé PSI (Perceive-Simulate-Imitate), conçu pour entraîner un robot à des tâches de manipulation à partir de vidéos humaines, sans aucune donnée robot. La cible est la manipulation préhensile, c'est-à-dire les tâches combinant une phase de saisie d'objet et des mouvements post-saisie (vissage, transfert, assemblage). PSI adopte une architecture modulaire : un générateur de saisies dédiées produit des prises stables, tandis que la composante imitation extrait les trajectoires post-saisie directement depuis les vidéos. Entre les deux s'intercale une étape de filtrage en simulation, qui attribue à chaque saisie candidate un label de compatibilité avec la tâche aval, permettant d'entraîner via apprentissage supervisé un module de saisie orienté vers l'objectif final. Les expériences en conditions réelles confirment des performances significativement plus robustes que l'usage naïf d'un générateur de saisies standard, sans que des métriques chiffrées précises (taux de succès, nombre d'objets testés) ne soient détaillées dans l'abstract. L'enjeu est structurant pour l'industrie : les vidéos humaines représentent un gisement de données quasi-illimité comparé aux démonstrations téléopérées, coûteuses à collecter à grande échelle. Le problème identifié par les auteurs est que les saisies arbitrairement stables ne sont pas forcément compatibles avec la tâche en aval, un robot peut tenir correctement un outil tout en l'orientant de façon à rendre impossible l'opération suivante. PSI tranche ce nœud en injectant du jugement simulé avant l'imitation, ce qui le distingue des pipelines naïfs de transfert vidéo-vers-robot. Pour un intégrateur ou une équipe R&D souhaitant élargir le catalogue de tâches d'un robot sans multiplier les sessions de téléopération, la proposition est directement lisible. Ce travail s'inscrit dans le courant de l'imitation depuis des vidéos in-the-wild (dans la lignée de Vid2Robot, DIME ou des travaux récents sur les Visual Language Actions), qui cherche à contourner le goulot d'étranglement de la collecte de données robotiques. La spécificité de PSI tient à son découplage explicite entre qualité de saisie et qualité de trajectoire, médiatisé par la simulation. Côté concurrent, des approches comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent davantage sur des architectures unifiées entraînées sur des corpus massifs mixtes. Aucun partenaire industriel ni déploiement n'est annoncé : il s'agit d'un résultat académique dont la généralisation à un large éventail d'objets et de morphologies de mains reste à démontrer.

IA physiquePaper

1 source

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

42

2arXiv cs.RO

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques. Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine. Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

IA physiqueOpinion

1 source

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

41

3arXiv cs.RO

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

Des chercheurs ont soumis sur arXiv (2601.04061v2, janvier 2026) un framework appelé CLAP, pour Contrastive Latent Action Pretraining, conçu pour entraîner des modèles Vision-Language-Action (VLA) généralistes à partir de vidéos humaines non étiquetées. Le pipeline repose sur deux étapes: un module Act-VAE construit d'abord un vocabulaire d'actions exécutables à partir de trajectoires robotiques existantes, puis un apprentissage contrastif aligne les transitions visuelles extraites de vidéos humaines sur ce vocabulaire latent, pseudo-étiquetant ainsi ces vidéos sans collecte téléopérée supplémentaire. Sur cette base, CLAP-NTP est entraîné comme VLA autorégressif combinant démonstrations robotiques réelles et vidéos humaines étiquetées. Pour le déploiement, CLAP-RF ajoute une tête à flux rectifié (Rectified Flow) permettant la prédiction de chunks d'actions continus à faible latence, couplée à une régularisation dite Knowledge Matching qui préserve les connaissances sémantiques préentraînées lors du fine-tuning sur domaine cible. L'obstacle central des VLA généralistes reste la rareté des données robotiques étiquetées face à l'abondance de vidéos humaines disponibles en ligne. Les approches antérieures de type Latent Action Models tentaient d'exploiter ces vidéos mais encodaient du bruit visuel plutôt que des compétences de manipulation réelles, un problème qualifié d'enchevêtrement visuel (visual entanglement). CLAP contourne cette limitation en ancrant l'espace latent sur des trajectoires physiquement fondées via l'apprentissage contrastif, sans reconstruire l'apparence. Pour les intégrateurs industriels, la promesse concrète est de réduire le coût de collecte téléopérée, estimé à plusieurs milliers de dollars par heure, tout en améliorant la généralisation à de nouveaux objets sans démonstrations robotiques exhaustives. Les résultats expérimentaux rapportés montrent de bonnes performances face aux baselines comparatives, mais la validation externe reste à confirmer. Le domaine des VLA est en pleine effervescence depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Helix (Figure AI), tous confrontés à la même pénurie de données étiquetées exploitables. Google DeepMind a exploré des voies similaires avec des travaux comme UniSim. CLAP se distingue en proposant une approche plus physiquement ancrée que les méthodes purement génératives ou reconstructrices. Ce preprint n'a pas encore été évalué par les pairs et n'annonce aucun déploiement en production. Les prochaines étapes naturelles seraient une validation sur un éventail plus large de plateformes robotiques ainsi qu'une comparaison systématique avec les Diffusion Policies, méthodes actuellement dominantes sur les benchmarks Open X-Embodiment.

IA physiqueActu

1 source

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

44

4arXiv cs.RO

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

IA physiqueOpinion

1 source

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

À lire aussi

Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles