IA physique — page 3

536 articles · page 3 sur 11

Modèles vision-langage-action (VLA) et IA physique : NVIDIA GR00T, Figure Helix, Physical Intelligence π0, Gemini Robotics, OpenVLA, world models Cosmos/Genie.

Humanoïdes Industriel FR/EU ecosysteme Chine/Asie Recherche Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

101arXiv cs.RO IA physiquePaper

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

IA physique — page 3

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

World Pilot : piloter les modèles VLA avec des a priori monde-action

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

UniIntervene : intervention à base d'agents pour un apprentissage par renforcement efficace en conditions réelles

iPack : rangement intuitif dans des bacs grâce aux grands modèles de langage

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

La robotique ne connaîtra pas de moment Llama bien défini

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

Robustesse des tâches par ré-étiquetage des données vision-action pour robots

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)