IA physique

50 sur 597 articles

Modèles vision-langage-action (VLA) et IA physique : NVIDIA GR00T, Figure Helix, Physical Intelligence π0, Gemini Robotics, OpenVLA, world models Cosmos/Genie.

Humanoïdes Industriel FR/EU ecosysteme Chine/Asie Recherche Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

1The Robot Report IA physiqueOpinion

Comment éviter le piège de la téléopération dans le développement de la robotique

Flexion, société développant une plateforme d'apprentissage par renforcement et de transfert simulation-vers-réel pour robots humanoïdes, publie une analyse critique sur les méthodes de collecte de données du secteur. Depuis 18 mois, les entreprises de robotique humanoïde ont levé des milliards de dollars, une majorité de ces fonds finançant en réalité le recrutement d'opérateurs humains pour téléopérer des robots ou filmer des tâches domestiques, notamment dans des économies à bas coût de main-d'œuvre en Chine, en Inde, en Europe et aux États-Unis. Un écosystème commercial entier s'est structuré autour de la vente de données de téléopération, sur le modèle des entreprises qui vendaient auparavant du texte annoté pour entraîner les modèles de langage. Selon Flexion, ces jeux de données restent plus de 100 000 fois plus petits que ceux utilisés pour entraîner les modèles de langage et de vision actuels, et la qualité pose aussi problème : les opérateurs ne peuvent ni ressentir le toucher ni juger correctement la profondeur, ce qui les pousse à des gestes lents et à des surcorrections que le robot finit par reproduire fidèlement. Cette dépendance interroge directement la promesse commerciale portée par le secteur : les robots humanoïdes sont censés pallier une pénurie de main-d'œuvre annoncée, liée au vieillissement démographique. Or un système qui nécessite un flux permanent de démonstrations humaines pour fonctionner sur toute tâche nouvelle constitue, de fait, un système de travail humain déguisé plutôt qu'une automatisation réelle. Flexion pointe un biais de mesure répandu dans l'industrie : le nombre d'heures de téléopération collectées ou de tâches réussies en environnement contrôlé ne renseigne en rien sur la capacité réelle d'un robot à généraliser face à une situation ou un lieu inédits. L'argument habituel selon lequel la téléopération ne serait qu'un pont temporaire vers de meilleures méthodes d'entraînement reste, selon l'entreprise, invérifié : rien n'indique quand ni comment cette transition doit s'opérer, et construire davantage d'infrastructure de démonstration ne fait qu'approfondir la dépendance plutôt que la résoudre. Flexion propose une alternative structurée autour de trois couches, commande, mouvement et contrôle, misant sur l'apprentissage par renforcement en environnements synthétiques plutôt que sur l'imitation de démonstrations humaines. L'entreprise compare la situation actuelle à celle des débuts des modèles de langage : entraînés sur d'immenses corpus textuels, ces modèles savaient imiter le style sans forcément raisonner, un plafond dépassé grâce à l'apprentissage par renforcement plutôt qu'à l'accumulation de davantage de texte. Contrairement au texte, il n'existe aucune archive préexistante de gestes robotiques exploitables à grande échelle, chaque démonstration devant être générée manuellement, ce qui limite structurellement la vitesse de progression du secteur tant que le paradigme de la téléopération domine.

UEL'article cite l'Europe comme l'un des bassins de main-d'oeuvre utilises pour la teleoperation, mais ne mentionne aucune entreprise ou reglementation francaise ou europeenne specifique.

IA physique

Comment éviter le piège de la téléopération dans le développement de la robotique

Robbyant lance LingBot-World 2.0, avec génération de monde en temps réel sur une heure

RoboTTT : mise à l'échelle du contexte pour les politiques robotiques

Action QFormer : structuration des représentations guidée par la supervision des actions dans les modèles vision-langage-action

Never trop tard pour la force : accélérer le post-entraînement des VLA par injection réactive de force

Reflex : contrôle VLA en temps réel par inférence en continu

Vidéo : les robots d'usine du spin-off américain de Toyota apprennent de leur expérience sur le terrain

IA généralisable par ancrage de représentation et alignement langage-action pour les modèles VLA

Fusion des modalités tactiles pour les modèles vision-langage-action (VLA)

Robotique-U0 de Xiaomi : un modèle génératif incarné à 38 milliards de paramètres unifiant quatre tâches robotiques

DECO : transformateur de diffusion multimodal découplé pour la manipulation dextre bimanuelle avec adaptateur tactile enfichable

Robots Jetson-PI : contrôle robotique en temps réel embarqué via inférence asynchrone alignée sur l'anticipation

NVIDIA explique comment évaluer les politiques robotiques polyvalentes en conditions réelles

Boston Dynamics teste des "chiens robots" pour les livraisons

Xiaomi-Robotics-U0 : synthèse incarnée unifiée avec modèle fondation du monde

ABot-N1 : vers un modèle fondation vision-langage-navigation généraliste

EgoSteer : un système complet pour la manipulation dextre pilotable à partir de vidéos égocentriques

Regardez : le premier modèle d'IA nativement incarnée promet des robots plus intelligents et plus performants

PHANES AI intègre le toucher aux modèles fondation de robots : TouchWorld, un modèle tactile pour la manipulation dextérique

Dexmal veut booster la productivité de l'IA incarnée avec le modèle DM0.5, DexOS et une stratégie MaaS en trois étapes

FabriVLA : un modèle vision-langage-action léger pour une manipulation précise multi-tâches

Robot Control : un pré-entraînement vidéo-action natif pour un contrôle robotique généralisable

Dexmal lance MaaS incarné et DexOS, résolvant le passage à l'échelle des modèles en conditions réelles

NVIDIA étend LeRobot (open source) avec des outils IA humanoïde pour accélérer le développement des robots

Pelican-VLA 0.5 : l'attention avant l'action améliore la généralisation

GeoProp : ancrer l'état du robot dans la vision pour une manipulation généraliste

PriGo : guidage de primitives en temps de test pour les politiques de diffusion et de flux en manipulation robotique adaptative

GemNav : navigation robotique visuelle par tokens discrets via un grand modèle de langage multimodal

VOTE : optimisation vision-langage-action par vote d'ensemble de trajectoires

Modèle vision-langage-action pour la génération compositionnelle de mouvements à partir de démonstrations avec champs neuronaux centrés sur l'objet

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot

RoboTALES : politiques robotiques guidées par le raisonnement via des futurs simulés alignés sur la tâche

RynnWorld-4D : des modèles du monde incarnés en 4D pour la manipulation robotique

Des fondamentaux à l'application : améliorer les modèles VLA en pratique

Développer des politiques de robots humanoïdes de bout en bout avec NVIDIA Isaac GR00T

Lumos Robotics domine un test de référence mondial pour l'IA incarnée en zero-shot

LingBot-Vision d'Ant Group : 12 premières mondiales, un modèle de 1,1 milliard de paramètres bat DINOv3 (7 milliards)

HIVE lève 15 millions de dollars pour développer une IA physique destinée aux machines industrielles

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

InternVLA-A1.5 : unifier compréhension, prévision latente et action pour une généralisation compositionnelle

WSA$_1$ : un modèle monde-spatial-action centré sur la 3D pour un contrôle robotique généralisable

Vert pour avancer, rouge pour s'arrêter : ancrage visuel par segmentation sémantique pour la navigation VLA

XS-VLA : associe distillation spatiale à gros grain et appariement de flux latent pour un contrôle robotique léger

Caméras fixes ou libres : un modèle vision-langage-action sans calibration, robuste aux changements de vue

Worldscape-MoE : un modèle du monde à mélange d'experts unifié pour un contrôle d'action hétérogène et évolutif

Ask-to-Clarify : résoudre l'ambiguïté des instructions par un dialogue multi-tours

CAC-VLA : un conditionnement d'action contrôlé par le contexte pour les modèles vision-langage-action

Humanoid (UK) lance un système d'apprentissage par renforcement pour améliorer la manipulation robotique

Le contexte est roi : comment Avride utilise des VLM cloud comme filet de sécurité pour les robots de livraison

Bridge-WA : prédire où et comment le monde change pour l'action robotique