Dossier IA physique & VLA — page 2

1018 articles · page 2 sur 21

L'IA physique : modèles vision-langage-action qui contrôlent des corps robotisés. État de l'art académique (CoRL, RSS) et premières productions industrielles.

51arXiv cs.RO InfrastructureActu

Real2Sim2Real pour la manipulation vision-langage-action : un pipeline basé sur AMD ROCm

Des chercheurs publient sur arXiv (2607.22997v1) une pile logicielle de bout en bout entièrement basée sur ROCm, l'écosystème ouvert d'AMD, pour entraîner et déployer des modèles vision-langage-action (VLA) en robotique de manipulation. L'architecture couvre trois niveaux de matériel AMD : silicium d'entraînement en datacenter, cartes Radeon PRO pour la simulation et le rendu, et puces Ryzen AI pour le calcul embarqué. Quatre démonstrations illustrent la pile : un pipeline sim-to-real entraîné avec le modèle SmolVLA et déployé sur un bras robotique Franka ; une tâche de sélection d'objet guidée par le langage baptisée « one-of-three » ; un pipeline real-to-sim qui associe des reconstructions de scènes réelles par 3D Gaussian Splatting (3DGS) au moteur physique Genesis pour générer des données d'entraînement synthétiques ; et un entraînement par renforcement à grande échelle pour la locomotion de robots quadrupèdes et humanoïdes, benchmarké sur plusieurs plateformes matérielles. L'ensemble fonctionne nativement sous ROCm et PyTorch sur des GPU RDNA4 (Radeon AI PRO R9700) et RDNA3.5 (Radeon PRO W7900), et les pipelines sont reproductibles gratuitement sur la Radeon Cloud Platform. L'enjeu dépasse la simple démonstration technique : la quasi-totalité des pipelines VLA publiés jusqu'ici, de SmolVLA à Pi-0 en passant par GR00T N2 ou Helix, s'entraînent et se déploient sur des écosystèmes CUDA de Nvidia, aujourd'hui quasi incontournable dans l'IA physique. En montrant qu'un pipeline sim-to-real complet, du rendu 3DGS à l'inférence embarquée, tient sur ROCm sans réécriture lourde, les auteurs ouvrent une alternative matérielle crédible pour les intégrateurs et laboratoires cherchant à diversifier leurs fournisseurs de calcul ou à réduire leurs coûts. Pour les décideurs B2B, le signal principal reste la reproductibilité gratuite via la Radeon Cloud Platform, qui abaisse la barrière d'entrée pour tester des politiques VLA sans investir dans du matériel Nvidia. Le papier demeure toutefois une preuve de faisabilité technique sur des tâches de manipulation limitées (un bras Franka, un tri à trois objets), sans démonstration de déploiement industriel à l'échelle ni de comparaison chiffrée de performance face aux stacks CUDA équivalentes. Cette publication s'inscrit dans la course engagée par AMD pour rattraper son retard face à Nvidia sur le marché de l'IA, et plus spécifiquement sur celui, naissant, de l'IA physique évoqué par Lisa Su au CES 2026 et par Jensen Huang lors de la GTC Paris de juin 2025. Le choix des briques logicielles, SmolVLA (Hugging Face), Genesis (moteur physique open source) et 3D Gaussian Splatting, situe les auteurs dans la mouvance open source de la robotique généraliste, aux côtés d'acteurs comme Physical Intelligence (Pi-0) ou Nvidia lui-même avec GR00T. Aucun acteur français ou européen n'apparaît dans cette publication centrée sur l'infrastructure matérielle. Les auteurs annoncent code et pipelines reproductibles dès aujourd'hui sur la Radeon Cloud Platform, sans toutefois préciser de calendrier de commercialisation ni de partenariats industriels concrets à ce stade.

Dossier IA physique & VLA — page 2

Real2Sim2Real pour la manipulation vision-langage-action : un pipeline basé sur AMD ROCm

2 000 robots humanoïdes déployés dans des usines textiles pour une production plus rapide et efficace

Modèle Vision-Langage-Action pour la manipulation multi-mains via recherche dans les espaces d'assignation et nuls

Robots peuvent désormais apprendre des tâches d'usine à haute dextérité par la vidéo, avec un minimum d'entraînement

« FabriVLA de Youibot, modèle 1 milliard de paramètres, dépasse Pi-Zero et prend la tête du classement en IA incarnée »

AMD dévoile le module Kria pour le contrôle en temps réel et la mémoire unifiée des robots

Ropedia lève 22 millions de dollars pour développer la collecte de données servant à l'entraînement des robots

Foresight par apprentissage résiduel pour la manipulation robotique à long horizon avec des modèles vision-langage-action

Les fabricants chinois de robots déplorent : « Il nous faudrait un meilleur cerveau, et plus de données »

BrainCo dévoile une plateforme robotique "contrôlée par la pensée" à la Conférence mondiale sur l'IA en Chine

Xiaomi présente Xiaomi-Robotics-U0 pour l'IA incarnée et la génération de robots

JD.com se lance dans l'IA incarnée : construction de la première usine de robots RoboBase à Guangzhou

De l'IA du monde à l'IA incarnée : une feuille de route pour l'intelligence physique en monde ouvert

IA incarnée guidée par les exigences : conception d'une détection tactile sociale du corps entier via interaction humain-robot virtuelle

Vision robotique : cartes de points centrées sur le robot pour les modèles vision-langage-action

SPEAR : un simulateur d'IA incarnée photoréaliste pour la recherche

IA incarnée, HumAIN : la navigation sociale implicite du robot conscient des humains

Usine de robots soudeurs : « Shengshi Weisheng » lève plusieurs centaines de millions de yuans en série B avec son modèle d'IA incarnée pour le soudage

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot

Course à l'IA physique : l'Europe peut-elle rivaliser avec la Chine et les États-Unis en robotique humanoïde ?

Lumos Robotics domine un test de référence mondial pour l'IA incarnée en zero-shot

Une université américaine renforce sa recherche en robotique et IA physique avec les systèmes OptiTrack

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

Simplexity Robotics : une start-up d'IA incarnée de 11 mois déploie 100 robots sur des lignes de production

ACE-Brain-0.5 : un modèle fondation incarné unifié pour l'IA physique à base d'agents

Imperio, smolVLA : les conséquences de l'empoisonnement des données pour la robotique open source

Zhijian Dongli, start-up d'IA incarnée de 11 mois, livre 100 robots sur des lignes de production

Des diplômés de Tsinghua créent une start-up d'IA incarnée, lèvent des centaines de millions de yuans pour l'automobile

X Square Robot mise sur une approche full-stack pour l'IA incarnée et la robotique polyvalente

IA physique : modèle du monde 3D fondé sur les principes physiques pour la manipulation d'objets dynamiques (PhysMani)

Embodied.cpp : un moteur d'inférence portable pour modèles d'IA incarnée sur robots hétérogènes

Transport discrepancy : un signal fiable pour évaluer les modèles vision-langage-action

VLSA : modèle vision-langage-action avec couche de contrainte de sécurité modulaire

Blattner attribue un contrat de 75 millions de dollars à Built Robotics pour l'IA physique afin de répondre à la demande énergétique

IA physique : des modèles du monde aux modèles d'action, un tutoriel concis pour la robotique

IA incarnée : jeu de données de graphes de scène spatiaux pour l'évaluation de modèles vision-langage sur des trajectoires de manipulation robotique

Top 10 des avancées en robotique de juin 2026

MVP-Nav : navigateur planificateur avec carte de valeur multicouche

Z-1 : apprentissage par renforcement efficace pour les modèles vision-langage-action

L'expansion des recrutements de NVIDIA en robotique en Chine, avec des postes à Pékin, Shanghai et Shenzhen

Cellules robotiques souples de Morph : l'IA physique intégrée directement dans le matériel

DRIVE-Nav : raisonnement directionnel, inspection et vérification pour une navigation efficace à vocabulaire ouvert

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Les coulisses du rachat de Kinisi par Bear Robotics

Zhipingfang valorisé à 2,8 milliards : première licorne d'IA incarnée de la Greater Bay Area

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique

Li Hongyang (HKU) lance une startup d'IA incarnée corps entier et lève des centaines de millions en seed

Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)

ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)