Dossier Physical Intelligence — π0

1397 articles

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1Interesting Engineering IA physiqueActu

MIT dévoile un modèle qui réduit les délais de réaction de 30 fois pour des mouvements robotiques plus rapides

Des chercheurs du MIT ont développé une nouvelle méthode baptisée VLASH, qui permet aux robots pilotés par des modèles vision-langage-action (VLA) de planifier leur prochaine séquence de mouvements pendant qu'ils exécutent encore la précédente, en anticipant leur position future plutôt qu'en attendant la fin du geste en cours pour ré-observer l'environnement. Cette seule modification réduit le délai de réaction de plus de 30 fois en supprimant la pause habituelle entre deux blocs d'actions. Une technique complémentaire, la quantification d'action, regroupe des mouvements suivant une même trajectoire en blocs plus larges ; elle réduit légèrement la précision mais accélère l'exécution des tâches de deux à trois fois. L'équipe a aussi conçu une méthode d'augmentation des données d'entraînement qui réorganise les données existantes pour diviser par cinq le temps d'entraînement, sans surcoût de calcul. En simulation, VLASH produit systématiquement des mouvements plus rapides sans perte de précision de manœuvre. Sur robots physiques, les gains se confirment sur des tâches de prise-dépose, d'empilement et de tri : dans une démonstration, un robot triant des cubes colorés a été deux fois plus rapide que les systèmes de référence, avec 90% de précision, un score équivalent à la meilleure méthode conventionnelle testée. Le système gère aussi des activités très dynamiques comme le tennis de table ou le Whack-a-Mole. Cette avancée cible un goulot d'étranglement connu du déploiement des VLA, de plus en plus utilisés comme "cerveau" des robots pour interpréter leur environnement et générer des actions physiques : le coût de calcul de l'inférence introduit des délais qui rendent les robots lents et saccadés face aux changements de leur environnement, un frein concret pour les intégrateurs visant des environnements dynamiques. Doubler la vitesse d'exécution sans matériel supplémentaire ni entraînement plus long change la donne économique. C'est un signal utile pour la course actuelle aux VLA généralistes (Pi-0, GR00T N2, Helix, ou les modèles embarqués dans des humanoïdes comme Figure 03 ou Optimus) : la latence d'inférence reste un frein réel à la fluidité mise en avant dans les vidéos de démonstration, et des optimisations logicielles comme celle-ci pourraient compter autant que la taille des modèles. Les chercheurs évoquent aussi des applications en recherche et sauvetage, où la réactivité aux changements est critique. Le travail s'inscrit dans les recherches du MIT sur l'intégration des VLA en robotique physique, un domaine où les grands laboratoires (Physical Intelligence, NVIDIA, Figure AI, Tesla) misent surtout sur des modèles plus lourds pour gérer perception et planification. VLASH prend l'angle inverse : restructurer le cycle observation-planification-exécution plutôt que changer le modèle. Aucun acteur français ou européen n'est cité dans ces travaux, qui restent à ce stade un résultat académique validé en simulation et sur quelques démonstrations en laboratoire, sans partenariat industriel ni calendrier commercial annoncés. La prochaine étape pour l'équipe consiste à combiner VLASH avec des modèles de monde génératifs capables de prédire l'évolution de l'environnement, et non plus seulement l'état futur du robot.

Dossier Physical Intelligence — π0

MIT dévoile un modèle qui réduit les délais de réaction de 30 fois pour des mouvements robotiques plus rapides

Le fondateur, docteur de l'UCLA, lance une startup de modèles fondation pour robots humanoïdes, lève près de 500 millions de yuans en amorçage

Real2Sim2Real pour la manipulation vision-langage-action : un pipeline basé sur AMD ROCm

Vue-Langage-Action : agir, réfléchir ou s'abstenir selon la complexité perçue

VLASH : des VLA en temps réel grâce à une inférence asynchrone anticipant les états futurs

N₀-TWAM : passage à l'échelle d'un modèle monde-action tactile natif pour la manipulation à contacts riches

AXIS : un moteur de données communautaire évolutif pour la manipulation robotique à grande échelle

« FabriVLA de Youibot, modèle 1 milliard de paramètres, dépasse Pi-Zero et prend la tête du classement en IA incarnée »

RobustVLA : robustesse d'un modèle vision-langage-action face aux perturbations multimodales

AC-VLA : exécution robuste d'actions hors distribution par apprentissage compositionnel

Vision qui prime sur le langage : évaluer et corriger les échecs contrefactuels dans les VLA

NVIDIA explique comment évaluer les politiques robotiques polyvalentes en conditions réelles

Xiaomi-Robotics-U0 : synthèse incarnée unifiée avec modèle fondation du monde

L'efficacité du fine-tuning LoRA pour les modèles vision-langage-action dans la manipulation robotique industrielle

Mistral AI lance Robostral Navigate

DexVerse : un référentiel modulaire pour la manipulation dextre multi-tâche et multi-incarnation

Diagnostiquer les échecs de transfert sémantique dans la composition de compétences VLA orchestrée par agents

DynaWM : un modèle du monde guidé par un VLA de base pour la manipulation d'objets en mouvement

Restauration de l'ancrage linguistique dans les modèles VLA par recalibrage de l'attention sans entraînement

Rapport technique RhinoVLA

Z-1 : apprentissage par renforcement efficace pour les modèles vision-langage-action

ELASTIC : passage à l'échelle adaptatif du calcul en temps de test pour l'apprentissage efficace de politiques de contrôle génératives

Où regardent les humains lors des démonstrations à des robots : analyse du comportement visuel dans les tâches de prise-et-dépose

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

FADA : adaptation de domaine few-shot par alignement des dynamiques pour le contrôle humanoïde

Fiez-vous à vos instincts : RL à l'inférence guidé par la confiance pour les modèles VLA

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

BMW Group déploie le robot humanoïde Figure 03 après les tests de la version précédente

X Square Robot boucle quatre levées consécutives et atteint 2,8 milliards de dollars de valorisation grâce à ses modèles fondation d'IA physique

L'injection directe d'un point 3D ancré dans la tête d'action débloque la généralisation spatiale et des tâches

LA4VLA : apprendre à agir sans vision par pré-entraînement langage-action

Les modèles d'action du monde permettent un apprentissage par imitation continu avec rejeu génératif récurrent

PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching

Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage

Prior Reinforce : manipulation dynamique conditionnée par objectif avec peu d'essais

Des milliards investis dans l'IA incarnée, mais le déploiement en usine reste hors de portée

Humanoid Everyday : un jeu de données robotique complet pour la manipulation humanoïde en monde ouvert

Mouvement primitif en robotique : une étude approfondie

Bien partir pour bien arriver : exécution asynchrone par sélection du bruit initial

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés

HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines

GCNGrasp-VP : planification de vue guidée par les affordances pour une préhension efficace orientée tâche

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

SoK : Sécurité et vie privée des robots à base de modèles fondation

Pilotage de politique d'inférence par vision et toucher

Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique