Dossier Physical Intelligence — π0 — page 2

1397 articles · page 2 sur 28

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

51arXiv cs.RO RecherchePaper

Reasoning à double tranchant : architecture et robustesse inter-étapes des modèles vision-langage-action

Voici l'article traduit et résumé. Une équipe de recherche publie sur arXiv (arXiv:2607.17786, 24 juillet 2026) une étude testant si le raisonnement améliore la robustesse des modèles Vision-Language-Action (VLA) face aux perturbations. Trois architectures couvrant le spectre du raisonnement ont été comparées : un modèle sans raisonnement, un modèle à chaîne de raisonnement textuelle (chain-of-thought), et un modèle à boucle itérative latente. Chaque architecture a été soumise à des perturbations aux étages vision, raisonnement et action, sur deux bancs d'essai standards de la robotique manipulatrice, LIBERO et SimplerEnv. Résultat central : le modèle à raisonnement latent itératif s'effondre en taux de réussite sous bruit stochastique comme sous attaque adversariale en boîte blanche, alors que les deux autres architectures tiennent. Les chercheurs montrent que cette fragilité est structurelle et non cumulative, puisque faire varier la profondeur de raisonnement à l'inférence ne change presque rien au problème. Ils testent également des sondes de sécurité censées lire le raisonnement en temps réel pour détecter une anomalie : une sonde de cohérence plan-action, qui semblait quasi parfaite sous évaluation naïve, retombe au niveau du hasard sous attaque adaptative. Ce résultat va à contre-courant d'une hypothèse répandue dans la robotique embarquée par IA, à savoir que faire "réfléchir" un modèle avant d'agir le rend mécaniquement plus fiable face à des entrées bruitées ou adverses, comme un capteur dégradé ou une caméra masquée sur un robot humanoïde ou un AMR en usine. Pour les intégrateurs et décideurs B2B qui évaluent des architectures de type Pi-0, GR00T N2 ou Helix pour du déploiement industriel, l'étude suggère que le choix d'un module de raisonnement latent, souvent présenté comme plus performant sur les tâches complexes, peut introduire un point de défaillance critique en environnement réel non contrôlé. Elle contredit aussi l'idée que le monitoring du raisonnement interne suffirait à sécuriser ces systèmes : les auteurs montrent que combiner une sonde de cohérence avec une sonde d'anomalie sur l'action, même calibrée à taux de fausses alertes constant, ne permet jamais de dépasser les performances d'un système non défendu. Cette publication s'inscrit dans un courant de recherche en sécurité IA appliquée à la robotique qui cherche à quantifier le "reality gap" entre démonstrations et déploiements réels des modèles VLA, une question centrale alors que des acteurs comme Figure, Physical Intelligence ou NVIDIA multiplient les annonces de modèles généralistes pour bras robotiques et humanoïdes. Les auteurs cadrent explicitement leurs résultats comme un préalable : toute défense crédible contre les perturbations en boîte blanche à l'étage vision devra d'abord franchir ce plafond de performance avant de prétendre sécuriser des déploiements réels, ce qui laisse ouverte la question des architectures et protocoles de test à concevoir pour la suite.

Dossier Physical Intelligence — π0 — page 2

Reasoning à double tranchant : architecture et robustesse inter-étapes des modèles vision-langage-action

Xiaomi-Robotics-1 : passage à l'échelle des modèles vision-langage-action avec plus de 100 000 heures de trajectoires réelles

SLAC : apprentissage par renforcement sûr et efficace pour robots réels via pré-entraînement non supervisé en simulation

Politique de non-fabrication : je ne dois pas inventer de traduction pour un titre d'article sans contexte vérifiable au-delà de ce qui est donné, mais ici la tâche est simplement de traduire le titre fourni, donc je peux procéder

CAC-VLA : un conditionnement d'action contrôlé par le contexte pour les modèles vision-langage-action

Voir et Bifurquer : branchement par vision pour la programmation interactive de compétences robotiques

Chronos : cadre à historique complet guidé par la physique pour la manipulation non markovienne à long horizon

RoamFlow : une politique de navigation par image-objectif alignée par renforcement en une seule étape

Exploration de poses-clés : étiquetage automatique de trajectoires et transfert de politique entre robots

Nous savons construire des robots plus intelligents, il reste à apprendre à mieux les tester

Modèles fondation vérifiables pour la sécurité des robots

MuTRAP : trojans à déclencheurs multiples ciblant les systèmes de planification de tâches robotiques

Cerveau lent, planificateur rapide : navigation urbaine résiliente à la latence avec VLM

Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés

Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots

Luo Jianlán : le vrai Scaling Law de la robotique naît dans la boucle fermée du déploiement réel

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent

Daxiao Robot a levé des centaines de millions de dollars : son fondateur révèle les fractures de l'industrie de l'IA incarnée

VLALeaks : attaques par inférence d'appartenance contre les modèles vision-langage-action

ATHENA : fonctions d'influence hétérogènes multi-tâches accélérées pour la curation de données robotiques

AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance

La régularisation en sortie élimine la loterie des seeds dans le fine-tuning VLA sur GPU unique

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections

Doubao payant fin juin, incendie chez SK Hynix, Unitree obtient son IPO : Wang Xingxing vaudrait plus de 14 milliards de yuans

Feat2Go : estimation de valeur par ancrage visuel pour l'apprentissage par renforcement incarné

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire