Dossier Physical Intelligence — π0 — page 3

1404 articles · page 3 sur 29

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

101arXiv cs.RO RechercheActu

Vue-Langage-Action : agir, réfléchir ou s'abstenir selon la complexité perçue

Une équipe de recherche propose un mécanisme d'inférence adaptative pour les modèles Vision-Language-Action (VLA), publié sur arXiv (2603.05147v2). Le principe: au lieu d'appliquer systématiquement un raisonnement coûteux à chaque tâche, le système classe la complexité de la situation perçue et choisit entre trois modes, Act (exécution immédiate pour les tâches connues), Think (raisonnement approfondi pour les cas ambigus) et Abstain (arrêt préventif face à une anomalie physique ou sémantique). La méthode transforme le backbone vision-langage du VLA en détecteur actif, en projetant ses embeddings latents dans des estimateurs paramétriques et non paramétriques. Testé sur les benchmarks LIBERO et LIBERO-PRO ainsi que sur un robot réel, le modèle combinant un Gaussian Mixture Model appliqué aux embeddings fusionnés vision-langage-instruction obtient jusqu'à 87,5% de F1-score sur deux backbones VLA différents, SmolVLA et π0, et conserve 83% de performance avec seulement 5% des données d'entraînement, dépassant les détecteurs d'échec de l'état de l'art. Pour l'industrie robotique, ce travail s'attaque à deux problèmes concrets qui freinent le déploiement des VLA en production: le coût de calcul du raisonnement systématique, qui pénalise le temps de cycle et l'autonomie embarquée sur des tâches triviales, et l'absence de garde-fou fiable face aux scénarios hors distribution, source de défaillances catastrophiques en environnement réel. En donnant au modèle une estimation d'incertitude native plutôt qu'un raisonnement en force brute partout, l'approche vise un compromis entre latence et sécurité que les intégrateurs réclament pour justifier un passage du laboratoire à l'usine ou à l'entrepôt. Le fait que la robustesse se maintienne avec 5% des données seulement suggère aussi une piste pour réduire le coût d'entraînement spécifique à chaque nouvelle tâche. Le travail s'inscrit dans la lignée des VLA généralistes comme π0 (Physical Intelligence) et des modèles compacts comme SmolVLA, dont la généralisation reposait jusqu'ici surtout sur l'ajout de modules de raisonnement, au prix de la latence. En s'appuyant sur les benchmarks de simulation LIBERO et sa variante durcie LIBERO-PRO, complétés par une validation sur robot physique, les auteurs positionnent leur détecteur de complexité comme une alternative aux approches existantes de détection d'échec. Les prochaines étapes attendues concernent l'extension à d'autres familles de VLA et une validation à plus grande échelle en conditions industrielles réelles.

Dossier Physical Intelligence — π0 — page 3

Vue-Langage-Action : agir, réfléchir ou s'abstenir selon la complexité perçue

Reasoning à double tranchant : architecture et robustesse inter-étapes des modèles vision-langage-action

NVIDIA explique comment évaluer les politiques robotiques polyvalentes en conditions réelles

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

Humanoid : l'apprentissage par renforcement KinetIQ Ascend atteint une dextérité proche de l'humain

Robots humanoïdes en première ligne : du salon d'exposition à l'usine comme employés vedettes

Le paradoxe de l'accélération : repenser le compromis vitesse-qualité à l'inférence dans les tâches incarnées

Modèles vision-langage-action (VLA) : retours d'expérience sur une plateforme UR5 réelle

LIBERO-Safety : un benchmark complet pour la sécurité physique et sémantique des modèles vision-langage-action (VLA)

MobileManiBench : simplifier la vérification des modèles pour la manipulation mobile

WatchAct : un benchmark de manipulation robotique fondée sur le comportement

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

Wh0 : des modèles du monde génératifs comme source extensible de données égocentrées de manipulation manuelle

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Un modèle fondation VLA pragmatique

World Pilot : piloter les modèles VLA avec des a priori monde-action

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

OGPO : un affinage complet et efficace des politiques de contrôle génératives

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

TAIL-Safe : surveillance de sécurité agnostique aux tâches pour les politiques d'apprentissage par imitation

Revue complète des modèles du monde pour l'apprentissage robotique

Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action