Dossier Physical Intelligence — π0 — page 9

1320 articles · page 9 sur 27

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

401Pandaily IA physiqueOpinion

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Des chercheurs de l'université du Zhejiang, en collaboration avec Cornell University, la National University of Singapore et Xidian University, ont publié sur arXiv (2605.30011) un système de raisonnement visuel pour robots baptisé VisualThink-VLA. L'approche remplace le raisonnement en chaîne de pensée textuelle, où le robot génère un monologue interne en tokens de langage avant chaque action, par des tokens visuels directs. Résultat mesuré : le temps de traitement par étape passe de 8,377 secondes (approche texte ECoT) à 0,367 secondes, soit un gain de 22,8x. Sur huit benchmarks standardisés, VisualThink-VLA atteint un taux de succès moyen de 92,63 %, contre 85,09 % pour ECoT. Les expériences physiques ont été conduites sur un bras robotique PIPER NERO à 7 degrés de liberté, sur des tâches de préhension multi-objets, de placement sensible aux relations spatiales, de réorientation sous contrainte de contact, et de séquences composées à deux étapes. Le jeu d'entraînement "VisualEvidence-Set" couvre 754 700 instructions de manipulation. L'intérêt industriel de ce résultat tient à la rareté de la combinaison : gain de vitesse ET gain de précision simultanés, alors que les systèmes d'IA échangent habituellement l'un contre l'autre. Pour les intégrateurs et les équipes de déploiement robotique, un temps de cycle sous 400 ms par étape ouvre la voie à des manipulations en environnement dynamique sans supervision humaine rapprochée. L'architecture à quatre canaux visuels, Bounding Box, Edge, Motion, Relation, utilise un mécanisme de routage adaptatif qui sélectionne en moyenne seulement 2,22 canaux par étape, évitant le surcoût computationnel d'une fusion systématique. Le caractère plug-and-play revendiqué par les auteurs est un argument commercial non négligeable : les systèmes VLA existants pourraient être mis à niveau sans refonte de l'architecture sous-jacente, ce qui réduit le coût d'adoption. Cette affirmation reste à vérifier sur des robots de production tiers, les expériences publiées se limitant au PIPER NERO. Le contexte de ce travail s'inscrit dans une compétition intense autour des VLA (Vision-Language-Action models), dominée jusqu'ici par des approches comme OpenVLA, pi0 (Physical Intelligence) ou RoboVLMs, qui traitent toutes la vision et le langage comme co-entrées mais conservent un raisonnement textuel latent. L'université du Zhejiang est l'un des laboratoires les plus productifs en robotique incarnée en Chine, avec plusieurs publications majeures ces deux dernières années sur le sim-to-real et la manipulation dextère. Sur le fond, VisualThink-VLA teste l'hypothèse que le langage est un détour inutile pour la perception motrice, hypothèse que partagent des équipes comme Wayve ou Enchanted Tools côté européen dans leurs architectures world-model. Les prochaines étapes non précisées dans le papier concernent l'extension à des manipulateurs bimanaux et à des environnements non structurés hors laboratoire, deux conditions nécessaires avant tout pilote industriel crédible.

UELes équipes VLA européennes, notamment Enchanted Tools (France) dont l'architecture world-model partage des hypothèses similaires, pourraient s'inspirer de cette approche pour réduire les latences de manipulation sans sacrifier la précision.

Dossier Physical Intelligence — π0 — page 9

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

IA incarnée fiable : un programme communautaire du test à la vérification formelle

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des démonstrations aux récompenses : optimisation de prompts au moment du test pour les modèles de récompense VLM

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle

Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub

Distillation neuronale de Koopman dynamique pour le contrôle robotique en temps réel par modèles de diffusion

Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent

LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation

La Chine attribue un identifiant numérique à chaque robot humanoïde pour renforcer les standards industriels

Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions

Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact

VLANeXt : recettes pour construire des modèles VLA performants

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

La robotique connaîtra-t-elle son moment ChatGPT ?

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones

Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

TaskGround : inférence de tâches exécutables structurées pour le raisonnement domestique global

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Boston Dynamics révèle comment Atlas soulève des charges industrielles de 45 kg en production

Robot humanoïde abordable à 15 000 dollars : un kit pour démocratiser la robotique avancée

Approximation du MPC global à contact implicite par échantillonnage et complémentarité locale

OpenFrontier : navigation générale guidée par des frontières vision-langage

Unifier les actions du robot dans le référentiel caméra

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Politique de flux stochastique guidé par interpolation

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Auto-cohérence guidée par la géométrie pour l'IA physique

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action