Dossier Physical Intelligence — π0 — page 7

1221 articles · page 7 sur 25

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

301arXiv cs.RO IA physiqueOpinion

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

Des chercheurs publient QPILOTS (arXiv:2606.14801, juin 2026), une méthode permettant d'optimiser à l'inférence les politiques de diffusion et de flow-matching sans modifier leurs poids. Le problème central : appliquer l'apprentissage par renforcement basé sur la différence temporelle (TD-RL) à ces générateurs d'actions multi-étapes provoque des instabilités numériques lors du backpropagation à travers la chaîne de débruitage. QPILOTS laisse la politique originale intacte et l'oriente à chaque étape de débruitage via le gradient d'un critique de valeur Q. L'astuce clé : plutôt que d'évaluer le critique sur l'action intermédiaire bruitée (où ses prédictions sont peu fiables), la méthode projette cet état vers une estimation de l'action finale propre, puis calcule le gradient à ce point stable. Deux variantes sont proposées : QPILOTS-U utilise une approximation rapide en point unique, QPILOTS-M tire des échantillons postérieurs différentiables via un réseau auxiliaire appris. Sur un benchmark standard offline-to-online RL couvrant 50 tâches, QPILOTS atteint 90 % de taux de succès moyen, meilleure performance agrégée du comparatif. Appliquée à un modèle fondation Vision-Language-Action (VLA) pré-entraîné et gelé, la méthode surpasse ou égale les approches concurrentes sur six tâches de manipulation en simulation. L'enjeu est concret pour quiconque développe des politiques de manipulation basées sur la diffusion. Les solutions actuelles face au problème de gradient imposent chacune un compromis lourd : abandonner l'information de gradient, distiller la politique en un acteur one-step moins expressif, ou relancer un cycle de fine-tuning à chaque amélioration du critique. QPILOTS propose une quatrième voie compatible avec les modèles fondation gelés, ce qui le rend particulièrement pertinent dans un secteur où Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) sont déployés comme bases pré-entraînées. Pouvoir piloter ces modèles via RL sans re-entraînement réduit drastiquement le coût d'adaptation à de nouvelles tâches, et apporte un argument concret au débat sur le "sim-to-real gap" des VLAs : le steering à l'inférence pourrait suffire là où le fine-tuning est prohibitif. QPILOTS s'inscrit dans la lignée des travaux sur les Diffusion Policies (Chi et al., 2023, Columbia) et des méthodes comme DDPO qui cherchent à coupler RL et processus de débruitage. Le terrain concurrent inclut les approches de distillation (simplifiantes) et les méthodes de reward-guided sampling déjà appliquées aux VLAs. À noter : cet article reste un preprint en simulation uniquement, sans validation sur hardware réel ni annonce de déploiement industriel. La robustesse des résultats à 90 % sur 50 tâches est encourageante, mais l'évaluation se limite à des environnements simulés, et les performances en conditions réelles, notamment la latence induite par l'étape de projection à chaque débruitage, restent à démontrer.

Dossier Physical Intelligence — π0 — page 7

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

Pilotage de politique d'inférence par vision et toucher

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

EVE : un système générateur-vérificateur pour les politiques génératives

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

La variance du débruitage guide la replanification : découpage adaptatif pour politiques robotiques à base de flux

Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

URDF-Anything+ : génération bout-en-bout d'actifs articulés prêts pour la simulation

SceneSmith : génération à base d'agents de scènes intérieures prêtes pour la simulation

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Ce que les VLA gelés savent déjà du succès : sondage des structures de type valeur dans les politiques fondation pour robots

FineVLA : alignement fin des instructions pour des politiques VLA pilotables

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés