Dossier Physical Intelligence — π0 — page 8

1189 articles · page 8 sur 24

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

351arXiv cs.RO IA physiqueOpinion

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

Dossier Physical Intelligence — π0 — page 8

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision

EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action

Qwen-RobotSuite : trois modèles d'IA incarnée pour la manipulation VLA, la modélisation du monde et la navigation

APEX : exécution adaptative de politiques pour la manipulation de précision

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Mana : manipulation habile d'outils articulés

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

PRISM : échantillonnage guidé par les priors dans les modèles du monde

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

X-OP : téléopération corps entier entre morphologies différentes via MPC

Adaptation de politique sans mise à jour du modèle par flux normalisant

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

IA incarnée fiable : un programme communautaire du test à la vérification formelle

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Des démonstrations aux récompenses : optimisation de prompts au moment du test pour les modèles de récompense VLM

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub

FASTER : repenser les VLA de flux en temps réel

Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo