Dossier Physical Intelligence — π0 — page 10

1320 articles · page 10 sur 27

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

451Interesting Engineering IA physiqueOpinion

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Flexion Robotics a dévoilé Reflect v1.0, une plateforme d'intelligence robotique destinée aux humanoïdes, capable d'exécuter des missions longues et multi-étapes sans intervention humaine pendant l'exécution. Pour illustrer les capacités du système, la société a présenté une démonstration en environnement de bureau : un robot humanoïde reçoit une instruction en langage naturel, récupère un colis de snacks livré au bâtiment, emprunte escaliers et ascenseur, déballe le carton à l'aide d'outils, puis range les articles dans un tiroir désigné. Selon Flexion, l'intégration du reinforcement learning sur plusieurs couches du système a fait passer le taux de complétion end-to-end d'une mission interne à 16 étapes de 38 % à 90 %, contre un modèle supervisé seul. La plateforme gère des charges comprises entre 100 grammes et 3,5 kilogrammes, et le robot est capable de repositionner un colis via des mouvements coordonnés du corps entier, d'opérer un ascenseur, de traverser des escaliers répétés et de contourner des obstacles dynamiques tout en portant des objets. Ce résultat est significatif parce qu'il s'attaque directement au problème de l'autonomie longue durée, considéré comme l'un des verrous majeurs de la robotique humanoïde commerciale. Dans une séquence de tâches, l'accumulation d'erreurs de navigation, de manipulation ou de perception finit statistiquement par faire échouer le système : c'est le "long-horizon failure mode" que les industriels connaissent bien. Reflect v1.0 le traite via un modèle vision-langage (VLM) personnalisé qui fait office de contrôleur de mission, surveille en continu l'avancement, raisonne sur l'environnement et re-planifie à la demande. La couche de mouvement combine des vision-language-action models (VLA) entraînés sur données réelles et des primitives issues du reinforcement learning, tandis qu'un contrôleur corps-entier temps réel assure équilibre et précision des gestes. Pour un COO industriel ou un intégrateur, le signal concret est le suivant : on passe de 38 % à 90 % de succès sur une mission à 16 étapes grâce au RL seul, ce qui suggère que le sim-to-real gap et la fiabilité multi-tâche sont partiellement solubles sans refonte matérielle. Flexion Robotics est une startup relativement récente dans l'écosystème humanoïde, qui se positionne comme fournisseur de couche logicielle agnostique au hardware, à l'image de ce que Apptronik ou 1X cherchent à faire sur leurs propres plateformes. L'article mentionne également ShengShu Technology et son modèle Motubrain, un "cerveau général" combinant perception, raisonnement et action, qui vise le même marché. La concurrence directe inclut Figure (Helix), Physical Intelligence (pi0), Boston Dynamics (Atlas Gen 2) et Tesla (Optimus Gen 3), tous engagés dans une course à l'autonomie longue horizon. Flexion reconnaît que Reflect v1.0 reste limité à des environnements définis, ce qui tempère le chiffre de 90 % : il s'agit d'une évaluation interne sur mission contrôlée, pas d'un déploiement industriel validé en conditions réelles. Les prochaines étapes annoncées concernent l'extension à des environnements moins structurés et la capacité à recevoir des instructions modifiées en cours de mission, deux marqueurs qui, s'ils sont confirmés en production, rapprocheraient Reflect d'une utilisabilité opérationnelle sérieuse.

Dossier Physical Intelligence — π0 — page 10

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement

GROW² : ancrage du choix d'outil et de sa position pour la manipulation robotique

Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents

CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique

Zhipingfang valorisé à 2,8 milliards : première licorne d'IA incarnée de la Greater Bay Area

StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique

PA-BiCoop : un cadre coopératif principal-auxiliaire pour la manipulation bimanuelle généraliste

DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés

Li Hongyang (HKU) lance une startup d'IA incarnée corps entier et lève des centaines de millions en seed

PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables

Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)

RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

AI² Robotics défend les modèles VLA et lance NeuroVLA

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique