Dossier Physical Intelligence — π0 — page 5

1221 articles · page 5 sur 25

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

201arXiv cs.RO RecherchePaper

Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi

Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.26855) un cadre d'apprentissage baptisé Humanoid-DART, conçu pour entraîner des robots humanoïdes à des tâches combinant locomotion et manipulation d'objets (la loco-manipulation). Le système fonctionne en mode auto-supervisé : il démarre à partir d'un nombre réduit de démonstrations humaines, puis étend progressivement son répertoire comportemental sans nécessiter d'interventions expertes continues. L'architecture associe un modèle de diffusion, utilisé pour générer des trajectoires conditionnées sur un objectif, à un agent d'apprentissage par renforcement chargé de les suivre sur une gamme de tâches loco-manipulation. Les auteurs rapportent des résultats favorables lors d'ablations et de comparaisons avec des méthodes de référence, sans toutefois publier de métriques quantitatives détaillées dans ce résumé préliminaire. Ce travail s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût de collecte de démonstrations diversifiées et la dépendance aux corrections humaines en cas d'échec de la politique. La combinaison diffusion + RL permet à la politique d'explorer automatiquement l'espace des objectifs, réduisant mécaniquement le volume de données d'imitation nécessaires à l'amorçage. Pour les équipes industrielles cherchant à déployer des humanoïdes sur des tâches variées (manutention, assemblage, logistique), cette piste suggère une voie vers un scaling moins linéaire en coût humain, une hypothèse que le secteur cherche activement à valider, notamment pour réduire le sim-to-real gap sur des comportements multi-étapes. Humanoid-DART s'inscrit dans un mouvement plus large qui mise sur les modèles génératifs pour contourner la rareté des données de démonstration. Des approches concurrentes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent également sur des architectures de type VLA (Vision-Language-Action), avec des capacités loco-manipulation partiellement annoncées mais rarement démontrées à l'échelle en environnement non contrôlé. Ce papier, soumis comme preprint sans avoir encore passé la revue par les pairs, se positionne sur le segment de l'auto-amélioration à partir de peu de données, un axe de recherche actif chez plusieurs laboratoires académiques et industriels. Aucun déploiement terrain ni partenariat industriel n'est mentionné à ce stade.

Dossier Physical Intelligence — π0 — page 5

Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi

RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras

RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation

InSight : acquisition autonome de compétences via des VLA pilotables

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel

Quantification de l'incertitude pour les modèles VLA à base de flux

Atlas de Boston Dynamics montrerait des signes d'intelligence générale pour le travail en usine

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

Exécution en temps réel avec des politiques autorégressives

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste

La robotique ne connaîtra pas de moment Llama bien défini

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Derrière le marathon robotique d'Honor : 7 fournisseurs chinois au service du robot Lightning

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Comment enseigner la même compétence à différents robots

Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls

Large Video Planner permet un contrôle robotique généralisable

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $

Comment fonctionnent réellement les VLA en environnements ouverts

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes