Dossier Physical Intelligence — π0 — page 4

1221 articles · page 4 sur 25

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

151arXiv cs.RO RecherchePaper

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques

Une équipe de chercheurs a présenté LiMoDE (Lifelong Mixture of Dynamic Experts), une architecture destinée à permettre à un robot de maîtriser de nouvelles tâches de manipulation sans effacer les compétences précédemment acquises. Publiée en préprint sur arXiv (réf. 2606.26183), la méthode repose sur un schéma d'apprentissage en deux étapes. Dans un premier temps, un pré-entraînement multi-tâches construit une structure MoE (Mixture of Experts) dynamique : un nombre variable d'experts hétérogènes est activé sélectivement en fonction des informations de mouvement, chaque expert spécialisant une forme de manipulation à court terme. Dans un second temps, le mécanisme LiMoEAM (Lifelong MoE Adaptation Mechanism) ajoute de nouveaux experts "lifelong" qui se combinent dynamiquement avec les experts figés issus du pré-entraînement, transférant les connaissances acquises vers les nouvelles tâches. Le système a été évalué sur un benchmark de lifelong learning simulé ainsi que sur des tâches réelles, avec un surcoût décrit comme modéré en paramètres entraînables et en overhead d'inférence. L'intérêt de LiMoDE réside dans sa réponse au problème de l'oubli catastrophique, verrou persistant du déploiement de robots généralistes en environnement industriel réel. Là où les approches par fine-tuning efficace en paramètres (PEFT, LoRA) permettaient l'adaptation à une tâche unique mais dégradaient les performances précédentes, LiMoDE isole les compétences réutilisables dans des experts distincts et en préserve les poids lors de l'adaptation. Pour un intégrateur ou un COO industriel, cela signifie théoriquement qu'un robot pourrait acquérir de nouvelles opérations de saisie ou d'assemblage sans réentraînement complet de la flotte, réduisant les fenêtres d'indisponibilité. Le fait que la méthode n'ajoute qu'un nombre "modéré" de paramètres reste à quantifier précisément dans des configurations à grande échelle. Le problème du lifelong learning robotique est traité depuis plusieurs années dans la communauté du continual learning, notamment via des approches EWC (Elastic Weight Consolidation) ou des replay buffers. Les travaux récents sur les VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les politiques diffuses de Figure AI ont montré que des modèles pré-entraînés à large échelle s'adaptent rapidement à de nouveaux scénarios, mais peinent à maintenir les performances sur l'ensemble des tâches antérieures sans retraining. LiMoDE se positionne comme une solution architecturale intermédiaire entre le fine-tuning monolithique et le modèle généraliste à réentraînement systématique. Il s'agit à ce stade d'un article de recherche académique sans annonce de déploiement commercial ni partenariat industriel identifié.

Dossier Physical Intelligence — π0 — page 4

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques

Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique

L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique

Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Un modèle fondation VLA pragmatique

Exosquelette universel de manipulation : politiques corps entier compliantes avec retour de couple en temps réel

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

World Pilot : piloter les modèles VLA avec des a priori monde-action

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Ce que les métriques de curation des démonstrations font à votre politique

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

OGPO : un affinage complet et efficace des politiques de contrôle génératives

TAIL-Safe : surveillance de sécurité agnostique aux tâches pour les politiques d'apprentissage par imitation

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

Revue complète des modèles du monde pour l'apprentissage robotique

Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action