Aller au contenu principal

IA physique

50 sur 365 articles

Modèles vision-langage-action (VLA) et IA physique : NVIDIA GR00T, Figure Helix, Physical Intelligence π0, Gemini Robotics, OpenVLA, world models Cosmos/Genie.

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA
1arXiv cs.RO IA physiqueOpinion

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Une équipe de chercheurs propose RL-Co (RL-based sim-real Co-training), un framework d'entraînement combinant simulation et données réelles via l'apprentissage par renforcement pour les modèles VLA (Vision-Language-Action). Publié sur arXiv (ref. 2602.12628, version 4), le travail s'articule en deux étapes : une phase de préchauffage par fine-tuning supervisé (SFT) sur un mélange de démonstrations réelles et simulées, suivie d'un fine-tuning par RL en simulation avec une perte supervisée auxiliaire sur données réelles pour ancrer la politique et prévenir l'oubli catastrophique. Évalué sur quatre tâches de manipulation sur table en conditions réelles, RL-Co affiche une progression de +24% du taux de succès sur l'architecture OpenVLA et de +20% sur π0.5, développé par Physical Intelligence, par rapport à un entraînement supervisé classique sur données réelles uniquement. L'intérêt de cette approche dépasse les chiffres de performance bruts. La quasi-totalité des méthodes actuelles de co-entraînement sim-réel traite la simulation comme une source statique de démonstrations, sans exploiter les interactions en boucle fermée que ces environnements rendent possibles à grande échelle. RL-Co brise cette limite en tirant parti de l'exploration dynamique en simulation, ce qui se traduit par une meilleure généralisation aux variations de tâches non vues à l'entraînement et une efficacité accrue sur les données réelles, réduisant concrètement le besoin en démonstrations coûteuses sur robot physique. Pour les intégrateurs et les équipes R&D, c'est une voie d'entraînement plus économique sans compromis sur les performances terrain. Le défi du transfert simulation-réel reste l'un des obstacles structurants au déploiement de robots généralistes. Les modèles VLA ont connu une accélération notable depuis 2024, portée par OpenVLA (Stanford/UC Berkeley, open-source), la série π0/π0.5 de Physical Intelligence, fondée par d'anciens chercheurs de Google DeepMind et Stanford, et les travaux de Google DeepMind autour de RT-2 et ses successeurs. RL-Co s'inscrit dans une tendance de fond visant à remplacer la supervision pure par des boucles d'interaction actives dans des simulateurs de plus en plus fidèles. La prochaine étape naturelle sera l'extension à des tâches plus complexes et à des environnements moins structurés que la table de laboratoire, condition nécessaire pour valider l'approche à l'échelle industrielle.

1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion
1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
3arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

IA physiquePaper
1 source
EVE : un système générateur-vérificateur pour les politiques génératives
4arXiv cs.RO 

EVE : un système générateur-vérificateur pour les politiques génératives

Des chercheurs ont publié en décembre 2024 sur arXiv (2512.21430) EVE, un framework modulaire de type générateur-vérificateur visant à améliorer les politiques visuomotrices génératives en robotique, au moment de l'inférence et sans aucun réentraînement. Le système enveloppe une politique de base figée, reposant sur la diffusion ou le flow-matching, avec plusieurs agents vérificateurs VLM (Vision-Language Model) opérant en mode zéro-shot. Chaque vérificateur propose des raffinements d'actions candidates générées par la politique de base ; un module d'incorporation fusionne ensuite les retours agrégés via un guidage par classifieur intégré dans le processus de débruitage de l'action. Les évaluations couvrent des tâches de manipulation simulées et réelles sur différents embodiments robotiques, avec des gains de taux de succès mesurés dans chaque configuration testée, sans modifier ni la politique ni les vérificateurs. L'intérêt principal réside dans le transfert d'une technique émergente des LLMs, le scaling du compute au test-time, vers la commande robotique incarnée. Des systèmes comme OpenAI o1 ou DeepSeek-R1 ont montré qu'allouer davantage de calcul à l'inférence améliore significativement les performances, sans toucher aux poids du modèle. EVE applique cette logique aux politiques génératives : là où une politique de diffusion dégrade sous distribution shift (scènes inédites, objets non vus à l'entraînement, perturbations), les vérificateurs VLM guident la correction sans fine-tuning coûteux. Pour les intégrateurs et décideurs B2B, le signal est concret : améliorer les performances d'un modèle déployé pourrait devenir une question de ressources de calcul à l'inférence, non de nouveaux cycles d'entraînement sur des données supplémentaires. Les politiques visuomotrices par diffusion ont émergé à partir de 2023 avec Diffusion Policy (Columbia University) et ACT, suivies d'architectures flow-matching comme pi0 de Physical Intelligence. Ces modèles performent correctement sur leur distribution d'entraînement mais peinent hors distribution, un frein central au déploiement industriel. EVE s'inscrit dans une tendance plus large qui consiste à coupler des VLMs généralistes avec des politiques spécialisées sans réentraînement. Les approches concurrentes incluent le Best-of-N sampling appliqué à la robotique et les méthodes de récompense dense au test-time (SuSIE, GROOT). La suite logique serait de valider EVE sur des plateformes physiques à plus grande échelle et de quantifier le trade-off latence/qualité en fonction du nombre de vérificateurs actifs simultanément.

IA physiqueOpinion
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
5arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
TempoVLA : apprentissage de politiques VLA à vitesse contrôlable
6arXiv cs.RO 

TempoVLA : apprentissage de politiques VLA à vitesse contrôlable

Les modèles Vision-Language-Action (VLA), architectures qui combinent perception visuelle, compréhension du langage et génération de commandes motrices, souffrent d'une limitation structurelle : leur vitesse d'exécution est figée à celle des démonstrations d'entraînement. Des chercheurs proposent TempoVLA (arXiv:2606.06491, juin 2026), un VLA dont la cadence est pilotable via une condition explicite. Le système repose sur deux composants couplés : Variable-Speed Trajectory Augmentation (VSTA), un module qui ré-temporise les trajectoires en fusionnant ou divisant les actions pour atteindre n'importe quelle vitesse cible tout en préservant la sémantique du mouvement, et un mécanisme de conditionnement qui injecte la vitesse désirée dans la politique. Des expériences en simulation et sur robot réel montrent que VSTA atteint la vitesse requise avec une erreur de mouvement négligeable, et que l'augmentation améliore aussi les performances à vitesse nominale (facteur 1x) via une meilleure exploitation des données d'entraînement. La manipulation robotique alterne naturellement entre phases de transit à faible risque, où la cadence prime, et phases de contact à risque élevé (saisie fine, insertion, assemblage) qui exigent lenteur et précision. Les VLA actuels héritent d'une vitesse unique issue des démonstrations, et les tentatives d'adaptation par compression de modèle, réutilisation du cache KV ou fine-tuning par renforcement ne font que déplacer ce point fixe, sans jamais explorer la décélération dynamique. L'insight central de TempoVLA est que la magnitude des actions prédites gouverne déjà la vitesse d'exécution du robot, ouvrant une voie vers un contrôle adaptatif sans modifier l'architecture de base. En couplant TempoVLA à un grand modèle multimodal (LMM) pour évaluer le niveau de risque en temps réel, les auteurs obtiennent un contrôle dynamique effectif : accélération en transit, décélération au contact. Pour les intégrateurs industriels, c'est un levier direct sur le compromis cadence/fiabilité sans réentraîner entièrement le modèle. Les VLA se sont imposés en 2024-2025 comme architecture dominante pour la commande robotique généraliste, portés notamment par pi0 de Physical Intelligence, OpenVLA et les travaux de Google DeepMind, mais leur déploiement industriel bute précisément sur la tension entre cadence de production et sécurité des phases de contact. TempoVLA reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni partenaire mentionné, ce qui impose la prudence : les résultats en simulation et sur tâches réelles contrôlées ne garantissent pas un franchissement du reality gap en cellule de production. Les prochaines étapes naturelles incluent une intégration avec des capteurs de force-couple pour rendre l'estimation du risque moins dépendante d'un LMM externe, coûteux en latence d'inférence.

IA physiqueOpinion
1 source
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
7arXiv cs.RO 

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme. L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire. Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

IA physiqueOpinion
1 source
FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences
8arXiv cs.RO 

FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences

Une équipe de chercheurs publie FlowPRO sur arXiv (2606.05468, 5 juin 2026), un cadre d'affinage par renforcement sans récompense explicite ciblant les modèles VLA (Vision-Language-Action) à architecture flow-matching. La contribution centrale est RPRO (Robotic Flow-matching Proximalized Preference Optimization), un objectif d'optimisation par préférence conçu spécifiquement pour la tête d'action flow-matching des VLAs. RPRO couple un optimiseur contrastif à un régulariseur proximal explicite qui ancre l'amplitude absolue de la récompense implicite, éliminant ainsi le reward hacking documenté avec Flow-DPO, l'approche antérieure la plus proche. Côté données, les auteurs proposent un paradigme de téléopération avec intervention et rollback : un opérateur unique corrige les trajectoires du robot en temps réel, produisant naturellement des paires de trajectoires positives (τ^w) et négatives (τ^l) à partir d'une seule action. Une procédure d'interpolation lisse convertit ces corrections sporadiques en supervision dense par état. Sur quatre tâches bimanuelles à horizon long, FlowPRO obtient les taux de succès les plus élevés face à quatre baselines représentatives, dont SFT et DAgger. Le principal goulet d'étranglement du déploiement robotique ne réside plus dans le pré-entraînement généraliste mais dans le post-training pour des tâches spécifiques. SFT et DAgger n'exploitent les signaux d'échec qu'indirectement ; le RL avec récompenses explicites exige de concevoir une fonction de récompense fiable en environnement physique, ce qui reste notoire pour sa difficulté. FlowPRO contourne les deux obstacles : sans reward design, offline (pas de rollouts supplémentaires en boucle fermée), et nativement compatible avec les architectures flow-matching qui dominent la nouvelle génération de VLAs généralistes. La nuance est importante : quatre tâches bimanuelles constituent un banc d'essai restreint pour prétendre à la généralité. Si les résultats tiennent sur un spectre plus large de manipulations, RPRO pourrait devenir un outil standard pour spécialiser un VLA généraliste sur une cellule industrielle sans expertise en apprentissage par renforcement. L'architecture flow-matching pour les VLAs a été popularisée par Pi-0 de Physical Intelligence fin 2024, avant d'être reprise dans GR00T N2 de NVIDIA et plusieurs dérivés open-source (OpenVLA, Octo). L'optimisation par préférence appliquée aux actions robotiques est une piste active depuis 2025 pour éviter la lourdeur du RL classique, mais le reward hacking de Flow-DPO restait un obstacle documenté que FlowPRO prétend résoudre via la régularisation proximale. Il s'agit à ce stade d'une contribution académique preprint, non peer-reviewed, sans annonce de déploiement ni de partenariat industriel. Les prochaines étapes naturelles du domaine incluent la validation sur des plateformes bimanuelles standardisées (Aloha, Fourier GR-1) et l'intégration dans des pipelines d'affinage ouverts, avec en toile de fond la course entre Physical Intelligence, NVIDIA et les laboratoires académiques pour établir la méthode de référence du post-training robotique.

IA physiqueOpinion
1 source
MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence
9arXiv cs.RO 

MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence

MPCoT (Multi-Path Chain-of-Thought), un preprint arXiv publié le 5 juin 2026 (identifiant 2606.06245), propose un cadre de raisonnement latent multi-trajectoires guidé par récompense pour les politiques Vision-Language-Action (VLA). Le système initialise M hypothèses parallèles, les raffine sur K étapes à poids partagés, puis les agrège par pondération de confiance avant le décodage final de l'action. Un objectif d'entraînement spécifique, la "path-preference objective", évalue chaque branche candidate selon trois critères : cohérence avec des actions expertes, progression estimée par un modèle de monde ou un VLM, et feedback de succès d'exécution. Le système préserve l'interface d'action originale en 8 étapes et ne génère aucun token de raisonnement, éliminant la latence associée aux chaînes de réflexion textuelles classiques. Sur les benchmarks LIBERO et CALVIN, MPCoT améliore les performances sur les tâches à horizon long, avec des ablations confirmant les effets distincts de la profondeur K et de la largeur M. Le résultat central est que le "test-time scaling", qui a produit des gains majeurs dans les LLM via des modèles comme o1 d'OpenAI ou DeepSeek-R1, peut être transposé aux politiques robotiques sans surcoût de latence mesurable. Les approches chain-of-thought textuelles créent une interface indirecte entre raisonnement et commande motrice, problématique pour le contrôle en temps réel. MPCoT opère entièrement dans l'espace latent, rendant la délibération supplémentaire invisible pour l'interface d'exécution. Pour un intégrateur ou un décideur industriel, cela ouvre la possibilité d'améliorer les capacités d'un VLA existant en ajustant simplement K et M à l'inférence, sans réentraînement du modèle. Les politiques VLA constituent actuellement le terrain de concurrence central entre Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, Figure avec Helix, et Stanford avec OpenVLA. Tous font face au même défi : la fragilité sur les tâches longues et les situations à forte incertitude, qui représente le principal écart entre démonstration et déploiement réel. MPCoT attaque directement ce "long-horizon gap" via une approche algorithmique, sans modifier l'architecture sous-jacente du modèle. La publication n'est pas adossée à un acteur industriel identifié et n'annonce aucun déploiement concret ; la validation sur hardware réel reste à faire, les benchmarks LIBERO et CALVIN utilisés dans cette étude étant entièrement simulés.

IA physiqueOpinion
1 source
Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
10arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
11arXiv cs.RO 

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

IA physiqueOpinion
1 source
L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte
12Pandaily 

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Des chercheurs de l'université du Zhejiang, en collaboration avec Cornell University, la National University of Singapore et Xidian University, ont publié sur arXiv (2605.30011) un système de raisonnement visuel pour robots baptisé VisualThink-VLA. L'approche remplace le raisonnement en chaîne de pensée textuelle, où le robot génère un monologue interne en tokens de langage avant chaque action, par des tokens visuels directs. Résultat mesuré : le temps de traitement par étape passe de 8,377 secondes (approche texte ECoT) à 0,367 secondes, soit un gain de 22,8x. Sur huit benchmarks standardisés, VisualThink-VLA atteint un taux de succès moyen de 92,63 %, contre 85,09 % pour ECoT. Les expériences physiques ont été conduites sur un bras robotique PIPER NERO à 7 degrés de liberté, sur des tâches de préhension multi-objets, de placement sensible aux relations spatiales, de réorientation sous contrainte de contact, et de séquences composées à deux étapes. Le jeu d'entraînement "VisualEvidence-Set" couvre 754 700 instructions de manipulation. L'intérêt industriel de ce résultat tient à la rareté de la combinaison : gain de vitesse ET gain de précision simultanés, alors que les systèmes d'IA échangent habituellement l'un contre l'autre. Pour les intégrateurs et les équipes de déploiement robotique, un temps de cycle sous 400 ms par étape ouvre la voie à des manipulations en environnement dynamique sans supervision humaine rapprochée. L'architecture à quatre canaux visuels, Bounding Box, Edge, Motion, Relation, utilise un mécanisme de routage adaptatif qui sélectionne en moyenne seulement 2,22 canaux par étape, évitant le surcoût computationnel d'une fusion systématique. Le caractère plug-and-play revendiqué par les auteurs est un argument commercial non négligeable : les systèmes VLA existants pourraient être mis à niveau sans refonte de l'architecture sous-jacente, ce qui réduit le coût d'adoption. Cette affirmation reste à vérifier sur des robots de production tiers, les expériences publiées se limitant au PIPER NERO. Le contexte de ce travail s'inscrit dans une compétition intense autour des VLA (Vision-Language-Action models), dominée jusqu'ici par des approches comme OpenVLA, pi0 (Physical Intelligence) ou RoboVLMs, qui traitent toutes la vision et le langage comme co-entrées mais conservent un raisonnement textuel latent. L'université du Zhejiang est l'un des laboratoires les plus productifs en robotique incarnée en Chine, avec plusieurs publications majeures ces deux dernières années sur le sim-to-real et la manipulation dextère. Sur le fond, VisualThink-VLA teste l'hypothèse que le langage est un détour inutile pour la perception motrice, hypothèse que partagent des équipes comme Wayve ou Enchanted Tools côté européen dans leurs architectures world-model. Les prochaines étapes non précisées dans le papier concernent l'extension à des manipulateurs bimanaux et à des environnements non structurés hors laboratoire, deux conditions nécessaires avant tout pilote industriel crédible.

UELes équipes VLA européennes, notamment Enchanted Tools (France) dont l'architecture world-model partage des hypothèses similaires, pourraient s'inspirer de cette approche pour réduire les latences de manipulation sans sacrifier la précision.

IA physiqueOpinion
1 source
Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes
13The Robot Report 

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise. Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle. Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

UELa montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

IA physiqueOpinion
1 source
Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix
14The Verge 

Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix

Amazon a présenté une nouvelle version de Proteus, son robot de manutention autonome déployé dans ses entrepôts, capable désormais de recevoir des instructions en langage naturel. Là où les opérateurs devaient auparavant passer par un logiciel spécialisé pour programmer les déplacements de l'engin, ils peuvent désormais lui communiquer des tâches verbalement, comme à un collègue. Le robot, au format bas et trapézoïdal conçu pour déplacer de lourds chariots à travers les allées logistiques, conserve le même châssis que le modèle original annoncé en 2022, la nouveauté est exclusivement logicielle, portée par une surcouche IA. L'enjeu est significatif pour les opérations à grande échelle : éliminer la friction de programmation réduit le temps de formation des opérateurs et permet une réaffectation dynamique des robots sans intervention IT. C'est aussi un signal clair sur la direction qu'Amazon prend dans la course à l'automatisation de ses 1 000+ centres de distribution aux États-Unis, où la pression syndicale et les coûts de main-d'oeuvre accélèrent les déploiements robotiques. Cela dit, l'annonce reste pour l'instant au stade de démonstration capacitaire : Amazon ne communique pas de chiffres de déploiement, de taux d'erreur ni de benchmarks de cycle time dans des conditions réelles. Proteus fait partie d'un portefeuille robotique Amazon qui inclut Sequoia (tri de petits colis), Sparrow (picking d'articles) et Cardinal (manutention de caisses). Sur le volet langage naturel appliqué aux robots industriels, Amazon rejoint une tendance portée par Boston Dynamics (Spot) et Intrinsic (filiale Alphabet), qui intègrent des interfaces LLM pour réduire la barrière à la programmation en atelier. Les prochaines étapes annoncées par Amazon restent vagues, sans timeline précise ni volume de déploiement confirmé.

UEAmazon opère des entrepôts en France et en Europe ; l'adoption à grande échelle d'interfaces LLM sur robots industriels pourrait accélérer la pression à l'automatisation dans la logistique EU et influencer les standards d'intégration des opérateurs locaux.

IA physiqueOpinion
1 source
IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture
15Robotics & Automation News 

IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture

CreateMe, startup spécialisée dans l'automatisation du prêt-à-porter et dirigée par Campbell Myers, développe des systèmes de fabrication textile basés sur l'IA physique, des modèles capables de percevoir et de manipuler des matériaux souples en temps réel. L'approche centrale de l'entreprise repose sur le bonding (collage structurel) plutôt que sur la couture traditionnelle, une décision technique qui vise à simplifier radicalement la chaîne d'assemblage. L'industrie de l'habillement emploie plusieurs dizaines de millions de travailleurs à l'échelle mondiale, concentrés principalement en Asie du Sud-Est, et reste l'un des secteurs les moins automatisés de la fabrication industrielle. La manipulation de tissus constitue l'un des derniers grands verrous non résolus de la robotique. Contrairement aux pièces rigides traitées en automobile ou en électronique, les textiles se déforment, se plissent et changent de géométrie entre chaque opération, rendant inutilisables les approches classiques à trajectoire fixe. Passer du stitching au bonding n'est pas qu'un choix de process : c'est une façon de réduire le nombre d'états intermédiaires que le robot doit gérer, ce qui rend le problème de manipulation conditionnellement plus tractable pour les VLA (Vision-Language-Action models) actuels. SoftWear Automation avait tenté une première vague d'automatisation textile avec ses robots Sewbot dès les années 2010, sans atteindre la scalabilité industrielle. Sewts (Munich) travaille sur des segments adjacents liés au tri et au dépliage. CreateMe se positionne en aval, sur l'assemblage final, là où la valeur ajoutée est la plus dense. Le sim-to-real gap sur les déformables reste le principal obstacle technique non résolu ; les prochaines annonces de l'entreprise seront à lire en distinguant soigneusement démos contrôlées et déploiements en conditions réelles.

UESewts (Munich) est mentionné comme acteur européen sur des segments adjacents (tri et dépliage textile), mais CreateMe n'a annoncé aucun déploiement ni partenariat en Europe.

IA physiqueOpinion
1 source
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
16arXiv cs.RO 

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises. Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA. Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

UEDes groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

IA physiqueOpinion
1 source
VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA
17arXiv cs.RO 

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Une équipe de chercheurs publie VISTA (Vision-grounded and Physics-Validated Adaptation), un framework visant à entraîner des modèles Vision-Language-Action (VLA) à partir de données collectées via l'Universal Manipulation Interface (UMI). L'UMI permet une collecte robotique à grande échelle sans téléopération hardware-spécifique, mais son exploitation pour les VLA bute sur deux incompatibilités identifiées par les auteurs : les caméras fisheye montées au poignet génèrent une distorsion radiale sévère, hors distribution pour les modèles de vision pré-entraînés ; et les trajectoires humaines enregistrées violent fréquemment les limites cinématiques du robot ou dépassent la bande passante du contrôleur, enseignant ainsi des actions physiquement irréalisables. VISTA répond avec trois composants : UMI-VQA, un premier dataset VQA à grande échelle conçu spécifiquement pour les vues fisheye au poignet ; un pipeline de validation physique scorant chaque trajectoire sur la continuité, le risque d'auto-collision et la fidélité d'exécution ; et une recette d'entraînement en deux étapes combinant ancrage vision-langage et prédiction d'actions. Le modèle, les données et le pipeline sont publiés en open source sous forme de preprint arXiv. L'enjeu est directement opérationnel : les VLA actuels souffrent d'un écart persistant entre démonstration et déploiement réel. VISTA apporte une réponse méthodologique en filtrant les trajectoires défectueuses avant l'entraînement, plutôt qu'en espérant que le modèle les absorbe. Les auteurs montrent que les scores de validation physique sont fortement prédictifs du succès en déploiement, ce qui plaide pour une approche data-quality-first plutôt que data-volume-first, un argument qui contredit la logique dominante du secteur. En simulation et sur des tâches réelles de manipulation, VISTA surpasse des baselines solides incluant π0.5 (Physical Intelligence), LingBot-VLA et Wall-X. Pour un intégrateur ou un décideur industriel, cela valide une voie vers des pipelines de collecte scalables via UMI, compatibles avec les VLA modernes, sans recourir à un hardware propriétaire coûteux. L'UMI avait été conçu initialement pour découpler la collecte de données du hardware robotique spécifique, mais son intégration aux VLA restait largement non documentée à grande échelle. Physical Intelligence a popularisé l'approche VLA avec π0 et π0.5 ; Figure AI, 1X et Apptronik misent sur des architectures concurrentes. VISTA s'attaque à un goulot d'étranglement rarement traité en publication : la qualité intrinsèque des données d'entraînement avant qu'elles n'entrent dans le pipeline. En libérant pipeline de validation, dataset UMI-VQA et modèle pré-entraîné, les auteurs positionnent VISTA comme un outil d'infrastructure pour la communauté robotique cherchant à industrialiser la collecte et le filtrage de données manipulation, en amont des choix d'architecture VLA.

IA physiqueOpinion
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
18arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

IA physiqueOpinion
1 source
3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D
19arXiv cs.RO 

3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2506.04436) un framework dénommé 3DThinkVLA, conçu pour doter les modèles vision-language-action (VLA) d'un raisonnement spatial 3D implicite lors de la prédiction d'actions robotiques, sans recours à des capteurs de profondeur ni à la génération de texte à l'inférence. Le système articule trois composants opérant dans l'espace latent : un module de perception géométrique 3D qui aligne les features visuelles intermédiaires avec un modèle fondationnel 3D, un module de distillation de raisonnement en ligne utilisant un "reasoning anchor token" partagé, et un mécanisme d'intégration d'actions spatialement augmenté. À l'entraînement, le modèle apprend à raisonner spatialement depuis des prompts enseignants explicites ; au déploiement, seuls des adaptateurs légers sont conservés, le modèle fondationnel 3D et la branche enseignante étant élagués. Les auteurs déclarent des performances état-de-l'art sur les benchmarks LIBERO, LIBERO-PLUS et SimplerEnv, ainsi que sur des tâches de manipulation réelles. L'apport principal est de découpler la perception géométrique 3D du raisonnement spatial de haut niveau pour les injecter à différents niveaux hiérarchiques, sans modifier l'architecture du backbone VLM. Ce découplage répond à un problème central des VLA actuels : leur tendance aux raccourcis d'action (action shortcuts) face aux relations spatiales complexes, ce qui dégrade les performances hors simulation. Le mécanisme d'anchor token transfère le raisonnement spatial implicitement, sans chain-of-thought au déploiement, réduisant la latence d'inférence. Pour les intégrateurs robotiques, cela ouvre la voie à des VLA plus robustes en manipulation de précision sans surcoût matériel. La méthode prévient également le catastrophic forgetting du VLM pré-entraîné, point critique lors du fine-tuning sur données robotiques spécialisées. Les VLA ont connu une accélération depuis Pi-0 de Physical Intelligence fin 2024 et GR00T N2 de NVIDIA en 2025, mais la gestion du raisonnement 3D à partir d'images 2D reste un obstacle au déploiement industriel fiable, notamment pour l'assemblage et la manipulation fine. 3DThinkVLA s'inscrit dans une lignée de travaux concurrents, dont SpatialVLA et RoboVLMs, cherchant à injecter des priors géométriques sans alourdir l'inférence. Il convient de noter qu'il s'agit d'un preprint arXiv non encore évalué par les pairs, et que les benchmarks LIBERO et SimplerEnv sont des environnements de simulation standardisés dont les résultats ne garantissent pas les performances en conditions industrielles réelles. Aucun déploiement terrain ni partenariat commercial n'est annoncé à ce stade.

IA physiqueActu
1 source
PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM
20arXiv cs.RO 

PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2606.04226) les travaux sur PerceptTwin, un pipeline automatisé qui génère des environnements de simulation interactifs directement depuis les représentations sémantiques produites par la pile de perception d'un robot. Le système combine quatre composants : des cartes d'objets à vocabulaire ouvert (open-vocabulary object maps), la génération d'assets 3D, la prédiction d'affordances et une vérification des préconditions par bon sens. Un juge LLM, concept emprunté à la littérature sur l'alignement de l'IA, évalue ensuite la conformité des plans générés avec les préférences humaines avant toute exécution physique. Dans les expériences conduites avec GPT-5, GPT-5 Mini et GPT-5 Nano comme planificateurs, PerceptTwin améliore le taux de succès des plans d'environ 39 % en moyenne, et améliore la vérification humaine jusqu'à 18 % pour les plans échouant à cause de préconditions non satisfaites. La chaîne LLM-planification-exécution est aujourd'hui l'architecture dominante en robotique cognitive, mais son point faible reste la vérification : un modèle de langage peut produire des plans syntaxiquement valides mais physiquement impossibles ou dangereux. PerceptTwin introduit une boucle de rétroaction pré-exécution où le robot construit son propre jumeau numérique à la volée, y simule le plan, puis itère. Cette approche inverse la logique du sim-to-real classique : la simulation émerge ici du monde réel via la perception, non l'inverse. Le système démontre aussi une résistance documentée aux attaques par "black-box prompting" visant à injecter des instructions nuisibles dans le planificateur, une propriété de sécurité rarement quantifiée dans des travaux similaires. Pour un intégrateur industriel, cela représente une couche de validation automatisée applicable à des environnements non structurés sans reconfiguration manuelle de la simulation. La construction de simulations contextualisées était jusqu'ici un processus manuel et coûteux, rendant la validation à grande échelle impraticable. PerceptTwin s'inscrit dans un courant de recherche incluant les approches NeRF sémantiques et les jumeaux numériques procéduraux, avec la particularité d'être entièrement piloté par la stack perceptive du robot. En termes de positionnement, les travaux récents sur les Visual Language Action models comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA abordent la fiabilité par l'apprentissage massivement supervisé, là où PerceptTwin mise sur la vérification symbolique en boucle fermée. Les expériences restent confinées à une suite de tâches de manipulation en laboratoire, sans déploiement terrain annoncé. Les auteurs ne précisent pas le temps de génération du jumeau numérique ni les exigences matérielles, deux paramètres déterminants pour envisager une intégration hors conditions contrôlées.

IA physiqueOpinion
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
21arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

IA physiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
22arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

IA physiqueOpinion
1 source
Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle
23NVIDIA AI Blog 

Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle

NVIDIA Research présente cette semaine au CVPR 2026 trois nouveaux papiers de recherche qui partagent une ambition commune : entraîner des systèmes à grande échelle pour qu'ils généralisent au-delà de leurs cas d'usage initiaux. Le premier, GraspGen-X, est décrit comme le premier modèle fondamental pour la saisie robotique zéro-shot : entraîné sur deux milliards de saisies simulées couvrant des milliers de formes d'objets et de configurations de pinces, il est capable de générer des propositions de prise fiables pour n'importe quelle pince robotique, y compris des modèles qu'il n'a jamais rencontrés. Le deuxième papier, LCDrive, introduit une approche pour la conduite autonome qui remplace le raisonnement textuel par des représentations latentes compactes, permettant aux véhicules de raisonner plus vite sur le matériel embarqué réel. Enfin, NitroGen est un modèle fondamental d'IA de gameplay, construit sur l'architecture NVIDIA Isaac GR00T, qui aide à entraîner des agents incarnés dans des environnements virtuels sur des dizaines de milliers d'heures d'interaction. Ces trois travaux répondent à des verrous concrets qui freinent le déploiement de l'IA physique aujourd'hui. Pour la robotique, le problème était simple mais paralysant : chaque nouveau type de pince nécessitait un cycle complet de collecte de données, fine-tuning et validation. GraspGen-X élimine ce goulot d'étranglement en fonctionnant comme un grand modèle de langage appliqué à la géométrie, utilisable directement avec les pinces courantes sans réentraînement. En parallèle, LCDrive adresse une contrainte matérielle réelle des véhicules autonomes : le raisonnement par chaîne de pensée basé sur du texte génère des tokens qui coûtent du temps de calcul, un luxe que les processeurs embarqués dans les voitures ne peuvent pas se permettre en situation réelle. En remplaçant les mots par des représentations latentes, le système peut raisonner plus vite sur le même hardware. Ces annonces s'inscrivent dans une dynamique plus large chez NVIDIA, qui positionne l'IA physique comme le prochain grand chantier après les LLM. La conférence CVPR, l'une des plus importantes en vision par ordinateur, est un terrain de choix pour valider ces approches auprès de la communauté académique avant leur adoption industrielle. GraspGen-X s'intègre d'ailleurs avec curoboV2, une nouvelle bibliothèque de planification de mouvement accélérée par CUDA, et s'appuie sur des travaux antérieurs comme Grasp-MPC présenté à l'ICRA 2026. Pour les développeurs de robots et de véhicules autonomes, l'enjeu est de taille : réduire les cycles de développement grâce à des modèles fondamentaux capables de s'adapter à de nouveaux contextes sans repartir de zéro, une approche qui commence à prouver sa valeur dans le monde du langage et que NVIDIA ambitionne désormais d'imposer dans le monde physique.

UELes avancées en préhension robotique zéro-shot et en inférence embarquée pour véhicules autonomes pourraient bénéficier aux industriels européens de la robotique et de l'automobile cherchant à réduire les cycles de développement.

IA physiquePaper
1 source
NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
24NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

IA physiqueOpinion
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
25arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

IA physiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
26arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
27arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût
28arXiv cs.RO 

EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût

EaDex, un framework de manipulation dextère multi-corps présenté dans un preprint arXiv (2606.03268, juin 2026), propose d'entraîner des mains robotiques articulées à partir de démonstrations humaines capturées avec une simple caméra RGB-D grand public. Le pipeline repose sur le modèle paramétrique MANO pour reconstruire la géométrie 3D de la main, suivi d'une étape de normalisation et de retargeting cinématique vers différentes morphologies robotiques. Le système a été évalué sur trois mains dextères distinctes et trois catégories de tâches d'ouverture d'objets articulés, couvrant neuf configurations cross-embodiment. Par rapport à une baseline sans mécanisme d'annealing de démonstrations, EaDex affiche une amélioration relative de 55,3 %. Le verrou adressé est structurel pour le secteur: le reinforcement learning pur en manipulation dextère exige une exploration interactive à grande échelle, coûteuse en temps machine et difficile à transférer, tandis que l'imitation learning classique dépend de démonstrations à haute fidélité collectées via des gants haptiques ou des systèmes de motion capture onéreux. EaDex cherche à abaisser ce seuil avec du matériel accessible. Son mécanisme central, l'"annealing dynamique de démonstrations basé sur les récompenses de contact", est notable: il guide l'exploration initiale en s'appuyant sur les trajectoires humaines, puis réduit progressivement cette dépendance à mesure que l'agent accumule des contacts réussis, évitant le sur-ajustement aux trajectoires de référence. Que le même pipeline fonctionne sur trois architectures de main aux cinématiques différentes est le point le plus pertinent pour un intégrateur: cela suggère une généralisation morphologique réelle, pas un résultat ajusté manuellement par configuration. L'approche s'inscrit dans un effort plus large de la communauté pour rendre la collecte de données de manipulation bon marché et scalable, face à des méthodes concurrentes comme DAPG ou DexMimicGen qui requièrent des infrastructures plus lourdes. Le papier n'annonce pas de déploiement industriel ni de partenariat commercial: c'est un résultat de recherche en phase preprint, sans validation sur des objets non-vus ni en conditions réelles non-contrôlées. Les suites naturelles incluront des tests sur des tâches plus complexes (bimanuel, objets déformables) et une comparaison systématique avec des pipelines VLA récents sur des benchmarks standardisés.

IA physiquePaper
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
29arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

IA physiqueOpinion
1 source
GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA
30arXiv cs.RO 

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

GeoAlign, une architecture présentée le 3 juin 2026 sur arXiv (référence 2606.03240), aborde un angle mort persistant des modèles Vision-Langage-Action (VLA) : leur incapacité à raisonner avec précision sur la géométrie locale d'une scène. Les VLA actuels sont principalement entraînés pour le grounding sémantique, ce qui suffit pour identifier des objets ou interpréter des instructions, mais pas pour exécuter des mouvements de manipulation précis. GeoAlign introduit une branche RGB post-entraînée avec supervision RGB-D dans le domaine robotique, qui génère des features appelées GEP (Geometry-Enhanced Post-Trained) sans nécessiter de caméra de profondeur au déploiement. L'état proprioceptif du robot, c'est-à-dire la position de ses articulations à chaque instant, interroge dynamiquement cette grille de features pour produire des tokens géométriques adaptés à la phase courante du mouvement. Les résultats annoncés sont 99,0 % sur le benchmark LIBERO, 85,3 % sur trois tâches SimplerEnv-Fractal, et 78,8 % sur huit tâches réelles "geometry-critical" sur plateforme bi-manuelle ALOHA. Ce travail cible un problème bien identifié par les intégrateurs industriels : les VLA produisent des trajectoires sémantiquement cohérentes mais qui échouent lors du contact ou de la saisie fine, faute de modélisation géométrique locale. L'approche de GeoAlign est pragmatique, elle exploite la supervision RGB-D à l'entraînement sans alourdir le pipeline de déploiement qui reste en RGB pur. Le score de 78,8 % sur des tâches réelles est notable, mais le périmètre demeure étroit avec seulement huit tâches sur une seule plateforme, et la généralisation à d'autres morphologies ou environnements industriels n'est pas encore démontrée. Les ablations confirment l'apport des deux composantes, post-formation géométrique et requêtage guidé par l'état proprioceptif, ce qui renforce la crédibilité de l'architecture au-delà du simple ajustement de paramètres. Les VLA se sont imposés comme paradigme dominant depuis RT-2 de Google DeepMind en 2023, et se retrouvent au cœur de systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. La tendance de fond depuis 2024 est à l'augmentation des capacités spatiales de ces modèles, avec SpatialVLA et d'autres architectures 3D-aware qui s'attaquent au même problème. La plateforme ALOHA, développée à Stanford et UC Berkeley, est aujourd'hui commercialisée par Trossen Robotics et AgileX, ce qui donne une certaine représentativité aux évaluations en conditions réelles. GeoAlign reste pour l'instant un preprint non relu par les pairs : sa reproductibilité sur d'autres plateformes et dans des contextes industriels variés déterminera si elle s'intègre effectivement dans les pipelines VLA de production.

IA physiqueOpinion
1 source
SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée
31arXiv cs.RO 

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

SplitAdapter est une architecture présentée sur arXiv (identifiant 2606.03297) visant à améliorer le contrôle de robots humanoïdes en loco-manipulation, soit la combinaison simultanée de la marche bipède et de la manipulation d'objets physiques. Le système part d'une politique de manipulation de boîtes préentraînée qu'il fige, puis lui greffe deux encodeurs de contexte indépendants : l'un capture les propriétés de la charge et de l'objet saisi, l'autre modélise les dynamiques internes du robot. Ces représentations sont injectées via une modulation FiLM hiérarchique (Feature-wise Linear Modulation), combinée à des objectifs split world-model et une régularisation cross-adversariale par gradient reversal (GRL). Les expériences couvrent des objets de 2, 4 et 6 kg, à des hauteurs de prise et de dépôt de 0, 30 et 60 cm, testés en sim-to-sim puis en déploiement sur robot réel. SplitAdapter améliore le taux de succès en tâche complète face à la politique de base et aux baselines FiLM à encodeur unique, avec les gains les plus marqués sous forte charge (6 kg). L'enjeu central est le transfert sim-to-réel sous charge variable : lorsqu'un humanoïde soulève un objet lourd, ses dynamiques changent sensiblement, et les adaptateurs existants qui fusionnent tous les signaux dans une seule représentation latente tendent à perdre en robustesse précisément dans les conditions les plus critiques. La factorisation proposée, un encodeur par source de variation, maintient une séparation explicite entre les incertitudes liées à l'objet et celles liées au robot, ce qui se révèle plus stable sous conditions extrêmes. Pour un intégrateur ou un OEM industriel, cela suggère qu'une politique généraliste préentraînée peut être adaptée modulairement selon la charge sans réentraînement complet, une propriété utile pour des lignes de production où les objets manipulés varient fréquemment. La loco-manipulation sur humanoïdes concentre des investissements massifs : Figure AI déploie son Figure 03 chez BMW, Boston Dynamics pousse Atlas en partenariat avec Hyundai, et des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) misent sur des politiques généralisables de type VLA (Vision-Language-Action). SplitAdapter prend un pari différent, adapter une politique spécialisée existante plutôt que d'en entraîner une nouvelle de bout en bout, ce qui réduit les coûts de calcul mais soulève la question de la généralisabilité hors distribution. Le papier est une préimpression arXiv soumise début juin 2026, non encore évaluée par les pairs ; aucun déploiement industriel ni pilote commercial n'est annoncé à ce stade.

IA physiquePaper
1 source
Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot
32arXiv cs.RO 

Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot

Une équipe de chercheurs présente Humanoid-GPT, un Transformer de style GPT avec attention causale, entraîné sur un corpus de 2 milliards de frames de capture de mouvement pour le contrôle du corps entier de robots humanoïdes. Publiée en juin 2026 sur arXiv (preprint, non encore évaluée par les pairs), l'étude décrit un pré-entraînement sur un corpus retargeté qui unifie l'ensemble des jeux de données mocap publics majeurs et des enregistrements internes à grande échelle. L'objectif central est la généralisation zero-shot: le modèle doit suivre des mouvements hautement dynamiques et s'adapter à des tâches de contrôle inédites sans réentraînement spécifique. L'approche s'attaque au compromis agility-generalization qui bride les trackers MLP peu profonds, architecture dominante jusqu'ici mais limitée par la rareté des données d'entraînement. En scalant simultanément les données et la capacité du modèle, Humanoid-GPT prétend résoudre ces deux dimensions avec un unique modèle génératif. Si ces résultats se confirment à la validation indépendante, le résumé restant vague sur les benchmarks exacts et les conditions expérimentales, cela réduirait concrètement le coût de déploiement pour les intégrateurs de systèmes humanoïdes qui doivent aujourd'hui entraîner des politiques séparées pour chaque tâche ou morphologie de robot. Cette contribution s'inscrit dans la tendance au scaling des politiques de contrôle humanoïde: NVIDIA avec GR00T N2, Physical Intelligence avec pi-0 et pi-0.5, ou Berkeley Humanoid ont chacun montré que les Transformers absorbent massivement des données de démonstration pour produire des politiques plus généralisables. Humanoid-GPT se positionne spécifiquement sur le motion tracking en amont des pipelines d'action, plutôt que sur la manipulation de bout en bout. L'absence d'affiliation institutionnelle visible dans le résumé et la nature preprint du document invitent à la prudence sur les affirmations de "new performance frontier"; les benchmarks comparatifs et la revue par les pairs seront déterminants pour l'adoption dans la communauté.

IA physiqueOpinion
1 source
GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique
33arXiv cs.RO 

GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique

Des chercheurs ont publié le 3 juin 2026 sur arXiv (référence 2606.03188) une nouvelle architecture baptisée GeoSem-WAM, pour "Geometry- and Semantic-Aware World Action Model". L'objectif : améliorer les World Action Models (WAMs), une classe de modèles d'apprentissage utilisés pour la prise de décision en robotique incarnée. La contribution centrale consiste à enrichir la représentation latente apprise par ces modèles en ajoutant deux branches de prédiction auxiliaires, l'une dédiée à la géométrie future de la scène, l'autre à sa sémantique, en complément de la prédiction RGB classique. Le tout est intégré dans un espace latent unifié capturant simultanément la dynamique de la scène, sa structure spatiale et son contenu sémantique. Cruciale est la contrainte d'efficacité conservée : aucun rollout explicite ni génération vidéo n'est effectué à l'inférence, ce qui distingue GeoSem-WAM des approches monde qui consomment de la mémoire et du compute à chaque décision. L'intérêt industriel de ce travail réside dans la question qu'il adresse en filigrane : les WAMs sont-ils efficaces parce qu'ils imaginent explicitement le futur lors de l'inférence, ou simplement parce que l'entraînement prédictif force l'encodeur à apprendre de meilleures représentations ? Les résultats suggèrent que c'est la qualité des représentations latentes qui prime, et que l'imagination à l'inférence est accessoire. Pour les équipes robotiques travaillant sur des agents navigant dans des environnements non structurés, cela signifie qu'enrichir la supervision d'entraînement avec des signaux géométriques et sémantiques peut améliorer la robustesse sans alourdir le temps de cycle à l'exécution. Les auteurs rapportent des gains en précision de prédiction d'action et en robustesse sur des scénarios difficiles, bien que ces résultats restent à ce stade des benchmarks académiques sur simulateur, non validés sur hardware physique. Les WAMs constituent une catégorie en consolidation dans la recherche en robotique, parallèle aux approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui intègrent aussi des priors de représentation riche. GeoSem-WAM s'inscrit dans un courant visant à combler le sim-to-real gap par une meilleure compréhension structurelle de l'environnement, sans recourir à des architectures de diffusion coûteuses à l'inférence. Aucun partenariat industriel ni déploiement sur robot réel n'est annoncé dans cet article, qui demeure une contribution de recherche fondamentale soumise en preprint et n'ayant pas encore subi de revue par les pairs.

IA physiquePaper
1 source
ModuLoop : génération de code bas niveau pour le contrôle robotique via synthétiseur modulaire et débogueur en boucle fermée
34arXiv cs.RO 

ModuLoop : génération de code bas niveau pour le contrôle robotique via synthétiseur modulaire et débogueur en boucle fermée

Un groupe de chercheurs a publié sur arXiv (2606.03047, juin 2026) la description d'un framework baptisé Closed-Loop Modular Code Synthesizer, également appelé ModuLoop, conçu pour générer automatiquement du code de contrôle bas niveau destiné à des robots physiques. L'approche repose sur un LLM pré-entraîné généraliste, utilisé sans aucun fine-tuning spécifique à la tâche : le modèle décompose le problème en modules, génère le code correspondant, l'exécute sur le système réel, puis insère des sondes de débogage pour observer le comportement en cours d'exécution. Cette boucle fermée itère jusqu'à produire un programme exécutable et stable. La validation porte sur deux scénarios concrets : la calibration d'une caméra RGB-D couplée à un bras robotique (problème dit eye-hand calibration), suivie d'une tâche pick-and-place exploitant directement la calibration obtenue. Les auteurs rapportent une haute précision d'exécution et un haut degré d'autonomie sur ces deux tâches, sans fournir de métriques chiffrées précises dans l'abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt principal de cette approche est d'adresser l'un des verrous les plus persistants de la robotique LLM : descendre au niveau du code bas niveau, là où la précision temporelle et la dépendance à l'environnement rendent les agents généralistes habituellement inefficaces. Contrairement aux modèles de type VLA (Vision-Language-Action) comme Pi-0, GR00T N2 ou Helix, qui nécessitent des phases d'entraînement ou de fine-tuning coûteuses, ModuLoop propose une architecture sans coût d'adaptation au domaine. Pour un intégrateur ou un OEM, cela ouvre la perspective d'automatiser des étapes de configuration et de calibration d'installations robotiques sans pipeline ML dédié. La boucle de débogage systématique est également une réponse directe au sim-to-real gap : le système apprend des erreurs d'exécution en conditions réelles plutôt qu'en simulation. Cette publication s'inscrit dans un courant de recherche actif depuis Code as Policies (Google, 2022) et les travaux PaLM-E, qui explorent les LLMs comme couche de planification et de génération de code pour la robotique. ModuLoop se distingue par son accent sur le débogage en boucle fermée plutôt que sur la seule génération. Côté concurrence, des approches comme CodeAct ou les travaux récents de Microsoft Research sur RobotCodeGen couvrent un espace similaire. L'article reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisation des résultats à des manipulateurs industriels multi-DOF ou à des environnements non structurés. Aucun déploiement terrain ni partenariat industriel n'est mentionné à ce stade.

IA physiquePaper
1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
35arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

IA physiqueOpinion
1 source
Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF
36arXiv cs.RO 

Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF

Des chercheurs ont publié le 1er juin 2026 sur arXiv une étude portant sur le fine-tuning de modèles Vision-Language-Action (VLA) pour manipulateurs mobiles à 11 degrés de liberté (DoF), en l'occurrence le Toyota HSR. Ils ont comparé SmolVLA (450 millions de paramètres, entraînement sur la tête d'action uniquement) et π0.5 de Physical Intelligence (3,3 milliards de paramètres), évalués sur 60 essais réels (20 par variante). Le résultat central : le checkpoint affichant la meilleure erreur quadratique moyenne (MSE) agrégée n'est pas celui qui performe le mieux sur le robot physique. π0.5 à 80 000 étapes obtient un score de 4,0/4, devançant la variante expert-only à 3 000 étapes (3,75/4) et HSR-SmolVLA (3,5/4), avec une significativité statistique confirmée (Mann-Whitney p ≤ 0,010), malgré une MSE totale plus élevée pour le modèle gagnant. L'enjeu est méthodologique autant que pratique. Sur un robot hétérogène comme le HSR, les articulations faciles à prédire (tête, base) tirent la MSE agrégée vers le bas et masquent les joints critiques (bras) qui continuent d'échouer. Dans la variante expert-only de π0.5, geler le backbone et n'entraîner que la tête d'action fait chuter la MSE totale sous la baseline, mais dégrade précisément la précision du bras. L'analyse par groupe (bras, pince, tête, base roulante) révèle que c'est l'erreur du groupe bras hors ligne, et non la MSE totale ni l'erreur de la base, qui corrèle le plus fidèlement avec la performance réelle. Ce constat remet en question une pratique courante dans le déploiement de VLA sur robots multi-segments. Le Toyota HSR est une plateforme de référence en manipulation domestique et en recherche académique. Les modèles VLA s'imposent comme paradigme dominant depuis les travaux RT-2 de Google DeepMind (2023), suivis de π0 et π0.5 de Physical Intelligence (San Francisco), SmolVLA de HuggingFace (Paris), ou encore OpenVLA de Stanford. Le problème de la sélection de checkpoint par MSE agrégée était jusqu'ici peu documenté pour les espaces d'action hétérogènes. Le code de cette étude est publié en open source sur GitHub, ce qui permet une réplication directe. Prochaine étape logique : valider cette approche per-group sur d'autres plateformes humanoïdes à espace d'action encore plus fragmenté.

UESmolVLA de HuggingFace (Paris) est l'un des deux modèles centralement évalués, et les résultats méthodologiques (sélection de checkpoint par groupe d'articulations) guident directement les équipes européennes déployant des VLA sur manipulateurs mobiles hétérogènes.

💬 Évaluer un checkpoint VLA par la MSE totale sur un robot à 11 DOF, c'est se raconter des histoires. Les articulations simples, tête et base roulante, tirent le score agrégé vers le bas et cachent que le bras, lui, continue de foirer : le modèle gagnant sur la métrique standard n'est pas celui qui tient en conditions réelles. Ce papier le prouve proprement avec 60 essais physiques, et avec SmolVLA de HuggingFace dans le lot, c'est pas juste un résultat académique.

IA physiqueOpinion
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
37arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

IA physiqueOpinion
1 source
PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions
38arXiv cs.RO 

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Des chercheurs présentent PACE (Phase-Aware Chunk Execution), une méthode d'exécution sans réentraînement publiée sur arXiv (2606.00537) qui s'applique aux politiques robotiques exploitant l'action chunking. Le principe de l'action chunking, popularisé par des architectures comme ACT et les politiques de diffusion, consiste à faire prédire au modèle une séquence d'actions futures en bloc, dont seul un préfixe est exécuté en boucle ouverte avant de re-interroger le modèle. Le paramètre clé, l'horizon d'exécution (combien d'étapes du bloc sont jouées avant la prochaine observation), est jusqu'ici fixé statiquement. PACE le détermine dynamiquement en analysant le profil de vitesse prédit : les points de transition basse vitesse dans la trajectoire correspondent aux frontières naturelles entre phases de manipulation, et PACE les utilise comme candidats au replanning. La méthode a été validée sur 50 tâches RoboTwin 2.0 (passage de 57,8 % à 64,2 % de taux de succès), et sur robots réels avec une plateforme bimanuelle ALOHA et un bras Franka single-arm (score moyen 60,7 à 77,7, taux de succès 50,7 % à 70,4 %). Un gain de près de 20 points de pourcentage en conditions réelles sans modifier ni réentraîner le modèle sous-jacent est un résultat notable pour le secteur. Il confirme que le goulot d'étranglement ne réside pas toujours dans la qualité intrinsèque de la politique VLA ou diffusion, mais dans la stratégie de déploiement elle-même. PACE s'insère en plug-and-play au-dessus de n'importe quelle politique existante, sans accès aux poids ni aux couches internes, ce qui en fait un outil immédiatement utilisable par les intégrateurs et les équipes de mise en production, sans investissement en données ou calcul supplémentaire. L'action chunking s'est imposé comme standard d'exécution depuis les travaux sur ACT (Stanford, 2023) et les politiques de diffusion (Chi et al.), repris dans des systèmes comme pi-0 de Physical Intelligence ou les architectures OpenVLA. La rigidité de l'horizon fixe est un problème connu, et plusieurs approches ont tenté de l'adresser via du replanning conditionnel ou de la détection d'anomalies. PACE choisit une voie plus simple : exploiter uniquement le bloc d'actions déjà prédit, sans capteur ni signal externe. La prochaine étape logique sera de tester cette approche sur des politiques à plus haute fréquence comme GR00T N2 de NVIDIA ou les architectures hybrides VLA-diffusion qui émergent chez des acteurs comme Enchanted Tools en Europe, où la latence de replanning reste un verrou industriel.

UEEnchanted Tools et les équipes robotiques européennes déployant des politiques VLA ou de diffusion pourraient bénéficier directement de PACE pour améliorer leurs taux de succès en production sans coût de réentraînement ni d'accès aux poids du modèle.

💬 +20 points de taux de succès sur robot réel sans toucher au modèle, c'est le genre de résultat qui fait réfléchir sur où on met vraiment l'effort en robotique. L'idée est belle : plutôt que d'entraîner encore, on optimise le quand on replanifie, en lisant les creux de vitesse dans la trajectoire déjà prédite. Plug-and-play, sans accès aux poids, ça va intéresser sérieusement les équipes qui font de l'intégration prod, Enchanted Tools en tête.

IA physiqueOpinion
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
39arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
40arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA
41arXiv cs.RO 

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

Des chercheurs ont publié sur arXiv (réf. 2508.20072, quatrième révision) Discrete Diffusion VLA, une architecture de politique robot qui intègre la diffusion discrète directement au sein du backbone transformeur unifié d'un modèle Vision-Language-Action (VLA). Sur le benchmark LIBERO, le système atteint 96,4 % de taux de réussite moyen, 71,2 % de correspondance visuelle sur SimplerEnv-Fractal et 54,2 % sur SimplerEnv-Bridge. Des évaluations en conditions réelles ont été conduites sur la plateforme AgileX Cobot Magic, un bras collaboratif de l'équipementier chinois du même nom. Le mécanisme central est un décodage adaptatif par ordre de confiance : le modèle résout d'abord les éléments d'action à haute certitude, puis revisite les prédictions incertaines via un re-masquage secondaire, permettant une correction d'erreur itérative sans générer une séquence de gauche à droite. L'enjeu architectural est concret. Les VLA actuels souffrent de deux compromis : la génération autorégressive classique (ordre fixe gauche-à-droite) affiche des performances limitées, tandis que les architectures à tête de diffusion continue externe, comme celle de Pi-0 de Physical Intelligence, fragmentent les flux d'information entre backbone et module d'action. En maintenant la diffusion à l'intérieur du backbone, cette approche préserve les représentations visuelles et linguistiques pré-entraînées. Le résultat chiffré est parlant : seulement 0,8 % de dégradation sur les tâches hors-distribution en langage, contre 8,0 % pour le décodage parallèle conventionnel, et 20,4 % en vision contre 29,0 % pour la diffusion continue. Pour un intégrateur ou un responsable technique évaluant une stack de manipulation généraliste, c'est un signal que la robustesse hors-distribution peut être préservée sans compromis sur la scalabilité. Les VLA se sont imposés comme paradigme dominant pour la manipulation généraliste, portés par OpenVLA, Octo, puis Pi-0 qui a popularisé la diffusion continue comme tête de décodage séparée, précisément l'architecture remise en question ici. La diffusion discrète, mieux connue dans le domaine du texte (MDLM, DMDM), est ici appliquée aux séquences d'actions robotiques, un transfert non trivial. La quatrième révision du preprint signale un travail en maturation active. Les prochaines étapes probables incluent le scaling sur des datasets larges de type Open X-Embodiment et l'évaluation sur des plateformes humanoïdes, où la gestion de l'incertitude en temps réel sera le vrai critère discriminant.

IA physiqueOpinion
1 source
PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes
42arXiv cs.RO 

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

IA physiquePaper
1 source
Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements
43arXiv cs.RO 

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

Un article de position déposé sur arXiv en juin 2026 (arXiv:2606.01036) soulève un problème structurel dans l'entraînement des robots fondationnels : les modèles de récompense embarqués (embodied reward models), centraux dans toute boucle d'apprentissage par renforcement, sont quasi-exclusivement entraînés sur des comportements réussis. Les auteurs ont évalué trois modèles de récompense de l'état de l'art et constatent qu'ils sur-récompensent systématiquement trois catégories de comportements qu'un évaluateur humain pénaliserait : interactions non sécurisées avec l'environnement, exécution de mauvaise qualité, et stratégies de raccourci qui satisfont l'apparence d'une tâche sans en remplir l'objectif réel. La cause pointée est le manque chronique de données négatives dans les datasets robotiques existants : comportements ratés, sous-optimaux ou dangereux, coûteux à collecter et systématiquement filtrés ou retenus par les équipes. Ce biais a des implications directes pour tout déploiement de robot généraliste en environnement industriel. Un modèle de récompense qui valide des comportements non sécurisés ou des raccourcis fonctionne comme un juge défaillant au coeur même de la boucle d'entraînement, produisant des systèmes validés en simulation mais problématiques en production. Les auteurs montrent qu'une exposition modeste à de vraies données de comportements négatifs améliore l'alignement avec les préférences humaines et réduit les faux positifs coûteux, argument pour une action corrective accessible à court terme plutôt qu'un problème structurel insoluble. La problématique s'impose avec l'essor des modèles vision-langage-action (VLA) tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure. Dans ce contexte, collecter des données d'échec reste plus contraignant qu'en NLP : chaque trajectoire ratée mobilise du matériel physique et présente un risque opérationnel réel. Les auteurs appellent la communauté à quatre actions concrètes : publier les données négatives aujourd'hui retenues, construire des moteurs de génération synthétique de mauvais comportements, déployer des systèmes d'évaluation physique décentralisés, et créer des benchmarks dédiés à l'évaluation fine des reward models. Aucun partenaire institutionnel ni calendrier opérationnel n'est annoncé dans le document, ce qui en fait pour l'instant un manifeste académique sans engagement opérationnel identifié.

IA physiqueOpinion
1 source
Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage
44arXiv cs.RO 

Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage

Une équipe de recherche a publié fin mai 2026 Goal2Pixel, un nouveau paradigme de navigation robotique en environnement continu guidée par le langage naturel (VLN-CE, Vision-and-Language Navigation in Continuous Environments). L'approche reformule le problème : plutôt que de demander au modèle de vision-langage (VLM) de prédire directement des actions motrices, Goal2Pixel lui demande d'identifier un pixel navigable dans le champ de vision courant. Ce pixel est ensuite rétro-projeté en coordonnées 3D pour générer un waypoint de navigation. Pour les actions non-linéaires (virage gauche, virage droit, arrêt), des régions auxiliaires codées directement dans l'image servent d'interface. Un module de mémoire par keyframes filtrées par visibilité permet la navigation sur longues distances sans saturer le contexte du modèle. Sur le benchmark standard R2R-CE Val-Unseen, Goal2Pixel atteint 54,1 % de Success Rate (SR) et 52,5 % de SPL, avec seulement 7,75 appels VLM par épisode en moyenne. Le gain d'efficacité est le fait saillant : la méthode de référence par prédiction d'action directe requiert 46,62 appels VLM par épisode pour un SR de seulement 32,9 %, soit 6 fois plus d'inférences pour une performance nettement inférieure. C'est un argument concret pour les intégrateurs qui cherchent à déployer des VLMs embarqués ou à limiter la latence en inférence. L'interface pixel unifie le raisonnement spatial du VLM et le contrôle moteur sans couche d'abstraction intermédiaire propriétaire, ce qui facilite le remplacement du backbone VLM par des versions plus récentes. Les résultats tiennent également sur le benchmark multilingue RxR-CE, ce qui suggère une certaine robustesse linguistique. Le problème VLN-CE reste un champ de recherche très actif, dominé par des approches basées sur des cartes sémantiques ou des prédictions d'actions discrètes. Goal2Pixel s'inscrit dans une tendance plus récente qui exploite les capacités de grounding spatial des grands modèles visuels (type Qwen-VL, LLaVA, InternVL) comme interface de contrôle directe, évitant l'entraînement d'une tête d'action spécialisée. Les résultats publiés sont des métriques benchmark sur simulateur (Matterport3D), pas des validations en environnement physique réel : le sim-to-real gap reste entier. Le code et la page projet sont accessibles publiquement, ce qui ouvre la voie à des reproductions et adaptations par la communauté.

IA physiqueOpinion
1 source
Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements
45arXiv cs.RO 

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Des chercheurs présentent MPVI (Motion Planner / VLA Interleaving), une architecture hybride qui intègre la planification de mouvement classique dans les modèles VLA (Vision-Language-Action) pour renforcer leur robustesse en manipulation mobile sans nécessiter de données supplémentaires. Publiée sur arXiv (2606.00985), cette approche s'attaque à un problème documenté des VLA : leur difficulté à enchaîner des séquences longues de sous-tâches spatialement distribuées. Sur le benchmark BEHAVIOR-1K, MPVI affiche une amélioration de 113 % de la progression des tâches par rapport au meilleur VLA bout-en-bout de référence, sans aucun ré-entraînement du modèle de base. Le diagnostic des auteurs est net : dans les tâches à long horizon, les erreurs d'exécution précoces s'amplifient à mesure que la séquence s'allonge, et le fine-tuning sur de larges volumes de données téléopérées humaines n'y change rien. MPVI découple la navigation et la manipulation : un planificateur classique prend en charge la localisation et le déplacement vers des objets distants ou occultés, en s'appuyant sur la détection à vocabulaire ouvert et l'exploration de frontière, tandis que le VLA gère les manipulations de précision. La commutation entre les deux modules est pilotée par un mécanisme de vérification d'état via un modèle vision-langage (VLM), couplé à des déclencheurs proprioceptifs, sans entraînement supplémentaire. La course aux architectures VLA bout-en-bout est aujourd'hui dominée par Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses successeurs, et des initiatives comme LeRobot de Hugging Face, toutes misant sur des données à grande échelle pour gagner en généralité. MPVI s'inscrit dans un courant concurrent qui défend l'hybridation avec la robotique classique planifiée, une position partagée notamment par les travaux SayCan de Google Research. Le benchmark BEHAVIOR-1K, développé à Stanford et évalué en simulation, est conçu pour mesurer la robustesse sur des tâches domestiques variées et longues, ce qui en fait un terrain de test exigeant. Les auteurs ne revendiquent aucun déploiement physique réel : MPVI reste à ce stade une contribution académique, sans plateforme hardware ni partenaire industriel annoncé.

UEHugging Face (entreprise française) est cité comme acteur de référence dans l'espace VLA avec LeRobot, mais MPVI reste une contribution académique en simulation sans déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage
46arXiv cs.RO 

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

IA physiqueOpinion
1 source
PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts
47arXiv cs.RO 

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Des chercheurs ont publié sur arXiv (référence 2506.00515) PaCo-VLA, un framework qui comble le fossé entre les modèles Vision-Language-Action et le contrôle de contact haute fréquence. Le problème est structurel : les VLAs génèrent une sortie à quelques hertz seulement, alors que la régulation de dynamiques de contact exige des boucles à plusieurs kilohertz. PaCo-VLA requalifie le rôle du réseau neuronal : plutôt que de produire des commandes moteur directes, le VLA émet des "proposals de compliance", à savoir des engagements sémantiques, des étapes de tâche et des paramètres d'admittance. Un bouclier de passivité haute fréquence, indépendant du modèle, filtre ces proposals via une comptabilité d'énergie (energy-tank accounting) et des contrôles aux frontières, bloquant toute prédiction invalide ou périmée avant qu'elle n'atteigne la physique de contact. Les expériences d'insertion de connecteurs, en simulation et en conditions réelles, montrent une précision supérieure aux baselines VLA non protégées, avec zéro violation de passivité même sous perturbations adversariales de compliance. L'enjeu dépasse la performance brute. La passivité est une propriété de sécurité prouvable : elle garantit que le système ne génère pas d'énergie mécanique non désirée, ce qui est critique pour les assemblages de précision où une force mal régulée peut détruire la pièce ou l'actionneur. L'architecture découplée permet aussi une évaluation causale du VLA, isolant ce que le modèle contribue réellement en termes de raisonnement sémantique par opposition aux raccourcis géométriques que les réseaux exploitent souvent sans compréhension réelle. Pour un intégrateur ou un responsable industriel, PaCo-VLA propose un contrat d'interface formel, le "sampled-passive runtime contract at the admittance port", qui pourrait constituer un argument solide dans un dossier de certification pour environnement réglementé. Cette publication s'inscrit dans une problématique centrale de 2025-2026 : comment déployer des modèles de fondation tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google DeepMind sur des robots industriels sans compromettre la sécurité de contact ? La manipulation contact-riche, insertion de connecteurs, vissage, assemblage, reste le point faible des VLAs actuels qui excellent en manipulation en espace libre mais peinent dès que la force devient une variable critique. PaCo-VLA est encore au stade de preprint et n'a pas été validé à l'échelle industrielle ; les résultats publiés portent sur des tâches d'insertion en contexte contrôlé, loin d'un benchmark d'assemblage général. La prochaine étape naturelle serait une validation sur des chaînes de production réelles, où la variabilité des pièces et des tolérances mettrait véritablement à l'épreuve la robustesse du bouclier passif.

UEImpact indirect : le contrat d'interface formel proposé (passivité prouvable) pourrait alimenter les dossiers de certification pour déploiements VLA industriels en environnement réglementé EU, notamment dans le contexte de l'AI Act, mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source
Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée
48arXiv cs.RO 

Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée

Une équipe de chercheurs a publié début juin 2026 sur arXiv (réf. 2606.01015) une revue de la littérature consacrée à l'intégration conjointe de l'intelligence artificielle, de l'Internet des objets (IoT) et de la robotique, trois domaines qui progressaient jusqu'ici principalement deux à deux. Les auteurs recensent les travaux existants autour de combinaisons établies, l'AIoT (IA et IoT) et l'Internet of Robotic Things (IoRT, couplant IoT et robotique), et constatent l'absence persistante de cadres de conception unifiés orchestrant les trois disciplines simultanément. Leur principale contribution est une architecture modulaire où des petits modèles de langage (SLM, Small Language Models) assurent l'inférence locale en bordure de réseau (edge), tandis que des grands modèles de langage (LLM) hébergés dans le cloud prennent en charge le raisonnement de haut niveau et la prise de décision autonome. Pour les intégrateurs industriels et les responsables techniques B2B, l'architecture hybride SLM-LLM proposée répond à deux contraintes opérationnelles majeures : réduire la latence en traitant localement les données capteurs, et limiter la dépendance réseau dans des environnements de production. La revue identifie des verrous encore ouverts, notamment l'interopérabilité entre protocoles hétérogènes et la boucle de contrôle par retour d'information dans des systèmes multi-agents distribués. Il convient de souligner que ces résultats restent à ce stade conceptuels : le papier propose un cadre et une taxonomie, pas un système validé en déploiement réel, et l'absence de benchmarks reproductibles est explicitement signalée comme une limite. Ce travail s'inscrit dans un courant académique et industriel que NVIDIA a popularisé sous le terme de Physical AI, désignant des systèmes capables d'agir dans le monde physique via des robots ou des actionneurs connectés. La robotique connectée que dessine ce survey fait écho aux développements de plateformes cloud-robot portés par des acteurs comme Boston Dynamics, ou en Europe par des intégrateurs spécialisés comme Exotec dans les AMR et Enchanted Tools dans la robotique collaborative. Les auteurs identifient eux-mêmes comme prochaine étape la validation expérimentale de leur cadre sur des cas d'usage réels, condition nécessaire pour que l'architecture proposée dépasse le statut de roadmap et devienne une référence opérationnelle pour l'industrie.

UEL'architecture SLM-LLM proposée pourrait bénéficier à terme aux intégrateurs européens comme Exotec (AMR) et Enchanted Tools (cobots), mais reste un cadre conceptuel sans validation terrain ni benchmarks reproductibles.

IA physiquePaper
1 source
Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA
49arXiv cs.RO 

Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA

Des chercheurs ont publié le 2 juin 2026 sur arXiv (réf. 2606.02486) AHEAD, un module d'anticipation conçu pour corriger un angle mort majeur des modèles Vision-Language-Action : leur incapacité à saisir des objets en mouvement. Les VLA actuels, dont OpenVLA (7 milliards de paramètres), capturent une observation instantanée et génèrent une action en supposant que la scène restera immobile, ce qui introduit une latence incompatible avec toute dynamique réelle. AHEAD (Anticipatory Horizon Extrapolation with Adaptive Dynamics) greffe un modèle de monde latent de seulement 4,9 millions de paramètres sur le VLA gelé : ce module prédit l'état futur de la scène dans l'espace de features du VLA, en s'appuyant sur les champs de vitesse et d'accélération par token extraits par flux optique, puis filtre les patchs pertinents via un masque combinant saillance linguistique et cinématique. Le décodeur d'action reçoit ces tokens futurs en lieu et place des tokens présents. En simulation, AHEAD atteint 79 à 97 % de succès sur 20 scénarios dynamiques, contre 31 à 58 % pour le meilleur concurrent. Sur robot physique (UFactory xArm 7), le système réussit 29 à 30 essais sur 30 pour des tâches de tapis roulant et de balle roulante, 23/30 pour l'interception de pagaie, et 19/30 pour l'interception de projectile, là où tous les baselines atteignent 0/30. Ce résultat est notable car il démontre un transfert sim-to-real fonctionnel sur des tâches dynamiques, un écueil historique des approches VLA : non seulement la prédiction dans l'espace latent se généralise à du matériel réel, mais le module léger (4,9 M de paramètres) n'impose aucune modification du modèle de base, ce qui ouvre la voie à une adoption modulaire sur n'importe quel VLA existant. Pour un intégrateur industriel, cela signifie qu'un bras robotisé équipé d'un VLA standard pourrait, sans réentraînement complet, traiter des pièces sur convoyeur ou dans des environnements non structurés, un verrou majeur pour la robotisation flexible de lignes d'assemblage ou de tri. Les VLA ont émergé comme paradigme dominant en manipulation robotique depuis 2023, portés par des travaux comme RT-2 (Google DeepMind) et la série OpenVLA (Berkeley). La manipulation statique étant désormais largement résolue par ces modèles, le front de recherche se déplace vers le dynamique, le déformable et l'incertain. AHEAD s'inscrit dans cette tendance, en compétition implicite avec des approches comme ACT (Action Chunking Transformer) ou les méthodes de replanning rapide à base de diffusion. L'article reste un preprint de laboratoire académique sans déploiement industriel annoncé, et les conditions de test physique (30 essais par tâche, environnement contrôlé) restent loin d'une validation en conditions de production ; les performances sur projectile (19/30) méritent un regard critique. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme RoboSuite ou une collaboration avec un partenaire industriel pour valider la robustesse hors-labo.

UEAucun acteur européen impliqué ; les intégrateurs industriels EU travaillant sur la robotisation de lignes de convoyage ou de tri pourraient à terme bénéficier de cette approche modulaire compatible avec tout VLA existant, sans réentraînement du modèle de base.

IA physiqueOpinion
1 source
GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées
50arXiv cs.RO 

GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées

GraspGen-X est un modèle de préhension robotique 6-DOF (six degrés de liberté) publié sur arXiv le 2 juin 2026, conçu pour opérer en cross-embodiment : contrairement aux approches précédentes limitées à des préhenseurs spécifiques, il généralise simultanément à de nouveaux objets, de nouvelles scènes, et de nouvelles morphologies de préhenseurs. Le modèle étend les générateurs de préhension basés sur la diffusion en conditionnant la génération sur une représentation du préhenseur encodée via une heuristique de "volume balayé" (swept-volume), qui capture la géométrie du préhenseur pendant son mouvement d'approche. L'entraînement s'appuie sur un dataset massif de 2 milliards de préhensions générées avec des préhenseurs procéduraux synthétiques. Dans les expériences en simulation, GraspGen-X obtient les meilleures performances en généralisation zéro-shot vers des préhenseurs réels inédits, surpassant les méthodes de référence. Le modèle constitue également un bon point de départ pour le fine-tuning sur de nouveaux préhenseurs, ce qui réduit le coût d'adaptation. Pour les intégrateurs robotiques, c'est un signal concret : la perspective d'un module de préhension unique déployable sur plusieurs plateformes (bras industriels, manipulateurs collaboratifs, mains anthropomorphes) sans réentraînement complet compresse significativement les coûts d'intégration. La capacité à transférer du simulateur vers le réel sur des préhenseurs jamais vus à l'entraînement adresse directement le sim-to-real gap en manipulation, longtemps identifié comme verrou pour les architectures VLA (Vision-Language-Action) appliquées à la saisie d'objets. La recherche en 6-DOF grasping s'est longtemps structurée autour d'approches liées à des géométries de préhenseur fixes, de GraspNet à GQ-CNN en passant par les travaux de Columbia et du MIT sur la synthèse de prises. Les modèles de diffusion pour la préhension ont émergé récemment comme alternative générative, mais restaient mono-embodiment. GraspGen-X s'inscrit dans la tendance plus large des modèles fondationnels pour la robotique, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui visent la généralisation multi-tâches et multi-plateformes. Le papier reste pour l'instant une preuve de concept académique sans déploiement industriel annoncé; la prochaine étape naturelle serait une validation à plus grande échelle sur des préhenseurs physiques variés et l'intégration dans des pipelines de manipulation complets.

IA physiqueOpinion
1 source