Aller au contenu principal

IA physique

50 sur 341 articles

Modèles vision-langage-action (VLA) et IA physique : NVIDIA GR00T, Figure Helix, Physical Intelligence π0, Gemini Robotics, OpenVLA, world models Cosmos/Genie.

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
1arXiv cs.RO IA physiqueOpinion

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
2arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
3arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
4arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

IA physiqueOpinion
1 source
GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA
5arXiv cs.RO 

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

GeoAlign, une architecture présentée le 3 juin 2026 sur arXiv (référence 2606.03240), aborde un angle mort persistant des modèles Vision-Langage-Action (VLA) : leur incapacité à raisonner avec précision sur la géométrie locale d'une scène. Les VLA actuels sont principalement entraînés pour le grounding sémantique, ce qui suffit pour identifier des objets ou interpréter des instructions, mais pas pour exécuter des mouvements de manipulation précis. GeoAlign introduit une branche RGB post-entraînée avec supervision RGB-D dans le domaine robotique, qui génère des features appelées GEP (Geometry-Enhanced Post-Trained) sans nécessiter de caméra de profondeur au déploiement. L'état proprioceptif du robot, c'est-à-dire la position de ses articulations à chaque instant, interroge dynamiquement cette grille de features pour produire des tokens géométriques adaptés à la phase courante du mouvement. Les résultats annoncés sont 99,0 % sur le benchmark LIBERO, 85,3 % sur trois tâches SimplerEnv-Fractal, et 78,8 % sur huit tâches réelles "geometry-critical" sur plateforme bi-manuelle ALOHA. Ce travail cible un problème bien identifié par les intégrateurs industriels : les VLA produisent des trajectoires sémantiquement cohérentes mais qui échouent lors du contact ou de la saisie fine, faute de modélisation géométrique locale. L'approche de GeoAlign est pragmatique, elle exploite la supervision RGB-D à l'entraînement sans alourdir le pipeline de déploiement qui reste en RGB pur. Le score de 78,8 % sur des tâches réelles est notable, mais le périmètre demeure étroit avec seulement huit tâches sur une seule plateforme, et la généralisation à d'autres morphologies ou environnements industriels n'est pas encore démontrée. Les ablations confirment l'apport des deux composantes, post-formation géométrique et requêtage guidé par l'état proprioceptif, ce qui renforce la crédibilité de l'architecture au-delà du simple ajustement de paramètres. Les VLA se sont imposés comme paradigme dominant depuis RT-2 de Google DeepMind en 2023, et se retrouvent au cœur de systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. La tendance de fond depuis 2024 est à l'augmentation des capacités spatiales de ces modèles, avec SpatialVLA et d'autres architectures 3D-aware qui s'attaquent au même problème. La plateforme ALOHA, développée à Stanford et UC Berkeley, est aujourd'hui commercialisée par Trossen Robotics et AgileX, ce qui donne une certaine représentativité aux évaluations en conditions réelles. GeoAlign reste pour l'instant un preprint non relu par les pairs : sa reproductibilité sur d'autres plateformes et dans des contextes industriels variés déterminera si elle s'intègre effectivement dans les pipelines VLA de production.

IA physiqueOpinion
1 source
Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot
6arXiv cs.RO 

Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot

Une équipe de chercheurs présente Humanoid-GPT, un Transformer de style GPT avec attention causale, entraîné sur un corpus de 2 milliards de frames de capture de mouvement pour le contrôle du corps entier de robots humanoïdes. Publiée en juin 2026 sur arXiv (preprint, non encore évaluée par les pairs), l'étude décrit un pré-entraînement sur un corpus retargeté qui unifie l'ensemble des jeux de données mocap publics majeurs et des enregistrements internes à grande échelle. L'objectif central est la généralisation zero-shot: le modèle doit suivre des mouvements hautement dynamiques et s'adapter à des tâches de contrôle inédites sans réentraînement spécifique. L'approche s'attaque au compromis agility-generalization qui bride les trackers MLP peu profonds, architecture dominante jusqu'ici mais limitée par la rareté des données d'entraînement. En scalant simultanément les données et la capacité du modèle, Humanoid-GPT prétend résoudre ces deux dimensions avec un unique modèle génératif. Si ces résultats se confirment à la validation indépendante, le résumé restant vague sur les benchmarks exacts et les conditions expérimentales, cela réduirait concrètement le coût de déploiement pour les intégrateurs de systèmes humanoïdes qui doivent aujourd'hui entraîner des politiques séparées pour chaque tâche ou morphologie de robot. Cette contribution s'inscrit dans la tendance au scaling des politiques de contrôle humanoïde: NVIDIA avec GR00T N2, Physical Intelligence avec pi-0 et pi-0.5, ou Berkeley Humanoid ont chacun montré que les Transformers absorbent massivement des données de démonstration pour produire des politiques plus généralisables. Humanoid-GPT se positionne spécifiquement sur le motion tracking en amont des pipelines d'action, plutôt que sur la manipulation de bout en bout. L'absence d'affiliation institutionnelle visible dans le résumé et la nature preprint du document invitent à la prudence sur les affirmations de "new performance frontier"; les benchmarks comparatifs et la revue par les pairs seront déterminants pour l'adoption dans la communauté.

IA physiqueOpinion
1 source
EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût
7arXiv cs.RO 

EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût

EaDex, un framework de manipulation dextère multi-corps présenté dans un preprint arXiv (2606.03268, juin 2026), propose d'entraîner des mains robotiques articulées à partir de démonstrations humaines capturées avec une simple caméra RGB-D grand public. Le pipeline repose sur le modèle paramétrique MANO pour reconstruire la géométrie 3D de la main, suivi d'une étape de normalisation et de retargeting cinématique vers différentes morphologies robotiques. Le système a été évalué sur trois mains dextères distinctes et trois catégories de tâches d'ouverture d'objets articulés, couvrant neuf configurations cross-embodiment. Par rapport à une baseline sans mécanisme d'annealing de démonstrations, EaDex affiche une amélioration relative de 55,3 %. Le verrou adressé est structurel pour le secteur: le reinforcement learning pur en manipulation dextère exige une exploration interactive à grande échelle, coûteuse en temps machine et difficile à transférer, tandis que l'imitation learning classique dépend de démonstrations à haute fidélité collectées via des gants haptiques ou des systèmes de motion capture onéreux. EaDex cherche à abaisser ce seuil avec du matériel accessible. Son mécanisme central, l'"annealing dynamique de démonstrations basé sur les récompenses de contact", est notable: il guide l'exploration initiale en s'appuyant sur les trajectoires humaines, puis réduit progressivement cette dépendance à mesure que l'agent accumule des contacts réussis, évitant le sur-ajustement aux trajectoires de référence. Que le même pipeline fonctionne sur trois architectures de main aux cinématiques différentes est le point le plus pertinent pour un intégrateur: cela suggère une généralisation morphologique réelle, pas un résultat ajusté manuellement par configuration. L'approche s'inscrit dans un effort plus large de la communauté pour rendre la collecte de données de manipulation bon marché et scalable, face à des méthodes concurrentes comme DAPG ou DexMimicGen qui requièrent des infrastructures plus lourdes. Le papier n'annonce pas de déploiement industriel ni de partenariat commercial: c'est un résultat de recherche en phase preprint, sans validation sur des objets non-vus ni en conditions réelles non-contrôlées. Les suites naturelles incluront des tests sur des tâches plus complexes (bimanuel, objets déformables) et une comparaison systématique avec des pipelines VLA récents sur des benchmarks standardisés.

IA physiquePaper
1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
8arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

IA physiqueOpinion
1 source
SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée
9arXiv cs.RO 

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

SplitAdapter est une architecture présentée sur arXiv (identifiant 2606.03297) visant à améliorer le contrôle de robots humanoïdes en loco-manipulation, soit la combinaison simultanée de la marche bipède et de la manipulation d'objets physiques. Le système part d'une politique de manipulation de boîtes préentraînée qu'il fige, puis lui greffe deux encodeurs de contexte indépendants : l'un capture les propriétés de la charge et de l'objet saisi, l'autre modélise les dynamiques internes du robot. Ces représentations sont injectées via une modulation FiLM hiérarchique (Feature-wise Linear Modulation), combinée à des objectifs split world-model et une régularisation cross-adversariale par gradient reversal (GRL). Les expériences couvrent des objets de 2, 4 et 6 kg, à des hauteurs de prise et de dépôt de 0, 30 et 60 cm, testés en sim-to-sim puis en déploiement sur robot réel. SplitAdapter améliore le taux de succès en tâche complète face à la politique de base et aux baselines FiLM à encodeur unique, avec les gains les plus marqués sous forte charge (6 kg). L'enjeu central est le transfert sim-to-réel sous charge variable : lorsqu'un humanoïde soulève un objet lourd, ses dynamiques changent sensiblement, et les adaptateurs existants qui fusionnent tous les signaux dans une seule représentation latente tendent à perdre en robustesse précisément dans les conditions les plus critiques. La factorisation proposée, un encodeur par source de variation, maintient une séparation explicite entre les incertitudes liées à l'objet et celles liées au robot, ce qui se révèle plus stable sous conditions extrêmes. Pour un intégrateur ou un OEM industriel, cela suggère qu'une politique généraliste préentraînée peut être adaptée modulairement selon la charge sans réentraînement complet, une propriété utile pour des lignes de production où les objets manipulés varient fréquemment. La loco-manipulation sur humanoïdes concentre des investissements massifs : Figure AI déploie son Figure 03 chez BMW, Boston Dynamics pousse Atlas en partenariat avec Hyundai, et des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) misent sur des politiques généralisables de type VLA (Vision-Language-Action). SplitAdapter prend un pari différent, adapter une politique spécialisée existante plutôt que d'en entraîner une nouvelle de bout en bout, ce qui réduit les coûts de calcul mais soulève la question de la généralisabilité hors distribution. Le papier est une préimpression arXiv soumise début juin 2026, non encore évaluée par les pairs ; aucun déploiement industriel ni pilote commercial n'est annoncé à ce stade.

IA physiquePaper
1 source
ModuLoop : génération de code bas niveau pour le contrôle robotique via synthétiseur modulaire et débogueur en boucle fermée
10arXiv cs.RO 

ModuLoop : génération de code bas niveau pour le contrôle robotique via synthétiseur modulaire et débogueur en boucle fermée

Un groupe de chercheurs a publié sur arXiv (2606.03047, juin 2026) la description d'un framework baptisé Closed-Loop Modular Code Synthesizer, également appelé ModuLoop, conçu pour générer automatiquement du code de contrôle bas niveau destiné à des robots physiques. L'approche repose sur un LLM pré-entraîné généraliste, utilisé sans aucun fine-tuning spécifique à la tâche : le modèle décompose le problème en modules, génère le code correspondant, l'exécute sur le système réel, puis insère des sondes de débogage pour observer le comportement en cours d'exécution. Cette boucle fermée itère jusqu'à produire un programme exécutable et stable. La validation porte sur deux scénarios concrets : la calibration d'une caméra RGB-D couplée à un bras robotique (problème dit eye-hand calibration), suivie d'une tâche pick-and-place exploitant directement la calibration obtenue. Les auteurs rapportent une haute précision d'exécution et un haut degré d'autonomie sur ces deux tâches, sans fournir de métriques chiffrées précises dans l'abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt principal de cette approche est d'adresser l'un des verrous les plus persistants de la robotique LLM : descendre au niveau du code bas niveau, là où la précision temporelle et la dépendance à l'environnement rendent les agents généralistes habituellement inefficaces. Contrairement aux modèles de type VLA (Vision-Language-Action) comme Pi-0, GR00T N2 ou Helix, qui nécessitent des phases d'entraînement ou de fine-tuning coûteuses, ModuLoop propose une architecture sans coût d'adaptation au domaine. Pour un intégrateur ou un OEM, cela ouvre la perspective d'automatiser des étapes de configuration et de calibration d'installations robotiques sans pipeline ML dédié. La boucle de débogage systématique est également une réponse directe au sim-to-real gap : le système apprend des erreurs d'exécution en conditions réelles plutôt qu'en simulation. Cette publication s'inscrit dans un courant de recherche actif depuis Code as Policies (Google, 2022) et les travaux PaLM-E, qui explorent les LLMs comme couche de planification et de génération de code pour la robotique. ModuLoop se distingue par son accent sur le débogage en boucle fermée plutôt que sur la seule génération. Côté concurrence, des approches comme CodeAct ou les travaux récents de Microsoft Research sur RobotCodeGen couvrent un espace similaire. L'article reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisation des résultats à des manipulateurs industriels multi-DOF ou à des environnements non structurés. Aucun déploiement terrain ni partenariat industriel n'est mentionné à ce stade.

IA physiquePaper
1 source
GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique
11arXiv cs.RO 

GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique

Des chercheurs ont publié le 3 juin 2026 sur arXiv (référence 2606.03188) une nouvelle architecture baptisée GeoSem-WAM, pour "Geometry- and Semantic-Aware World Action Model". L'objectif : améliorer les World Action Models (WAMs), une classe de modèles d'apprentissage utilisés pour la prise de décision en robotique incarnée. La contribution centrale consiste à enrichir la représentation latente apprise par ces modèles en ajoutant deux branches de prédiction auxiliaires, l'une dédiée à la géométrie future de la scène, l'autre à sa sémantique, en complément de la prédiction RGB classique. Le tout est intégré dans un espace latent unifié capturant simultanément la dynamique de la scène, sa structure spatiale et son contenu sémantique. Cruciale est la contrainte d'efficacité conservée : aucun rollout explicite ni génération vidéo n'est effectué à l'inférence, ce qui distingue GeoSem-WAM des approches monde qui consomment de la mémoire et du compute à chaque décision. L'intérêt industriel de ce travail réside dans la question qu'il adresse en filigrane : les WAMs sont-ils efficaces parce qu'ils imaginent explicitement le futur lors de l'inférence, ou simplement parce que l'entraînement prédictif force l'encodeur à apprendre de meilleures représentations ? Les résultats suggèrent que c'est la qualité des représentations latentes qui prime, et que l'imagination à l'inférence est accessoire. Pour les équipes robotiques travaillant sur des agents navigant dans des environnements non structurés, cela signifie qu'enrichir la supervision d'entraînement avec des signaux géométriques et sémantiques peut améliorer la robustesse sans alourdir le temps de cycle à l'exécution. Les auteurs rapportent des gains en précision de prédiction d'action et en robustesse sur des scénarios difficiles, bien que ces résultats restent à ce stade des benchmarks académiques sur simulateur, non validés sur hardware physique. Les WAMs constituent une catégorie en consolidation dans la recherche en robotique, parallèle aux approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui intègrent aussi des priors de représentation riche. GeoSem-WAM s'inscrit dans un courant visant à combler le sim-to-real gap par une meilleure compréhension structurelle de l'environnement, sans recourir à des architectures de diffusion coûteuses à l'inférence. Aucun partenariat industriel ni déploiement sur robot réel n'est annoncé dans cet article, qui demeure une contribution de recherche fondamentale soumise en preprint et n'ayant pas encore subi de revue par les pairs.

IA physiquePaper
1 source
Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF
12arXiv cs.RO 

Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF

Des chercheurs ont publié le 1er juin 2026 sur arXiv une étude portant sur le fine-tuning de modèles Vision-Language-Action (VLA) pour manipulateurs mobiles à 11 degrés de liberté (DoF), en l'occurrence le Toyota HSR. Ils ont comparé SmolVLA (450 millions de paramètres, entraînement sur la tête d'action uniquement) et π0.5 de Physical Intelligence (3,3 milliards de paramètres), évalués sur 60 essais réels (20 par variante). Le résultat central : le checkpoint affichant la meilleure erreur quadratique moyenne (MSE) agrégée n'est pas celui qui performe le mieux sur le robot physique. π0.5 à 80 000 étapes obtient un score de 4,0/4, devançant la variante expert-only à 3 000 étapes (3,75/4) et HSR-SmolVLA (3,5/4), avec une significativité statistique confirmée (Mann-Whitney p ≤ 0,010), malgré une MSE totale plus élevée pour le modèle gagnant. L'enjeu est méthodologique autant que pratique. Sur un robot hétérogène comme le HSR, les articulations faciles à prédire (tête, base) tirent la MSE agrégée vers le bas et masquent les joints critiques (bras) qui continuent d'échouer. Dans la variante expert-only de π0.5, geler le backbone et n'entraîner que la tête d'action fait chuter la MSE totale sous la baseline, mais dégrade précisément la précision du bras. L'analyse par groupe (bras, pince, tête, base roulante) révèle que c'est l'erreur du groupe bras hors ligne, et non la MSE totale ni l'erreur de la base, qui corrèle le plus fidèlement avec la performance réelle. Ce constat remet en question une pratique courante dans le déploiement de VLA sur robots multi-segments. Le Toyota HSR est une plateforme de référence en manipulation domestique et en recherche académique. Les modèles VLA s'imposent comme paradigme dominant depuis les travaux RT-2 de Google DeepMind (2023), suivis de π0 et π0.5 de Physical Intelligence (San Francisco), SmolVLA de HuggingFace (Paris), ou encore OpenVLA de Stanford. Le problème de la sélection de checkpoint par MSE agrégée était jusqu'ici peu documenté pour les espaces d'action hétérogènes. Le code de cette étude est publié en open source sur GitHub, ce qui permet une réplication directe. Prochaine étape logique : valider cette approche per-group sur d'autres plateformes humanoïdes à espace d'action encore plus fragmenté.

UESmolVLA de HuggingFace (Paris) est l'un des deux modèles centralement évalués, et les résultats méthodologiques (sélection de checkpoint par groupe d'articulations) guident directement les équipes européennes déployant des VLA sur manipulateurs mobiles hétérogènes.

💬 Évaluer un checkpoint VLA par la MSE totale sur un robot à 11 DOF, c'est se raconter des histoires. Les articulations simples, tête et base roulante, tirent le score agrégé vers le bas et cachent que le bras, lui, continue de foirer : le modèle gagnant sur la métrique standard n'est pas celui qui tient en conditions réelles. Ce papier le prouve proprement avec 60 essais physiques, et avec SmolVLA de HuggingFace dans le lot, c'est pas juste un résultat académique.

IA physiqueOpinion
1 source
PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions
13arXiv cs.RO 

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Des chercheurs présentent PACE (Phase-Aware Chunk Execution), une méthode d'exécution sans réentraînement publiée sur arXiv (2606.00537) qui s'applique aux politiques robotiques exploitant l'action chunking. Le principe de l'action chunking, popularisé par des architectures comme ACT et les politiques de diffusion, consiste à faire prédire au modèle une séquence d'actions futures en bloc, dont seul un préfixe est exécuté en boucle ouverte avant de re-interroger le modèle. Le paramètre clé, l'horizon d'exécution (combien d'étapes du bloc sont jouées avant la prochaine observation), est jusqu'ici fixé statiquement. PACE le détermine dynamiquement en analysant le profil de vitesse prédit : les points de transition basse vitesse dans la trajectoire correspondent aux frontières naturelles entre phases de manipulation, et PACE les utilise comme candidats au replanning. La méthode a été validée sur 50 tâches RoboTwin 2.0 (passage de 57,8 % à 64,2 % de taux de succès), et sur robots réels avec une plateforme bimanuelle ALOHA et un bras Franka single-arm (score moyen 60,7 à 77,7, taux de succès 50,7 % à 70,4 %). Un gain de près de 20 points de pourcentage en conditions réelles sans modifier ni réentraîner le modèle sous-jacent est un résultat notable pour le secteur. Il confirme que le goulot d'étranglement ne réside pas toujours dans la qualité intrinsèque de la politique VLA ou diffusion, mais dans la stratégie de déploiement elle-même. PACE s'insère en plug-and-play au-dessus de n'importe quelle politique existante, sans accès aux poids ni aux couches internes, ce qui en fait un outil immédiatement utilisable par les intégrateurs et les équipes de mise en production, sans investissement en données ou calcul supplémentaire. L'action chunking s'est imposé comme standard d'exécution depuis les travaux sur ACT (Stanford, 2023) et les politiques de diffusion (Chi et al.), repris dans des systèmes comme pi-0 de Physical Intelligence ou les architectures OpenVLA. La rigidité de l'horizon fixe est un problème connu, et plusieurs approches ont tenté de l'adresser via du replanning conditionnel ou de la détection d'anomalies. PACE choisit une voie plus simple : exploiter uniquement le bloc d'actions déjà prédit, sans capteur ni signal externe. La prochaine étape logique sera de tester cette approche sur des politiques à plus haute fréquence comme GR00T N2 de NVIDIA ou les architectures hybrides VLA-diffusion qui émergent chez des acteurs comme Enchanted Tools en Europe, où la latence de replanning reste un verrou industriel.

UEEnchanted Tools et les équipes robotiques européennes déployant des politiques VLA ou de diffusion pourraient bénéficier directement de PACE pour améliorer leurs taux de succès en production sans coût de réentraînement ni d'accès aux poids du modèle.

💬 +20 points de taux de succès sur robot réel sans toucher au modèle, c'est le genre de résultat qui fait réfléchir sur où on met vraiment l'effort en robotique. L'idée est belle : plutôt que d'entraîner encore, on optimise le quand on replanifie, en lisant les creux de vitesse dans la trajectoire déjà prédite. Plug-and-play, sans accès aux poids, ça va intéresser sérieusement les équipes qui font de l'intégration prod, Enchanted Tools en tête.

IA physiqueOpinion
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
14arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

IA physiqueOpinion
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
15arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements
16arXiv cs.RO 

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

Un article de position déposé sur arXiv en juin 2026 (arXiv:2606.01036) soulève un problème structurel dans l'entraînement des robots fondationnels : les modèles de récompense embarqués (embodied reward models), centraux dans toute boucle d'apprentissage par renforcement, sont quasi-exclusivement entraînés sur des comportements réussis. Les auteurs ont évalué trois modèles de récompense de l'état de l'art et constatent qu'ils sur-récompensent systématiquement trois catégories de comportements qu'un évaluateur humain pénaliserait : interactions non sécurisées avec l'environnement, exécution de mauvaise qualité, et stratégies de raccourci qui satisfont l'apparence d'une tâche sans en remplir l'objectif réel. La cause pointée est le manque chronique de données négatives dans les datasets robotiques existants : comportements ratés, sous-optimaux ou dangereux, coûteux à collecter et systématiquement filtrés ou retenus par les équipes. Ce biais a des implications directes pour tout déploiement de robot généraliste en environnement industriel. Un modèle de récompense qui valide des comportements non sécurisés ou des raccourcis fonctionne comme un juge défaillant au coeur même de la boucle d'entraînement, produisant des systèmes validés en simulation mais problématiques en production. Les auteurs montrent qu'une exposition modeste à de vraies données de comportements négatifs améliore l'alignement avec les préférences humaines et réduit les faux positifs coûteux, argument pour une action corrective accessible à court terme plutôt qu'un problème structurel insoluble. La problématique s'impose avec l'essor des modèles vision-langage-action (VLA) tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure. Dans ce contexte, collecter des données d'échec reste plus contraignant qu'en NLP : chaque trajectoire ratée mobilise du matériel physique et présente un risque opérationnel réel. Les auteurs appellent la communauté à quatre actions concrètes : publier les données négatives aujourd'hui retenues, construire des moteurs de génération synthétique de mauvais comportements, déployer des systèmes d'évaluation physique décentralisés, et créer des benchmarks dédiés à l'évaluation fine des reward models. Aucun partenaire institutionnel ni calendrier opérationnel n'est annoncé dans le document, ce qui en fait pour l'instant un manifeste académique sans engagement opérationnel identifié.

IA physiqueOpinion
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
17arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements
18arXiv cs.RO 

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Des chercheurs présentent MPVI (Motion Planner / VLA Interleaving), une architecture hybride qui intègre la planification de mouvement classique dans les modèles VLA (Vision-Language-Action) pour renforcer leur robustesse en manipulation mobile sans nécessiter de données supplémentaires. Publiée sur arXiv (2606.00985), cette approche s'attaque à un problème documenté des VLA : leur difficulté à enchaîner des séquences longues de sous-tâches spatialement distribuées. Sur le benchmark BEHAVIOR-1K, MPVI affiche une amélioration de 113 % de la progression des tâches par rapport au meilleur VLA bout-en-bout de référence, sans aucun ré-entraînement du modèle de base. Le diagnostic des auteurs est net : dans les tâches à long horizon, les erreurs d'exécution précoces s'amplifient à mesure que la séquence s'allonge, et le fine-tuning sur de larges volumes de données téléopérées humaines n'y change rien. MPVI découple la navigation et la manipulation : un planificateur classique prend en charge la localisation et le déplacement vers des objets distants ou occultés, en s'appuyant sur la détection à vocabulaire ouvert et l'exploration de frontière, tandis que le VLA gère les manipulations de précision. La commutation entre les deux modules est pilotée par un mécanisme de vérification d'état via un modèle vision-langage (VLM), couplé à des déclencheurs proprioceptifs, sans entraînement supplémentaire. La course aux architectures VLA bout-en-bout est aujourd'hui dominée par Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses successeurs, et des initiatives comme LeRobot de Hugging Face, toutes misant sur des données à grande échelle pour gagner en généralité. MPVI s'inscrit dans un courant concurrent qui défend l'hybridation avec la robotique classique planifiée, une position partagée notamment par les travaux SayCan de Google Research. Le benchmark BEHAVIOR-1K, développé à Stanford et évalué en simulation, est conçu pour mesurer la robustesse sur des tâches domestiques variées et longues, ce qui en fait un terrain de test exigeant. Les auteurs ne revendiquent aucun déploiement physique réel : MPVI reste à ce stade une contribution académique, sans plateforme hardware ni partenaire industriel annoncé.

UEHugging Face (entreprise française) est cité comme acteur de référence dans l'espace VLA avec LeRobot, mais MPVI reste une contribution académique en simulation sans déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage
19arXiv cs.RO 

Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage

Une équipe de recherche a publié fin mai 2026 Goal2Pixel, un nouveau paradigme de navigation robotique en environnement continu guidée par le langage naturel (VLN-CE, Vision-and-Language Navigation in Continuous Environments). L'approche reformule le problème : plutôt que de demander au modèle de vision-langage (VLM) de prédire directement des actions motrices, Goal2Pixel lui demande d'identifier un pixel navigable dans le champ de vision courant. Ce pixel est ensuite rétro-projeté en coordonnées 3D pour générer un waypoint de navigation. Pour les actions non-linéaires (virage gauche, virage droit, arrêt), des régions auxiliaires codées directement dans l'image servent d'interface. Un module de mémoire par keyframes filtrées par visibilité permet la navigation sur longues distances sans saturer le contexte du modèle. Sur le benchmark standard R2R-CE Val-Unseen, Goal2Pixel atteint 54,1 % de Success Rate (SR) et 52,5 % de SPL, avec seulement 7,75 appels VLM par épisode en moyenne. Le gain d'efficacité est le fait saillant : la méthode de référence par prédiction d'action directe requiert 46,62 appels VLM par épisode pour un SR de seulement 32,9 %, soit 6 fois plus d'inférences pour une performance nettement inférieure. C'est un argument concret pour les intégrateurs qui cherchent à déployer des VLMs embarqués ou à limiter la latence en inférence. L'interface pixel unifie le raisonnement spatial du VLM et le contrôle moteur sans couche d'abstraction intermédiaire propriétaire, ce qui facilite le remplacement du backbone VLM par des versions plus récentes. Les résultats tiennent également sur le benchmark multilingue RxR-CE, ce qui suggère une certaine robustesse linguistique. Le problème VLN-CE reste un champ de recherche très actif, dominé par des approches basées sur des cartes sémantiques ou des prédictions d'actions discrètes. Goal2Pixel s'inscrit dans une tendance plus récente qui exploite les capacités de grounding spatial des grands modèles visuels (type Qwen-VL, LLaVA, InternVL) comme interface de contrôle directe, évitant l'entraînement d'une tête d'action spécialisée. Les résultats publiés sont des métriques benchmark sur simulateur (Matterport3D), pas des validations en environnement physique réel : le sim-to-real gap reste entier. Le code et la page projet sont accessibles publiquement, ce qui ouvre la voie à des reproductions et adaptations par la communauté.

IA physiqueOpinion
1 source
Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA
20arXiv cs.RO 

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

Des chercheurs ont publié sur arXiv (réf. 2508.20072, quatrième révision) Discrete Diffusion VLA, une architecture de politique robot qui intègre la diffusion discrète directement au sein du backbone transformeur unifié d'un modèle Vision-Language-Action (VLA). Sur le benchmark LIBERO, le système atteint 96,4 % de taux de réussite moyen, 71,2 % de correspondance visuelle sur SimplerEnv-Fractal et 54,2 % sur SimplerEnv-Bridge. Des évaluations en conditions réelles ont été conduites sur la plateforme AgileX Cobot Magic, un bras collaboratif de l'équipementier chinois du même nom. Le mécanisme central est un décodage adaptatif par ordre de confiance : le modèle résout d'abord les éléments d'action à haute certitude, puis revisite les prédictions incertaines via un re-masquage secondaire, permettant une correction d'erreur itérative sans générer une séquence de gauche à droite. L'enjeu architectural est concret. Les VLA actuels souffrent de deux compromis : la génération autorégressive classique (ordre fixe gauche-à-droite) affiche des performances limitées, tandis que les architectures à tête de diffusion continue externe, comme celle de Pi-0 de Physical Intelligence, fragmentent les flux d'information entre backbone et module d'action. En maintenant la diffusion à l'intérieur du backbone, cette approche préserve les représentations visuelles et linguistiques pré-entraînées. Le résultat chiffré est parlant : seulement 0,8 % de dégradation sur les tâches hors-distribution en langage, contre 8,0 % pour le décodage parallèle conventionnel, et 20,4 % en vision contre 29,0 % pour la diffusion continue. Pour un intégrateur ou un responsable technique évaluant une stack de manipulation généraliste, c'est un signal que la robustesse hors-distribution peut être préservée sans compromis sur la scalabilité. Les VLA se sont imposés comme paradigme dominant pour la manipulation généraliste, portés par OpenVLA, Octo, puis Pi-0 qui a popularisé la diffusion continue comme tête de décodage séparée, précisément l'architecture remise en question ici. La diffusion discrète, mieux connue dans le domaine du texte (MDLM, DMDM), est ici appliquée aux séquences d'actions robotiques, un transfert non trivial. La quatrième révision du preprint signale un travail en maturation active. Les prochaines étapes probables incluent le scaling sur des datasets larges de type Open X-Embodiment et l'évaluation sur des plateformes humanoïdes, où la gestion de l'incertitude en temps réel sera le vrai critère discriminant.

IA physiqueOpinion
1 source
Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage
21arXiv cs.RO 

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

IA physiqueOpinion
1 source
PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes
22arXiv cs.RO 

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

IA physiquePaper
1 source
PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts
23arXiv cs.RO 

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Des chercheurs ont publié sur arXiv (référence 2506.00515) PaCo-VLA, un framework qui comble le fossé entre les modèles Vision-Language-Action et le contrôle de contact haute fréquence. Le problème est structurel : les VLAs génèrent une sortie à quelques hertz seulement, alors que la régulation de dynamiques de contact exige des boucles à plusieurs kilohertz. PaCo-VLA requalifie le rôle du réseau neuronal : plutôt que de produire des commandes moteur directes, le VLA émet des "proposals de compliance", à savoir des engagements sémantiques, des étapes de tâche et des paramètres d'admittance. Un bouclier de passivité haute fréquence, indépendant du modèle, filtre ces proposals via une comptabilité d'énergie (energy-tank accounting) et des contrôles aux frontières, bloquant toute prédiction invalide ou périmée avant qu'elle n'atteigne la physique de contact. Les expériences d'insertion de connecteurs, en simulation et en conditions réelles, montrent une précision supérieure aux baselines VLA non protégées, avec zéro violation de passivité même sous perturbations adversariales de compliance. L'enjeu dépasse la performance brute. La passivité est une propriété de sécurité prouvable : elle garantit que le système ne génère pas d'énergie mécanique non désirée, ce qui est critique pour les assemblages de précision où une force mal régulée peut détruire la pièce ou l'actionneur. L'architecture découplée permet aussi une évaluation causale du VLA, isolant ce que le modèle contribue réellement en termes de raisonnement sémantique par opposition aux raccourcis géométriques que les réseaux exploitent souvent sans compréhension réelle. Pour un intégrateur ou un responsable industriel, PaCo-VLA propose un contrat d'interface formel, le "sampled-passive runtime contract at the admittance port", qui pourrait constituer un argument solide dans un dossier de certification pour environnement réglementé. Cette publication s'inscrit dans une problématique centrale de 2025-2026 : comment déployer des modèles de fondation tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google DeepMind sur des robots industriels sans compromettre la sécurité de contact ? La manipulation contact-riche, insertion de connecteurs, vissage, assemblage, reste le point faible des VLAs actuels qui excellent en manipulation en espace libre mais peinent dès que la force devient une variable critique. PaCo-VLA est encore au stade de preprint et n'a pas été validé à l'échelle industrielle ; les résultats publiés portent sur des tâches d'insertion en contexte contrôlé, loin d'un benchmark d'assemblage général. La prochaine étape naturelle serait une validation sur des chaînes de production réelles, où la variabilité des pièces et des tolérances mettrait véritablement à l'épreuve la robustesse du bouclier passif.

UEImpact indirect : le contrat d'interface formel proposé (passivité prouvable) pourrait alimenter les dossiers de certification pour déploiements VLA industriels en environnement réglementé EU, notamment dans le contexte de l'AI Act, mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source
Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA
24arXiv cs.RO 

Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA

Des chercheurs ont publié le 2 juin 2026 sur arXiv (réf. 2606.02486) AHEAD, un module d'anticipation conçu pour corriger un angle mort majeur des modèles Vision-Language-Action : leur incapacité à saisir des objets en mouvement. Les VLA actuels, dont OpenVLA (7 milliards de paramètres), capturent une observation instantanée et génèrent une action en supposant que la scène restera immobile, ce qui introduit une latence incompatible avec toute dynamique réelle. AHEAD (Anticipatory Horizon Extrapolation with Adaptive Dynamics) greffe un modèle de monde latent de seulement 4,9 millions de paramètres sur le VLA gelé : ce module prédit l'état futur de la scène dans l'espace de features du VLA, en s'appuyant sur les champs de vitesse et d'accélération par token extraits par flux optique, puis filtre les patchs pertinents via un masque combinant saillance linguistique et cinématique. Le décodeur d'action reçoit ces tokens futurs en lieu et place des tokens présents. En simulation, AHEAD atteint 79 à 97 % de succès sur 20 scénarios dynamiques, contre 31 à 58 % pour le meilleur concurrent. Sur robot physique (UFactory xArm 7), le système réussit 29 à 30 essais sur 30 pour des tâches de tapis roulant et de balle roulante, 23/30 pour l'interception de pagaie, et 19/30 pour l'interception de projectile, là où tous les baselines atteignent 0/30. Ce résultat est notable car il démontre un transfert sim-to-real fonctionnel sur des tâches dynamiques, un écueil historique des approches VLA : non seulement la prédiction dans l'espace latent se généralise à du matériel réel, mais le module léger (4,9 M de paramètres) n'impose aucune modification du modèle de base, ce qui ouvre la voie à une adoption modulaire sur n'importe quel VLA existant. Pour un intégrateur industriel, cela signifie qu'un bras robotisé équipé d'un VLA standard pourrait, sans réentraînement complet, traiter des pièces sur convoyeur ou dans des environnements non structurés, un verrou majeur pour la robotisation flexible de lignes d'assemblage ou de tri. Les VLA ont émergé comme paradigme dominant en manipulation robotique depuis 2023, portés par des travaux comme RT-2 (Google DeepMind) et la série OpenVLA (Berkeley). La manipulation statique étant désormais largement résolue par ces modèles, le front de recherche se déplace vers le dynamique, le déformable et l'incertain. AHEAD s'inscrit dans cette tendance, en compétition implicite avec des approches comme ACT (Action Chunking Transformer) ou les méthodes de replanning rapide à base de diffusion. L'article reste un preprint de laboratoire académique sans déploiement industriel annoncé, et les conditions de test physique (30 essais par tâche, environnement contrôlé) restent loin d'une validation en conditions de production ; les performances sur projectile (19/30) méritent un regard critique. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme RoboSuite ou une collaboration avec un partenaire industriel pour valider la robustesse hors-labo.

UEAucun acteur européen impliqué ; les intégrateurs industriels EU travaillant sur la robotisation de lignes de convoyage ou de tri pourraient à terme bénéficier de cette approche modulaire compatible avec tout VLA existant, sans réentraînement du modèle de base.

IA physiqueOpinion
1 source
GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées
25arXiv cs.RO 

GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées

GraspGen-X est un modèle de préhension robotique 6-DOF (six degrés de liberté) publié sur arXiv le 2 juin 2026, conçu pour opérer en cross-embodiment : contrairement aux approches précédentes limitées à des préhenseurs spécifiques, il généralise simultanément à de nouveaux objets, de nouvelles scènes, et de nouvelles morphologies de préhenseurs. Le modèle étend les générateurs de préhension basés sur la diffusion en conditionnant la génération sur une représentation du préhenseur encodée via une heuristique de "volume balayé" (swept-volume), qui capture la géométrie du préhenseur pendant son mouvement d'approche. L'entraînement s'appuie sur un dataset massif de 2 milliards de préhensions générées avec des préhenseurs procéduraux synthétiques. Dans les expériences en simulation, GraspGen-X obtient les meilleures performances en généralisation zéro-shot vers des préhenseurs réels inédits, surpassant les méthodes de référence. Le modèle constitue également un bon point de départ pour le fine-tuning sur de nouveaux préhenseurs, ce qui réduit le coût d'adaptation. Pour les intégrateurs robotiques, c'est un signal concret : la perspective d'un module de préhension unique déployable sur plusieurs plateformes (bras industriels, manipulateurs collaboratifs, mains anthropomorphes) sans réentraînement complet compresse significativement les coûts d'intégration. La capacité à transférer du simulateur vers le réel sur des préhenseurs jamais vus à l'entraînement adresse directement le sim-to-real gap en manipulation, longtemps identifié comme verrou pour les architectures VLA (Vision-Language-Action) appliquées à la saisie d'objets. La recherche en 6-DOF grasping s'est longtemps structurée autour d'approches liées à des géométries de préhenseur fixes, de GraspNet à GQ-CNN en passant par les travaux de Columbia et du MIT sur la synthèse de prises. Les modèles de diffusion pour la préhension ont émergé récemment comme alternative générative, mais restaient mono-embodiment. GraspGen-X s'inscrit dans la tendance plus large des modèles fondationnels pour la robotique, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui visent la généralisation multi-tâches et multi-plateformes. Le papier reste pour l'instant une preuve de concept académique sans déploiement industriel annoncé; la prochaine étape naturelle serait une validation à plus grande échelle sur des préhenseurs physiques variés et l'intégration dans des pipelines de manipulation complets.

IA physiqueOpinion
1 source
Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique
26arXiv cs.RO 

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

Des chercheurs ont déposé le 1er juin 2026 sur arXiv (réf. 2606.01027) τ₀-WM (tau-zéro World Model), une architecture unifiée vidéo-action pour la manipulation robotique. Le modèle repose sur un backbone de diffusion vidéo partagé qui intègre simultanément apprentissage de politique, prédiction vidéo et évaluation d'actions au sein d'un même cadre prédictif. Il expose deux interfaces complémentaires : un modèle d'action vidéo qui prédit conjointement des représentations visuelles latentes futures et des séquences d'actions continues à partir d'observations multi-caméras, d'instructions en langage naturel et de l'état courant du robot ; et un simulateur vidéo conditionné sur l'action, capable de dérouler des séquences candidates en projections multi-vues tout en attribuant des scores denses de progression de tâche. L'entraînement porte sur environ 27 300 heures de données combinant téléopération réelle, interactions de style UMI (Universal Manipulation Interface, protocole de collecte de données en bimanuel développé par Stanford), vidéos égocentrées humaines, et trajectoires de succès comme d'échecs. L'intérêt principal réside dans la convergence entre politique et modèle de monde au sein d'une architecture commune. Les VLA (Vision-Language-Action models) actuels génèrent des actions sans anticiper leurs conséquences, laissant la gestion des erreurs à des modules séparés. τ₀-WM introduit un mécanisme de rectification à l'inférence : le simulateur évalue chaque séquence candidate via un score dense de progression, et les candidats jugés insuffisants sont corrigés par re-débruitage. Ce test-time scaling structuré pourrait réduire les interventions humaines sur des tâches longue durée, un enjeu clé pour les intégrateurs industriels qui peinent encore à déployer des robots autonomes sur des séquences de plus de quelques étapes. Sur les benchmarks de manipulation fine et longue séquence, les auteurs déclarent surpasser les baselines comparables, sans préciser les conditions expérimentales ni les contraintes matérielles testées. Ce travail s'inscrit dans une course engagée depuis fin 2024 entre Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Figure (Helix) pour des architectures VLA à grande échelle, mais rares sont celles qui intègrent simulation interne et évaluation d'action dans un seul modèle plutôt que dans un pipeline découplé. L'usage de données UMI signale une stratégie d'agrégation multi-source qui dépasse les corpus propriétaires et pourrait favoriser la généralisation à de nouveaux environnements. Le papier reste pour l'instant un preprint non soumis à revue par les pairs : les performances annoncées restent à valider sur robot physique en conditions réelles, et aucune date de déploiement ou partenariat industriel n'est mentionné.

IA physiqueOpinion
1 source
OneVLA : un cadre unifié pour les tâches d'IA incarnée
27arXiv cs.RO 

OneVLA : un cadre unifié pour les tâches d'IA incarnée

Une équipe de recherche a publié fin mai 2026 sur arXiv (référence 2606.01241) un modèle baptisé OneVLA, présenté comme une architecture unifiée Vision-Langage-Action (VLA) capable de gérer à la fois la navigation autonome et la manipulation d'objets au sein d'un seul et même réseau. Le principe central repose sur une tête d'action commune qui génère des commandes de déplacement et des gestes de manipulation sans module séparé ni variante spécialisée selon la tâche. L'entraînement suit une stratégie progressive en plusieurs étapes, avec construction de jeux de données curés et un fine-tuning par Chain-of-Thought (CoT) visant à créer un transfert positif entre les deux domaines. Les expériences rapportées couvrent des environnements simulés et réels, et les auteurs affirment surpasser les modèles spécialisés à tâche unique ainsi que les approches cross-task existantes. Le code source et les poids du modèle sont annoncés comme devant être rendus publics, sans date précisée. L'enjeu est structurel pour le secteur : la quasi-totalité des VLA actuellement déployés ou publiés restent monolithiques par domaine. Pi-0 de Physical Intelligence excelle en manipulation dextère, GR00T N2 de NVIDIA intègre des capacités de navigation mais avec des têtes d'action distinctes, et la plupart des agents issus des travaux RT-X ou OpenVLA ne combinent pas les deux modalités de façon cohérente. Un modèle qui transfère positivement entre navigation et manipulation éviterait aux équipes d'intégration de maintenir deux pipelines d'inférence séparés, un coût opérationnel significatif en production. Le CoT appliqué à la planification motrice est également notable : il indique que le raisonnement symbolique peut renforcer la généralisation comportementale, une hypothèse jusqu'ici difficile à valider à l'échelle réelle. Ce travail s'inscrit dans une tendance de fond amorcée depuis 2024 vers les architectures dites "fondation" pour la robotique généraliste. Les limitations à signaler : il s'agit d'un preprint sans revue par les pairs, les benchmarks précis de performance (taux de succès par scénario, temps de cycle, conditions d'éclairage ou de charge) ne sont pas détaillés dans l'abstract, et aucune institution commerciale ni déploiement industriel n'est mentionné. Les prochaines étapes naturelles seraient la publication du code pour permettre une évaluation indépendante, ainsi qu'une validation sur plateformes humanoïdes réelles, là où la fusion navigation-manipulation est la plus critique pour des cas d'usage entrepôt ou logistique.

IA physiqueOpinion
1 source
IA incarnée : intégration du risque sémantique dans les champs de distance et les CBF pour un contrôle monoculaire en ligne
28arXiv cs.RO 

IA incarnée : intégration du risque sémantique dans les champs de distance et les CBF pour un contrôle monoculaire en ligne

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.01605) un framework de navigation sûre qui intègre le risque sémantique directement dans la représentation spatiale utilisée par les contrôleurs basés sur les Control Barrier Functions (CBF). Le système fonctionne à partir d'une unique caméra RGB monoculaire, reconstruit la géométrie 3D dense en temps réel via un front-end SLAM fondé sur un modèle de fondation, puis fusionne une segmentation sémantique par pixel dans cette géométrie. Le tout est converti en un champ de distance signé euclidien (ESDF) enrichi sémantiquement, où chaque classe d'obstacles impose un gonflement spatial proportionnel à son niveau de risque avant le calcul du champ. Le pipeline tourne en ligne à 10-20 Hz et a été validé en simulation et sur du matériel réel, en téléopération et en navigation autonome. L'intérêt opérationnel est précis : les architectures CBF classiques appliquent la même marge de sécurité à tous les obstacles cartographiés, qu'il s'agisse d'une pile de cartons ou d'un opérateur humain. En encodant le risque sémantique dans l'ESDF avant l'optimisation du contrôleur, et non en ajustement aval, les objets à risque élevé exercent une influence spatiale plus grande dès la représentation du monde. Pour un intégrateur ou un COO industriel, cela signifie un robot capable de moduler automatiquement ses marges de sécurité selon le contexte sans reconfiguration manuelle des paramètres de contrôle, ce qui est pertinent pour des environnements mixtes homme-machine. Les CBF sont un outil mathématique bien établi pour garantir la sécurité des systèmes dynamiques, et leur usage dans la robotique mobile croît depuis une dizaine d'années. La littérature existante exploitait déjà les ESDF pour alimenter ces contrôleurs, mais la fusion sémantique restait marginale ou traitée en post-processing. Ce travail reste au stade preprint sans déploiement industriel annoncé, et les vidéos de démonstration sélectionnées ne permettent pas d'évaluer la robustesse en conditions réelles dégradées. Les prochaines étapes naturelles sont l'évaluation sur des scènes avec occultations et des classes d'obstacles plus nombreuses, ainsi qu'une comparaison quantitative avec des baselines sémantiques concurrentes.

IA physiquePaper
1 source
Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée
29arXiv cs.RO 

Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée

Une équipe de chercheurs a publié début juin 2026 sur arXiv (réf. 2606.01015) une revue de la littérature consacrée à l'intégration conjointe de l'intelligence artificielle, de l'Internet des objets (IoT) et de la robotique, trois domaines qui progressaient jusqu'ici principalement deux à deux. Les auteurs recensent les travaux existants autour de combinaisons établies, l'AIoT (IA et IoT) et l'Internet of Robotic Things (IoRT, couplant IoT et robotique), et constatent l'absence persistante de cadres de conception unifiés orchestrant les trois disciplines simultanément. Leur principale contribution est une architecture modulaire où des petits modèles de langage (SLM, Small Language Models) assurent l'inférence locale en bordure de réseau (edge), tandis que des grands modèles de langage (LLM) hébergés dans le cloud prennent en charge le raisonnement de haut niveau et la prise de décision autonome. Pour les intégrateurs industriels et les responsables techniques B2B, l'architecture hybride SLM-LLM proposée répond à deux contraintes opérationnelles majeures : réduire la latence en traitant localement les données capteurs, et limiter la dépendance réseau dans des environnements de production. La revue identifie des verrous encore ouverts, notamment l'interopérabilité entre protocoles hétérogènes et la boucle de contrôle par retour d'information dans des systèmes multi-agents distribués. Il convient de souligner que ces résultats restent à ce stade conceptuels : le papier propose un cadre et une taxonomie, pas un système validé en déploiement réel, et l'absence de benchmarks reproductibles est explicitement signalée comme une limite. Ce travail s'inscrit dans un courant académique et industriel que NVIDIA a popularisé sous le terme de Physical AI, désignant des systèmes capables d'agir dans le monde physique via des robots ou des actionneurs connectés. La robotique connectée que dessine ce survey fait écho aux développements de plateformes cloud-robot portés par des acteurs comme Boston Dynamics, ou en Europe par des intégrateurs spécialisés comme Exotec dans les AMR et Enchanted Tools dans la robotique collaborative. Les auteurs identifient eux-mêmes comme prochaine étape la validation expérimentale de leur cadre sur des cas d'usage réels, condition nécessaire pour que l'architecture proposée dépasse le statut de roadmap et devienne une référence opérationnelle pour l'industrie.

UEL'architecture SLM-LLM proposée pourrait bénéficier à terme aux intégrateurs européens comme Exotec (AMR) et Enchanted Tools (cobots), mais reste un cadre conceptuel sans validation terrain ni benchmarks reproductibles.

IA physiquePaper
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
30arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

IA physiqueOpinion
1 source
WALL-WM : modélisation des actions du monde aux points d'articulation d'événements
31arXiv cs.RO 

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.01955) les travaux portant sur WALL-WM, un World Action Model (WAM) qui propose de repenser la manière dont les modèles Vision-Language-Action (VLA) sont entraînés pour la robotique généraliste. Là où les approches dominantes, comme celles exploitées par Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2), optimisent des "chunks" d'actions à longueur fixe conditionnés sur l'observation courante, WALL-WM substitue à cette unité temporelle arbitraire l'événement sémantique : une séquence d'actions cohérente du point de vue du sens (attraper un objet, ouvrir un tiroir), extraite automatiquement par des légendes au niveau événementiel et un échantillonnage cluster-balancé. Le modèle expose deux modes d'inférence : un mode "event" qui consomme des descriptions de l'événement suivant et produit des chunks à longueur variable, et un mode "unified" qui applique un mécanisme baptisé Staircase Decoding pour conserver une inférence à longueur fixe tout en maintenant un chemin VLA à gradient continu. Le tout est entraîné à grande échelle via l'optimiseur Muon, et les auteurs revendiquent des performances état de l'art sur une évaluation de généralisation en monde réel à large échelle, sans préciser les benchmarks ni les données de déploiement. L'intérêt de l'approche réside dans le diagnostic qu'elle formule : le désalignement de granularité entre langage (objectifs sémantiques), vision (dynamique de scène continue) et actions (timescales de contrôle) transforme l'entraînement VLA classique en simple fitting de corrélations à court horizon, ce qui explique les difficultés de généralisation observées hors distribution. En traitant l'événement comme unité atomique d'apprentissage, WALL-WM offre une piste sérieuse pour réduire le sim-to-real gap et améliorer le transfer sur des tâches et des scènes non vues, deux verrous majeurs qui bloquent le passage à l'échelle industrielle des robots manipulateurs. Il convient cependant de rester prudent : il s'agit d'un preprint sans revue par les pairs, sans données de déploiement terrain, et sans détail sur les benchmarks précis utilisés pour établir la supériorité annoncée. WALL-WM s'inscrit dans une vague de recherche sur les WAMs qui a pris de l'ampleur depuis 2024, portée notamment par Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2 et ses successeurs, et NVIDIA avec GR00T N2 pour les humanoïdes. Ces modèles partagent l'ambition de pré-entraîner des politiques robotiques générales sur des données hétérogènes avant de les affiner par tâche. La contribution de WALL-WM est théoriquement propre et l'infrastructure Muon suggère un effort de calcul significatif, mais l'absence de résultats quantitatifs détaillés dans le résumé limite l'évaluation externe. Les prochaines étapes attendues sont une publication complète avec benchmarks reproduisibles (LIBERO, OpenVLA-OFT, RoboMimic) et, idéalement, des partenariats industriels pour validation en environnement de production.

IA physiqueOpinion
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
32Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

IA physiqueOpinion
1 source
IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3
33NVIDIA Developer Blog 

IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3

NVIDIA a annoncé Cosmos 3, un modèle fondamental de frontière dédié à l'IA physique, conçu pour doter les robots, les véhicules autonomes et les espaces intelligents d'une capacité de compréhension du monde réel. L'architecture de Cosmos 3 repose sur trois composantes intégrées : des modèles de raisonnement physique, des modèles de monde et des modèles d'action, permettant à un système de percevoir son environnement, d'anticiper les événements à venir et de produire des séquences d'actions adaptées à une incarnation physique et à une tâche spécifiques. Ce type d'approche unifiant raisonnement, simulation et action au sein d'un seul modèle fondamental représente un changement de paradigme pour les intégrateurs robotiques. Jusqu'ici, ces trois briques étaient souvent développées séparément, ce qui générait des lacunes au niveau du transfert sim-to-real. Un modèle entraîné à raisonner sur la physique du monde avant de planifier l'action offre théoriquement une meilleure généralisation sur des tâches non vues en production, bien que les benchmarks industriels indépendants restent à confirmer. NVIDIA avait introduit la plateforme Cosmos en janvier 2025 au CES, positionnant alors ses modèles génératifs de monde comme infrastructure pour les fabricants de robots et les constructeurs automobiles. Cosmos 3 s'inscrit dans cette trajectoire d'itération rapide, face à une concurrence directe : Google DeepMind avec les modèles Gemini Robotics et RT-2, Physical Intelligence (pi) avec Pi-0, et Figure AI avec ses propres VLA. L'enjeu pour NVIDIA est de s'imposer comme couche d'infrastructure fondamentale de l'IA physique, au-delà du seul matériel GPU.

UENVIDIA Cosmos 3 pourrait devenir une couche d'infrastructure fondamentale adoptée par les intégrateurs robotiques européens (ABB, KUKA, Stäubli), mais l'impact réel dépendra des benchmarks industriels indépendants et des conditions d'accès à la plateforme.

💬 Le vrai pari de NVIDIA avec Cosmos 3, c'est de s'imposer comme couche d'infrastructure logicielle de l'IA physique, au-delà du GPU. Raisonner sur la physique avant de planifier l'action, et unifier les trois briques dans un seul fondamental, c'est exactement ce qui manquait pour réduire les galères de transfert sim-to-real qui plombent les déploiements robotiques depuis des années. Sans benchmarks industriels indépendants, ça reste du déclaratif, mais la direction est la bonne.

IA physiqueOpinion
1 source
Wall-OSS-0.5 : rapport technique
34arXiv cs.RO 

Wall-OSS-0.5 : rapport technique

Une équipe de chercheurs a publié sur arXiv (2605.30877) le rapport technique de Wall-OSS-0.5, un modèle Vision-Language-Action (VLA) open source de 4 milliards de paramètres, construit sur un backbone VLM de 3B paramètres auquel sont greffés des composants de génération d'actions. Le modèle a été pré-entraîné sur plus de 20 morphologies robotiques différentes, en ingérant plus d'un million de trajectoires robot par époque, couplées à un corpus multimodal ancré. La recette d'entraînement repose sur un co-entraînement à gradient bridgé combinant trois objectifs complémentaires : prédiction d'actions discrètes pour faire circuler des gradients VLM forts dans le backbone, prédiction multimodale pour préserver la compréhension vision-langage, et flow matching continu comme interface d'action au moment du déploiement. Avant tout fine-tuning spécifique, le checkpoint pré-entraîné atteint des comportements zero-shot non triviaux sur un banc de 17 tâches réelles, y compris une tâche de manipulation d'objets déformables hors distribution. Après fine-tuning, il affiche 60,5% de progression moyenne sur 15 tâches réelles et surpasse Pi-0.5 de 17,5 points de pourcentage. Ce résultat repose la question fondamentale du pré-entraînement VLA : jusqu'ici, la quasi-totalité des preuves de performance étaient mesurées après fine-tuning, rendant impossible la distinction entre "le pré-entraînement forme une politique utilisable" et "le pré-entraînement fournit juste une meilleure initialisation". Wall-OSS-0.5 démontre que le checkpoint brut produit des comportements exécutables sur matériel physique, y compris sur des tâches jamais vues. Le fait que l'entraînement sur données d'action ne dégrade pas les capacités vision-langage générales est également significatif pour les intégrateurs : cela suggère qu'un seul modèle fondation peut couvrir perception, raisonnement et contrôle sans compromis majeur, ce qui simplifie l'architecture système. Wall-OSS-0.5 s'inscrit dans la dynamique des VLA fondationnels initiée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa publication open source le distingue dans un secteur dominé par des checkpoints propriétaires, et permet des comparaisons reproductibles. La performance zero-shot sur manipulation déformable est notable car ce type de tâche est réputé difficile à généraliser : c'est précisément le type de gap sim-to-real que les approches purement simulées peinent à combler. Les prochaines étapes probables incluent un scaling du corpus et des évaluations sur des plateformes humanoïdes commerciales, où la generalisation cross-embodiment du modèle pourra être testée en conditions industrielles.

UELe caractère open source de Wall-OSS-0.5 permet aux équipes de R&D françaises et européennes d'accéder librement à un modèle VLA fondationnel compétitif, réduisant la dépendance aux checkpoints propriétaires américains et asiatiques.

💬 Le vrai truc ici, c'est pas les 60,5% sur le benchmark. C'est que le checkpoint pré-entraîné produit des comportements exécutables sur du vrai matériel, sans fine-tuning, y compris sur des tâches jamais vues. Et open source par-dessus le marché, dans un secteur où tout le monde garde jalousement ses poids pour soi.

IA physiqueOpinion
1 source
Sous-espaces primitifs et transfert en quelques exemples dans les VLA
35arXiv cs.RO 

Sous-espaces primitifs et transfert en quelques exemples dans les VLA

Une équipe de recherche publiée en mai 2026 sur arXiv (2605.30695) démontre qu'entraîner des politiques VLA (vision-language-action) avec une segmentation explicite en sous-compétences primitives permet un transfert en quelques démonstrations, sans mise à jour des poids du modèle. Les chercheurs ont comparé deux architectures aux biais inductifs distincts, OpenVLA et π₀.₅ (de Physical Intelligence), sur le jeu de données REASSEMBLE, qui couvre des tâches d'assemblage à contact riche, en appliquant un protocole strict : mêmes recettes LoRA, mêmes hyperparamètres, trois seeds d'entraînement indépendantes. Les modèles entraînés avec des épisodes segmentés en primitives annotées par des prompts linguistiques spécifiques atteignent 78 % des performances du modèle fine-tuné complet avec seulement trois démonstrations d'une tâche jamais vue à l'entraînement. Les modèles entraînés sur des trajectoires plates nécessitent dix démonstrations pour atteindre le même niveau, soit un écart de 3× en efficacité d'échantillon, répliqué sur les deux architectures et validé sur un second jeu de données (LIBERO-Long). Ce résultat s'attaque directement au principal frein à l'industrialisation des VLA : aujourd'hui, introduire une nouvelle tâche en production implique un cycle coûteux de collecte de données et de fine-tuning. Réduire ce besoin à trois démonstrations représente un gain opérationnel concret pour les intégrateurs et les équipes de déploiement terrain. La rigueur causale est notable : les auteurs ablate le sous-espace décodable par les primitives dans les états cachés du modèle et mesurent une chute de 32 points de pourcentage sur le transfert few-shot, alors qu'ablater un sous-espace aléatoire de même dimensionnalité n'a aucun effet statistique. Cela établit que les représentations de primitives sont causalement nécessaires, et non simplement corrélées aux bonnes performances, une distinction importante que beaucoup d'études comparatives ne prennent pas la peine de vérifier. Dans le paysage concurrentiel, Physical Intelligence (π₀, π₀.₅) et le projet OpenVLA (Berkeley) sont les deux familles de VLA généralistes les plus actives, avec des approches très différentes sur la question de la généralisation. Ce travail s'inscrit dans la course à résoudre le problème sim-to-real et zero/few-shot, où RT-2 (Google DeepMind), Octo ou encore RoboFlamingo restent des références. Les auteurs signalent également un biais méthodologique systématique dans l'évaluation des politiques à actions groupées (chunked policies) : une inflation par famille des seuils de validation d'actions produit des taux de faux-échecs jusqu'à dix fois supérieurs lorsqu'on compare à des démonstrations humaines réelles, ce qui invalide silencieusement de nombreuses évaluations publiées dans ce sous-domaine.

💬 Trois démos au lieu de dix pour transférer une tâche jamais vue, sans toucher aux poids du modèle. C'est exactement le verrou qui bloquait l'industrialisation des robots généralistes, et là on a enfin des chiffres reproductibles sur deux architectures distinctes. Le bonus : ils prouvent la causalité par ablation, pas juste une corrélation, ce qui est trop rare dans ce domaine pour ne pas le signaler.

IA physiqueOpinion
1 source
Mélange d'horizons dans le découpage en actions
36arXiv cs.RO 

Mélange d'horizons dans le découpage en actions

Des chercheurs ont publié sur arXiv (réf. 2511.19433v2) une approche baptisée Mixture of Horizons (MoH) qui s'attaque à un verrou technique dans les modèles vision-langage-action (VLA) utilisés pour la manipulation robotique. Le problème identifié est le suivant : la longueur du "chunk d'action" (le nombre de pas d'action prédits en une seule passe, appelé horizon) conditionne fortement les performances, mais aucune valeur fixe n'est optimale. Un horizon long donne une meilleure prévision globale du mouvement mais dégrade la précision fine ; un horizon court améliore le contrôle local mais échoue sur les tâches longues. MoH découpe le chunk d'action en plusieurs segments à horizons différents, les traite en parallèle via un transformeur d'action partagé, et fusionne les sorties avec une porte linéaire légère. Appliqué aux politiques pi-0, pi-0.5 (Physical Intelligence) et pi-reg, MoH atteint 99 % de taux de succès moyen sur le benchmark LIBERO en seulement 30 000 itérations d'entraînement, un nouveau state-of-the-art. Le mode d'inférence dynamique, qui sélectionne les actions stables par consensus inter-horizons, délivre un débit 2,5 fois supérieur aux baselines. L'intérêt principal de MoH est sa nature plug-and-play : il s'intègre sans modification architecturale majeure dans tout module d'action à attention complète, avec un surcoût d'entraînement et d'inférence minimal. Pour les équipes qui déploient des VLA en manipulation industrielle ou sur des plateformes humanoïdes, cela signifie qu'elles peuvent améliorer significativement la robustesse sur des tâches mixtes (gestes fins + séquences longues) sans changer leur infrastructure. Le gain de débit est particulièrement pertinent pour le temps réel embarqué, où la latence de prédiction est un facteur limitant concret. Ce travail s'inscrit dans l'essor des VLA issus des travaux de Physical Intelligence (pi-0, sorti fin 2024) et d'OpenVLA, qui ont démontré que le préentraînement multimodal peut accélérer la généralisation en manipulation. Le benchmark LIBERO, issu de recherches en imitation learning, sert de référence standard pour évaluer la transfer et la composition de tâches. Les concurrents directs dans l'espace VLA incluent RoboVLMs de Google DeepMind, OpenVLA-OFT, et les travaux de Carnegie Mellon sur ACT/Diffusion Policy. MoH reste à ce stade une contribution de recherche académique, sans déploiement industriel annoncé, mais sa compatibilité plug-and-play le rend directement utilisable par les équipes qui entraînent déjà sur pi-0 ou des architectures dérivées.

💬 Le problème de l'horizon d'action, c'est un classique en robotique, et personne n'avait vraiment trouvé de sortie propre avant ça. MoH répond avec la bonne idée au bon moment : plusieurs horizons en parallèle, une porte de fusion légère, et tu gardes toute ton infra existante. 99 % sur LIBERO, 2,5x de débit, plug-and-play sur pi-0, bon, sur le papier c'est difficile de trouver à redire.

IA physiqueOpinion
1 source
TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus
37arXiv cs.RO 

TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.31121) TARIC, un cadre de navigation extérieure vision-langage (VLN) conçu pour résister aux interruptions d'indices sémantiques sur des trajets longue distance. Le problème ciblé est précis : lorsqu'un robot navigue en milieu ouvert sur des routes de 600 à 1 000 mètres, les repères visuels guidant sa trajectoire (panneaux, objets, structures reconnaissables) disparaissent régulièrement du champ de vision, créant des phases sans indice pendant lesquelles les systèmes actuels dérivent, oscillent ou font demi-tour. TARIC répond avec trois mécanismes intégrés : extraction d'orientations sémantiques depuis des indices de but filtrés par visibilité, ancrage de ces orientations dans un profil de traversabilité en temps réel pour générer des caps exécutables (et non plus de simples filtres de sécurité), et mémorisation des indices 2D dans une carte 3D alignée sur le monde avec un mécanisme de lecture tenant compte de l'incertitude. Évalué sur des plateformes quadrupèdes et sur roues, le système atteint 40 % de taux de succès en conditions réelles contre 17,5 % pour la meilleure baseline existante, et améliore de plus de 10 points de pourcentage le taux en simulation. Ce résultat terrain est significatif dans un domaine où le fossé entre simulation et déploiement reste l'obstacle majeur. La plupart des frameworks VLN extérieurs publiés présentent des performances en simulation qui ne se transposent pas au terrain ; TARIC maintient un gain relatif de 2,3× sur le meilleur concurrent en conditions réelles, ce qui suggère que traiter la traversabilité comme une contrainte de guidance active (et non un simple filtre) réduit effectivement le sim-to-real gap. Pour les intégrateurs de robots d'inspection ou de surveillance sur campus ou sites industriels, cela signifie une navigation autonome longue distance plus robuste sans infrastructure de balises denses. La contribution architecturale clé, transformer des indices 2D éphémères en mémoire 3D avec readout incertain, ouvre aussi une piste concrète pour les AMR opérant dans des environnements semi-structurés. La navigation vision-langage en extérieur est un champ actif depuis les travaux sur VLN-BERT et les méthodes fondées sur CLIP, mais la majorité des approches ont été conçues pour des intérieurs structurés ou des parcours courts. L'extension aux environnements ouverts sur plus de 600 mètres positionne directement TARIC face à des acteurs comme Boston Dynamics (Spot), Unitree et ANYbotics, dont les quadrupèdes déployés en inspection longue distance dépendent encore largement de waypoints prédéfinis ou de cartes SLAM. TARIC, issu d'un preprint non encore soumis à peer review, reste à ce stade une preuve de concept académique : les prochaines étapes naturelles incluent une validation sur des flottes multi-robots, une intégration avec des stacks open-source comme Nav2, et des tests en conditions météorologiques dégradées, non couverts par l'article.

IA physiquePaper
1 source
Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire
38arXiv cs.RO 

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Une équipe de chercheurs a publié début 2026 sur arXiv (réf. 2602.21013, version révisée) une approche augmentant les modèles VLA (Vision-Language-Action) d'un module de mémorisation textuelle appelé "scratchpad", littéralement un bloc-notes interne. Le principe : pendant l'exécution d'une tâche, le modèle peut écrire des notes intermédiaires en langage naturel, notamment les positions d'objets détectées, l'état d'avancement du plan et les sous-objectifs restants à accomplir. Les auteurs ont évalué cette méthode sur deux benchmarks spécialisés, ClevrSkills et MemoryBench, ainsi que sur une tâche réelle de pick-and-place. Résultat annoncé : le scratchpad améliore significativement la généralisation sur ces tâches, aussi bien pour les architectures récurrentes que non récurrentes. La problématique adressée est structurelle. La majorité des VLA actuels opèrent de façon "sans état" (stateless) : ils traitent chaque instant de décision de manière indépendante, sans mémoire explicite des étapes précédentes. Or de nombreuses tâches de manipulation dextère sont non-markoviennes par nature, ce qui signifie que la décision optimale à l'instant t dépend de ce qui s'est passé avant t. Ce travail défend qu'un mécanisme aussi simple qu'un bloc-notes textuel suffit à combler une partie de ce gap, sans modifier l'architecture fondamentale du modèle. Pour les équipes R&D développant des solutions sur longue séquence (assemblage multi-étapes, tri conditionnel, manipulation avec gestion d'état), c'est une piste légère compatible avec les VLA open-source existants, à condition que les résultats sur ClevrSkills et MemoryBench se confirment dans des environnements industriels réels plus bruités. Les VLA ont connu une accélération majeure depuis 2023 avec RT-2 de Google DeepMind, OpenVLA de UC Berkeley, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, tous construits sur le principe de la compréhension sémantique à grande échelle transférée au geste robotique. La limite "sans mémoire" était connue des praticiens mais peu formalisée dans la littérature récente. Ce travail s'inscrit dans une tendance visant à doter les VLA de capacités de raisonnement à long horizon, en parallèle d'autres approches comme les architectures récurrentes ou les planificateurs hybrides symbolique-neuraux. Il s'agit d'un preprint académique sans déploiement ni partenariat industriel annoncé, et les benchmarks utilisés (ClevrSkills, MemoryBench) restent des environnements relativement contrôlés dont la transférabilité au terrain est encore à démontrer.

IA physiqueOpinion
1 source
ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play
39arXiv cs.RO 

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

ELAN4D est un cadre d'entraînement pour modèles Vision-Language-Action (VLA) publié en preprint arXiv en mai 2026, conçu pour améliorer la robustesse aux perturbations hors-distribution. Le problème central: les VLA actuels comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) réagissent directement aux observations sans modéliser les dynamiques futures, ce qui dégrade leurs performances dès que les conditions changent. ELAN4D injecte une supervision 4D basée sur l'embodiment: à partir des seuls états proprioceptifs du robot, il calcule des trajectoires 3D de points clés (articulations, effecteur terminal) via cinématique directe, sans tracker externe ni reconstruction. Un décodeur léger est ajouté pendant l'entraînement puis retiré à l'inférence, laissant l'interface du modèle de base inchangée. Sur les benchmarks LIBERO, LIBERO-Plus, RoboTwin2.0 et sur des tâches en conditions réelles, ELAN4D surpasse les baselines VLA avec des gains substantiels sous perturbations de caméra, d'arrière-plan et de disposition d'objets. L'atout principal est pragmatique: améliorer un VLA existant sans reconstruction 3D coûteuse ni modification du backbone vision-langage pré-entraîné (les gradients sont isolés pour le préserver), et sans overhead à l'inférence. Ce mode plug-and-play permet d'appliquer l'approche à des modèles existants sans repartir d'une architecture neuve, un avantage direct pour les équipes R&D et les intégrateurs. Le gap de généralisation hors-distribution est l'un des freins majeurs à l'industrialisation des politiques de manipulation, et les gains annoncés sur benchmarks sont potentiellement significatifs si confirmés en déploiement réel. Il convient cependant de tempérer: les résultats sont établis en conditions de laboratoire, sans validation à grande échelle en production. La dynamique de recherche sur les VLA robustes s'est intensifiée depuis pi-0 (Physical Intelligence, octobre 2024) et la popularisation des architectures diffusion policy et action chunking transformer, avec plusieurs équipes explorant des approches concurrentes basées sur les world models vidéo ou la reconstruction 3D. ELAN4D est une contribution purement académique: le preprint ne mentionne ni partenaire industriel ni déploiement en cours. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou multi-bras en environnement industriel réel, sans qu'aucune timeline ne soit annoncée.

IA physiqueOpinion
1 source
Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation
40arXiv cs.RO 

Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation

Publiés le 30 mai 2026 sur arXiv (2506.30569), des chercheurs présentent Any-ttach, un système de manipulation robotique qui renonce à la complexité des mains multi-doigts au profit d'un mécanisme de swap rapide d'effecteurs terminaux. Le système repose sur trois composants : un mécanisme d'échange automatique bas coût pour une interface robotique à ouverture/fermeture, un dispositif portatif pour collecter des démonstrations humaines, et un planificateur de tâches qui compose des compétences d'utilisation d'outils apprises, paramétriques et planifiées. L'interface unifiée supporte une gamme hétérogène d'effecteurs, outils du quotidien, ciseaux articulés, doigts Fin Ray et une main anthropomorphe bas coût, tous connectés via le même connecteur. En validation, le système exécute deux tâches longue durée : préparer un sandwich et couper un concombre, chacune décomposée en six sous-tâches avec changements d'effecteurs successifs. L'intérêt industriel réside dans le changement de paradigme proposé : là où la roadmap dominante mise sur des mains à 20+ degrés de liberté pour atteindre la dextérité humaine, Any-ttach montre qu'une capacité d'échange rapide d'outils peut produire une polyvalence fonctionnelle comparable à un coût matériel et logiciel nettement inférieur. Les auteurs rapportent une meilleure fiabilité de swap, une collecte de démonstrations plus efficace et une moindre variabilité de pose d'outil, trois métriques directement pertinentes pour un intégrateur souhaitant déployer sans ingénierie robotique lourde. L'approche reste toutefois un preprint sans validation en environnement industriel réel, et les tâches démontrées (cuisine domestique) sont loin des contraintes d'une ligne de production. L'article s'inscrit dans un débat plus large sur la morphologie optimale du robot manipulateur. Des acteurs comme Sanctuary AI, Apptronik ou encore Pollen Robotics (FR) investissent massivement dans des mains dextres haute fidélité, tandis que Boston Dynamics et ses pairs industriels restent attachés aux pinces simples. Any-ttach occupe un espace intermédiaire, proche dans l'esprit des systèmes à changement d'outil rapide des robots industriels (ISO 9283), mais étendu à la manipulation non structurée. Les prochaines étapes selon les auteurs sont disponibles sur le site dédié any-ttach.github.io ; aucun partenaire industriel ni timeline de commercialisation n'est mentionné.

UEL'approche Any-ttach constitue un défi indirect pour Pollen Robotics (FR), dont la roadmap repose sur des mains dextres haute fidélité : si le paradigme swap-d'effecteurs s'impose, cela pourrait remettre en question les choix d'investissement des acteurs européens engagés dans la dextérité multi-doigts.

IA physiquePaper
1 source
TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques
41arXiv cs.RO 

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Des chercheurs de l'UCLA Mobility Lab ont publié fin février 2026 TIC-VLA (Think-in-Control VLA), un framework de contrôle robotique qui adresse explicitement le décalage temporel entre raisonnement sémantique et action en temps réel. Le modèle introduit une interface "delayed semantic-control" : au lieu de supposer que la sortie du module vision-langage est synchrone avec l'action motrice, TIC-VLA conditionne la génération d'action sur des états sémantiques retardés et sur des métadonnées de latence explicites, en plus des observations courantes. Le pipeline d'entraînement, dit "latency-consistent", injecte des délais de raisonnement réels pendant l'apprentissage par imitation et le reinforcement learning en ligne, alignant ainsi les conditions d'entraînement sur celles du déploiement. Pour l'évaluation, l'équipe présente également DynaNav, une suite de simulation physiquement précise et photoréaliste dédiée à la navigation guidée par langage naturel dans des environnements avec présence humaine. Les expériences couvrent à la fois la simulation et un robot réel, avec des latences de raisonnement pouvant dépasser plusieurs secondes. L'enjeu sous-jacent est structural dans le champ des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures dérivées de RT-2 supposent implicitement que l'inférence sémantique et le contrôle moteur sont cadencés de manière cohérente. En pratique, les LLM embarqués dans ces architectures introduisent des délais incompressibles de 0,5 à plusieurs secondes, incompatibles avec une boucle de contrôle à 10-20 Hz dans un environnement dynamique. TIC-VLA propose une solution au niveau de l'architecture plutôt qu'au niveau matériel, ce qui est potentiellement plus portable. Les résultats annoncés indiquent une surperformance systématique par rapport aux VLA antérieurs tout en maintenant un contrôle robuste sous latence. Il faut toutefois noter que les benchmarks proviennent en grande partie de DynaNav, un environnement simulé développé par les auteurs eux-mêmes, ce qui appelle une validation indépendante. La problématique de l'asynchronisme VLA n'est pas nouvelle : des travaux comme GROOT ou des approches à architecture duale (slow planner / fast controller) cherchent à séparer les horizons temporels. TIC-VLA se distingue en modélisant la latence comme un paramètre de condition plutôt qu'en la masquant par une architecture hiérarchique. Le projet est porté par le groupe UCLA Mobility Lab, connu pour ses travaux sur la navigation autonome urbaine. La page projet est accessible, mais aucune annonce de déploiement industriel ou de partenariat commercial n'est mentionnée pour l'instant. Les prochaines étapes naturelles seraient une évaluation sur des plateformes standardisées comme le benchmark Open-X Embodiment, et une confrontation avec des architectures concurrentes sur des tâches de manipulation en environnement mixte homme-robot.

IA physiqueOpinion
1 source
Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA
42arXiv cs.RO 

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA

Une équipe de chercheurs propose Hide-and-Seek (arXiv 2605.30834), un cadre de surveillance en temps réel des modèles VLA (Vision-Language-Action). Ces modèles permettent aux robots d'exécuter des instructions en langage naturel sur des tâches variées, mais ils restent sujets à des défaillances en cours d'exécution difficiles à intercepter. Hide-and-Seek reformule la détection de ces échecs comme un problème d'apprentissage supervisé à granularité grossière : en combinant des objectifs contrastifs inter-trajectoires et intra-trajectoires, il localise les actions responsables d'un échec à partir de labels de trajectoire uniquement, sans annotation pas-à-pas. La méthode a été évaluée sur les benchmarks LIBERO et VLABench ainsi que sur une plateforme robotique réelle, avec trois politiques VLA représentatives : OpenVLA, π₀ et π₀.₅ de Physical Intelligence. Pour les intégrateurs de robots pilotés par VLA, la détection fiable des défaillances en exécution est un prérequis non résolu pour tout déploiement industriel. Les approches existantes ont deux limitations majeures : le rééchantillonnage des actions est trop coûteux en calcul pour la production, et la propagation uniforme de labels de trajectoire à chaque pas de temps efface les signaux d'échec localisés dans le temps. Hide-and-Seek contourne cela en induisant des signaux temporellement structurés sans annotation fine, réduisant le coût d'étiquetage des données d'entraînement. Sous prédiction conforme (conformal prediction, qui offre des garanties statistiques sur le taux de faux positifs), la méthode atteint l'état de l'art en détection multi-tâche avec un compromis praticable entre précision et réactivité, et généralise à des tâches non vues à l'entraînement. Ce travail s'inscrit dans la montée en puissance des VLA depuis 2023-2024, portée par OpenVLA (UC Berkeley), la famille π₀/π₀.₅ de Physical Intelligence et RT-2 de Google DeepMind, et dans la question plus large du "demo-to-deployment gap". À mesure que ces modèles migrent des labos vers les lignes de production, un mécanisme de monitoring devient aussi critique que le modèle lui-même. Les benchmarks académiques utilisés facilitent les comparaisons avec les travaux concurrents, mais ne préjugent pas des performances en environnement industriel réel. La prochaine étape logique est l'intégration de Hide-and-Seek comme couche de supervision dans des pipelines de manipulation ou de déploiement humanoïde, où un échec non détecté peut engendrer des dommages matériels ou des arrêts de ligne coûteux.

IA physiqueOpinion
1 source
AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement
43arXiv cs.RO 

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

Des chercheurs ont publié sur arXiv (référence 2604.10432v3) un framework baptisé AnySlot, conçu pour permettre à des politiques de contrôle robotique de type Vision-Language-Action (VLA) de placer des objets avec précision dans des emplacements discrets, dits "slots", à partir d'instructions en langage naturel. L'approche introduit un objectif visuel intermédiaire : plutôt que de passer directement de la commande textuelle au mouvement moteur, le système génère d'abord un marqueur spatial rendu sur l'image, indiquant l'emplacement cible exact, puis confie l'exécution à une politique VLA conditionnée par ce but visuel. Cette architecture hiérarchique découple la compréhension sémantique de l'instruction et la précision géométrique de l'exécution. Les auteurs introduisent également SlotBench, un benchmark de simulation structuré autour de neuf catégories de tâches, destiné à évaluer le raisonnement spatial dans des scénarios de placement à l'échelle centimétrique. Les expériences montrent qu'AnySlot surpasse les baselines VLA plates et les méthodes de grounding modulaire en conditions zero-shot. Ce travail s'attaque à l'un des verrous les plus concrets des VLA généralistes : la précision de placement sous contraintes compositionnelles. Les politiques end-to-end peinent à combiner compréhension du langage et précision millimétrique, ce qui freine leur utilisation dans des applications industrielles comme l'assemblage, le tri ou la mise en casier. L'introduction d'un "but visuel" explicite comme couche intermédiaire est une réponse architecturale directe au gap sémantique-géométrique, et les résultats zero-shot suggèrent une meilleure généralisation que les approches purement end-to-end ou modulaires. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire le coût de spécification des tâches de placement sans sacrifier la fiabilité. Le contexte est celui d'une intense activité autour des VLA depuis les travaux fondateurs de RT-2 (Google DeepMind, 2023) et des politiques récentes comme pi0 de Physical Intelligence ou OpenVLA. La difficulté du slot-level placement restait un angle mort de ces approches, qui performent mieux sur des tâches de saisie que de dépose précise. AnySlot ne provient pas d'un labo académique nommé explicitement dans l'abstract, et les résultats sont pour l'instant limités à la simulation via SlotBench, sans validation sur robot réel publiée. Les prochaines étapes naturelles seraient des expériences physiques et une comparaison avec des systèmes comme RoboPoint ou SpatialVLA, qui explorent des approches proches du grounding spatial. Ce preprint restera à suivre avant toute intégration industrielle.

IA physiqueOpinion
1 source
Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine
44arXiv cs.RO 

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine

Des chercheurs présentent dans un preprint arXiv (2505.20795, soumis en mai 2025) un framework en deux étapes permettant à un robot d'apprendre une nouvelle tâche de manipulation en regardant simplement une vidéo de démonstration humaine, sans collecter de données de téléopération ni effectuer de fine-tuning du modèle. Le système repose d'abord sur un modèle de génération vidéo entraîné par cross-prediction sur un dataset mixte humain-robot, pour construire une représentation latente commune aux deux modalités. Ensuite, une perte contrastive prototypique ("prototypical contrastive loss") aligne cet espace de représentation avec un espace d'action partagé entre humain et robot. À l'inférence, une vidéo de démonstration humaine sert directement de prompt : le robot exécute la tâche correspondante sans aucune adaptation. Les validations portent sur des tâches de manipulation dextre en environnement réel. L'enjeu industriel est direct : la collecte de données de téléopération reste le goulot d'étranglement majeur du robot learning, coûteuse, lente, dépendante d'opérateurs qualifiés. Si l'approche tient à l'échelle, elle réduirait drastiquement le coût d'onboarding d'une nouvelle tâche, passant de plusieurs heures de collecte à quelques secondes de vidéo. C'est précisément le type de capacité qui intéresse les intégrateurs industriels et les startups d'AMR cherchant à déployer des politiques généralisables sans retraining continu. Cela dit, le papier reste un preprint académique : les résultats portent sur un nombre limité de tâches de manipulation, et l'absence de métriques comparatives détaillées (nombre de démonstrations, taux de succès absolu, diversité des saisies) rend l'évaluation de la robustesse difficile à ce stade. La question du "demonstration gap" humain-robot est travaillée depuis plusieurs années, notamment via les travaux sur les video-language-action models (VLA) et des approches comme ACT ou Diffusion Policy chez des labos comme Stanford, CMU, ou encore Physical Intelligence (Pi-0). L'originalité ici réside dans le découplage explicite entre représentation et action via la cross-prediction, plutôt que l'alignement direct de trajectoires. Des acteurs comme 1X, Sanctuary AI ou Figure (avec son modèle Helix) explorent des pistes similaires côté industriel. La prochaine étape logique pour cette ligne de recherche est la généralisation à des objets non vus et à des scènes plus encombrées, deux conditions qui font souvent échouer les approches zero-shot en déploiement réel.

IA physiqueOpinion
1 source
DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables
45arXiv cs.RO 

DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables

Des chercheurs ont publié DeMaVLA, un modèle fondation de type Vision-Langage-Action (VLA) conçu pour la manipulation d'objets déformables, en particulier le pliage de vêtements. Annoncé en preprint arXiv (2605.31286, mai 2026), DeMaVLA couple un backbone VLM à un module appelé "action expert" qui génère des trajectoires continues par flow matching. Pour réduire les coûts d'entraînement et d'inférence, cet action expert est construit en élaguant une couche transformer sur deux du backbone, tout en préservant l'alignement entre les deux modules. Le modèle est d'abord pré-entraîné sur environ 5 000 heures de démonstrations bimanuals en conditions réelles, puis affiné via un pipeline DAgger (Data Aggregation) avec supervision humaine : des trajectoires correctives sont collectées à partir des échecs du robot sur plusieurs tâches de pliage, puis réinjectées en entraînement. Les résultats sont compétitifs sur le benchmark RoboTwin et solides sur un benchmark maison de pliage domestique. La plupart des systèmes VLA actuels entraînent des politiques séparées par catégorie d'objet (un réseau pour les t-shirts, un autre pour les pantalons), ce qui limite la généralisation et alourdit la maintenance. DeMaVLA propose une politique unifiée capable de traiter des vêtements de géométries, matières et états initiaux variés sans réentraînement par catégorie, ce qui est directement pertinent pour les intégrateurs en robotique domestique et logistique. Le recours au DAgger avec boucle humaine est aussi un signal industriel : les corrections issues des échecs du robot, structurées et réinjectées, améliorent concrètement la robustesse au-delà des seules démonstrations expertes. Cela valide l'hypothèse que les données correctives à grande échelle sont un levier clé pour réduire le sim-to-real gap sur des tâches à haute variabilité. La manipulation d'objets déformables reste l'un des problèmes ouverts les plus difficiles en robotique physique : contrairement aux objets rigides, un vêtement n'a pas d'état canonique stable, ce qui complique radicalement la planification et la perception. Plusieurs équipes travaillent sur ce terrain : Physical Intelligence avec Pi-0 (manipulation généraliste bimanuels), NVIDIA avec GR00T N2, et divers laboratoires académiques (Columbia, CMU) sur la manipulation textile. DeMaVLA se positionne sur le créneau des fondations multi-tâches déformables, en combinant pré-entraînement à grande échelle et fine-tuning correctif. Ce travail reste un preprint non encore évalué par les pairs, et les benchmarks maisons appellent à une validation indépendante. Les suites naturelles sont l'extension à d'autres objets déformables (câbles, sacs souples) et l'évaluation sur des plateformes robotiques commerciales en environnement non contrôlé.

IA physiqueOpinion
1 source
Une startup forme des robots en envoyant des humains filmer le ménage chez vous
46Ars Technica AI 

Une startup forme des robots en envoyant des humains filmer le ménage chez vous

La startup allemande MicroAGI propose depuis le 28 mai 2026 un service de nettoyage à domicile entièrement gratuit aux habitants de New York, avec une contrepartie inhabituelle : les agents de ménage portent des caméras qui enregistrent l'intégralité de leur intervention. Le service est accessible via l'application Shift, lancée simultanément par l'entreprise. Pour réserver, les utilisateurs doivent fournir leur numéro de téléphone, adresse e-mail, adresse du domicile et les instructions d'accès. Chaque session dure environ deux heures. La communication autour du lancement a été soignée : vidéos sur X et LinkedIn accompagnées des notes de piano d'« Empire State of Mind » de Jay-Z et Alicia Keys. Les images captées par les caméras servent à entraîner la prochaine génération de robots domestiques. MicroAGI se décrit comme une équipe d'ingénieurs, de chercheurs et d'opérateurs dont la mission est d'« accélérer l'IA incarnée », c'est-à-dire des systèmes capables d'agir physiquement dans le monde réel. Le modèle économique est clair : les habitants obtiennent un ménage gratuit, la startup obtient des données rares et précieuses, des séquences vidéo en vue subjective montrant comment un humain navigue dans un appartement, manipule des objets et exécute des tâches quotidiennes. Ce type de données est l'un des goulots d'étranglement majeurs du développement de robots ménagers. L'initiative s'inscrit dans une course mondiale à la robotique domestique, où des acteurs comme Figure, Physical Intelligence ou Boston Dynamics investissent des centaines de millions de dollars pour doter des robots d'une compréhension fine de l'environnement humain. La collecte de données via des humains équipés de caméras est une approche déjà adoptée par plusieurs laboratoires, mais rarement proposée directement au grand public sous forme de service commercial. Le modèle soulève néanmoins des questions sur la vie privée : les résidents invitent chez eux des inconnus munis de caméras, dans leurs espaces les plus intimes. MicroAGI n'a pas encore précisé comment ces données seront stockées, protégées ou éventuellement partagées.

UEMicroAGI étant une startup allemande, ses pratiques de collecte de données vidéo au domicile de particuliers pourraient être scrutées au regard du RGPD européen.

Cette startup IA nettoie votre maison gratuitement pour entraîner ses futurs robots
47The Verge 

Cette startup IA nettoie votre maison gratuitement pour entraîner ses futurs robots

La startup américaine Shift a annoncé jeudi sur les réseaux sociaux un programme inédit : le nettoyage gratuit de domiciles en échange de données d'entraînement pour robots. Le principe est simple, Shift envoie des agents de ménage équipés de caméras qui filment chaque geste : aspiration, dépoussiérage, lavage de vitres, rangement. Ces vidéos constituent le dataset comportemental que la société utilise pour entraîner ses modèles robotiques. Shift justifie l'économie du deal sur son site : "Vous obtenez un appartement impeccable. Nous obtenons des données d'entraînement. Tout le monde y gagne." Aucun prix de revient ni volume de déploiements n'a été communiqué à ce stade. Ce modèle économique inversé illustre une tension structurelle du secteur : collecter des données de manipulation en environnement domestique réel reste l'un des goulets d'étranglement les plus coûteux pour entraîner des robots polyvalents. Les espaces domestiques sont non structurés, imprévisibles et très variés, exactement ce qui fait défaut aux datasets synthétiques ou aux environnements d'entrepôt contrôlés. Si Shift valide que la valeur des données couvre effectivement le coût opérationnel des interventions, ce modèle pourrait devenir un template pour d'autres acteurs cherchant à scaler la collecte de données en monde réel sans financement massif en propre. Shift s'inscrit dans une vague de startups spécialisées dans la collecte de données robotiques, en concurrence avec des initiatives comme celles de Physical Intelligence (pi0) ou les programmes internes de Figure et 1X. La stratégie rappelle aussi les approches de crowdsourcing adoptées dans l'autonome (dashcams, flottes instrumentées). L'équipement porté par les agents, notamment un casque visiblement encombrant visible dans la vidéo promotionnelle, suggère un dispositif de capture multi-angle encore en phase de prototypage. Aucun partenariat industriel ni timeline de produit n'a été annoncé.

IA physiqueOpinion
1 source
X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel
48Pandaily 

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

La startup chinoise X-Square Robot, connue pour sa série GreatWall de modèles de fondation robotiques, publie WALL-WM, présenté comme le premier world model à prédiction par événements sémantiques pour la robotique incarnée. Le papier associé, "WALL-WM: Carving World Action Modeling at the Event Joints", décrit une architecture en trois couches : une couche d'entrée d'instructions d'événements, une couche de prédiction centrale utilisant l'optimiseur Muon distribué (DMuon) pour une meilleure stabilité de convergence, et une stratégie de packing multi-événements réduisant les pertes de calcul lors de l'entraînement. Sur les benchmarks de génération vidéo incarnée, WALL-WM surpasse Wan2.1-14B et Open-Sora 2.0 sur qualité de mouvement, cohérence sémantique et plausibilité physique. Sur le benchmark Core15 L1, il dépasse Pi0.5 de Physical Intelligence et DreamZero sur les tâches de base, raisonnement, manipulation dextre et généralisation sous instruction abstraite. L'intérêt technique réside dans un changement de paradigme pour les modèles d'action. Les architectures VLA dominantes prédisent des chunks d'actions à intervalles fixes, où sera la main du robot dans 0.1, 0.2, 0.3 secondes, ce qui force le modèle à mémoriser des déplacements millimétriques par frame plutôt qu'à comprendre l'objectif sémantique ("saisir la tasse"). Cette fragilité structurelle signifie qu'un changement d'objet ou de surface suffit à faire échouer le modèle. WALL-WM prédit directement l'état cible, c'est-à-dire le moment de la saisie, puis génère synchroniquement la séquence d'actions pour y parvenir. Le papier identifie par ailleurs un problème architectural fondamental : texte, vision et action opèrent sur des géométries de manifold distinctes, et leur projection directe dans un espace latent partagé dégrade les représentations préentraînées, un défaut que l'architecture cherche à corriger via ses trois couches spécialisées. X-Square Robot s'inscrit dans la course des laboratoires chinois aux fondations VLA et world models, aux côtés d'Unitree, Fourier Intelligence et Agibot. Les benchmarks publiés visent directement Physical Intelligence (Pi0.5) et ses homologues américains comme Figure AI. Il faut toutefois souligner que WALL-WM reste, à ce stade, une publication de recherche sans déploiement commercial ni pilote industriel annoncé. Les performances sur benchmark L1 ne préjugent pas des résultats en conditions réelles, où l'éclairage variable, la déformation des objets et les perturbations de contact constituent le vrai test de la généralisation sim-to-real. Aucune timeline de productisation n'est mentionnée dans l'annonce.

IA physiqueOpinion
1 source
PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle
49arXiv cs.RO 

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

PhAIL (Physical AI Leaderboard, phail.ai) est un benchmark open-source présenté sur arXiv (arXiv:2605.29710) qui évalue des politiques VLA (vision-language-action) sur un bras Franka FR3 en conditions réelles. Le protocole remplace le traditionnel taux de succès binaire à timeout fixe par une méthodologie distributionnelle centrée sur la fonction de distribution cumulative du temps-avant-succès (CDF). Deux outils distincts structurent l'évaluation : un score nommé Human-Relative Throughput (HRT), grandeur sans dimension avec intervalles de confiance bootstrap, ancré à la téléopération humaine sur le même équipement ; et un test de significativité Kolmogorov-Smirnov calculé par objet puis macro-moyenné. Le benchmark a été appliqué à quatre VLAs publiques, dont GR00T (NVIDIA), ACT et OpenPI, avec jusqu'à 30 rollouts par cellule (modèle x objet). Résultat central : le meilleur VLA évalué reste environ sept fois plus lent par opération que la référence humaine, mesuré via le ratio RMST. L'enjeu est méthodologique autant que technique. L'état de l'art en évaluation VLA repose presque universellement sur un taux de succès à timeout fixe avec N inférieur ou égal à 25 rollouts et sans intervalles de confiance, ce qui rend les comparaisons proches statistiquement non résolvables. PhAIL démontre que le test KS macro-moyenné tranche deux paires proches (GR00T vs. ACT, OpenPI vs. ACT) là où les métriques binaires échouent, toujours à N inférieur ou égal à 30 rollouts. La paire la plus serrée, OpenPI vs. GR00T, reste irrésolue dans le budget expérimental alloué. Le facteur sept entre humain et meilleur VLA constitue un point d'ancrage concret pour les intégrateurs et décideurs industriels qui doivent arbitrer entre performance annoncée et réalité opérationnelle. La publication s'inscrit dans un effort de standardisation comparable à ce qu'ImageNet ou GLUE ont accompli pour la vision par ordinateur et le traitement du langage naturel. Le champ VLA manquait d'un protocole reproductible et statistiquement rigoureux, rendant les comparaisons entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenPI ou les architectures propriétaires de Figure et Boston Dynamics difficiles à interpréter. Le Franka FR3, très répandu en recherche académique, sert de plateforme de référence, et le benchmark est entièrement ouvert : dataset, artefacts par rollout et implémentation de bout en bout disponibles sur phail.ai. Les prochaines étapes naturelles incluent l'extension à d'autres plateformes matérielles, à des tâches bimanuelles ou de manipulation complexe, et l'intégration de VLAs propriétaires dans le protocole.

UELe benchmark PhAIL repose sur le bras Franka FR3 très répandu dans les laboratoires académiques européens, offrant aux chercheurs et intégrateurs UE un protocole rigoureux et reproductible pour évaluer les VLAs en conditions réelles et quantifier objectivement l'écart entre performance annoncée et réalité opérationnelle.

💬 Ce que je retiens, c'est le facteur 7. Le meilleur VLA testé reste sept fois plus lent qu'un humain sur la même tâche, et c'est la première fois qu'on a une mesure comme ça, proprement ancrée sur de la téléopération humaine réelle avec du KS test et des intervalles de confiance. Le benchmark binaire à timeout qu'on utilisait jusque-là, c'était du bricolage habillé en science.

IA physiqueOpinion
1 source
ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces
50arXiv cs.RO 

ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces

Une équipe de chercheurs a publié le 29 mai 2026 un article préprint sur arXiv (2605.29438) présentant ElegantVLA, un cadre d'inférence adaptatif conçu pour accélérer les modèles de type Vision-Language-Action (VLA) sans modifier ni réentraîner le modèle de base. Le principe repose sur un ordonnanceur léger qui observe en temps réel la similarité des représentations temporelles, les signaux de mouvement du robot et la progression de l'épisode, puis alloue dynamiquement la charge de calcul entre l'encodeur visuel, le LLM et la tête d'action. Deux niveaux de granularité sont gérés : cinq modes de calcul Vision-LLM, allant de la recomputation complète à la réutilisation temporelle multi-pas, et trois modes de débruitage pour la génération d'actions, qui recyclent les états intermédiaires lors des phases de mouvement stable. Sur le modèle GR00T de NVIDIA sur six tâches réelles, ElegantVLA réduit la charge de calcul d'un facteur 2,18x et fait passer la fréquence de contrôle de 13,8 Hz à 26,3 Hz ; sur CogACT, le gain en vitesse atteint 3,77x. L'enjeu est direct pour les équipes qui cherchent à déployer des VLA en manipulation réelle : la fréquence de contrôle est un goulot d'étranglement critique dans les tâches nécessitant une réactivité fine, et doubler cette fréquence sans retoucher le modèle sous-jacent change fondamentalement le rapport coût-performance du déploiement. Le résultat contredit partiellement l'hypothèse dominante selon laquelle accélérer un VLA impose obligatoirement un compromis sur la qualité du raisonnement : en concentrant la puissance de calcul sur les phases sensibles aux objectifs, à l'image du contrôle moteur humain, le système préserve la précision là où elle compte. C'est un argument concret en faveur de l'inférence adaptative plutôt que des modèles distillés ou quantifiés à la hache. Les VLA généralistss comme GR00T (NVIDIA) ou CogACT (Microsoft Research) souffrent structurellement d'un coût d'inférence élevé dû à l'empilement d'un backbone vision-langage massif et d'une tête d'action itérative à chaque pas de contrôle. Les approches existantes d'accélération, élagage, distillation, cache KV statique, traitent tous les pas de contrôle de façon uniforme, ignorant que les besoins en raisonnement varient fortement au cours d'un épisode. ElegantVLA se positionne comme une surcouche plug-in compatible avec l'ensemble de l'écosystème VLA moderne, sans modifier les pipelines d'entraînement. La prochaine étape naturelle sera de valider l'approche sur des tâches longue durée et des environnements non structurés, là où la variabilité des phases est maximale et où le gain potentiel est le plus difficile à quantifier.

IA physiqueOpinion
1 source