Aller au contenu principal

Dossier NVIDIA GR00T — page 3

684 articles · page 3 sur 14

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques
101arXiv cs.RO RecherchePaper

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques

Une équipe de chercheurs a présenté LiMoDE (Lifelong Mixture of Dynamic Experts), une architecture destinée à permettre à un robot de maîtriser de nouvelles tâches de manipulation sans effacer les compétences précédemment acquises. Publiée en préprint sur arXiv (réf. 2606.26183), la méthode repose sur un schéma d'apprentissage en deux étapes. Dans un premier temps, un pré-entraînement multi-tâches construit une structure MoE (Mixture of Experts) dynamique : un nombre variable d'experts hétérogènes est activé sélectivement en fonction des informations de mouvement, chaque expert spécialisant une forme de manipulation à court terme. Dans un second temps, le mécanisme LiMoEAM (Lifelong MoE Adaptation Mechanism) ajoute de nouveaux experts "lifelong" qui se combinent dynamiquement avec les experts figés issus du pré-entraînement, transférant les connaissances acquises vers les nouvelles tâches. Le système a été évalué sur un benchmark de lifelong learning simulé ainsi que sur des tâches réelles, avec un surcoût décrit comme modéré en paramètres entraînables et en overhead d'inférence. L'intérêt de LiMoDE réside dans sa réponse au problème de l'oubli catastrophique, verrou persistant du déploiement de robots généralistes en environnement industriel réel. Là où les approches par fine-tuning efficace en paramètres (PEFT, LoRA) permettaient l'adaptation à une tâche unique mais dégradaient les performances précédentes, LiMoDE isole les compétences réutilisables dans des experts distincts et en préserve les poids lors de l'adaptation. Pour un intégrateur ou un COO industriel, cela signifie théoriquement qu'un robot pourrait acquérir de nouvelles opérations de saisie ou d'assemblage sans réentraînement complet de la flotte, réduisant les fenêtres d'indisponibilité. Le fait que la méthode n'ajoute qu'un nombre "modéré" de paramètres reste à quantifier précisément dans des configurations à grande échelle. Le problème du lifelong learning robotique est traité depuis plusieurs années dans la communauté du continual learning, notamment via des approches EWC (Elastic Weight Consolidation) ou des replay buffers. Les travaux récents sur les VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les politiques diffuses de Figure AI ont montré que des modèles pré-entraînés à large échelle s'adaptent rapidement à de nouveaux scénarios, mais peinent à maintenir les performances sur l'ensemble des tâches antérieures sans retraining. LiMoDE se positionne comme une solution architecturale intermédiaire entre le fine-tuning monolithique et le modèle généraliste à réentraînement systématique. Il s'agit à ce stade d'un article de recherche académique sans annonce de déploiement commercial ni partenariat industriel identifié.

1 source
Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi
102arXiv cs.RO 

Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi

Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.26855) un cadre d'apprentissage baptisé Humanoid-DART, conçu pour entraîner des robots humanoïdes à des tâches combinant locomotion et manipulation d'objets (la loco-manipulation). Le système fonctionne en mode auto-supervisé : il démarre à partir d'un nombre réduit de démonstrations humaines, puis étend progressivement son répertoire comportemental sans nécessiter d'interventions expertes continues. L'architecture associe un modèle de diffusion, utilisé pour générer des trajectoires conditionnées sur un objectif, à un agent d'apprentissage par renforcement chargé de les suivre sur une gamme de tâches loco-manipulation. Les auteurs rapportent des résultats favorables lors d'ablations et de comparaisons avec des méthodes de référence, sans toutefois publier de métriques quantitatives détaillées dans ce résumé préliminaire. Ce travail s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût de collecte de démonstrations diversifiées et la dépendance aux corrections humaines en cas d'échec de la politique. La combinaison diffusion + RL permet à la politique d'explorer automatiquement l'espace des objectifs, réduisant mécaniquement le volume de données d'imitation nécessaires à l'amorçage. Pour les équipes industrielles cherchant à déployer des humanoïdes sur des tâches variées (manutention, assemblage, logistique), cette piste suggère une voie vers un scaling moins linéaire en coût humain, une hypothèse que le secteur cherche activement à valider, notamment pour réduire le sim-to-real gap sur des comportements multi-étapes. Humanoid-DART s'inscrit dans un mouvement plus large qui mise sur les modèles génératifs pour contourner la rareté des données de démonstration. Des approches concurrentes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent également sur des architectures de type VLA (Vision-Language-Action), avec des capacités loco-manipulation partiellement annoncées mais rarement démontrées à l'échelle en environnement non contrôlé. Ce papier, soumis comme preprint sans avoir encore passé la revue par les pairs, se positionne sur le segment de l'auto-amélioration à partir de peu de données, un axe de recherche actif chez plusieurs laboratoires académiques et industriels. Aucun déploiement terrain ni partenariat industriel n'est mentionné à ce stade.

RecherchePaper
1 source
RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique
103arXiv cs.RO 

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique

Des chercheurs ont publié sur arXiv (identifiant 2510.09036, seconde version) RoDyn, un modèle de monde 2.5D destiné à la manipulation robotique. L'architecture repose sur un espace latent géométriquement conscient plutôt que sur des flux vidéo 2D bruts. Son composant central, le Robot-Dynamic Tokenizer, couple les représentations visuelles sémantiques avec des informations spatiales et centrées sur l'agent via un mécanisme de cross-attention dominé par le canal RGB, complété d'un guidage par masque dynamique. Une architecture autorégressi guidée par ces masques oriente ensuite le modèle vers les zones d'interaction active entre le robot et les objets manipulés. Sur des jeux de données à grande échelle, RoDyn atteint l'état de l'art en fidélité de génération et affiche, point le plus saillant, une amélioration de 42% du taux de réussite en imitation learning dans le monde réel par rapport aux baselines purement 2D. Ce gain de 42% doit être lu avec soin: il est mesuré contre des modèles 2D, non contre d'autres approches 2.5D ou 3D, ce qui circonscrit la portée de la comparaison. Il illustre néanmoins un problème structurel bien documenté: les modèles vidéo 2D, aussi convaincants visuellement, ne capturent pas la géométrie ni la cinématique indispensables aux interactions physiques précises. En introduisant une représentation intermédiaire 2.5D, soit une profondeur estimée sans reconstruction 3D complète et coûteuse, RoDyn tente de combler ce fossé à moindre coût computationnel. Pour les équipes R&D en manipulation industrielle, l'intérêt concret réside dans l'accélération du reinforcement learning model-based (MBRL), qui réduit potentiellement le nombre d'interactions physiques requises à l'entraînement, et dans une meilleure généralisation aux objets non vus en simulation. Le champ des modèles de monde pour la robotique s'est densifié depuis 2023, porté par Dreamer (DeepMind), UniSim, et plus récemment les architectures VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). RoDyn occupe une niche spécifique: la simulation neuronale pour la manipulation de précision, avec un compromis géométrique explicite entre vidéo pure et reconstruction 3D complète. Cette publication reste à ce stade purement académique, sans annonce de déploiement commercial ni partenariat industriel mentionné. Les suites naturelles concerneront des tâches de manipulation plus exigeantes (assemblage fin, dépose contrainte) et une éventuelle intégration dans des pipelines VLA existants. Aucun acteur français ou européen n'est impliqué dans ces travaux.

RechercheOpinion
1 source
InSight : acquisition autonome de compétences via des VLA pilotables
104arXiv cs.RO 

InSight : acquisition autonome de compétences via des VLA pilotables

Une équipe de chercheurs présente InSight (arXiv:2606.24884, juin 2026), un cadre d'acquisition autonome de compétences pour les modèles vision-language-action (VLA). L'architecture comporte deux étapes : d'abord un pipeline de segmentation automatique qui décompose des démonstrations existantes en primitives étiquetées ("déplacer la pince vers le bol", "soulever vers le haut", "verser la bouteille") via un VLM de décomposition de plans couplé aux poses de l'effecteur terminal ; ensuite un flywheel de données guidé par VLM qui identifie les primitives manquantes pour accomplir une nouvelle tâche, tente des démonstrations autonomes via un contrôle bas niveau proposé par le VLM, et intègre automatiquement les succès dans l'ensemble d'entraînement. Le système a été validé sur cinq tâches de manipulation : retournement de blocs, fermeture de tiroir, balayage, vissage et versement, en simulation et en conditions réelles, sans aucune démonstration humaine des compétences cibles. L'enjeu central : les VLA actuels sont structurellement limités par leur corpus d'entraînement initial, et toute extension vers de nouvelles tâches impose aujourd'hui un coût élevé en téléopération humaine. InSight propose une boucle d'auto-amélioration fermée où les primitives apprises peuvent être composées pour exécuter des tâches à horizon long sans intervention humaine supplémentaire. Pour un intégrateur ou un COO industriel, cela représente une réduction potentielle du coût d'onboarding robotique. Les démonstrations publiées restent cependant relativement simples, et les auteurs ne fournissent pas de métriques de cycle time ni de taux de succès pour des scénarios de production complexes, ce qui invite à la prudence avant toute extrapolation opérationnelle. Les modèles VLA sont un terrain de compétition intense entre Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et Figure AI (Helix pour la manipulation humanoïde). Tous partagent le même verrou : un plafond de capacités figé à l'entraînement. InSight s'inscrit dans une tendance émergente de systèmes capables de s'auto-étendre, proche des travaux sur les agents génératifs de données. Cette publication demeure un preprint académique sans déploiement annoncé ; les auteurs prévoient de rendre le code public via insight-vla.github.io. Les prochaines étapes concernent la robustesse du flywheel sur des primitives moins déterministes et la validation en environnement industriel réel sur des bras à plus de six degrés de liberté.

IA physiqueOpinion
1 source
Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots
105arXiv cs.RO 

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

Une équipe de recherche a publié le 24 juin 2026 sur arXiv un article présentant GRA (Geometry-guided Representation Alignment), une méthode d'adaptation des modèles Vision-Language-Action (VLA) qui exploite des vidéos synthétiques de robots. Le problème de départ est concret : entraîner un VLA nécessite des millions de paires vidéo-action issues de téléopération réelle, une donnée rare et coûteuse à collecter. Les approches existantes contournent cette contrainte en générant des vidéos synthétiques à partir de démonstrations humaines, puis en tentant de récupérer des pseudo-actions à partir des pixels générés. GRA rompt avec cette logique : au lieu d'extraire des commandes moteur depuis des images synthétiques, la méthode identifie ce qui survit vraiment à la génération vidéo, à savoir la géométrie spatiale de la trajectoire de l'effecteur. Ces waypoints 2D sont calculés à partir de la vidéo humaine source via estimation de pose, retargeting, simulation et projection calibrée, puis injectés uniquement dans le backbone de perception visuelle du VLA via une tête auxiliaire 2D. La tête d'action, elle, reste entraînée exclusivement sur des démonstrations réelles. Sur des tâches de manipulation en environnement réel, GRA surpasse les baselines à pseudo-actions à budget de données équivalent et réduit significativement l'écart avec des politiques entraînées sur nettement plus de données réelles. Ce résultat a une portée conceptuelle directe pour quiconque développe des politiques de manipulation à grande échelle. Il formalise ce que les praticiens suspectaient : extraire des commandes moteur depuis des pixels synthétiques est une abstraction mal posée. La vidéo encode le "où" (trajectoire géométrique), pas le "comment" (signal de contrôle). En exploitant uniquement ce qui est préservé par la génération, GRA résout proprement un des obstacles centraux du sim-to-real : l'accumulation d'erreurs introduite par les pseudo-actions. Cela valide aussi l'hypothèse que les VLA peuvent tirer parti de données synthétiques sans polluer leur espace d'action, un point crucial pour les équipes cherchant à réduire le coût de la collecte de données de téléopération. Le contexte est celui d'une course intense à la scalabilité des données pour les modèles VLA : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix), et d'autres investissent massivement dans la génération de données synthétiques comme levier de passage à l'échelle. La plupart de ces pipelines souffrent précisément du problème que GRA adresse. L'approche reste à ce stade un preprint académique sans déploiement industriel annoncé, et les expériences présentées portent sur des tâches de manipulation tabletop contrôlées, ce qui laisse ouverte la question de sa robustesse sur des environnements moins structurés. Les suites naturelles incluent l'intégration de ce principe dans des pipelines de données à grande échelle et son extension à des trajectoires 3D ou à des architectures diffusion-based comme Pi-0.

IA physiqueOpinion
1 source
RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation
106arXiv cs.RO 

RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation

Une équipe de chercheurs a soumis le 24 juin 2026 sur arXiv (référence 2606.24403) RE4, un cadre d'apprentissage par imitation pour la manipulation d'objets en robotique. L'approche articule quatre étapes modulaires : estimation légère de la pose de l'objet cible par auto-supervision sur les données de démonstration disponibles, récupération d'une démonstration compatible avec le mode de manipulation identifié, transformation géométrique de cette démonstration pour correspondre à la configuration courante de la scène, puis replanification locale reliant l'état initial au point de récupération tout en respectant les contraintes de mode, avant de dérouler la séquence transformée. Le système a été évalué sur deux benchmarks de référence de la communauté : Push-T (en modalité image et état pur) et Robomimic. Un protocole adversarial spécifique a également été construit pour cibler les zones de données rares du Push-T en mode image, afin d'éprouver la robustesse de l'approche en dehors de la distribution d'entraînement. Ce travail s'attaque à une tension centrale de l'imitation learning : les méthodes de bout en bout basées sur la diffusion, comme Diffusion Policy, ou sur les flux normalisant atteignent de bonnes performances, mais sacrifient toute interprétabilité, ce qui complique le diagnostic et la validation en contexte industriel. RE4 démontre qu'il est possible de maintenir des performances compétitives en s'appuyant sur des briques théoriques issues de la manipulation planifiée, notamment la notion de mode de manipulation, qui encode des contraintes de contact et de transition de trajectoire. La robustesse observée en régime de données rares est un signal pertinent pour les intégrateurs industriels : les jeux de démonstrations terrain dépassent rarement quelques dizaines d'exemples par tâche, rendant la densité de données un critère de sélection concret. L'apprentissage par imitation pour la manipulation robotique a connu depuis 2022 une accélération portée par ACT, Diffusion Policy puis Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, architectures qui ont montré une généralisation impressionnante au prix d'une opacité croissante. RE4 s'inscrit dans un courant concurrent qui défend des approches hybrides combinant connaissance géométrique et représentations centrées objet, dans la lignée de PerAct ou RVT. Il convient de souligner qu'il s'agit d'un preprint académique sans validation sur robot physique publiée à ce stade : les résultats sont entièrement simulés ou en environnement de benchmark logiciel. Les prolongements naturels incluent une validation hardware et une extension à des tâches de manipulation multi-étapes, qui constitueront le vrai test de transférabilité de l'approche.

RecherchePaper
1 source
L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique
107Pandaily 

L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique

En l'espace d'une semaine, l'industrie robotique chinoise a enregistré plusieurs jalons concrets. Ubtech Robotics a annoncé que les pré-commandes de son robot humanoïde pleine taille Ubestworld dépassent 5 000 unités sur JD.com, avec une mise en vente simultanée sur Tmall. Dans le segment de l'IA physique, Jiangxing Intelligence a bouclé deux tours de financement stratégiques consécutifs totalisant plusieurs centaines de millions de yuans ; l'entreprise, fondée par Pang Haitian, revendique déjà la rentabilité et déploie ses solutions dans de multiples secteurs industriels. Alibaba a par ailleurs publié la série Qwen-Robot, ses modèles d'IA incarnée, pendant que le constructeur automobile Seres dévoilait son premier robot humanoïde. Sur le segment grand public, la startup ZuzuZoos a finalisé un tour Pre-A de plusieurs dizaines de millions de yuans pour son robot compagnon IA couplant grands modèles de langage et design IP, ciblant les femmes de 18 à 35 ans. Enfin, le ministère chinois de l'Industrie et des Technologies de l'Information (MIIT) a mis en consultation publique des projets de normes techniques pour les robots humanoïdes dans les sous-stations électriques et la fabrication d'électroménager, couvrant évaluation de performance, spécifications après-vente et interconnexion inter-robots. La simultanéité de ces signaux est plus significative que chacun pris isolément. Les 5 000 pré-commandes d'Ubtech, même sans précision de prix ni calendrier de livraison ferme, constituent un indicateur de demande grand public qui dépasse le cadre industriel habituel des humanoïdes, un glissement de marché que peu d'analystes anticipaient à ce stade. Plus structurellement, la publication de normes sectorielles par le MIIT est un accélérateur de déploiement B2B : elle réduit le risque d'évaluation pour les intégrateurs et les donneurs d'ordre industriels, qui n'ont plus à définir leurs propres grilles de qualification. La profitabilité affichée de Jiangxing Intelligence, si elle se confirme, invalide partiellement la thèse selon laquelle l'IA physique à grande échelle est encore trop immature pour générer des revenus récurrents. Du côté de JD Group, l'annonce par le fondateur Liu Qiangdong d'un plan de reconversion pour 700 000 employés col bleu, livreurs inclus, via des accords avec 120 établissements de formation, signale une stratégie de transition sociale anticipée face à l'automatisation, rarement formulée aussi explicitement par un opérateur de cette taille. Ce déferlement s'inscrit dans une dynamique d'écosystème que Pékin cultive depuis plusieurs années : subventions à la R&D robotique, zones pilotes pour l'IA incarnée, et pression réglementaire pour structurer rapidement un marché encore fragmenté. Face à cette accélération, les acteurs occidentaux positionnés sur l'humanoïde, Figure AI avec son robot 03, Tesla avec Optimus Gen 3, Physical Intelligence avec Pi-0, ou NVIDIA avec GR00T N2, maintiennent une avance technologique sur certains benchmarks de manipulation, mais voient l'écart de vitesse de commercialisation se réduire. Aucun acteur français ou européen n'est directement mentionné dans ces développements, bien que Wandercraft, Enchanted Tools ou Pollen Robotics opèrent sur des niches complémentaires (exosquelettes, cobots). Les prochaines étapes à surveiller : les dates de livraison effectives de l'Ubestworld, l'entrée en vigueur des normes MIIT, et les premiers déploiements industriels documentés de Qwen-Robot.

UELa simultanéité des avancées chinoises (normes MIIT, Qwen-Robot, signal de demande grand public Ubtech) accroît la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché ou la réglementation en France/UE.

Chine/AsieActu
1 source
EquiVLA : un cadre général pour les modèles VLA équivariants par rotation
108arXiv cs.RO 

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

Des chercheurs ont publié EquiVLA (arXiv:2606.19784), le premier cadre général pour rendre les modèles Vision-Langage-Action (VLA) équivariants par rotation SO(2) de bout en bout. Le système introduit deux composants modulaires : EquiPerceptor, qui extrait des représentations visuelles approximativement SO(2)-équivariantes à partir de features ViT gelées, et EquiActor, une tête d'action exactement SO(2)-équivariante basée sur un Diffusion Transformer à flow-matching. Instancié sur GR00T N1.5 (le modèle de manipulation généraliste de NVIDIA), EquiVLA atteint 92,6 % de succès moyen sur les quatre suites de benchmarks LIBERO contre 78,1 % pour la baseline, une longueur de séquence de 4,03 sur CALVIN ABCD→D contre 3,45, et améliore le taux de succès sur cinq tâches réelles avec le robot Mobile ALOHA de 54 % à 72 %. Le problème central qu'adresse EquiVLA est structurel : les VLA actuels manquent de biais inductifs géométriques, ce qui signifie qu'une politique entraînée dans une orientation donnée nécessite substantiellement plus de données pour généraliser à d'autres configurations rotationnelles. En imposant l'équivariance SO(2) de la caméra jusqu'aux séquences d'actions prédites, le framework réduit la dépendance aux données d'orientation. Pour un intégrateur ou un COO industriel, l'implication concrète est une meilleure robustesse opérationnelle sans retraining coûteux lorsqu'un poste de travail est réorganisé. Le gain de 18 points absolus sur LIBERO et le passage de 54 % à 72 % sur robot réel sont significatifs, même si ces résultats restent obtenus en conditions de laboratoire contrôlé et ne constituent pas encore un déploiement industriel. Les VLA sont devenus le paradigme dominant de la manipulation généraliste depuis RT-2 et PaLM-E, avec des modèles concurrents comme Pi-0 (Physical Intelligence), OpenVLA et GR00T N1.5 de NVIDIA, publié début 2025 comme modèle de référence pour la manipulation humanoïde. L'approche modulaire d'EquiVLA - les backbones vision-langage gelés restent intacts - facilite l'adoption sur des architectures existantes sans repartir de zéro. Ce papier est une contribution académique sans partenariat commercial annoncé ; les suites naturelles seraient d'étendre l'équivariance à SO(3) pour les manipulateurs à 6 DOF, et de valider la robustesse à grande échelle dans des environnements industriels moins structurés.

💬 Le vrai sujet ici, c'est pas le benchmark : c'est que si tu déplaces ton poste de travail de 90°, tu n'as plus à réentraîner ton robot. C'est précisément le genre de friction silencieuse qui rendait les déploiements industriels galères, et là ils y répondent de façon architecturale, sans toucher aux backbones existants. 72% sur robot réel c'est encore du labo, mais la direction est la bonne.

IA physiqueOpinion
1 source
Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique
109arXiv cs.RO 

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Un groupe de chercheurs impliqués dans l'élaboration de la norme ISO/WD 26264-1 au sein du comité technique ISO/TC 299/WG 16 publie un préprint arXiv (2606.19769, juin 2026) posant que la standardisation des données constitue le prochain verrou critique pour les robots humanoïdes. Leur thèse centrale: le goulot d'étranglement n'est pas seulement la rareté des données, mais leur caractère non cumulatif, causé par des coûts de collecte élevés, des silos organisationnels et des protocoles d'évaluation incompatibles. Les auteurs identifient trois conditions pour qu'un jeu de données soit réutilisable: l'expérience physique doit rester liée au corps du robot, à la tâche et au contexte d'exécution; les flux multimodaux doivent partager synchronisation temporelle, repères de coordonnées, calibration et unités documentées; les données doivent enfin être versionnées et traçables pour s'accumuler entre projets et organisations. L'enjeu est direct pour les équipes qui entraînent des modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI. Sans grammaire commune (métadonnées, provenance, versioning), chaque acteur repart de zéro à chaque nouveau déploiement. Pour un intégrateur industriel, cela signifie concrètement que des données collectées sur un site ne peuvent pas réentraîner un modèle sur un autre, même avec du matériel identique. L'article recadre le "sim-to-real gap" non pas comme un problème de simulation, mais comme un déficit d'alignement des référentiels physiques entre jeux de données: les hypothèses de synchronisation et de cinématique, si elles ne sont pas documentées, rendent les flux non interopérables dès le départ. La norme proposée s'articule en deux couches: une infrastructure horizontale couvrant le cycle de vie, les métadonnées, la qualité, le versioning et la traçabilité, et des parties spécifiques par capacité (manipulation, locomotion, interaction humain-robot, cognition). Le contexte est celui d'un secteur ou Figure AI, Boston Dynamics, Tesla (Optimus Gen 3), Unitree et 1X accumulent des données de manière cloisonnée, tandis que des initiatives ouvertes comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace) posent des bases communes sans force normative. Le préprint est en phase WD (Working Draft) sans date de ratification annoncée: c'est une prise de position académique, pas une norme publiée ni un déploiement industriel.

UESi ratifiée, la norme ISO/WD 26264-1 structurera les pratiques de données des acteurs européens de la robotique humanoïde ; HuggingFace (Paris) est déjà cité comme contributeur aux bases ouvertes communes (LeRobot), sans force normative à ce stade.

InfrastructureOpinion
1 source
Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1
110Robotics Business Review 

Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1

Sanctuary AI (Sanctuary Cognitive Systems Corp.), basée à Vancouver, vient de valider une performance industrielle significative chez un équipementier automobile de rang 1 mondial, non nommé. La tâche consiste en l'insertion d'un connecteur filaire souple dans une cible en mouvement sur un convoyeur actif, un problème classique de manipulation dite "contact-rich" qui résiste depuis longtemps à l'automatisation traditionnelle. Le résultat annoncé est un taux de succès supérieur à 99,5% pour un temps de cycle de 2,54 secondes, aligné sur les cadences de production réelle du client. À noter que les métriques sont présentées sans détail sur la durée de l'essai ni le volume de cycles validés, ce qui invite à traiter ce résultat comme un proof-of-concept industriel plutôt qu'un déploiement en série. La démonstration s'inscrit dans la continuité de la présentation en avril 2026 de capacités de manipulation en zero-shot learning pour la préhension dextère. Ce résultat illustre une tendance de fond dans le secteur : face à l'horizon encore incertain de la commercialisation de masse des robots humanoïdes, certains acteurs pivotent vers une approche hardware-agnostique, en injectant leur couche d'IA physique sur des plateformes industrielles existantes. Pour un intégrateur ou un directeur de production, cela représente un chemin à valeur immédiate sans attendre la maturité mécanique des humanoïdes, tout en capitalisant sur des modèles d'IA qui seront ensuite portables vers les systèmes de prochaine génération. Le vrai verrou que Sanctuary prétend avoir levé est le couplage performance/cycle time : les projets de physical AI échouent souvent non par manque de précision mais par débit insuffisant. Si le taux de 99,5% à 2,54 secondes est confirmé en production continue, c'est un signal crédible que les VLA (vision-language-action models) commencent à franchir le seuil de l'exigence industrielle, pas seulement du laboratoire. Fondée au Canada, Sanctuary AI développe depuis plusieurs années une approche centrée sur l'IA généraliste pour corps robotiques, incluant des mains hydrauliques propriétaires haute dextérité. La société avait jusqu'ici communiqué davantage autour de son robot humanoïde Phoenix, mais le pivot stratégique annoncé aujourd'hui signale un repositionnement vers le déploiement accéléré sur bras industriels standards. Dans l'espace concurrent, Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et 1X (Helix) continuent d'investir massivement dans la voie humanoïde complète. Côté manipulation pure, Festo a testé ce mois-ci son GripperAI et lancé un préhenseur pneumatique léger, tandis que PSYONIC s'est associé à ABB Robotics. Sanctuary semble parier que la voie la plus rapide vers le chiffre d'affaires en manufacturing et logistique passe par l'intégration logicielle sur hardware existant, avant le déploiement des prochains systèmes industriels humanoïdes qu'elle annonce vouloir adresser également.

UEL'équipementier de rang 1 non nommé pourrait être européen (Valeo, Bosch, Continental, Aptiv), auquel cas ce pilote serait directement pertinent pour l'automobile FR/EU, mais l'absence de confirmation maintient l'impact au stade potentiel.

💬 99,5% à 2,54 secondes sur une cible mobile, c'est le genre de résultat qui sort enfin du labo. Le pivot de Sanctuary est net: plutôt que d'attendre que le robot humanoïde soit prêt, ils injectent leur IA sur les bras industriels existants, ce qui ouvre un chemin court vers la valeur pour pas mal d'intégrateurs. Sans durée ni volume de cycles communiqués, on reste sur du pilote, pas du déploiement série.

IA physiqueOpinion
1 source
Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots
111SCMP Tech 

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

Alibaba Group a dévoilé mardi le Qwen Robot Suite, sa première suite de modèles d'intelligence artificielle dédiée à la robotique. Développée par Tongyi Lab, l'unité de recherche IA du géant de Hangzhou, cette collection de modèles vise à doter les robots de capacités de perception, de raisonnement et d'interaction avec l'environnement physique, ce que le secteur désigne par le terme "embodied AI". La suite a déjà été engagée dans des phases de test pilote avec un cercle restreint de partenaires sélectionnés par Alibaba. Les métriques de performance restent à ce stade non communiquées publiquement, ce qui ne permet pas d'évaluer les capacités réelles par rapport aux annonces. L'entrée d'Alibaba dans l'embodied AI représente un signal fort pour l'industrie robotique : les grandes plateformes cloud et LLM cherchent désormais à étendre leur emprise vers le monde physique, transformant le marché des intégrateurs et des fabricants OEM. Pour les décideurs industriels, cela signifie potentiellement un accès à des couches d'IA robotique portées par une infrastructure cloud établie, avec la question ouverte du sim-to-real gap, qui reste le défi critique non résolu dans le déploiement à l'échelle des robots polyvalents. Alibaba s'inscrit dans une course mondiale déjà peuplée d'acteurs hétérogènes : Figure (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Tesla (Optimus Gen 3) et 1X Technologies côté startups, auxquels s'ajoutent Huawei et Xiaomi côté géants technologiques chinois. Le Qwen Robot Suite s'appuie sur la famille de modèles Qwen, déjà bien implantée dans le paysage LLM mondial. Les prochaines étapes probables incluent un élargissement des pilotes industriels et une intégration avec l'écosystème cloud d'Alibaba (Alibaba Cloud / Aliyun).

UEL'entrée d'Alibaba dans l'IA robotique intensifie la pression concurrentielle mondiale sur les fabricants et intégrateurs européens, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

Chine/AsieActu
1 source
Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action
112arXiv cs.RO 

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Une équipe de chercheurs a publié Token Steering (TS), une méthode permettant de piloter dynamiquement les trajectoires générées par des modèles de fondation robotiques de type VLA (vision-language-action autorégressif). Le principe : injecter des entrées utilisateur de faible dimension directement dans l'espace de représentation des tokens d'action du modèle, sans modifier l'architecture du modèle de langage visuel (VLM) sous-jacent. TS opère entièrement à l'inférence, sans réentraînement ni fine-tuning. Évalué sur deux tâches de manipulation domestique, fermeture d'un tiroir après placement d'objet, et permutation d'objets en contexte dynamique, le taux de succès passe respectivement de 10,0 % à 72,5 % et de 16,7 % à 93,8 %. Ces résultats sont issus de la préprint arXiv:2606.15021 et n'ont pas encore fait l'objet d'une révision par les pairs. L'intérêt opérationnel est direct : supprimer le besoin de réentraînement lève un verrou majeur pour le déploiement de robots de fondation en conditions réelles. Des intégrateurs peuvent adapter le comportement d'un VLA pré-entraîné à des variations de scénario sans coût de calcul additionnel significatif. Le mécanisme guide l'action sans l'écraser, ce qui préserve les priors de dextérité et de fluidité appris durant le pré-entraînement. C'est un avantage concret sur les approches classiques de surcharge par commande directe, qui dégradent souvent la qualité du mouvement. L'article évoque également des cas d'usage d'accessibilité pour des personnes à mobilité limitée, piste crédible vers une robotique d'assistance plus inclusive. Les politiques VLA constituent l'un des axes les plus actifs de la robotique actuelle : Physical Intelligence a commercialisé Pi-0, NVIDIA a présenté GR00T N2, et plusieurs groupes académiques développent des variantes d'OpenVLA. Token Steering s'inscrit dans une tendance plus large qui cherche à rendre ces politiques modulables sans réentraînement, direction que poursuit également Enchanted Tools sur le plan applicatif. La contribution reste pour l'heure académique : aucun déploiement industriel ni partenariat n'est annoncé, et le site projet (jasontchan.github.io/token-steering) présente des vidéos de démonstration en environnement contrôlé. Les prochaines étapes attendues sont une validation sur hardware hors laboratoire et une extension aux VLA de génération récente comme Pi-0 ou GR00T N2.

UEEnchanted Tools (entreprise française) est citée comme poursuivant la même direction applicative ; la méthode de pilotage à l'inférence sans réentraînement pourrait directement accélérer les travaux européens sur la robotique d'assistance.

💬 Passer de 10% à 72% de réussite sur une tâche de manipulation sans toucher au modèle, c'est le chiffre qui compte. Le vrai frein des VLA hors du labo, c'est exactement ça : chaque variation de scénario forçait un fine-tuning coûteux, et Token Steering court-circuite ça à l'inférence. Reste à valider sur du hardware moins coopératif, mais c'est précisément le bon problème à avoir résolu en premier.

IA physiqueOpinion
1 source
Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)
113arXiv cs.RO 

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Une étude publiée le 19 juin 2026 sur arXiv (réf. 2606.15714) présente la première évaluation systématique des capacités multilingues des modèles VLA (Vision-Language-Action), cette famille d'architectures qui combine vision, langage et contrôle moteur pour produire des politiques robotiques généralisées. Les chercheurs ont construit des benchmarks multilingues en traduisant les instructions de jeux d'évaluation existants, puis ont testé plusieurs modèles VLA représentatifs sur un ensemble de tâches en environnement simulé. Le constat est net : les modèles entraînés principalement sur des instructions en anglais accusent une dégradation significative de leurs performances lorsqu'on les interroge dans d'autres langues, même quand le backbone LLM sous-jacent est nativement multilingue. Ce résultat a des implications directes pour quiconque envisage de déployer des robots à instructions verbales en dehors d'un contexte anglophone. Il invalide l'hypothèse commode selon laquelle les capacités multilingues d'un grand modèle de langage se transfèrent automatiquement au modèle VLA lors du fine-tuning sur données robotiques. L'analyse cross-linguale révèle deux sources d'échec distinctes : la compréhension de l'instruction d'une part, l'exécution de l'action d'autre part. Les auteurs identifient également des décalages de représentation interne provoqués par les instructions non-anglaises comme facteur structurel du gap, ce qui suggère que le problème est ancré dans la dynamique d'entraînement et pas seulement dans le vocabulaire. Les VLA généralisés ont connu une accélération notable depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, OpenVLA (Berkeley), ou encore GR00T N2 de NVIDIA, tous entraînés quasi-exclusivement sur des corpus anglophones. Pour combler le gap mis en évidence, les auteurs proposent une méthode de fine-tuning appelée Multilingual Principal Component Alignment (MPCA), qui utilise une analyse en composantes principales (ACP) pour aligner les représentations multilingues dans un sous-espace commun. Les résultats sont obtenus en simulation et n'ont pas encore été validés sur robot réel, ce qui constitue la limite principale à relativiser avant tout déploiement industriel. L'étude ouvre néanmoins une piste de travail concrète pour les équipes qui ciblent des marchés européens ou asiatiques.

UELes équipes R&D européennes ciblant des déploiements en langues non-anglaises (français, allemand, etc.) doivent intégrer cette limitation structurelle dans leurs protocoles d'entraînement VLA et ne peuvent pas supposer que le multilinguisme du LLM backbone se transfère automatiquement.

RechercheOpinion
1 source
Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes
114arXiv cs.RO 

Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes

Des chercheurs présentent RL4IL, une méthode d'apprentissage par imitation guidée par renforcement qui s'attaque à un problème concret du déploiement robotique : la défaillance de capteurs en cours d'opération. Publiée en préprint sur arXiv (2606.15514), l'approche sélectionne dynamiquement les démonstrations d'experts les plus pertinentes depuis une bibliothèque d'entraînement, plutôt que d'entraîner un réseau de politique classique. Une politique RL entraînée via Proximal Policy Optimisation (PPO) sur des ensembles de candidats générés par recherche en largeur (BFS) classe ces démonstrations, et une tête de fusion par cross-attention agrège leurs signaux d'action pour produire la prédiction finale. Lorsqu'une modalité est absente à l'inférence, caméra obstruée, flux langage interrompu, une politique RL dédiée par modalité identifie des démonstrations "donneuses" dans la bibliothèque, et une tête d'imputation reconstruit l'embedding manquant par cross-attention sur les meilleures correspondances, sans aucun réentraînement du système. Évaluée sur trois suites du benchmark LIBERO, RL4IL surpasse les méthodes d'apprentissage par imitation de l'état de l'art dans les conditions de perte de capteurs. Ce résultat adresse une hypothèse fragile qui traverse l'ensemble des architectures VLA (Vision-Language-Action) actuelles : la disponibilité permanente de toutes les entrées sensorielles. En conditions réelles, une caméra peut être occultée par un objet, un module langage peut tomber hors ligne, un capteur de profondeur peut saturer. La capacité à inférer sans réentraînement est particulièrement notable pour les intégrateurs industriels : redéployer un modèle en production à chaque nouvelle configuration de panne est prohibitif. RL4IL découple la robustesse à la perte de modalité du coût d'apprentissage, ce qui représente un levier opérationnel concret, à nuancer cependant par l'absence, dans le papier, de tests sur des robots physiques réels. L'apprentissage par imitation fondé sur la récupération de démonstrations (retrieval-based IL) est une direction active depuis les travaux sur VINN et les approches kNN pour la robotique. Les architectures VLA dominantes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) supposent toutes des capteurs intègres. RL4IL s'inscrit dans une veine de recherche visant à rendre ces systèmes tolérants aux pannes sans modifier leur entraînement initial. Le code est disponible publiquement sur GitHub. Les prochaines étapes naturelles incluent une validation sur manipulateurs physiques et l'extension à des bibliothèques de démonstrations à grande échelle, deux conditions nécessaires pour crédibiliser le passage au déploiement réel.

RecherchePaper
1 source
Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé
115arXiv cs.RO 

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Publiés sur arXiv en juin 2026 (arXiv:2606.14153), des chercheurs présentent un diagnostic simple aux conclusions contre-intuitives : l'encodeur visuel le plus performant sur un petit modèle VLA (Vision-Language-Action) ne l'est pas nécessairement sur un modèle plus grand. Pour le démontrer, l'équipe a développé un protocole de "greffe à backbone gelé" (frozen-backbone grafting), consistant à remplacer la tour visuelle d'un VLA publié par un encodeur candidat, tout en maintenant gelés le modèle de langage et l'expert d'action. Quatre encodeurs ont été testés sur deux backbones : SmolVLA-450M et π₀.₅-3.3B de Physical Intelligence, sur deux suites de benchmarks LIBERO, avec 40 runs de greffe principaux évalués par MSE d'action hors-ligne. Résultat : SigLIP (Google) domine sur SmolVLA pour les deux suites, tandis que sur π₀.₅, c'est DINOv2-small (Meta) qui prend la tête sur la suite spatiale, avec une quasi-égalité sensible aux seeds sur la suite objets. Sur 3 comparaisons backbone-suite sur 4, et 11 cellules sur 12 au niveau des seeds, les classements s'avèrent backbone-dépendants. Ce résultat remet en question une pratique courante dans la communauté VLA : hériter l'encodeur visuel d'un VLM upstream sans vérifier si ce choix tient à l'échelle cible. Le diagnostic révèle également que le protocole de greffe lui-même n'est pas neutre : il introduit un biais asymétrique de +45 à 56% de MSE sur la tour native de SmolVLA, mais de -50 à 52% sur π₀.₅, ce qui conditionne fortement l'interprétation des résultats. Pour les équipes qui construisent des VLAs à grande échelle, cela signifie concrètement qu'une ablation menée sur un backbone 450M ne prédit pas le classement sur un 3,3B, un surcoût de validation qui change structurellement les pipelines d'expérimentation. Les VLAs sont aujourd'hui au coeur de la robotique apprise de bout-en-bout, incarnés par des modèles phares comme π₀ et π₀.₅ de Physical Intelligence, GR00T N2 de NVIDIA ou encore OpenVLA. LIBERO, la suite utilisée ici pour la manipulation robotique en simulation, est un benchmark standard du champ. Les auteurs positionnent explicitement la greffe gelée comme un outil diagnostique pré-engagement à faible coût, à utiliser avant de figer le choix d'encodeur sur un backbone cible, et non comme une méthode de déploiement en boucle fermée. C'est une contribution méthodologique qui devrait modifier la façon dont les équipes structurent leurs campagnes d'ablation d'encodeurs dans la course aux VLAs à grande échelle.

UELes équipes européennes travaillant sur des VLAs (labs INRIA, CEA-List, startups robotique FR) peuvent intégrer le protocole de greffe gelée comme outil diagnostique à faible coût avant de figer le choix d'encodeur sur leur backbone cible.

RechercheActu
1 source
Un modèle fondation VLA pragmatique
116arXiv cs.RO 

Un modèle fondation VLA pragmatique

LingBot-VLA est un modèle fondation de type Vision-Language-Action (VLA) publié en janvier 2026 sur arXiv (v3), conçu pour la manipulation robotique sur bras duals. Entraîné sur environ 20 000 heures de données réelles issues de 9 configurations distinctes de robots bi-bras, le modèle a été évalué sur 3 plateformes robotiques différentes, chacune complétant 100 tâches avec 130 épisodes de post-entraînement par tâche. Sur le plan de l'efficacité computationnelle, la codebase développée atteint un débit de 261 échantillons par seconde sur un cluster de 8 GPU, représentant une accélération de 1,5 à 2,8 fois selon le VLM de base choisi. Le code, le modèle de base et les données de benchmark sont publiés en open access. Ce travail s'attaque à l'un des verrous structurels des VLA en production : la généralisation croisée entre tâches et entre plateformes, couplée à un coût d'adaptation acceptable en données et en GPU-heures. Le fait que le modèle surpasse ses concurrents sur 100 tâches distinctes par plateforme, avec seulement 130 épisodes de fine-tuning, indique que le sim-to-real gap et l'adaptation à de nouveaux morphologies de bras sont partiellement résolus dans ce cadre, du moins pour la manipulation bi-bras. Pour un intégrateur industriel ou un équipementier, c'est un signal concret : l'écart entre démo labo et déploiement réel se réduit sur des tâches structurées, même si les conditions de benchmark restent contrôlées et méritent d'être vérifiées en environnement ouvert. La course aux VLA généralisables oppose aujourd'hui plusieurs approches : Pi-0 de Physical Intelligence sur des données hétérogènes multi-robots, OpenVLA et Octo comme baselines open-source établies, et GR00T N2 de NVIDIA ciblant l'humanoïde. LingBot-VLA se positionne sur le segment bi-bras industriel, avec une volumétrie de données réelles supérieure à la plupart des travaux publiés et un accent explicite sur l'efficacité d'entraînement, ce qui le rend pertinent pour des laboratoires sans infrastructure cloud massive. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une contribution académique avec ouverture du code, dont les suites dépendront de l'adoption communautaire et d'éventuels partenariats industriels non encore divulgués.

UELes laboratoires et intégrateurs européens sans infrastructure cloud massive peuvent adopter directement le modèle et les données open-access pour accélérer leurs travaux de manipulation bi-bras.

💬 130 épisodes pour adapter le modèle à un nouveau robot, c'est un seuil qu'on n'osait pas espérer il y a deux ans. L'open access complet du modèle, du code et des données, c'est ça la vraie nouvelle, parce que les labos sans infrastructure cloud massive peuvent maintenant entrer dans la course face à NVIDIA et Physical Intelligence. Reste à voir si ça tient hors benchmark.

IA physiqueOpinion
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
117arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

IA physiqueOpinion
1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
118arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
119arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
120arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
121arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
122arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
123arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
124arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action
125arXiv cs.RO 

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Des chercheurs ont publié le 2 juin 2026 FATE-VLA (arXiv:2606.02307), une méthode active de génération de tests pour évaluer les modèles VLA (Vision-Language-Action), ces politiques robotiques généralisées qui combinent perception visuelle, compréhension linguistique et commande motrice. Plutôt que de tester ces modèles sur des benchmarks statiques à échantillonnage aléatoire, FATE-VLA reformule l'évaluation comme un problème de découverte active de défaillances : un algorithme couple exploration guidée par la diversité et modèles surrogate appris sur les exécutions observées, afin d'orienter les tests vers les régions de scène à haut risque. Appliqué à quatre modèles VLA de référence, dont GR00T-N1.6 de NVIDIA, le système identifie jusqu'à 29,7 % de défaillances supplémentaires par rapport aux baselines retenus et expose des modes d'échec plus variés. Sur GR00T-N1.6 spécifiquement, le taux de succès chute de 64,4 % à 34,7 % lorsque les scènes de test ciblent les zones problématiques de l'espace de configuration. Ce résultat soulève une question directe pour quiconque envisage de déployer des VLA en production industrielle : les performances communiquées par les fabricants sont mesurées sur des benchmarks à tirage aléatoire qui, par construction, sous-représentent les configurations critiques. Si les défaillances sont rares mais concentrées dans certaines régions de l'espace de tâche, ce que FATE-VLA confirme empiriquement, un benchmark classique peut afficher 64 % de succès là où un intégrateur confronté à ces configurations limites observera des performances nettement inférieures. Le paradigme proposé s'inspire du fuzzing et du test adversarial déjà standards en sécurité logicielle, deux pratiques absentes des protocoles de validation robotique actuels. Les modèles VLA ont connu une accélération marquée depuis 2023-2024, avec des architectures comme pi-zero (Physical Intelligence), GR00T N1/N1.6 (NVIDIA), OpenVLA et Octo. Leur évaluation s'appuie encore sur des benchmarks fixes comme LIBERO, Calvin ou MetaWorld, tous vulnérables au biais d'échantillonnage décrit ici. FATE-VLA s'inscrit dans une tendance plus large de stress-testing adaptatif des modèles de fondation robotiques, en parallèle des travaux sur la robustesse sim-to-real et le domain randomization. Il s'agit d'un preprint arXiv sans déploiement ni pilote industriel annoncé, mais ses recommandations ciblent directement les équipes de validation chez les fabricants de bras manipulateurs et les intégrateurs qui ne disposent pas encore de standards formels pour certifier des politiques neuronales généralisables avant mise en production.

UELes intégrateurs et fabricants européens évaluant ou déployant des modèles VLA en production industrielle sont directement concernés : les benchmarks standards sur lesquels reposent les performances annoncées (dont celles de GR00T-N1.6 de NVIDIA) sous-représentent par construction les configurations critiques, exposant ces équipes à des taux de défaillance réels nettement supérieurs aux chiffres publiés.

RechercheOpinion
1 source
SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA
126arXiv cs.RO 

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Une équipe de recherche a publié en juin 2026 SafeVLA-Bench (arXiv:2606.00773), un cadre d'évaluation de la sécurité conçu spécifiquement pour les modèles vision-langage-action (VLA). Contrairement aux benchmarks existants qui se limitent à mesurer si une tâche de manipulation a été accomplie ou non, SafeVLA-Bench évalue ce qui se passe pendant la trajectoire d'exécution : contact excessif avec l'environnement, perturbation d'objets adjacents, déstabilisation de l'objet tenu, ou auto-contact du robot. Le framework formalise ces critères sous forme de spécifications Signal Temporal Logic (STL) et introduit deux métriques complémentaires : SBU (Succ-But-Unsafe), la fraction des séquences d'exécution qui réussissent la tâche tout en violant une contrainte de sécurité, et VSI (Violation Severity Index), un score de profondeur de violation borné. Appliqué à deux environnements de simulation, LIBERO (manipulation sur table) et RoboCasa-365 (cuisine), sur neuf entrées politique-benchmark, le framework révèle des chiffres préoccupants : les meilleures baselines tabletop affichent encore 13 à 15 % d'épisodes non sécurisés, et 36 à 56 % des rollouts réussis de RoboCasa-365 violent au moins une clause de sécurité active. Ce travail met en évidence un angle mort systémique dans l'évaluation des VLA : un taux de succès élevé ne garantit pas une exécution sûre. Pour les intégrateurs industriels et les équipes qui envisagent de déployer des politiques VLA en environnement réel, cela signifie que les benchmarks habituels surestiment structurellement la maturité des modèles. La distinction que pose SafeVLA-Bench entre "tâche accomplie" et "accomplie de façon acceptable" est exactement le type de critère qui sépare une démo convaincante d'un déploiement industriellement viable. Il faut noter que l'ensemble des résultats repose sur des simulations, ce qui laisse entière la question du transfert sim-to-real pour les violations de sécurité elles-mêmes. L'initiative s'inscrit dans une dynamique plus large de maturation de l'évaluation des VLA, portée notamment par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure), dont les capacités de manipulation généraliste progressent plus vite que les outils pour les qualifier rigoureusement. Jusqu'ici, la communauté s'appuyait sur des métriques de succès binaires héritées de l'ère pré-VLA, insuffisantes dès lors que les politiques sont intégrées dans des chaînes de production ou à proximité d'opérateurs humains. SafeVLA-Bench se positionne comme un outil post-hoc, applicable aux benchmarks existants sans refaire les évaluations depuis zéro. Les prochaines étapes naturelles incluent l'extension à des environnements physiques réels et l'intégration dans les pipelines de certification des systèmes cobotiques. Le projet est documenté sur safevla.org.

UESafeVLA-Bench pourrait alimenter les cadres de certification des systèmes cobotiques en Europe, notamment dans le contexte de l'AI Act qui impose des évaluations de sécurité rigoureuses pour les systèmes IA à haut risque déployés à proximité d'opérateurs humains.

RechercheOpinion
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
127arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source
AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux
128arXiv cs.RO 

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

Des chercheurs du laboratoire be2rlab publient sur arXiv (arXiv:2605.25901) AgentGrounder, un système de localisation visuelle 3D zéro-shot opérant directement sur des nuages de points colorés, sans entraînement spécifique à la tâche. L'architecture repose sur deux étapes : une phase hors ligne construit une table de correspondance d'objets (Object Lookup Table, OLT) regroupant identifiants d'instances, labels sémantiques et boîtes englobantes 3D ; une phase en ligne déploie un agent qui décompose chaque requête en langage naturel, récupère les candidats pertinents dans l'OLT, effectue un scoring géométrique, puis déclenche un rendu d'image à la demande lorsque des indices visuels supplémentaires (couleur, texture, angle de vue) sont nécessaires. Évalué sur les benchmarks ScanRefer et Nr3D en configuration zéro-shot, AgentGrounder surpasse SeeGround de +2,5 % en précision Acc@0.5 sur ScanRefer et de +6,3 % sur Nr3D, dont un gain de +6,3 % sur les requêtes indépendantes du point de vue. Le code est publié sur GitHub. Ce résultat est directement pertinent pour les équipes travaillant sur la manipulation robotique et la navigation en environnements intérieurs non structurés. L'absence d'entraînement dédié abaisse la barrière d'intégration : un robot équipé d'un LiDAR ou d'une caméra de profondeur pourrait répondre à des commandes en langage naturel sans fine-tuning sur l'environnement cible, ce qui simplifie les déploiements dans des entrepôts ou des espaces de service variables. Le mécanisme de récupération sélective dans l'OLT réduit les erreurs en cascade typiques des pipelines d'ancrage-cible fixes, qui saturent la fenêtre de contexte des modèles de langage avec des objets non pertinents. L'inspection visuelle adaptative évite par ailleurs de solliciter inutilement les capacités multimodales coûteuses lorsque la géométrie seule suffit à discriminer. La localisation visuelle 3D est un domaine de recherche structuré autour de benchmarks comme ScanRefer (2020) et Nr3D, qui évaluent la capacité à identifier un objet précis dans une scène intérieure 3D à partir d'une description textuelle ambiguë. Les méthodes zéro-shot antérieures supposaient souvent des ensembles d'images multi-vues préexistants et peinaient face aux limites sémantiques des outils de segmentation 3D standards, SeeGround représentant jusqu'ici l'état de l'art sur ces benchmarks. Côté industrie, NVIDIA intègre des capacités de grounding 3D dans son framework GR00T pour la manipulation robotique, tandis qu'Enchanted Tools en France et les équipes embodied AI de Meta FAIR travaillent sur des modules similaires de compréhension spatiale ouverte. AgentGrounder, encore au stade de preprint non évalué par les pairs, devra confirmer ses performances hors contexte académique avant toute adoption en conditions réelles.

UEEnchanted Tools (France), explicitement citée comme travaillant sur des modules similaires de compréhension spatiale ouverte, peut utiliser AgentGrounder comme référence zéro-shot pour réduire les coûts de fine-tuning dans ses déploiements robotiques.

RechercheOpinion
1 source
Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)
129arXiv cs.RO 

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

Une étude déposée sur arXiv (2605.24642) analyse rigoureusement l'intégration des modèles de fondation géométriques (GFM) dans les modèles vision-langage-action (VLA) pour la robotique de manipulation. Les chercheurs ont choisi comme sujets d'étude GR00T N1.5, le VLA de NVIDIA dédié aux robots humanoïdes, et VGGT, un GFM spécialisé dans la reconstruction 3D multi-vues. À l'aide d'une technique de sondage linéaire (linear probing), ils ont quantifié pour la première fois ce qu'ils nomment le "geometric gap" : l'écart mesurable entre la représentation spatiale d'un GFM et celle d'un VLA contemporain. Trois architectures distinctes d'injection de la géométrie dans un VLA ont ensuite été implémentées et comparées, avec des détails bas niveau maintenus constants pour assurer l'équité expérimentale. L'équipe a également mesuré l'impact de facteurs non-architecturaux : volume de données d'entraînement, nombre de caméras utilisées, et qualité de la reconstruction 3D résultante. Ce travail répond à une question que beaucoup de praticiens esquivaient : les VLAs actuels "voient-ils" vraiment en 3D, ou s'appuient-ils sur des corrélations 2D apprises statistiquement ? La réponse est formellement négative. L'analyse quantitative démontre que les VLAs de dernière génération, y compris GR00T N1.5, manquent de représentations géométriques structurées, ce qui constitue un frein identifiable pour les tâches de manipulation fine en environnement non contrôlé. Pour les intégrateurs et les équipes R&D, cela valide l'hypothèse justifiant les architectures hybrides géométriques, tout en fournissant une méthodologie d'évaluation reproductible plutôt qu'une démonstration isolée, souvent peu généralisable. Les VLAs ont connu une accélération marquée depuis 2023, avec Physical Intelligence (pi0), Google DeepMind (RT-2) et NVIDIA (GR00T N1 puis N1.5, disponible depuis début 2025) qui rivalisent sur les benchmarks de manipulation. VGGT s'inscrit dans une vague de GFMs récents visant à fournir une compréhension 3D dense sans LiDAR. Cette étude s'intègre dans une tendance plus large : combler le sim-to-real gap par une modélisation spatiale explicite plutôt que par un simple scaling de données. Les suites logiques incluent l'extension de cette analyse comparative à d'autres paires VLA/GFM, et la validation sur robots physiques des trois architectures proposées pour trancher sur laquelle produit le meilleur transfer vers les tâches réelles.

UEImpact indirect : la méthodologie de linear probing et la quantification du 'geometric gap' sont directement réutilisables par les équipes R&D européennes (INRIA, CEA-List, startups VLA) pour évaluer et améliorer leurs propres architectures hybrides avant validation sur robot physique.

💬 Ce que tout le monde dans la communauté robotique savait intuitivement, c'est maintenant mesuré proprement : les VLAs actuels, GR00T inclus, ne "voient" pas vraiment en 3D. La vraie valeur de ce papier, c'est moins la conclusion (qu'on pressentait) que la méthodologie, le linear probing pour quantifier le geometric gap est directement réutilisable par n'importe quelle équipe R&D sans repartir de zéro. Reste à voir laquelle des trois architectures d'injection tient face à du hardware physique réel, parce que les benchmarks en sim, on connaît la chanson.

IA physiqueOpinion
1 source
VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)
130arXiv cs.RO 

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Une équipe de recherche vient de publier VLA-REPLICA (arXiv:2605.20774, mai 2026), un banc d'évaluation réel, bas coût et reproductible, conçu pour tester les modèles de type Vision-Language-Action (VLA) sur des tâches de manipulation robotique. L'architecture repose entièrement sur des composants disponibles dans le commerce, ce qui permet à n'importe quel laboratoire d'assembler le setup en quelques jours et de reproduire les mêmes conditions expérimentales. Le benchmark intègre une suite de tâches de manipulation variées, un dataset de démonstrations de petite taille pour l'adaptation au domaine cible, ainsi que des protocoles d'évaluation distincts pour des scénarios en distribution et hors distribution. Les expériences menées couvrent l'apprentissage par imitation classique et plusieurs modèles VLA de l'état de l'art, avec des résultats cohérents obtenus sur des setups construits indépendamment dans différents sites. L'enjeu derrière VLA-REPLICA est directement lié à un problème structurel du secteur : l'évaluation réelle des modèles VLA reste fragmentée, coûteuse, et difficile à comparer d'un labo à l'autre. Les benchmarks en simulation ne capturent pas la complexité du monde physique, tandis que les benchmarks réels existants exigent souvent du matériel spécialisé onéreux ou une évaluation centralisée. Ce benchmark vise à combler ce fossé en fournissant une infrastructure standardisée et décentralisée, ce qui est une condition nécessaire pour que la communauté puisse comparer honnêtement les modèles et identifier leurs limites réelles, notamment face au sim-to-real gap qui affecte encore la plupart des politiques de manipulation. Les modèles VLA ont connu une montée en puissance rapide ces deux dernières années, avec des systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu des travaux de Stanford et Berkeley. Malgré des performances impressionnantes en démo, leur déploiement industriel reste freiné par l'absence de protocoles d'évaluation partagés et comparables. VLA-REPLICA s'inscrit dans un mouvement plus large de standardisation des benchmarks robotiques, comparable à ce qu'ont représenté BOP ou NIST Task Board pour d'autres sous-domaines. La prochaine étape logique serait l'adoption de ce protocole par plusieurs équipes tier-1 pour valider la reproductibilité à grande échelle et créer une baseline commune sur laquelle ancrer les publications futures.

UELes laboratoires européens de robotique (CEA-List, INRIA, universités) peuvent adopter ce benchmark reproductible bas coût pour évaluer leurs modèles VLA sur une infrastructure standardisée, abaissant la barrière d'entrée aux comparaisons internationales sans dépendre de matériel onéreux ou de benchmarks centralisés.

💬 C'est le genre de truc qu'on attendait depuis deux ans, même si ça fait moins de bruit qu'un nouveau modèle. Les benchmarks en simulation ne capturent pas le monde physique, et les vrais setups coûtaient trop cher pour être reproduits d'un labo à l'autre. Du matos grand public et des protocoles partagés, c'est la fondation qui manquait pour que les comparaisons aient enfin du sens.

IA physiquePaper
1 source
RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés
131arXiv cs.RO 

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

Des chercheurs du PurSec Lab ont publié RoboJailBench, un benchmark standardisé pour évaluer les attaques adversariales de type "jailbreak" et leurs contre-mesures dans les systèmes d'IA embarquée. Présenté sur arXiv (2605.19328), ce framework cible les agents robotiques et véhicules autonomes qui s'appuient sur des Vision-Language Models (VLMs) pour interpréter l'environnement visuel et exécuter des commandes en langage naturel. Il repose sur trois composantes: une taxonomie de sécurité dérivée des normes ISO et d'incidents documentés, couvrant 18 catégories de violations; un pipeline de données "intent contrast" associant à chaque exemple un objectif adversarial et un objectif bénin, afin de mesurer conjointement sécurité et utilité; et un dépôt évolutif de métriques standardisées. Les auteurs ont construit un dataset taxonomique, enrichi cinq datasets existants, intégré quatre types d'attaques et deux défenses, puis évalué l'ensemble sur les principaux VLMs embarqués actuels. Un leaderboard public est maintenu sur purseclab.github.io. L'enjeu dépasse la recherche académique. Un robot compromis par un jailbreak n'affiche pas une réponse textuelle inappropriée: il exécute une action physique potentiellement dangereuse. Les benchmarks existants ciblaient soit les LLMs conversationnels, soit la sécurité non-adversariale des agents incarnés, sans jamais capturer le triptyque risques adversariaux, conséquences physiques et arbitrage sécurité-utilité. Quantifier explicitement ce compromis est une contribution méthodologique significative: un système trop défensif bloque des commandes légitimes et devient inutilisable en production. Pour les intégrateurs industriels, une grille d'évaluation ancrée dans les normes ISO simplifie la qualification réglementaire avant tout déploiement réel. La montée en puissance des VLMs dans la robotique physique, illustrée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures de Figure AI, a considérablement élargi la surface d'attaque des systèmes autonomes. Des travaux antérieurs avaient documenté la vulnérabilité des agents embarqués aux jailbreaks visuels ou textuels, mais sans cadre d'évaluation reproductible. Alors que des fabricants comme Boston Dynamics, Unitree ou, côté européen, Enchanted Tools intègrent des VLMs en production, la robustesse adversariale est appelée à devenir une exigence réglementaire dans les secteurs logistique, manufacturier et médical. RoboJailBench pose une base commune sur laquelle industriels et académiques peuvent s'appuyer pour standardiser ces tests avant mise en service.

UELe benchmark RoboJailBench, ancré dans les normes ISO, fournit aux intégrateurs européens, dont Enchanted Tools (France) qui déploie des VLMs en production, un cadre standardisé pour qualifier la robustesse adversariale avant mise en service sous les exigences de l'AI Act.

Societe/EthiqueOpinion
1 source
Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine
132arXiv cs.RO 

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Des chercheurs ont publié en mai 2026 MetaFine, un cadre de méta-évaluation diagnostique conçu pour mesurer avec précision les capacités de manipulation fine des robots. Contrairement aux benchmarks existants qui réduisent la performance à un taux de succès binaire (réussi ou échoué), MetaFine décompose la compétence de manipulation en trois axes distincts : la compréhension contextuelle de la scène, la perception spatiale haute fidélité, et l'exécution motrice sous contraintes. L'étude démontre que l'approche binaire classique surestime artificiellement les capacités des modèles vision-langage-action (VLA) jusqu'à 70%, masquant les goulots d'étranglement architecturaux qui bloquent le déploiement réel. Le framework s'appuie sur un graphe de tâches compositionnel capable d'absorber des benchmarks externes hétérogènes et de les reconstruire en scénarios diagnostiques de complexité variable, sous un protocole unifié. La validation hybride réel-simulation est également intégrée : un nombre limité de rollouts réels sert à calibrer des estimations simulées scalables pour un benchmarking physique plus robuste. L'enjeu est structurant pour le secteur : si les meilleurs modèles VLA actuels semblent performants selon les métriques classiques, MetaFine révèle des échecs sévères et dimension-spécifiques, invisibles jusqu'ici aux évaluateurs. L'analyse causale ciblée identifie l'encodeur visuel comme principal goulot d'étranglement pour la précision fine. Sa capacité à préserver la structure spatiale locale détermine directement l'accès à des capacités de manipulation jugées hors de portée : améliorer cet encodeur suffit à les débloquer sans modifier la politique de contrôle aval. Cette découverte oriente concrètement les priorités R&D pour les équipes d'ingénierie et les intégrateurs industriels qui cherchent à comprendre pourquoi leurs systèmes échouent en conditions réelles. MetaFine s'inscrit dans un contexte de prolifération de benchmarks pour la manipulation embodied, où la course aux métriques produit des systèmes sur-optimisés pour les tests mais fragiles à l'échelle. La communauté VLA fait face depuis plusieurs années au fossé démo-réalité : des résultats impressionnants en laboratoire qui ne se transfèrent pas en production. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix ont montré des performances prometteuses, mais leurs architectures restent difficiles à comparer rigoureusement faute d'outils d'évaluation adaptés. MetaFine propose de renverser la logique : passer du classement au diagnostic, pour identifier et corriger systématiquement les couches de capacités défaillantes. Le framework, les benchmarks et les ressources associées seront publiés en accès libre sur metafine.github.io.

UELe framework MetaFine, publié en accès libre, offre aux équipes R&D et intégrateurs industriels européens un outil diagnostique concret pour identifier les goulots d'étranglement architecturaux de leurs systèmes VLA, sans impact direct sur un acteur français ou européen spécifique.

IA physiquePaper
1 source
Auto-encodeurs épars ancrés dans les événements pour les politiques VLA
133arXiv cs.RO 

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Une équipe de chercheurs a publié le 22 mai 2025 sur arXiv (référence 2605.17204) un pipeline d'interprétabilité pour les politiques Vision-Language-Action (VLA), ces modèles qui traduisent des instructions en langage naturel et des entrées visuelles directement en commandes motrices pour robots. Leur approche, baptisée Event-Grounded SAE (Sparse Autoencoder), ancre l'analyse des représentations internes du modèle à des événements comportementaux concrets plutôt qu'à des contextes textuels. Concrètement, des images-clés (keyframes) de l'effecteur terminal sont extraites et regroupées en clusters selon des critères visuels, d'état et temporels, puis associées optionnellement à des annotations sémantiques via un VLM. La méthode a été validée sur deux architectures en simulation et dans une étude sur robot réel, en ciblant notamment les modèles OpenVLA et pi-0.5 (Physical Intelligence). L'enjeu est considérable pour quiconque déploie des VLA en conditions industrielles : ces politiques restent des boîtes noires dont les représentations internes sont difficiles à auditer. Les outils d'interprétabilité mécaniste développés pour les LLMs ne se transfèrent pas directement aux VLA, car les sorties sont des vecteurs d'action continus, non des tokens lisibles, et chaque intervention ne peut être évaluée que via des rollouts en boucle fermée, coûteux à opérer. Le pipeline présenté est, selon les auteurs, parmi les premiers à ancrer l'analyse SAE dans des événements comportementaux fermés, ce qui produit les effets causaux les plus forts mesurés sur OpenVLA et se transfère aux chunks d'action continus de pi-0.5. Les auteurs notent toutefois des limites : le SAE est une base d'intervention sparse mais imparfaite, dont l'utilisabilité varie selon l'architecture et le point d'injection, et des interventions agressives révèlent des défaillances de sécurité non triviales. Ce travail s'inscrit dans une dynamique d'accélération autour des VLA, où des modèles comme OpenVLA (Berkeley), pi-0 et pi-0.5 (Physical Intelligence), ou encore GR00T N2 (NVIDIA) cherchent à généraliser la commande de robots via des fondations pré-entraînées à grande échelle. L'interprétabilité de ces modèles est devenue un prérequis non négociable pour les déploiements à risque élevé, un angle encore peu adressé face à la course aux benchmarks de performance. Les chercheurs identifient plusieurs directions prioritaires : aller au-delà des coordonnées alignées sur l'action, développer des évaluations en boucle fermée plus granulaires, et concevoir des mécanismes d'intervention sûrs. Le code est disponible publiquement sur GitHub (xc-j/Event-SAE).

UELes outils d'interprétabilité VLA présentés pourraient faciliter la conformité aux exigences d'explicabilité de l'AI Act européen pour les systèmes robotiques à haut risque, un angle encore peu adressé par les acteurs européens.

💬 Tout le monde court après les benchmarks VLA, et je vois peu de monde s'inquiéter de la boîte noire. Ce papier prend l'angle inverse et ancre l'interprétabilité dans des événements comportementaux concrets, validé sur robot réel (pas juste en sim), c'est exactement le genre de boulot qu'on attendait. Mauvaise surprise : les interventions agressives révèlent des failles de sécurité sérieuses, et si tu déploies des VLA en prod, ce papier mérite ton attention.

IA physiqueOpinion
1 source
FANUC renforce l'intégration de ses robots avec NVIDIA Isaac Sim
134Robotics Business Review 

FANUC renforce l'intégration de ses robots avec NVIDIA Isaac Sim

FANUC a annoncé début mai 2026 un renforcement de l'intégration entre son logiciel de simulation ROBOGUIDE et le framework NVIDIA Isaac Sim, articulé autour de deux modes d'opération complémentaires. Dans le premier, Isaac Sim pilote l'interface utilisateur tandis que ROBOGUIDE tourne en arrière-plan pour garantir la fidélité des trajectoires : les opérateurs manipulent le robot en temps réel via un pupitre virtuel ou physique connecté à ROBOGUIDE, comme sur une machine réelle, avec possibilité d'enseigner des programmes et de vérifier les résultats directement dans l'environnement simulé. Le second mode intègre le moteur physique NVIDIA PhysX dans ROBOGUIDE, permettant de simuler des scénarios de bin picking avec des pièces en vrac modélisées par physique procédurale, associées au système de vision 3D de ROBOGUIDE pour les opérations pick-and-place. En parallèle, FANUC a présenté ce mois-ci un démonstrateur de pliage de T-shirts basé sur le modèle fondation GR00T N de NVIDIA, exécuté sur la plateforme embarquée Jetson Thor via apprentissage par imitation. La collaboration avait été démontrée pour la première fois à l'IREX de Tokyo en décembre 2025. L'enjeu industriel est double. La promesse d'éliminer le "sim-to-real gap" (l'écart de comportement entre robot simulé et robot réel) repose sur l'utilisation des mêmes algorithmes de contrôle dans les deux environnements ; si elle tient en production, cela réduirait significativement le temps de mise en service virtuelle (virtual commissioning), poste de coût majeur pour les intégrateurs industriels. La simulation de bin picking avec PhysX répond par ailleurs à un besoin concret : ce type de cellule nécessitait jusqu'ici de longs essais physiques avec de vraies pièces. Une réserve s'impose cependant : les vidéos de démonstration sont sélectionnées pour leur succès et ne permettent pas de conclure sur la robustesse à l'échelle avec des géométries complexes ou des conditions d'éclairage variables. L'intégration d'Isaac Lab pour l'apprentissage par renforcement et par imitation ouvre également la voie à la génération de politiques de contrôle sans programmation explicite, un gain de temps réel pour les petites séries. FANUC, fondé en 1972 à Oshino au Japon et premier fournisseur mondial de commandes numériques et de robots industriels avec plus de 900 000 unités installées, consolide ici un partenariat avec NVIDIA initié autour des plateformes Jetson et Omniverse. La concurrence directe est significative : ABB propose RobotStudio, KUKA son environnement KUKA.Sim, Universal Robots URSim, mais aucun n'affiche encore une intégration bi-directionnelle aussi étroite avec l'écosystème NVIDIA. Du côté des constructeurs d'humanoïdes (Figure, 1X, Agility Robotics), la simulation haute-fidélité est aussi un levier clé pour l'entraînement des modèles VLA (vision-language-action), segment que FANUC ne cible pas mais dont l'outillage converge vers les mêmes briques technologiques. Les prochaines étapes annoncées portent sur l'extension du support aux composants flexibles (câbles, textiles) et le déploiement commercial de la cellule de pliage basée sur GR00T N, dont les timelines n'ont pas encore été précisées.

UEL'intégration FANUC-NVIDIA accentue la pression concurrentielle sur ABB et KUKA pour proposer des capacités équivalentes, et pourrait réduire les coûts de mise en service virtuelle pour les intégrateurs industriels européens équipés de robots FANUC.

IndustrielOpinion
1 source
Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA
135Robotics & Automation News 

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

L'Allen Institute for AI (Ai2), centre de recherche indépendant basé à Seattle et fondé par Paul Allen en 2014, a publié cette semaine MolmoAct 2, un modèle de fondation robotique open source conçu pour améliorer l'exécution de tâches physiques en environnement réel. Contrairement aux approches précédentes centrées sur des scénarios de laboratoire hautement contrôlés, MolmoAct 2 cible la généralisation à des environnements non structurés, en s'appuyant sur l'architecture multimodale de Molmo, le modèle vision-langage qu'Ai2 avait rendu public en 2024. Le modèle est diffusé sous licence ouverte, avec poids et code disponibles publiquement. L'enjeu pour l'industrie est direct : les modèles de fondation robotiques à diffusion ouverte réduisent la barrière d'entrée pour les intégrateurs et les équipes R&D qui ne disposent pas des ressources pour entraîner des politiques de zéro. MolmoAct 2 s'inscrit dans la lignée des travaux sur les VLA (Vision-Language-Action models), une architecture qui couple perception visuelle, compréhension du langage naturel et génération de commandes motrices. L'ouverture du modèle permet des audits indépendants et une adaptation à des morphologies robotiques variées, ce qui est difficile avec des modèles propriétaires comme GR00T N2 de NVIDIA ou π0 de Physical Intelligence. Ai2 est surtout connu pour ses contributions au NLP (AllenNLP, Semantic Scholar) avant de pivoter vers la robotique incarnée. MolmoAct 2 le place directement en concurrence avec les initiatives open source existantes comme OpenVLA (Berkeley) et les modèles RT-X de Google DeepMind, dans un secteur où Physical Intelligence, Figure AI et 1X Technologies se disputent le leadership sur les déploiements industriels. L'article source étant partiellement tronqué, les métriques de performance (taux de succès, benchmarks sur manipulation) et les éventuels partenariats de déploiement n'ont pas pu être vérifiés.

UELes équipes R&D et intégrateurs européens peuvent accéder librement aux poids et au code de MolmoAct 2, réduisant la dépendance aux modèles propriétaires américains pour le développement de politiques robotiques.

💬 C'est le genre de modèle qu'on attend depuis que tout le monde se bat pour faire des démos en labo. L'ouverture des poids, c'est pas juste un geste de générosité, c'est ce qui permet aux équipes R&D d'adapter le truc à leur propre morphologie robotique sans repartir de zéro. Reste à voir si ça tient face à des environnements vraiment non structurés, parce que "généralisation" c'est un mot qu'on lit souvent dans les papiers, moins souvent dans les entrepôts.

IA physiqueOpinion
1 source
Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA
136arXiv cs.RO 

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Des chercheurs ont publié mi-mai 2026 sur arXiv (référence 2605.11459) une méthode baptisée "Pace-and-Path Correction" pour corriger un angle mort structurel des modèles VLA (Vision-Language-Action). Ces modèles, socle technique des bras manipulateurs de nouvelle génération, sont entraînés sur des observations à image unique (single-frame), ce qui les rend incapables de percevoir les dynamiques temporelles lors de l'exécution d'une séquence planifiée. En pratique, dès qu'un objet bouge pendant que le robot exécute un "action chunk", les performances chutent sévèrement, même après fine-tuning sur des datasets dynamiques. L'opérateur proposé s'applique à l'inférence sans ré-entraînement, comme une couche wrapper autour de tout VLA à action chunking, et se décompose en deux canaux orthogonaux issus d'une minimisation de coût quadratique unique : un canal "pace" compressant l'exécution le long de la trajectoire prévue, et un canal "path" appliquant un décalage spatial orthogonal pour absorber les perturbations dynamiques dans la fenêtre temporelle du chunk. Évalué sur MoveBench, un benchmark conçu pour isoler le mouvement comme seule variable contrôlée, la méthode améliore le taux de succès de 28,8 points de pourcentage en environnement purement dynamique et de 25,9 points en contexte mixte statique-dynamique, surpassant les VLAs de base ainsi que les approches dynamiques-adaptatives existantes. L'enjeu est directement opérationnel : les VLAs actuels comme pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de Nvidia peinent dès qu'un convoyeur avance ou qu'un opérateur interfère avec la scène, soit le cas standard en environnement industriel réel. Corriger ce "dynamics gap" exigeait jusqu'ici un ré-entraînement coûteux, souvent rédhibitoire pour un intégrateur sans infrastructure ML dédiée. Le caractère training-free de Pace-and-Path Correction signifie qu'elle peut s'intégrer sur un modèle déjà déployé sans modifier les poids ni la pipeline d'apprentissage, abaissant drastiquement la barrière d'adoption pour des déploiements en conditions réelles. La "dynamics-blindness" des VLAs est une critique récurrente depuis l'émergence de pi-0 et OpenVLA en 2024-2025, la majorité des démonstrations publiques ayant lieu sur scènes statiques et laissant ouvert le demo-to-reality gap dès que les conditions industrielles se compliquent. Ce travail s'inscrit dans la course à la manipulation robuste que se livrent Nvidia, Figure (Figure 03), Boston Dynamics et 1X Technologies. Aucun acteur français n'est directement cité, mais les conclusions intéressent des intégrateurs comme Exotec et des équipes de recherche comme le LAAS-CNRS travaillant sur la manipulation en environnement non-structuré. La prochaine étape logique est une validation sur hardware réel - le papier reste à ce stade un benchmark simulé - et une intégration dans des stacks open-source comme LeRobot de Hugging Face.

UELes équipes LAAS-CNRS travaillant sur la manipulation non-structurée et des intégrateurs comme Exotec pourraient adopter cette correction sans ré-entraînement pour améliorer la robustesse de déploiements VLA en environnement industriel dynamique, sans infrastructure ML dédiée.

💬 Le dynamics gap des VLAs, on le connaissait depuis l'émergence de pi-0 : dès qu'un objet bouge pendant l'exécution d'un chunk, c'est la déroute. Ce qui change ici, c'est que la correction s'applique à l'inférence sans toucher aux poids, comme une couche qu'on pose par-dessus n'importe quel modèle déjà déployé. +28 points sur MoveBench, training-free : si ça tient sur hardware réel, les intégrateurs n'ont plus d'excuse pour rester sur des scènes statiques.

IA physiqueOpinion
1 source
Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs
137arXiv cs.RO 

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Des chercheurs ont publié sur arXiv (référence 2602.06339, version 2, février 2026) une analyse théorique des hallucinations d'action dans les modèles VLA (Vision-Language-Action), ces architectures de fondation qui promettent une généralisation large pour le contrôle robotique de bout en bout. L'étude, centrée sur les politiques génératives à variables latentes, identifie trois catégories de barrières structurelles qui provoquent des hallucinations, c'est-à-dire des actions générées violant des contraintes physiques du monde réel : une barrière topologique (liée à la topologie de l'espace d'action), une barrière de précision (résolution insuffisante pour les tâches fines), et une barrière d'horizon (dégradation des performances sur les séquences longues). Ces barrières ne sont pas des artefacts d'implémentation corrigeables à la marge, mais des inadéquations structurelles entre l'espace des comportements robots physiquement réalisables et les architectures de modèles courantes. La portée de ce travail dépasse le cadre académique : il fournit des explications mécanistes aux échecs empiriques régulièrement rapportés lors du déploiement de politiques VLA en conditions réelles, et remet en question une hypothèse dominante du secteur selon laquelle les modèles de fondation généralistes résoudraient intrinsèquement le problème de génération d'action en robotique incarnée. Pour les intégrateurs et les équipes R&D industrielles, cela signifie que des phénomènes observés en déploiement, comme des mouvements incohérents, des échecs sur des tâches longues ou des erreurs de précision fine, ont une origine architecturale identifiable, et non pas seulement un déficit de données d'entraînement. Les auteurs soulignent que ces limitations imposent des compromis inévitables, et non des problèmes résolubles uniquement par le scaling ou l'augmentation des datasets. Le champ des VLAs s'est considérablement densifié depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA (open-source) ou encore RT-2 de Google DeepMind, qui font tous le pari d'une politique robotique unifiée entraînée sur des données massives. Cette étude apporte une perspective critique et formalisée dans un domaine encore largement dominé par des démonstrations en environnements contrôlés, souvent sans publication des métriques d'échec. Les auteurs ne proposent pas d'abandonner l'approche générative, mais tracent des directions pour améliorer fiabilité et robustesse sans sacrifier la puissance expressive de ces architectures, un prérequis non négociable pour franchir le seuil du déploiement industriel réel.

UELes équipes R&D françaises et européennes travaillant sur des politiques robotiques VLA (INRIA, CEA-List, startups robotiques) peuvent réévaluer leurs choix architecturaux et ne plus imputer uniquement à un déficit de données les échecs de déploiement observés en conditions réelles.

💬 On sait depuis un moment que les VLAs galèrent en conditions réelles, mais tout le monde imputait ça à des données insuffisantes. Ces chercheurs identifient trois barrières structurelles (topologie, précision, horizon) que le scaling seul ne résoudra pas. Pour les équipes qui pariaient sur "encore plus de données pour y arriver", c'est un mur.

IA physiqueOpinion
1 source
AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action
138arXiv cs.RO 

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Des chercheurs de l'INSAIT (Institute for Computer Science, Artificial Intelligence and Technology, Sofia, Bulgarie) ont publié début 2026 AR-VLA, une architecture de politique robotique qui remplace les têtes d'action à base de blocs (chunk-based) par un expert d'action autorégressif autonome. Contrairement aux modèles VLA existants, qu'ils soient réactifs ou basés sur la diffusion, qui réinitialisent leur contexte temporel à chaque nouvelle observation, AR-VLA maintient une mémoire longue durée et génère les actions comme une séquence causale continue. Le système intègre un mécanisme de re-ancrage (re-anchoring) pour synchroniser les modalités asynchrones vision-langage-action, compensant mathématiquement le délai entre une perception lente (quelques Hz) et un contrôle moteur rapide (centaines de Hz). Les expériences couvrent des tâches de manipulation en simulation et sur robots réels, où AR-VLA atteint ou dépasse les taux de succès des VLA réactifs de l'état de l'art tout en produisant des trajectoires sensiblement plus lisses. L'enjeu central est le découplage entre raisonnement perceptif lent et contrôle moteur rapide, un problème structurel des architectures VLA actuelles. En traitant les actions comme une séquence autorégressive avec historique persistant plutôt que comme un bloc prédit à chaque nouvelle trame, AR-VLA rend la politique intrinsèquement consciente du contexte : elle sait ce qu'elle vient d'exécuter, pas seulement ce qu'elle observe à l'instant T. Pour les équipes robotiques et les intégrateurs, cette architecture autorise un préentraînement modulaire de la syntaxe cinématique indépendamment du backbone de perception, réduisant potentiellement les coûts de développement de politiques spécialistes ou généralistes. La cohérence spatio-temporelle accrue réduit également les oscillations et les reprises de mouvement, deux facteurs critiques en déploiement industriel. L'INSAIT, fondé en 2022 à Sofia avec le soutien de Google, Microsoft et de l'EPFL, s'est imposé rapidement comme un pôle de recherche en IA en Europe centrale. AR-VLA s'inscrit dans une compétition ouverte sur l'architecture des politiques robot-généralistes, où Physical Intelligence (pi-0, pi-0.5), NVIDIA (GR00T N2), Google DeepMind et des startups comme Figure (Helix) ou 1X défendent des approches concurrentes. L'approche par diffusion, popularisée notamment par pi-0 et Diffusion Policy, constitue l'alternative dominante aux VLA réactifs ; AR-VLA la défie directement en montrant qu'un modèle autorégressif pur peut produire des trajectoires plus cohérentes sans recourir à des processus de débruitage itératifs. AR-VLA demeure pour l'instant un preprint arXiv (2603.10126v2), sans annonce de déploiement industriel ni de commercialisation. Le code et les vidéos de démonstration sont disponibles sur arvla.insait.ai.

UEL'INSAIT (Sofia, Bulgarie), soutenu par Google, Microsoft et l'EPFL, positionne l'UE comme acteur de recherche crédible dans la course aux architectures VLA généralistes ; le code est disponible et testable par les équipes robotiques européennes.

FR/EU ecosystemeOpinion
1 source
ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA
139arXiv cs.RO 

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Des chercheurs ont déposé sur arXiv (référence 2605.08612) un cadre d'attaque par porte dérobée ciblant les modèles Vision-Language-Action (VLA), architectures qui connectent perception visuelle, compréhension du langage naturel et génération de commandes motrices pour robots. Le framework proposé, baptisé ATAAT (Adaptive Threat-Aware Adversarial Tuning), exploite la voie visuelle des VLA pour y injecter des déclencheurs adversariaux, et atteint un taux de succès d'attaque ciblée (TASR) supérieur à 80% avec un taux d'empoisonnement de seulement 5% des données d'entraînement. L'étude identifie un phénomène clé baptisé "interférence de gradient" : un échec d'optimisation qui survient lorsque les stratégies de rétropropagation entrent en conflit durant l'entraînement bout-en-bout, ce qui explique l'échec des attaques traditionnelles sur les VLA. ATAAT contourne cet obstacle via un mécanisme de "cartographie adaptative menace-méthode" qui sélectionne dynamiquement la stratégie de découplage de gradient selon les capacités supposées de l'attaquant. Ce travail soulève des questions de sécurité concrètes pour les équipes intégrant des VLA en contexte industriel. Un taux d'empoisonnement de 5% signifie qu'une contamination limitée de la pipeline de données d'entraînement suffit à implanter un comportement malveillant quasi indétectable lors des audits standards. Dans un bras robotique ou un système d'assistance physique, une porte dérobée activée par un déclencheur visuel discret, un objet dans le champ caméra ou une variation de couleur subtile, pourrait provoquer une action non désirée aux conséquences physiques réelles. Les auteurs revendiquent, pour la première fois dans ce contexte, des "attaques découplées implicites" en scénario d'empoisonnement de données, sans modification directe des poids du modèle, ce qui complique toute détection post-entraînement. Les VLA ont connu une montée en puissance rapide depuis 2023, portés par Pi-0 (Physical Intelligence), OpenVLA (Stanford), GR00T N2 (NVIDIA) et Helix (Figure AI), tous basés sur un encodeur visuel couplé à un grand modèle de langage et une tête de prédiction d'actions. Les recherches sur les portes dérobées dans les réseaux de neurones remontent aux travaux fondateurs BadNets et TrojanNN (2017-2018), mais leur adaptation aux VLA restait peu explorée, précisément en raison de la complexité de l'entraînement conjoint. Ce papier de recherche fournit une base théorique pour de futurs mécanismes défensifs sans proposer de contre-mesure opérationnelle immédiate. Pour les intégrateurs planifiant des déploiements VLA en production, il rappelle que la sécurité de la chaîne de données d'entraînement est aussi critique que celle de l'inférence elle-même.

UELes équipes R&D et intégrateurs européens déployant des VLA en contexte industriel doivent renforcer la sécurité de leur pipeline de données d'entraînement, ce vecteur d'attaque étant désormais formalisé avec des métriques concrètes.

RechercheActu
1 source
Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)
140arXiv cs.RO 

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv le 12 mai 2026 (référence 2605.09005) GuardVLA, premier cadre de vérification de propriété intellectuelle basé sur les backdoors pour les modèles Vision-Language-Action (VLA). Ces modèles permettent un contrôle robotique généraliste en convertissant des entrées multimodales (vision, langage, données proprioceptives) directement en séquences d'actions motrices. GuardVLA intègre un filigrane cryptographique lors de l'entraînement : un message secret est injecté dans les données visuelles du modèle sans altérer ses performances nominales sur les tâches cibles. La vérification post-déploiement s'effectue via un mécanisme baptisé "swap-and-detect" : un projecteur de déclenchement combiné à une tête de classification externe active et détecte le backdoor intégré à partir des probabilités de prédiction du modèle. Les expériences valident l'approche sur plusieurs architectures, jeux de données et scénarios d'adaptation. L'enjeu est direct pour les intégrateurs et éditeurs de modèles robotiques. Des VLA open-source comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) font déjà l'objet de fine-tuning intensif par des tiers. GuardVLA démontre que le filigrane résiste à ces adaptations post-release, ce qui contredit l'hypothèse courante selon laquelle le fine-tuning suffit à effacer toute traçabilité. Pour un éditeur cherchant à protéger un modèle robotique commercial ou à prouver sa propriété en cas de litige, c'est une voie technique crédible sans recours à des mécanismes de DRM contraignants. La capacité à certifier l'origine d'un modèle devient stratégique à l'heure où les VLA s'imposent comme actifs industriels à part entière. Le watermarking de modèles IA existe déjà pour les LLM et les modèles de diffusion d'images, mais les VLA posent une contrainte supplémentaire : leur sortie est une séquence d'actions motrices et non un texte ou une image, ce qui rend la détection de backdoor structurellement différente. Ce travail reste un preprint non évalué par les pairs, sans déploiement industriel annoncé à ce stade. Les approches concurrentes, hachage de poids ou licensing cryptographique, ne ciblent pas spécifiquement la modalité action des VLA. La soumission en conférence, probablement CoRL 2026 ou ICRA 2027, constituera la prochaine validation formelle. L'adoption à grande échelle dépendra aussi de l'intégration aux outils de distribution existants, notamment Hugging Face, où la majorité des VLA généralisés sont aujourd'hui hébergés et redistribués.

UELes éditeurs et chercheurs européens distribuant des modèles VLA via Hugging Face (entreprise française, principal hub de redistribution cité) pourraient adopter GuardVLA pour défendre leur propriété intellectuelle face aux fine-tunings non autorisés.

RechercheOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
141arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur
142arXiv cs.RO 

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Le fine-tuning non contraint des modèles Vision-Language-Action (VLA) basés sur le flow matching provoque un phénomène bien documenté : l'écrasement massif des paramètres entraînés, qui dégrade les capacités générales acquises en pré-entraînement. Une équipe de recherche publie sur arXiv (2605.08879) une méthode baptisée ConSFT (Conservative Supervised Fine-Tuning), un nouvel objectif d'optimisation qui permet d'adapter un VLA à une distribution cible sans effacer ses compétences préalables. La méthode a été évaluée sur les benchmarks LIBERO et RoboTwin avec trois modèles de référence : pi-0, pi-0.5 et GR00T-N1.6-3B. Résultat : ConSFT dépasse le fine-tuning supervisé classique de plus de 20 points absolus en rétention de capacités, et rivalise avec l'Experience Replay, une méthode connue mais gourmande en données historiques, sans en nécessiter aucune. Des déploiements physiques sur robots confirment que la méthode évite le surapprentissage spatial lors de l'adaptation à des tâches séquentielles nouvelles. L'enjeu est central pour l'industrialisation des robots manipulateurs polyvalents. Les VLA de type flow matching, comme pi-0 de Physical Intelligence ou GR00T-N1.6-3B de NVIDIA, sont pré-entraînés sur de larges corpus de démonstrations et constituent la base d'agents robotiques généralistes. Mais leur adaptation à un contexte opérationnel précis (cellule de montage, poste de picking spécifique) détruit systématiquement une partie des compétences acquises, forçant les intégrateurs à choisir entre spécialisation et généralité. ConSFT rompt ce compromis : en modulant dynamiquement le signal d'apprentissage selon la confiance du modèle sur chaque échantillon, il bride les gradients excessifs des cas à faible confiance, limitant la perturbation des paramètres. L'inspiration provient du trust-region clipping du reinforcement learning (PPO), transposé ici en apprentissage supervisé. Les modèles VLA à flow matching représentent la génération actuelle des architectures de contrôle robot les plus performantes. Physical Intelligence a lancé pi-0 fin 2024, suivi de pi-0.5 en 2025 ; NVIDIA a publié GR00T N1 puis N1.6 dans le même intervalle. L'oubli catastrophique lors du fine-tuning est un obstacle pratique que plusieurs équipes tentent de contourner, notamment via l'Experience Replay ou des architectures à réseau de référence parallèle. ConSFT propose une voie plus légère : aucune donnée antérieure requise, aucun réseau auxiliaire, aucune modification architecturale. La méthode reste à valider sur des tâches industrielles longues et des robots avec dextérité fine, mais les résultats sur LIBERO et les expériences physiques publiées suggèrent un transfert sim-to-real fonctionnel.

IA physiqueOpinion
1 source
Large Video Planner permet un contrôle robotique généralisable
143arXiv cs.RO 

Large Video Planner permet un contrôle robotique généralisable

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source. L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle. Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

UELes laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

IA physiqueOpinion
1 source
Atlas de Boston Dynamics épate avec un appui tendu renversé parfait
144Interesting Engineering 

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

Boston Dynamics a publié de nouvelles séquences de test montrant son robot humanoïde Atlas enchaîner une série de figures acrobatiques avancées : passage d'une posture debout vers un équilibre sur une jambe, descente des mains au sol, puis montée en poirier complet avec rotation des jambes à 180 degrés grâce à des épaules à mobilité étendue, maintien en L-sit pendant plusieurs secondes, et retour fluide en position verticale. Ces capacités reposent sur un système de contrôle corps entier entraîné par apprentissage par renforcement en simulation, conçu pour un transfert dit "zero-shot" : les politiques apprises en simulation sont déployées directement sur le matériel sans recalibration spécifique à la tâche. La version de production de l'Atlas dispose de 56 degrés de liberté et d'un préhenseur à quatre doigts avec retour haptique. Hyundai Motor Group, maison-mère de Boston Dynamics, a confirmé un déploiement sur le site Hyundai Motor Group Metaplant America d'ici 2028, d'abord pour le séquençage de pièces, puis pour l'assemblage complet de composants à l'horizon 2030. Ce que ces démonstrations valident avant tout, c'est la robustesse du sim-to-real sur des comportements hautement dynamiques : le fait qu'une politique unique gouverne à la fois la locomotion, la manipulation et la récupération après instabilité contredit les architectures traditionnelles en pipeline séparé. Pour les intégrateurs industriels et les décideurs B2B, le signal important n'est pas le poirier en lui-même, mais ce qu'il teste : la capacité du stack logiciel à gérer des forces de contact imprévisibles, des transitions posturales rapides et des corrections de couple articulaire en temps réel. C'est exactement ce que requièrent les environnements d'assemblage contraints, où un robot doit adapter sa posture à des espaces réduits et manipuler des pièces à géométrie variable. Cela dit, la prudence s'impose : les vidéos publiées sont sélectionnées et ne renseignent pas sur les taux d'échec, le temps de cycle moyen, ni les conditions environnementales réelles. Boston Dynamics développe Atlas depuis plus d'une décennie, le robot ayant progressivement évolué d'une plateforme hydraulique à un système entièrement électrique présenté en 2024. Cette phase de validation acrobatique, menée en collaboration avec le Robotics & AI Institute, s'inscrit dans la transition explicite de la recherche vers la production industrielle. Sur le marché humanoïde, l'entreprise se positionne face à Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), et NVIDIA/GR00T N2 comme backbone de contrôle, ainsi que 1X, Agility Robotics ou Apptronik pour les applications logistiques. L'ancrage dans l'écosystème Hyundai lui confère un débouché industriel direct que peu de concurrents peuvent revendiquer aujourd'hui. Les prochaines étapes annoncées pointent vers des pilotes terrain chez Hyundai en 2026-2027 avant le déploiement confirmé à grande échelle en 2028.

HumanoïdesOpinion
1 source
AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée
145arXiv cs.RO 

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

Une équipe de recherche a publié en mars 2025 sur arXiv les spécifications complètes d'AhaRobot, un manipulateur mobile bimanuel open-source dont le coût matériel total s'élève à 1 000 dollars. Le système repose sur une architecture à deux bras de type SCARA, conçue pour réduire les couples moteurs nécessaires tout en maintenant un large espace de travail vertical. La précision annoncée est de 0,7 mm en répétabilité, obtenue grâce à une compensation de jeu mécanique par double moteur et à une technique de dithering pour neutraliser le frottement statique. L'interface de téléopération associée, RoboPilot, intègre une poignée marqueur à 26 faces qui réduit l'erreur de suivi de 80 % par rapport à une poignée à 6 faces et améliore l'efficacité de collecte de données de 30 %. L'ensemble du code, des fichiers CAO et de la documentation est mis à disposition en accès libre sur aha-robot.github.io. L'enjeu central est l'entraînement des modèles VLA (Vision-Language-Action), tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui exigent des volumes massifs de données de manipulation réelles et diversifiées. Les plates-formes commerciales équivalentes coûtent généralement entre 20 000 et 100 000 dollars, ce qui limite mécaniquement l'échelle de collecte. À 1 000 dollars par unité, AhaRobot rend théoriquement possible le déploiement de flottes de collecte à faible coût. Les auteurs affirment que la qualité des données est comparable à celle produite par des systèmes de téléopération VR haute gamme, une assertion non encore validée sur des benchmarks standardisés indépendants. La précision de 0,7 mm reste cependant un chiffre solide pour ce niveau de coût. Le projet s'inscrit dans un mouvement plus large de démocratisation du hardware robotique open-source, aux côtés de LeRobot, l'initiative de la société française HuggingFace, et du Low Cost Robot d'Alexander Koch. La conception SCARA bimanuelle fait un compromis délibéré entre dextérité et coût, en abaissant les exigences en couple pour utiliser des actionneurs moins chers. À ce stade, il s'agit d'un preprint de recherche sans déploiement industriel ni pilote commercial annoncé : la prochaine étape naturelle serait une reprise par des laboratoires académiques pour valider l'imitation learning sur des tâches bimanuelles complexes en conditions réelles, et mesurer si l'avantage coût se maintient à l'échelle.

UELa démocratisation du hardware robotique open-source profite aux laboratoires académiques européens aux budgets contraints, dans la continuité de l'initiative LeRobot portée par HuggingFace, entreprise française, qui milite pour les mêmes standards ouverts de collecte de données pour les modèles VLA.

RecherchePaper
1 source
OGPO : un affinage complet et efficace des politiques de contrôle génératives
146arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

IA physiqueOpinion
1 source
Sécurité de l'IA incarnée : panorama des risques, attaques et défenses
147arXiv cs.RO 

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (identifiant 2605.02900) une revue systématique de la sécurité dans l'IA incarnée (embodied AI), couvrant plus de 400 articles académiques. Le périmètre s'étend à l'ensemble du pipeline d'un agent physique : perception sensorielle, cognition, planification, exécution d'actions et interactions humain-robot. La taxonomie proposée organise les menaces en quatre grandes familles d'attaques (adversariales, backdoor, jailbreak, matérielles) et trois axes de défense (détection d'attaques, entraînement robuste, inférence sûre). Les domaines d'application ciblés incluent la conduite autonome, la robotique industrielle et d'assistance, ainsi que les applications médicales, tous caractérisés par des conséquences physiques directes en cas de défaillance. Ce travail pointe trois angles morts particulièrement préoccupants pour les intégrateurs et les équipes produit. D'abord, la fragilité de la fusion multimodale : combiner vision, LiDAR et langage amplifie les surfaces d'attaque plutôt que de les réduire, contrairement à l'hypothèse dominante de redondance. Ensuite, l'instabilité de la planification sous attaque jailbreak : les modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2, de plus en plus déployés dans des systèmes humanoïdes, restent vulnérables à des injections de prompt qui court-circuitent les contraintes de sécurité définies au niveau applicatif. Enfin, la confiance dans les interactions en monde ouvert demeure non résolue dès que le scénario sort des conditions de laboratoire, ce qui est précisément le cas des déploiements industriels réels. Le contexte est celui d'une accélération brutale du déploiement d'agents physiques autonomes depuis 2024, portée par des acteurs comme Figure AI, Boston Dynamics, 1X Technologies, Apptronik et des labos publics (Stanford, CMU, ETH Zurich). L'absence d'un cadre de sécurité unifié est jusqu'ici restée dans l'angle mort de la course aux performances : les benchmarks sectoriels mesurent la dextérité et le sim-to-real transfer, rarement la robustesse face à un adversaire actif. Ce survey constitue un premier référentiel structuré ; il ne propose pas de solution clé en main mais identifie les briques manquantes, notamment les protocoles d'évaluation standardisés pour les attaques sur hardware embarqué et les mécanismes de contrôle d'intégrité des VLA en production.

UELes acteurs européens déployant des VLA (dont ETH Zurich, contributeur cité) et soumis à l'AI Act, qui classe les applications médicales et industrielles en systèmes à haut risque, devront intégrer les protocoles d'évaluation de robustesse adversariale identifiés comme manquants par ce survey.

RechercheOpinion
1 source
Revue complète des modèles du monde pour l'apprentissage robotique
148arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $
149Interesting Engineering 

Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $

Unitree, la firme de robotique fondée à Hangzhou en Chine, a dévoilé un nouveau robot humanoïde à bras duaux baptisé G1 (version upper-body), commercialisé à partir de 26 900 yuans, soit environ 4 290 dollars. Le robot abandonne la structure corps entier traditionnelle au profit d'une architecture modulaire : base fixe ou châssis mobile selon le cas d'usage. Chaque bras est disponible en configuration 5-DOF ou 7-DOF, pour un total de 15 à 31 degrés de liberté selon la variante choisie. Le poignet offre une rotation de la taille à ±150°, la tête supporte ±115° en lacet et ±36° en tangage, et le préhenseur atteint une répétabilité de ±0,1 mm. La charge utile est de 2 kg par bras. Le système embarque une vision binoculaire stéréo, un tableau de quatre microphones et une interaction vocale, le tout animé par deux CPU 8 cœurs haute performance, complétés par un module de vision en tête délivrant 10 TOPS de calcul IA. Le robot supporte alimentation externe ou embarquée, et pèse entre 11 et 32 kg selon configuration. La même semaine, Unitree publiait une démonstration de son G1 bipède intégral effectuant des pirouettes et des rotations sur patins à roulettes via un contrôle roue-jambe coordonné, un exercice spectaculaire mais sans lien direct avec les capacités industrielles annoncées ici. Ce tarif de 4 290 dollars positionne Unitree comme l'entrée de gamme la plus accessible du segment manipulation humanoïde, un marché encore dominé par des plateformes à cinq ou six chiffres. Si la stratégie reproduit le succès de la série Go (robots quadrupèdes qui ont conquis la communauté académique et dev en cassant les prix), elle pourrait accélérer significativement l'écosystème autour de la robotique de manipulation. L'accès à du matériel capable à faible coût réduit la dépendance à la simulation, raccourcit les cycles d'itération et permet des tests en conditions réelles, ce qui est critique pour les travaux en embodied AI, notamment sur les VLA (Vision-Language-Action models). Reste que les interfaces de bas niveau exposées pour le développement secondaire sont un vrai signal positif : elles indiquent un positionnement outillage de recherche autant que produit commercial. Unitree avait déjà introduit en 2025 le R1, un humanoïde complet à 26 articulations vendu 39 999 yuans (environ 5 900 dollars), confirmant une ligne directrice claire : prix d'entrée agressif, itération rapide, capture de l'écosystème développeur avant de monter en gamme. Le paysage concurrentiel reste dense : Boston Dynamics dispose d'une profondeur technique éprouvée et de relations entreprise établies ; Figure AI (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Agility Robotics positionnent leurs systèmes sur la fiabilité industrielle et les déploiements à grande échelle, segments où la réputation et le support comptent autant que le prix. La vraie mesure du succès de cette plateforme se lira dans six à douze mois, au travers des projets open-source, travaux académiques et startups early-stage qui choisiront, ou non, de construire dessus.

UEL'offre à prix cassé de Unitree pourrait abaisser les barrières matérielles pour les laboratoires académiques et startups européens travaillant sur les modèles VLA, sans déploiement ni partenariat européen annoncé à ce stade.

Chine/AsieOpinion
1 source
Comment fonctionnent réellement les VLA en environnements ouverts
150arXiv cs.RO 

Comment fonctionnent réellement les VLA en environnements ouverts

Un article de recherche publié sur arXiv (référence 2604.21192) soumet les modèles vision-langage-action (VLA) à une évaluation critique sur le benchmark BEHAVIOR1K (B1K), un protocole simulant des tâches domestiques complexes de longue durée dans des environnements ouverts. Le constat est net : les métriques standards de ces benchmarks, taux de succès ou score partiel, ne mesurent que l'état final des objets manipulés, indépendamment des événements qui y ont conduit. Un robot qui renverse un verre avant de le replacer peut ainsi obtenir le même score qu'un robot qui l'a manipulé sans incident. Ce protocole dit "progress-agnostic" ignore entièrement les comportements dangereux en cours d'exécution. Les chercheurs ont soumis plusieurs VLA de pointe à une analyse multidimensionnelle couvrant robustesse, reproductibilité, violations de sécurité et causes d'échec des tâches. Les implications sont directes pour tout acteur envisageant un déploiement réel. Si les métriques actuelles gonflent artificiellement les performances rapportées, les décisions d'intégration basées sur ces benchmarks reposent sur des bases fragiles. La distinction est capitale entre un modèle qui complète une tâche et un modèle qui la complète de façon sûre et reproductible, deux propriétés que les scores agrégés actuels confondent. Les auteurs proposent de nouveaux protocoles d'évaluation capables de capturer les violations de sécurité, comblant un angle mort majeur de la recherche. Pour un intégrateur ou un décideur industriel, cela signifie que les chiffres de "success rate" publiés par les laboratoires doivent être lus avec prudence, en exigeant explicitement des données de reproductibilité et des métriques comportementales. La course aux VLA s'est accélérée depuis 2024 avec des modèles comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu de Stanford et Berkeley. Ces systèmes combinent une fondation vision-langage avec un module d'action, affichant des capacités de généralisation notables en simulation. Ce papier suggère que le fossé simulation-réel est peut-être plus profond qu'estimé : des modèles performants sur B1K pourraient s'avérer moins fiables dès lors qu'on intègre sécurité et consistance comportementale comme critères d'évaluation. Les auteurs appellent la communauté à adopter ces nouveaux protocoles dans les futures éditions du B1K Challenge pour aligner les standards de recherche avec les exigences concrètes du déploiement en environnement ouvert.

RechercheOpinion
1 source