Aller au contenu principal

Dossier Physical Intelligence — π0 — page 4

1221 articles · page 4 sur 25

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques
151arXiv cs.RO RecherchePaper

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques

Une équipe de chercheurs a présenté LiMoDE (Lifelong Mixture of Dynamic Experts), une architecture destinée à permettre à un robot de maîtriser de nouvelles tâches de manipulation sans effacer les compétences précédemment acquises. Publiée en préprint sur arXiv (réf. 2606.26183), la méthode repose sur un schéma d'apprentissage en deux étapes. Dans un premier temps, un pré-entraînement multi-tâches construit une structure MoE (Mixture of Experts) dynamique : un nombre variable d'experts hétérogènes est activé sélectivement en fonction des informations de mouvement, chaque expert spécialisant une forme de manipulation à court terme. Dans un second temps, le mécanisme LiMoEAM (Lifelong MoE Adaptation Mechanism) ajoute de nouveaux experts "lifelong" qui se combinent dynamiquement avec les experts figés issus du pré-entraînement, transférant les connaissances acquises vers les nouvelles tâches. Le système a été évalué sur un benchmark de lifelong learning simulé ainsi que sur des tâches réelles, avec un surcoût décrit comme modéré en paramètres entraînables et en overhead d'inférence. L'intérêt de LiMoDE réside dans sa réponse au problème de l'oubli catastrophique, verrou persistant du déploiement de robots généralistes en environnement industriel réel. Là où les approches par fine-tuning efficace en paramètres (PEFT, LoRA) permettaient l'adaptation à une tâche unique mais dégradaient les performances précédentes, LiMoDE isole les compétences réutilisables dans des experts distincts et en préserve les poids lors de l'adaptation. Pour un intégrateur ou un COO industriel, cela signifie théoriquement qu'un robot pourrait acquérir de nouvelles opérations de saisie ou d'assemblage sans réentraînement complet de la flotte, réduisant les fenêtres d'indisponibilité. Le fait que la méthode n'ajoute qu'un nombre "modéré" de paramètres reste à quantifier précisément dans des configurations à grande échelle. Le problème du lifelong learning robotique est traité depuis plusieurs années dans la communauté du continual learning, notamment via des approches EWC (Elastic Weight Consolidation) ou des replay buffers. Les travaux récents sur les VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les politiques diffuses de Figure AI ont montré que des modèles pré-entraînés à large échelle s'adaptent rapidement à de nouveaux scénarios, mais peinent à maintenir les performances sur l'ensemble des tâches antérieures sans retraining. LiMoDE se positionne comme une solution architecturale intermédiaire entre le fine-tuning monolithique et le modèle généraliste à réentraînement systématique. Il s'agit à ce stade d'un article de recherche académique sans annonce de déploiement commercial ni partenariat industriel identifié.

1 source
Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA
152arXiv cs.RO 

Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA

Des chercheurs ont publié le 25 juin 2026 sur arXiv (réf. 2606.25215) une architecture baptisée Reflective VLA, conçue pour améliorer la généralisation des modèles de type vision-language-action (VLA) en dehors de leurs environnements d'entraînement. Contrairement aux politiques dites "réactives" qui prédisent l'action suivante à partir de la seule observation courante, Reflective VLA conditionne chaque décision sur un contexte de triplets observation-action-conséquence: le modèle enregistre non seulement ce que le robot a vu et exécuté, mais aussi comment la scène a changé après chaque action. Architecturalement, toutes les modalités perceptives passent par le modèle de langage visuel (VLM) sous attention partagée, tandis qu'un masque de causalité par blocs permet l'entraînement parallèle sur plusieurs frames sans fuite d'information et supporte une inférence temps réel avec cache KV. Sur les benchmarks standards LIBERO et SimplerEnv-Bridge, le modèle maintient les performances en distribution. Sous distribution shift, sur LIBERO-Plus et la variante plus difficile LIBERO-Plus-Hard, il améliore le taux de succès moyen respectivement de 5,4 et 4,2 points de pourcentage face à une baseline réactive appariée. Ces gains, modestes en valeur absolue mais obtenus dans des conditions de transfert réel, adressent un verrou central de la robotique embarquée: les facteurs spécifiques à chaque déploiement (calibration robot, biais d'actuation, géométrie caméra-robot) sont difficiles à inférer d'une observation unique. En exposant la cartographie actions-effets propre à chaque environnement, l'approche réduit l'overfitting aux conditions d'entraînement sans modifier la structure générale du modèle. Chose importante, les ablations montrent que c'est le signal de conséquence, et non la simple augmentation du contexte historique, qui est responsable du gain de généralisation, résultat qui contredit l'hypothèse selon laquelle "plus de contexte suffit". Les VLA réactifs, popularisés par des travaux comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 (Physical Intelligence), souffrent depuis leurs débuts de ce gap sim-to-real et de dégradation hors distribution. Reflective VLA s'inscrit dans une tendance émergente qui cherche à doter les politiques robotiques d'une forme de boucle de feedback interne, proche du concept de "réflexion" en LLM. Les concurrents directs incluent des approches à mémoire épisodique ou à correction en ligne (comme RoboDreamer ou ACT avec buffer de contexte). L'article reste une contribution académique sans annonce de déploiement industriel ni partenaire commercial déclaré; les prochaines étapes naturelles seraient une validation sur matériel réel à grande échelle et l'intégration dans des pipelines de fine-tuning continu sur robots déployés.

RechercheOpinion
1 source
RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique
153arXiv cs.RO 

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique

Des chercheurs ont publié sur arXiv (identifiant 2510.09036, seconde version) RoDyn, un modèle de monde 2.5D destiné à la manipulation robotique. L'architecture repose sur un espace latent géométriquement conscient plutôt que sur des flux vidéo 2D bruts. Son composant central, le Robot-Dynamic Tokenizer, couple les représentations visuelles sémantiques avec des informations spatiales et centrées sur l'agent via un mécanisme de cross-attention dominé par le canal RGB, complété d'un guidage par masque dynamique. Une architecture autorégressi guidée par ces masques oriente ensuite le modèle vers les zones d'interaction active entre le robot et les objets manipulés. Sur des jeux de données à grande échelle, RoDyn atteint l'état de l'art en fidélité de génération et affiche, point le plus saillant, une amélioration de 42% du taux de réussite en imitation learning dans le monde réel par rapport aux baselines purement 2D. Ce gain de 42% doit être lu avec soin: il est mesuré contre des modèles 2D, non contre d'autres approches 2.5D ou 3D, ce qui circonscrit la portée de la comparaison. Il illustre néanmoins un problème structurel bien documenté: les modèles vidéo 2D, aussi convaincants visuellement, ne capturent pas la géométrie ni la cinématique indispensables aux interactions physiques précises. En introduisant une représentation intermédiaire 2.5D, soit une profondeur estimée sans reconstruction 3D complète et coûteuse, RoDyn tente de combler ce fossé à moindre coût computationnel. Pour les équipes R&D en manipulation industrielle, l'intérêt concret réside dans l'accélération du reinforcement learning model-based (MBRL), qui réduit potentiellement le nombre d'interactions physiques requises à l'entraînement, et dans une meilleure généralisation aux objets non vus en simulation. Le champ des modèles de monde pour la robotique s'est densifié depuis 2023, porté par Dreamer (DeepMind), UniSim, et plus récemment les architectures VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). RoDyn occupe une niche spécifique: la simulation neuronale pour la manipulation de précision, avec un compromis géométrique explicite entre vidéo pure et reconstruction 3D complète. Cette publication reste à ce stade purement académique, sans annonce de déploiement commercial ni partenariat industriel mentionné. Les suites naturelles concerneront des tâches de manipulation plus exigeantes (assemblage fin, dépose contrainte) et une éventuelle intégration dans des pipelines VLA existants. Aucun acteur français ou européen n'est impliqué dans ces travaux.

RechercheOpinion
1 source
L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique
154Pandaily 

L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique

En l'espace d'une semaine, l'industrie robotique chinoise a enregistré plusieurs jalons concrets. Ubtech Robotics a annoncé que les pré-commandes de son robot humanoïde pleine taille Ubestworld dépassent 5 000 unités sur JD.com, avec une mise en vente simultanée sur Tmall. Dans le segment de l'IA physique, Jiangxing Intelligence a bouclé deux tours de financement stratégiques consécutifs totalisant plusieurs centaines de millions de yuans ; l'entreprise, fondée par Pang Haitian, revendique déjà la rentabilité et déploie ses solutions dans de multiples secteurs industriels. Alibaba a par ailleurs publié la série Qwen-Robot, ses modèles d'IA incarnée, pendant que le constructeur automobile Seres dévoilait son premier robot humanoïde. Sur le segment grand public, la startup ZuzuZoos a finalisé un tour Pre-A de plusieurs dizaines de millions de yuans pour son robot compagnon IA couplant grands modèles de langage et design IP, ciblant les femmes de 18 à 35 ans. Enfin, le ministère chinois de l'Industrie et des Technologies de l'Information (MIIT) a mis en consultation publique des projets de normes techniques pour les robots humanoïdes dans les sous-stations électriques et la fabrication d'électroménager, couvrant évaluation de performance, spécifications après-vente et interconnexion inter-robots. La simultanéité de ces signaux est plus significative que chacun pris isolément. Les 5 000 pré-commandes d'Ubtech, même sans précision de prix ni calendrier de livraison ferme, constituent un indicateur de demande grand public qui dépasse le cadre industriel habituel des humanoïdes, un glissement de marché que peu d'analystes anticipaient à ce stade. Plus structurellement, la publication de normes sectorielles par le MIIT est un accélérateur de déploiement B2B : elle réduit le risque d'évaluation pour les intégrateurs et les donneurs d'ordre industriels, qui n'ont plus à définir leurs propres grilles de qualification. La profitabilité affichée de Jiangxing Intelligence, si elle se confirme, invalide partiellement la thèse selon laquelle l'IA physique à grande échelle est encore trop immature pour générer des revenus récurrents. Du côté de JD Group, l'annonce par le fondateur Liu Qiangdong d'un plan de reconversion pour 700 000 employés col bleu, livreurs inclus, via des accords avec 120 établissements de formation, signale une stratégie de transition sociale anticipée face à l'automatisation, rarement formulée aussi explicitement par un opérateur de cette taille. Ce déferlement s'inscrit dans une dynamique d'écosystème que Pékin cultive depuis plusieurs années : subventions à la R&D robotique, zones pilotes pour l'IA incarnée, et pression réglementaire pour structurer rapidement un marché encore fragmenté. Face à cette accélération, les acteurs occidentaux positionnés sur l'humanoïde, Figure AI avec son robot 03, Tesla avec Optimus Gen 3, Physical Intelligence avec Pi-0, ou NVIDIA avec GR00T N2, maintiennent une avance technologique sur certains benchmarks de manipulation, mais voient l'écart de vitesse de commercialisation se réduire. Aucun acteur français ou européen n'est directement mentionné dans ces développements, bien que Wandercraft, Enchanted Tools ou Pollen Robotics opèrent sur des niches complémentaires (exosquelettes, cobots). Les prochaines étapes à surveiller : les dates de livraison effectives de l'Ubestworld, l'entrée en vigueur des normes MIIT, et les premiers déploiements industriels documentés de Qwen-Robot.

UELa simultanéité des avancées chinoises (normes MIIT, Qwen-Robot, signal de demande grand public Ubtech) accroît la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché ou la réglementation en France/UE.

Chine/AsieActu
1 source
Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique
155Robotics Business Review 

Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique

Bear Robotics a annoncé la signature d'un accord définitif pour acquérir Kinisi Robotics, une startup basée à Bristol, au Royaume-Uni. La clôture est attendue dans les prochains jours. L'opération transfère à Bear l'équipe d'ingénierie britannique de Kinisi, son robot humanoïde à roues KR1, ainsi que ses modèles d'IA propriétaires : un modèle vision-langage-action (VLA) et un modèle fondation pour la robotique (RFM). Ces systèmes combinent apprentissage par imitation, renforcement, contrôle agentique de tâches et vision par ordinateur pour la détection, la localisation et la segmentation d'objets. Le KR1 est un humanoïde sur base roulante, conçu pour la préhension, le tri et le déplacement d'objets dans des environnements industriels, logistiques et hôteliers. Fondée en 2017 par John Ha, Bear a déployé plus de 16 000 robots de service dans le monde, opérant déjà comme une flotte coordonnée via une orchestration multi-robots agentique sur une plateforme cloud unifiée. L'acquisition répond à un verrou technique persistant dans la robotique de service : les robots mobiles autonomes (AMR) naviguent efficacement, mais peinent dès qu'il s'agit de saisir, trier ou manipuler des objets physiques. En intégrant Kinisi, Bear franchit cette frontière entre navigation pure et manipulation physique, que la majorité des acteurs du secteur tentent encore de résoudre séparément. Ce qui donne du crédit à l'opération plutôt que d'en faire une annonce spéculative, c'est que Kinisi utilisait déjà le stack de navigation de production de Bear depuis ses débuts : les équipes se connaissent, le code tourne en conditions réelles, et Bear dispose d'une visibilité concrète sur la maturité de l'ingénierie de Kinisi. La synergie sur les données d'entraînement est également tangible : la flotte de 16 000 robots génère en continu des données issues de milliers de sites, tandis que les outils de capture de Kinisi permettent d'ajouter des exemples de manipulation à faible coût. C'est un avantage que des pure-players de l'humanoïde comme Figure AI (Figure 03), Physical Intelligence (pi-0), Agility Robotics (Digit) ou encore Boston Dynamics (Atlas) n'ont pas encore à cette échelle de déploiement commercial réel. Bear Robotics s'est fait connaître à partir de 2017 avec ses robots de livraison pour la restauration (Servi, Laboni), avant de s'étendre au nettoyage industriel, en construisant une chaîne de fabrication et une base de clients enterprise. Kinisi a été co-fondée par Brennand Pierce, lui-même co-fondateur originel de Bear, ce qui explique la proximité technique et culturelle des deux entités : Pierce rejoindra Bear à la clôture de la transaction. Aucun calendrier public de déploiement commercial du KR1 n'est encore annoncé, ni de prix ni de volume cible. La prochaine étape logique est l'intégration du KR1 dans la flotte existante pour des tâches de picking en environnement hospitality ou logistique, les données d'entraînement étant alimentées directement par la flotte en production. Côté Europe, aucun acteur comparable en termes de flotte déployée n'est positionné sur ce segment : Wandercraft (exosquelette médical) et Enchanted Tools (Miroka, hospitality) opèrent sur des verticales plus étroites.

UEL'acquisition de Kinisi (Bristol, UK) par Bear Robotics intensifie la pression concurrentielle sur les acteurs européens de robotique de service en hospitality et logistique, notamment Enchanted Tools, sans déploiement commercial annoncé en Europe à ce stade.

BusinessOpinion
1 source
EquiVLA : un cadre général pour les modèles VLA équivariants par rotation
156arXiv cs.RO 

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

Des chercheurs ont publié EquiVLA (arXiv:2606.19784), le premier cadre général pour rendre les modèles Vision-Langage-Action (VLA) équivariants par rotation SO(2) de bout en bout. Le système introduit deux composants modulaires : EquiPerceptor, qui extrait des représentations visuelles approximativement SO(2)-équivariantes à partir de features ViT gelées, et EquiActor, une tête d'action exactement SO(2)-équivariante basée sur un Diffusion Transformer à flow-matching. Instancié sur GR00T N1.5 (le modèle de manipulation généraliste de NVIDIA), EquiVLA atteint 92,6 % de succès moyen sur les quatre suites de benchmarks LIBERO contre 78,1 % pour la baseline, une longueur de séquence de 4,03 sur CALVIN ABCD→D contre 3,45, et améliore le taux de succès sur cinq tâches réelles avec le robot Mobile ALOHA de 54 % à 72 %. Le problème central qu'adresse EquiVLA est structurel : les VLA actuels manquent de biais inductifs géométriques, ce qui signifie qu'une politique entraînée dans une orientation donnée nécessite substantiellement plus de données pour généraliser à d'autres configurations rotationnelles. En imposant l'équivariance SO(2) de la caméra jusqu'aux séquences d'actions prédites, le framework réduit la dépendance aux données d'orientation. Pour un intégrateur ou un COO industriel, l'implication concrète est une meilleure robustesse opérationnelle sans retraining coûteux lorsqu'un poste de travail est réorganisé. Le gain de 18 points absolus sur LIBERO et le passage de 54 % à 72 % sur robot réel sont significatifs, même si ces résultats restent obtenus en conditions de laboratoire contrôlé et ne constituent pas encore un déploiement industriel. Les VLA sont devenus le paradigme dominant de la manipulation généraliste depuis RT-2 et PaLM-E, avec des modèles concurrents comme Pi-0 (Physical Intelligence), OpenVLA et GR00T N1.5 de NVIDIA, publié début 2025 comme modèle de référence pour la manipulation humanoïde. L'approche modulaire d'EquiVLA - les backbones vision-langage gelés restent intacts - facilite l'adoption sur des architectures existantes sans repartir de zéro. Ce papier est une contribution académique sans partenariat commercial annoncé ; les suites naturelles seraient d'étendre l'équivariance à SO(3) pour les manipulateurs à 6 DOF, et de valider la robustesse à grande échelle dans des environnements industriels moins structurés.

💬 Le vrai sujet ici, c'est pas le benchmark : c'est que si tu déplaces ton poste de travail de 90°, tu n'as plus à réentraîner ton robot. C'est précisément le genre de friction silencieuse qui rendait les déploiements industriels galères, et là ils y répondent de façon architecturale, sans toucher aux backbones existants. 72% sur robot réel c'est encore du labo, mais la direction est la bonne.

IA physiqueOpinion
1 source
Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1
157Robotics Business Review 

Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1

Sanctuary AI (Sanctuary Cognitive Systems Corp.), basée à Vancouver, vient de valider une performance industrielle significative chez un équipementier automobile de rang 1 mondial, non nommé. La tâche consiste en l'insertion d'un connecteur filaire souple dans une cible en mouvement sur un convoyeur actif, un problème classique de manipulation dite "contact-rich" qui résiste depuis longtemps à l'automatisation traditionnelle. Le résultat annoncé est un taux de succès supérieur à 99,5% pour un temps de cycle de 2,54 secondes, aligné sur les cadences de production réelle du client. À noter que les métriques sont présentées sans détail sur la durée de l'essai ni le volume de cycles validés, ce qui invite à traiter ce résultat comme un proof-of-concept industriel plutôt qu'un déploiement en série. La démonstration s'inscrit dans la continuité de la présentation en avril 2026 de capacités de manipulation en zero-shot learning pour la préhension dextère. Ce résultat illustre une tendance de fond dans le secteur : face à l'horizon encore incertain de la commercialisation de masse des robots humanoïdes, certains acteurs pivotent vers une approche hardware-agnostique, en injectant leur couche d'IA physique sur des plateformes industrielles existantes. Pour un intégrateur ou un directeur de production, cela représente un chemin à valeur immédiate sans attendre la maturité mécanique des humanoïdes, tout en capitalisant sur des modèles d'IA qui seront ensuite portables vers les systèmes de prochaine génération. Le vrai verrou que Sanctuary prétend avoir levé est le couplage performance/cycle time : les projets de physical AI échouent souvent non par manque de précision mais par débit insuffisant. Si le taux de 99,5% à 2,54 secondes est confirmé en production continue, c'est un signal crédible que les VLA (vision-language-action models) commencent à franchir le seuil de l'exigence industrielle, pas seulement du laboratoire. Fondée au Canada, Sanctuary AI développe depuis plusieurs années une approche centrée sur l'IA généraliste pour corps robotiques, incluant des mains hydrauliques propriétaires haute dextérité. La société avait jusqu'ici communiqué davantage autour de son robot humanoïde Phoenix, mais le pivot stratégique annoncé aujourd'hui signale un repositionnement vers le déploiement accéléré sur bras industriels standards. Dans l'espace concurrent, Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et 1X (Helix) continuent d'investir massivement dans la voie humanoïde complète. Côté manipulation pure, Festo a testé ce mois-ci son GripperAI et lancé un préhenseur pneumatique léger, tandis que PSYONIC s'est associé à ABB Robotics. Sanctuary semble parier que la voie la plus rapide vers le chiffre d'affaires en manufacturing et logistique passe par l'intégration logicielle sur hardware existant, avant le déploiement des prochains systèmes industriels humanoïdes qu'elle annonce vouloir adresser également.

UEL'équipementier de rang 1 non nommé pourrait être européen (Valeo, Bosch, Continental, Aptiv), auquel cas ce pilote serait directement pertinent pour l'automobile FR/EU, mais l'absence de confirmation maintient l'impact au stade potentiel.

💬 99,5% à 2,54 secondes sur une cible mobile, c'est le genre de résultat qui sort enfin du labo. Le pivot de Sanctuary est net: plutôt que d'attendre que le robot humanoïde soit prêt, ils injectent leur IA sur les bras industriels existants, ce qui ouvre un chemin court vers la valeur pour pas mal d'intégrateurs. Sans durée ni volume de cycles communiqués, on reste sur du pilote, pas du déploiement série.

IA physiqueOpinion
1 source
Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique
158arXiv cs.RO 

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

L'équipe Qwen d'Alibaba a publié le 22 juin 2026 un rapport technique décrivant Qwen-RobotManip, un modèle fondation Vision-Langage-Action (VLA) conçu pour la manipulation robotique généraliste. Construit sur l'architecture Qwen-VL, le modèle introduit un cadre d'alignement unifié couvrant trois dimensions : la représentation sensorielle, le mouvement, et le comportement. Son corpus d'entraînement atteint environ 38 100 heures de données, constitué exclusivement de jeux de données open source et de vidéos en vue subjective des mains humaines, sans aucune collecte propriétaire. Un pipeline de synthèse convertit ces démonstrations égocentrées en trajectoires robot compatibles avec 15 plateformes matérielles différentes, dont AgileX ALOHA, Franka, UR et ARX. Évalué sur six benchmarks out-of-distribution (RoboCasa365, LIBERO-Plus, EBench, RoboTwin-Clean2Rand, RoboTwin-IF, RoboTwin-XE), Qwen-RobotManip surpasse les modèles précédents sur l'ensemble des configurations et remporte la première place du RoboChallenge avec une amélioration relative de 20 % par rapport à l'état de l'art antérieur. Ce résultat est significatif parce qu'il répond directement à une question centrale du secteur : peut-on appliquer aux données de manipulation robotique la même recette de scaling qui a propulsé les grands modèles de langage ? Jusqu'ici, la réponse restait négative, en raison de l'hétérogénéité structurelle des données de manipulation (formats, espaces d'action, embodiments incompatibles), qui rendait l'entraînement multi-sources incohérent plutôt que synergique. Qwen-RobotManip avance que l'alignement préalable des données résout ce problème, permettant l'absorption à grande échelle sans dégradation. Les capacités émergentes documentées (suivi d'instructions zero-shot, récupération d'erreurs réactive, transfert cross-embodiment) constituent, si elles se confirment en conditions industrielles réelles, un changement de paradigme pour les intégrateurs : moins de fine-tuning spécifique par robot, généralisation à de nouvelles tâches sans redéploiement complet du pipeline. Il convient toutefois de noter que les résultats reposent sur des benchmarks académiques et des validations en laboratoire réel ; aucun déploiement industriel n'est encore documenté, et l'écart sim-to-real reste une inconnue à l'échelle. Qwen-RobotManip s'inscrit dans une course serrée autour des VLA pour la manipulation, où Physical Intelligence (pi0 et pi0.5), Google DeepMind (RT-2, pi-0), et Hugging Face (LeRobot) occupent déjà des positions fortes. Le modèle de Qwen se distingue en revendiquant la performance la plus élevée sur les benchmarks OOD publiés à ce jour, et surtout en n'utilisant aucune donnée propriétaire, ce qui ouvre théoriquement la voie à une adoption plus large. La publication est un preprint arXiv (arXiv:2506.17846v1), pas encore soumis à peer review, et aucune date de disponibilité du modèle ni annonce de pilote industriel n'accompagne ce rapport. Les prochaines étapes probables incluent une intégration dans l'écosystème Hugging Face ou ModelScope et des évaluations indépendantes en conditions réelles.

💬 L'obstacle au scaling en robotique, c'était pas le manque de données, c'était leur incohérence structurelle. Qwen le prouve ici : aligner avant de scaler, et les benchmarks OOD s'envolent de 20%. Bon, c'est encore du labo et je ne vois aucun déploiement industriel documenté, mais avec zéro donnée propriétaire dans le corpus, les intégrateurs sur Franka ou UR ont une vraie porte d'entrée.

IA physiqueOpinion
1 source
Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots
159SCMP Tech 

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

Alibaba Group a dévoilé mardi le Qwen Robot Suite, sa première suite de modèles d'intelligence artificielle dédiée à la robotique. Développée par Tongyi Lab, l'unité de recherche IA du géant de Hangzhou, cette collection de modèles vise à doter les robots de capacités de perception, de raisonnement et d'interaction avec l'environnement physique, ce que le secteur désigne par le terme "embodied AI". La suite a déjà été engagée dans des phases de test pilote avec un cercle restreint de partenaires sélectionnés par Alibaba. Les métriques de performance restent à ce stade non communiquées publiquement, ce qui ne permet pas d'évaluer les capacités réelles par rapport aux annonces. L'entrée d'Alibaba dans l'embodied AI représente un signal fort pour l'industrie robotique : les grandes plateformes cloud et LLM cherchent désormais à étendre leur emprise vers le monde physique, transformant le marché des intégrateurs et des fabricants OEM. Pour les décideurs industriels, cela signifie potentiellement un accès à des couches d'IA robotique portées par une infrastructure cloud établie, avec la question ouverte du sim-to-real gap, qui reste le défi critique non résolu dans le déploiement à l'échelle des robots polyvalents. Alibaba s'inscrit dans une course mondiale déjà peuplée d'acteurs hétérogènes : Figure (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Tesla (Optimus Gen 3) et 1X Technologies côté startups, auxquels s'ajoutent Huawei et Xiaomi côté géants technologiques chinois. Le Qwen Robot Suite s'appuie sur la famille de modèles Qwen, déjà bien implantée dans le paysage LLM mondial. Les prochaines étapes probables incluent un élargissement des pilotes industriels et une intégration avec l'écosystème cloud d'Alibaba (Alibaba Cloud / Aliyun).

UEL'entrée d'Alibaba dans l'IA robotique intensifie la pression concurrentielle mondiale sur les fabricants et intégrateurs européens, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

Chine/AsieActu
1 source
Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes
160arXiv cs.RO 

Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes

Des chercheurs présentent RL4IL, une méthode d'apprentissage par imitation guidée par renforcement qui s'attaque à un problème concret du déploiement robotique : la défaillance de capteurs en cours d'opération. Publiée en préprint sur arXiv (2606.15514), l'approche sélectionne dynamiquement les démonstrations d'experts les plus pertinentes depuis une bibliothèque d'entraînement, plutôt que d'entraîner un réseau de politique classique. Une politique RL entraînée via Proximal Policy Optimisation (PPO) sur des ensembles de candidats générés par recherche en largeur (BFS) classe ces démonstrations, et une tête de fusion par cross-attention agrège leurs signaux d'action pour produire la prédiction finale. Lorsqu'une modalité est absente à l'inférence, caméra obstruée, flux langage interrompu, une politique RL dédiée par modalité identifie des démonstrations "donneuses" dans la bibliothèque, et une tête d'imputation reconstruit l'embedding manquant par cross-attention sur les meilleures correspondances, sans aucun réentraînement du système. Évaluée sur trois suites du benchmark LIBERO, RL4IL surpasse les méthodes d'apprentissage par imitation de l'état de l'art dans les conditions de perte de capteurs. Ce résultat adresse une hypothèse fragile qui traverse l'ensemble des architectures VLA (Vision-Language-Action) actuelles : la disponibilité permanente de toutes les entrées sensorielles. En conditions réelles, une caméra peut être occultée par un objet, un module langage peut tomber hors ligne, un capteur de profondeur peut saturer. La capacité à inférer sans réentraînement est particulièrement notable pour les intégrateurs industriels : redéployer un modèle en production à chaque nouvelle configuration de panne est prohibitif. RL4IL découple la robustesse à la perte de modalité du coût d'apprentissage, ce qui représente un levier opérationnel concret, à nuancer cependant par l'absence, dans le papier, de tests sur des robots physiques réels. L'apprentissage par imitation fondé sur la récupération de démonstrations (retrieval-based IL) est une direction active depuis les travaux sur VINN et les approches kNN pour la robotique. Les architectures VLA dominantes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) supposent toutes des capteurs intègres. RL4IL s'inscrit dans une veine de recherche visant à rendre ces systèmes tolérants aux pannes sans modifier leur entraînement initial. Le code est disponible publiquement sur GitHub. Les prochaines étapes naturelles incluent une validation sur manipulateurs physiques et l'extension à des bibliothèques de démonstrations à grande échelle, deux conditions nécessaires pour crédibiliser le passage au déploiement réel.

RecherchePaper
1 source
Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)
161arXiv cs.RO 

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Une étude publiée le 19 juin 2026 sur arXiv (réf. 2606.15714) présente la première évaluation systématique des capacités multilingues des modèles VLA (Vision-Language-Action), cette famille d'architectures qui combine vision, langage et contrôle moteur pour produire des politiques robotiques généralisées. Les chercheurs ont construit des benchmarks multilingues en traduisant les instructions de jeux d'évaluation existants, puis ont testé plusieurs modèles VLA représentatifs sur un ensemble de tâches en environnement simulé. Le constat est net : les modèles entraînés principalement sur des instructions en anglais accusent une dégradation significative de leurs performances lorsqu'on les interroge dans d'autres langues, même quand le backbone LLM sous-jacent est nativement multilingue. Ce résultat a des implications directes pour quiconque envisage de déployer des robots à instructions verbales en dehors d'un contexte anglophone. Il invalide l'hypothèse commode selon laquelle les capacités multilingues d'un grand modèle de langage se transfèrent automatiquement au modèle VLA lors du fine-tuning sur données robotiques. L'analyse cross-linguale révèle deux sources d'échec distinctes : la compréhension de l'instruction d'une part, l'exécution de l'action d'autre part. Les auteurs identifient également des décalages de représentation interne provoqués par les instructions non-anglaises comme facteur structurel du gap, ce qui suggère que le problème est ancré dans la dynamique d'entraînement et pas seulement dans le vocabulaire. Les VLA généralisés ont connu une accélération notable depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, OpenVLA (Berkeley), ou encore GR00T N2 de NVIDIA, tous entraînés quasi-exclusivement sur des corpus anglophones. Pour combler le gap mis en évidence, les auteurs proposent une méthode de fine-tuning appelée Multilingual Principal Component Alignment (MPCA), qui utilise une analyse en composantes principales (ACP) pour aligner les représentations multilingues dans un sous-espace commun. Les résultats sont obtenus en simulation et n'ont pas encore été validés sur robot réel, ce qui constitue la limite principale à relativiser avant tout déploiement industriel. L'étude ouvre néanmoins une piste de travail concrète pour les équipes qui ciblent des marchés européens ou asiatiques.

UELes équipes R&D européennes ciblant des déploiements en langues non-anglaises (français, allemand, etc.) doivent intégrer cette limitation structurelle dans leurs protocoles d'entraînement VLA et ne peuvent pas supposer que le multilinguisme du LLM backbone se transfère automatiquement.

RechercheOpinion
1 source
Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action
162arXiv cs.RO 

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Une équipe de chercheurs a publié Token Steering (TS), une méthode permettant de piloter dynamiquement les trajectoires générées par des modèles de fondation robotiques de type VLA (vision-language-action autorégressif). Le principe : injecter des entrées utilisateur de faible dimension directement dans l'espace de représentation des tokens d'action du modèle, sans modifier l'architecture du modèle de langage visuel (VLM) sous-jacent. TS opère entièrement à l'inférence, sans réentraînement ni fine-tuning. Évalué sur deux tâches de manipulation domestique, fermeture d'un tiroir après placement d'objet, et permutation d'objets en contexte dynamique, le taux de succès passe respectivement de 10,0 % à 72,5 % et de 16,7 % à 93,8 %. Ces résultats sont issus de la préprint arXiv:2606.15021 et n'ont pas encore fait l'objet d'une révision par les pairs. L'intérêt opérationnel est direct : supprimer le besoin de réentraînement lève un verrou majeur pour le déploiement de robots de fondation en conditions réelles. Des intégrateurs peuvent adapter le comportement d'un VLA pré-entraîné à des variations de scénario sans coût de calcul additionnel significatif. Le mécanisme guide l'action sans l'écraser, ce qui préserve les priors de dextérité et de fluidité appris durant le pré-entraînement. C'est un avantage concret sur les approches classiques de surcharge par commande directe, qui dégradent souvent la qualité du mouvement. L'article évoque également des cas d'usage d'accessibilité pour des personnes à mobilité limitée, piste crédible vers une robotique d'assistance plus inclusive. Les politiques VLA constituent l'un des axes les plus actifs de la robotique actuelle : Physical Intelligence a commercialisé Pi-0, NVIDIA a présenté GR00T N2, et plusieurs groupes académiques développent des variantes d'OpenVLA. Token Steering s'inscrit dans une tendance plus large qui cherche à rendre ces politiques modulables sans réentraînement, direction que poursuit également Enchanted Tools sur le plan applicatif. La contribution reste pour l'heure académique : aucun déploiement industriel ni partenariat n'est annoncé, et le site projet (jasontchan.github.io/token-steering) présente des vidéos de démonstration en environnement contrôlé. Les prochaines étapes attendues sont une validation sur hardware hors laboratoire et une extension aux VLA de génération récente comme Pi-0 ou GR00T N2.

UEEnchanted Tools (entreprise française) est citée comme poursuivant la même direction applicative ; la méthode de pilotage à l'inférence sans réentraînement pourrait directement accélérer les travaux européens sur la robotique d'assistance.

💬 Passer de 10% à 72% de réussite sur une tâche de manipulation sans toucher au modèle, c'est le chiffre qui compte. Le vrai frein des VLA hors du labo, c'est exactement ça : chaque variation de scénario forçait un fine-tuning coûteux, et Token Steering court-circuite ça à l'inférence. Reste à valider sur du hardware moins coopératif, mais c'est précisément le bon problème à avoir résolu en premier.

IA physiqueOpinion
1 source
Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé
163arXiv cs.RO 

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Publiés sur arXiv en juin 2026 (arXiv:2606.14153), des chercheurs présentent un diagnostic simple aux conclusions contre-intuitives : l'encodeur visuel le plus performant sur un petit modèle VLA (Vision-Language-Action) ne l'est pas nécessairement sur un modèle plus grand. Pour le démontrer, l'équipe a développé un protocole de "greffe à backbone gelé" (frozen-backbone grafting), consistant à remplacer la tour visuelle d'un VLA publié par un encodeur candidat, tout en maintenant gelés le modèle de langage et l'expert d'action. Quatre encodeurs ont été testés sur deux backbones : SmolVLA-450M et π₀.₅-3.3B de Physical Intelligence, sur deux suites de benchmarks LIBERO, avec 40 runs de greffe principaux évalués par MSE d'action hors-ligne. Résultat : SigLIP (Google) domine sur SmolVLA pour les deux suites, tandis que sur π₀.₅, c'est DINOv2-small (Meta) qui prend la tête sur la suite spatiale, avec une quasi-égalité sensible aux seeds sur la suite objets. Sur 3 comparaisons backbone-suite sur 4, et 11 cellules sur 12 au niveau des seeds, les classements s'avèrent backbone-dépendants. Ce résultat remet en question une pratique courante dans la communauté VLA : hériter l'encodeur visuel d'un VLM upstream sans vérifier si ce choix tient à l'échelle cible. Le diagnostic révèle également que le protocole de greffe lui-même n'est pas neutre : il introduit un biais asymétrique de +45 à 56% de MSE sur la tour native de SmolVLA, mais de -50 à 52% sur π₀.₅, ce qui conditionne fortement l'interprétation des résultats. Pour les équipes qui construisent des VLAs à grande échelle, cela signifie concrètement qu'une ablation menée sur un backbone 450M ne prédit pas le classement sur un 3,3B, un surcoût de validation qui change structurellement les pipelines d'expérimentation. Les VLAs sont aujourd'hui au coeur de la robotique apprise de bout-en-bout, incarnés par des modèles phares comme π₀ et π₀.₅ de Physical Intelligence, GR00T N2 de NVIDIA ou encore OpenVLA. LIBERO, la suite utilisée ici pour la manipulation robotique en simulation, est un benchmark standard du champ. Les auteurs positionnent explicitement la greffe gelée comme un outil diagnostique pré-engagement à faible coût, à utiliser avant de figer le choix d'encodeur sur un backbone cible, et non comme une méthode de déploiement en boucle fermée. C'est une contribution méthodologique qui devrait modifier la façon dont les équipes structurent leurs campagnes d'ablation d'encodeurs dans la course aux VLAs à grande échelle.

UELes équipes européennes travaillant sur des VLAs (labs INRIA, CEA-List, startups robotique FR) peuvent intégrer le protocole de greffe gelée comme outil diagnostique à faible coût avant de figer le choix d'encodeur sur leur backbone cible.

RechercheActu
1 source
Un modèle fondation VLA pragmatique
164arXiv cs.RO 

Un modèle fondation VLA pragmatique

LingBot-VLA est un modèle fondation de type Vision-Language-Action (VLA) publié en janvier 2026 sur arXiv (v3), conçu pour la manipulation robotique sur bras duals. Entraîné sur environ 20 000 heures de données réelles issues de 9 configurations distinctes de robots bi-bras, le modèle a été évalué sur 3 plateformes robotiques différentes, chacune complétant 100 tâches avec 130 épisodes de post-entraînement par tâche. Sur le plan de l'efficacité computationnelle, la codebase développée atteint un débit de 261 échantillons par seconde sur un cluster de 8 GPU, représentant une accélération de 1,5 à 2,8 fois selon le VLM de base choisi. Le code, le modèle de base et les données de benchmark sont publiés en open access. Ce travail s'attaque à l'un des verrous structurels des VLA en production : la généralisation croisée entre tâches et entre plateformes, couplée à un coût d'adaptation acceptable en données et en GPU-heures. Le fait que le modèle surpasse ses concurrents sur 100 tâches distinctes par plateforme, avec seulement 130 épisodes de fine-tuning, indique que le sim-to-real gap et l'adaptation à de nouveaux morphologies de bras sont partiellement résolus dans ce cadre, du moins pour la manipulation bi-bras. Pour un intégrateur industriel ou un équipementier, c'est un signal concret : l'écart entre démo labo et déploiement réel se réduit sur des tâches structurées, même si les conditions de benchmark restent contrôlées et méritent d'être vérifiées en environnement ouvert. La course aux VLA généralisables oppose aujourd'hui plusieurs approches : Pi-0 de Physical Intelligence sur des données hétérogènes multi-robots, OpenVLA et Octo comme baselines open-source établies, et GR00T N2 de NVIDIA ciblant l'humanoïde. LingBot-VLA se positionne sur le segment bi-bras industriel, avec une volumétrie de données réelles supérieure à la plupart des travaux publiés et un accent explicite sur l'efficacité d'entraînement, ce qui le rend pertinent pour des laboratoires sans infrastructure cloud massive. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une contribution académique avec ouverture du code, dont les suites dépendront de l'adoption communautaire et d'éventuels partenariats industriels non encore divulgués.

UELes laboratoires et intégrateurs européens sans infrastructure cloud massive peuvent adopter directement le modèle et les données open-access pour accélérer leurs travaux de manipulation bi-bras.

💬 130 épisodes pour adapter le modèle à un nouveau robot, c'est un seuil qu'on n'osait pas espérer il y a deux ans. L'open access complet du modèle, du code et des données, c'est ça la vraie nouvelle, parce que les labos sans infrastructure cloud massive peuvent maintenant entrer dans la course face à NVIDIA et Physical Intelligence. Reste à voir si ça tient hors benchmark.

IA physiqueOpinion
1 source
Exosquelette universel de manipulation : politiques corps entier compliantes avec retour de couple en temps réel
165arXiv cs.RO 

Exosquelette universel de manipulation : politiques corps entier compliantes avec retour de couple en temps réel

Des chercheurs ont publié sur arXiv (2606.14218) l'UME, Universal Manipulation Exoskeleton, un exosquelette du membre supérieur combinant retour de couple haptique en temps réel et enregistrement des signaux de couple articulaire pour la téléopération robotique. Léger, portable, équipé d'une IMU, il supporte la manipulation mobile et pilote trois bras commerciaux via un algorithme de reciblage universel : OpenArm 7DoF, Franka 7DoF et X-ARM 6DoF. Les politiques apprises à partir de données UME atteignent des taux de succès élevés sur des tâches bimanuelle, longue-horizon et en occultation visuelle : retournement de carton guidé par la force, poussage en aveugle, manipulation en espace contraint. La précision haptique est telle que des opérateurs peuvent extraire des objets cinématiquement contraints les yeux bandés. L'enjeu n'est pas l'exosquelette lui-même, mais les données qu'il produit : la quasi-totalité des pipelines de collecte pour l'apprentissage par imitation capture des positions articulaires sans les couples de force, cantonnant les politiques apprises à un mode position pur sans compliance active. L'UME comble cette lacune et ouvre la voie à des politiques réactives aux contacts non anticipés, condition nécessaire pour des robots opérant en environnement domestique ou aux côtés d'humains. La compatibilité avec trois cinématiques différentes et le faible coût de fabrication annoncé sont des arguments concrets pour les intégrateurs. Les taux de succès présentés restent néanmoins à confirmer au-delà des démonstrations sélectionnées pour la publication. Les systèmes de téléopération bimanuelle comme ALOHA (Stanford/UC Berkeley) ont établi des standards pour la collecte de données visuomotrices, mais sans retour de couple systématique. Les exosquelettes haptiques commerciaux existants (HaptX, Shadow Robot) intègrent ce retour à des coûts rédhibitoires pour la recherche académique. L'UME se positionne comme une alternative bas coût, avec code et données annoncés publics sur ume-exo.github.io, ce qui pourrait enrichir l'entraînement de modèles de politiques visuomotrices (VLA) comme pi-zero (Physical Intelligence) ou OpenVLA avec des signaux de force jusqu'ici absents des datasets standards. Il s'agit à ce stade d'un travail purement académique, sans partenaire industriel ni calendrier de déploiement annoncé.

ExosquelettesPaper
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
166arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

IA physiqueOpinion
1 source
SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle
167arXiv cs.RO 

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

Des chercheurs du groupe Intuitive Robots ont publié sur arXiv (réf. 2606.13497) SPARC, acronyme de Spatial Annotations from Robot Demonstrations with Reliability Calibration. Il s'agit d'un pipeline automatique qui annote des démonstrations robotiques avec des métadonnées spatiales structurées -- boîtes englobantes, trajectoires d'objets, labels de phase de manipulation -- tout en attribuant à chaque annotation un score de fiabilité calibré. Évalué sur 1 700 démonstrations annotées manuellement, couvrant des morphologies et des scénarios variés, SPARC conserve trois fois plus d'échantillons aux points de fonctionnement haute précision par rapport aux pipelines de détection classiques, tout en surpassant ces mêmes baselines sur la précision de localisation. L'équipe introduit également IA-Bench (Interaction-Aware Bench), un benchmark dédié à mesurer la précision des modèles dans la localisation des objets manipulés au fil d'une démonstration. Le code, les données et les modèles sont disponibles publiquement. L'enjeu est directement lié à la scalabilité de l'entraînement des politiques robotiques et des modèles de fondation incarnés (embodied foundation models). Les pipelines d'annotation automatique existants produisent des labels en volume, mais sans signal de qualité fiable : la confiance du détecteur est mal calibrée pour prédire la correction d'une annotation, ce qui oblige les équipes ML à choisir entre bruit et perte de données. SPARC contourne ce dilemme en exploitant la structure spatio-temporelle propre aux tâches robotiques pour générer un signal de fiabilité intrinsèque. Les politiques entraînées sur ces annotations surpassent les baselines dans des scènes réelles encombrées et visuellement ambiguës, ce qui suggère que la qualité du signal d'annotation compte autant que le volume brut de données -- une hypothèse que le secteur commence seulement à tester systématiquement. Le problème de l'annotation à grande échelle est un goulot d'étranglement bien identifié dans la robotique d'apprentissage par imitation, notamment depuis l'émergence des Visual Language Action models (VLA) tels que pi-0 de Physical Intelligence ou OpenVLA de Berkeley. Ces architectures consomment des milliers de démonstrations annotées avec précision, et la vérification humaine ne passe pas à l'échelle. SPARC s'inscrit dans un effort plus large, parallèle aux travaux de Google DeepMind sur RoboAgent ou aux pipelines de données de Hugging Face LeRobot, pour industrialiser la production de datasets robotiques de qualité. La prochaine étape logique sera de valider SPARC sur des distributions d'environnements plus larges et sur des tâches de manipulation longue durée, deux axes où le sim-to-real gap reste ouvert.

UELes laboratoires européens (CEA-List, INRIA, universités) travaillant sur l'apprentissage par imitation peuvent directement exploiter ce pipeline open-source pour améliorer la qualité de leurs datasets robotiques sans coût d'annotation humaine supplémentaire.

RecherchePaper
1 source
FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques
168arXiv cs.RO 

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

Des chercheurs ont publié en juin 2026 sur arXiv (2606.12406) deux méthodes complémentaires pour doter les bras robotiques low-cost d'une sensibilité à l'effort sans capteur de force dédié. NEXT (Neural External Torque Estimation) estime les couples externes appliqués aux articulations à partir de données de mouvement libre uniquement : dix minutes de collecte suffisent pour un entraînement d'une minute, avec des performances comparables à celles de capteurs de couples articulaires dédiés. FIRST (Force-Informed Re-Sampling Training) exploite ces estimations pendant le behavior cloning en sur-échantillonnant les phases précédant le contact et les phases de contact elles-mêmes. Sur cinq tâches à horizon long impliquant des manipulations contacts-riches, FIRST dépasse les politiques force-aware antérieures de plus de 17% en progression de tâche. Code et vidéos sont disponibles à jasonjzliu.com/factr2. L'impact principal concerne les intégrateurs opérant sur des bras collaboratifs sans instrumentation force-couple : UR, Franka, Kinova ou Dobot ne sont pas livrés avec des capteurs six axes, dont le coût unitaire dépasse fréquemment 5 000 euros. En éliminant ce prérequis matériel, NEXT rend la télé-opération à retour d'effort et l'apprentissage par démonstration accessibles sur flottilles existantes sans modification mécanique. Le gain de 17% sur des tâches longues comme l'insertion ou l'assemblage est non trivial, même si ces benchmarks en laboratoire restent à valider en conditions industrielles. Ce que cette contribution établit : la perception d'effort peut être inférée par voie logicielle, sans modifier la mécanique du robot. La publication s'inscrit dans la continuité de FACTR (arXiv:2502.02022, 2025, même groupe), qui explorait déjà l'apprentissage de politiques contacts-riches par télé-opération avec retour de force. Le paysage concurrentiel inclut les approches à capteurs tactiles (DIGIT de Meta, GelSight du MIT), les estimateurs de couple par résidus de dynamique utilisés à DLR et Fraunhofer, et les travaux sur la perception haptique chez Physical Intelligence et Figure AI. Les prochaines étapes naturelles seront la validation sur hardware industriel certifié et l'intégration dans des pipelines VLA (Vision-Language-Action), où la perception d'effort reste une lacune connue des politiques déployées à grande échelle.

UELes laboratoires européens (DLR, Fraunhofer) et intégrateurs utilisant des bras Franka Emika (fabricant allemand) peuvent évaluer NEXT/FIRST sur leurs flottes existantes sans investissement matériel supplémentaire, abaissant le coût d'accès à l'apprentissage contacts-riches.

💬 Dix minutes de collecte de données pour remplacer un capteur à 5 000€, c'est là que ça devient vraiment intéressant. Les intégrateurs qui tournent sur du Franka ou du UR sans instrumentation force-couple vont pouvoir tester ça sur leurs flottes sans toucher à la mécanique, et le +17% sur des tâches longues comme l'insertion c'est pas du bruit. Reste à voir si ça tient hors conditions de labo, mais la direction est la bonne.

IA physiquePaper
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
169arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

IA physiqueOpinion
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
170arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
Ce que les métriques de curation des démonstrations font à votre politique
171arXiv cs.RO 

Ce que les métriques de curation des démonstrations font à votre politique

Une étude publiée en juin 2026 (arXiv:2606.10229) révèle une décorrélation surprenante au cœur du pipeline d'imitation learning en robotique : les métriques qui détectent le mieux les épisodes de démonstration défectueux ne sont pas celles qui produisent les meilleures politiques de behavior cloning. Les chercheurs ont travaillé sur le benchmark LIBERO de pick-and-place en contact riche, en injectant un défaut structurel contrôlé, un relâchement prématuré du préhenseur pendant la phase de transport. Parmi sept métriques de curation évaluées, celle affichant le meilleur AUROC de détection de défauts (0,804) génère la pire politique downstream, avec un taux de succès de seulement 13,3 %. À l'inverse, une métrique avec un AUROC bien plus faible (0,638) produit une politique atteignant 90,0 % de réussite, contre 93,3 % pour l'oracle entraîné sur données propres vérifiées. La baseline contaminée, sans aucune curation, ne dépasse pas 3,3 % de succès. Ce résultat remet en cause un présupposé largement répandu dans la communauté robotique : l'idée qu'améliorer la détection des démonstrations défectueuses suffit à améliorer la politique apprise. L'étude montre que cinq des sept métriques testées utilisent en réalité la longueur d'épisode comme proxy trivial pour le label de défaut, un biais qui gonfle artificiellement les AUROC jusqu'à des valeurs quasi-parfaites, et qui disparaît dès lors qu'on neutralise cette variable. Pour les équipes qui construisent des systèmes de robot learning à partir de données humaines (notamment dans les approches VLA ou diffusion policy), cela signifie que les outils de curation standard peuvent induire en erreur, en sélectionnant des données qui « semblent » propres sans réellement améliorer le comportement en rollout. L'imitation learning par behavior cloning est aujourd'hui au cœur des approches de référence en manipulation robotique, des systèmes Pi-0 de Physical Intelligence aux architectures ACT et Diffusion Policy largement reproduites en recherche académique. LIBERO est un benchmark établi, utilisé précisément pour sa richesse en interactions contact. Les auteurs de cette étude vont plus loin que le constat en publiant le testbed complet, toutes les implémentations de métriques et le pipeline d'évaluation, ce qui permet à la communauté de recalibrer ses outils de curation. La recommandation centrale est méthodologique : évaluer une méthode de curation à l'aune de la politique qu'elle produit, pas des défauts qu'elle signale, et imposer un contrôle systématique de la longueur d'épisode avant toute publication de score de détection.

UELes laboratoires académiques et startups européennes travaillant sur le behavior cloning ou les politiques de diffusion peuvent recalibrer leurs pipelines de curation grâce au testbed complet publié par les auteurs.

RecherchePaper
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
172arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
173arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
174arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
175arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
176arXiv cs.RO 

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial. Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs. Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

UELe benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

RecherchePaper
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
177arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
178arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action
179arXiv cs.RO 

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Des chercheurs ont publié le 2 juin 2026 FATE-VLA (arXiv:2606.02307), une méthode active de génération de tests pour évaluer les modèles VLA (Vision-Language-Action), ces politiques robotiques généralisées qui combinent perception visuelle, compréhension linguistique et commande motrice. Plutôt que de tester ces modèles sur des benchmarks statiques à échantillonnage aléatoire, FATE-VLA reformule l'évaluation comme un problème de découverte active de défaillances : un algorithme couple exploration guidée par la diversité et modèles surrogate appris sur les exécutions observées, afin d'orienter les tests vers les régions de scène à haut risque. Appliqué à quatre modèles VLA de référence, dont GR00T-N1.6 de NVIDIA, le système identifie jusqu'à 29,7 % de défaillances supplémentaires par rapport aux baselines retenus et expose des modes d'échec plus variés. Sur GR00T-N1.6 spécifiquement, le taux de succès chute de 64,4 % à 34,7 % lorsque les scènes de test ciblent les zones problématiques de l'espace de configuration. Ce résultat soulève une question directe pour quiconque envisage de déployer des VLA en production industrielle : les performances communiquées par les fabricants sont mesurées sur des benchmarks à tirage aléatoire qui, par construction, sous-représentent les configurations critiques. Si les défaillances sont rares mais concentrées dans certaines régions de l'espace de tâche, ce que FATE-VLA confirme empiriquement, un benchmark classique peut afficher 64 % de succès là où un intégrateur confronté à ces configurations limites observera des performances nettement inférieures. Le paradigme proposé s'inspire du fuzzing et du test adversarial déjà standards en sécurité logicielle, deux pratiques absentes des protocoles de validation robotique actuels. Les modèles VLA ont connu une accélération marquée depuis 2023-2024, avec des architectures comme pi-zero (Physical Intelligence), GR00T N1/N1.6 (NVIDIA), OpenVLA et Octo. Leur évaluation s'appuie encore sur des benchmarks fixes comme LIBERO, Calvin ou MetaWorld, tous vulnérables au biais d'échantillonnage décrit ici. FATE-VLA s'inscrit dans une tendance plus large de stress-testing adaptatif des modèles de fondation robotiques, en parallèle des travaux sur la robustesse sim-to-real et le domain randomization. Il s'agit d'un preprint arXiv sans déploiement ni pilote industriel annoncé, mais ses recommandations ciblent directement les équipes de validation chez les fabricants de bras manipulateurs et les intégrateurs qui ne disposent pas encore de standards formels pour certifier des politiques neuronales généralisables avant mise en production.

UELes intégrateurs et fabricants européens évaluant ou déployant des modèles VLA en production industrielle sont directement concernés : les benchmarks standards sur lesquels reposent les performances annoncées (dont celles de GR00T-N1.6 de NVIDIA) sous-représentent par construction les configurations critiques, exposant ces équipes à des taux de défaillance réels nettement supérieurs aux chiffres publiés.

RechercheOpinion
1 source
SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA
180arXiv cs.RO 

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Une équipe de recherche a publié en juin 2026 SafeVLA-Bench (arXiv:2606.00773), un cadre d'évaluation de la sécurité conçu spécifiquement pour les modèles vision-langage-action (VLA). Contrairement aux benchmarks existants qui se limitent à mesurer si une tâche de manipulation a été accomplie ou non, SafeVLA-Bench évalue ce qui se passe pendant la trajectoire d'exécution : contact excessif avec l'environnement, perturbation d'objets adjacents, déstabilisation de l'objet tenu, ou auto-contact du robot. Le framework formalise ces critères sous forme de spécifications Signal Temporal Logic (STL) et introduit deux métriques complémentaires : SBU (Succ-But-Unsafe), la fraction des séquences d'exécution qui réussissent la tâche tout en violant une contrainte de sécurité, et VSI (Violation Severity Index), un score de profondeur de violation borné. Appliqué à deux environnements de simulation, LIBERO (manipulation sur table) et RoboCasa-365 (cuisine), sur neuf entrées politique-benchmark, le framework révèle des chiffres préoccupants : les meilleures baselines tabletop affichent encore 13 à 15 % d'épisodes non sécurisés, et 36 à 56 % des rollouts réussis de RoboCasa-365 violent au moins une clause de sécurité active. Ce travail met en évidence un angle mort systémique dans l'évaluation des VLA : un taux de succès élevé ne garantit pas une exécution sûre. Pour les intégrateurs industriels et les équipes qui envisagent de déployer des politiques VLA en environnement réel, cela signifie que les benchmarks habituels surestiment structurellement la maturité des modèles. La distinction que pose SafeVLA-Bench entre "tâche accomplie" et "accomplie de façon acceptable" est exactement le type de critère qui sépare une démo convaincante d'un déploiement industriellement viable. Il faut noter que l'ensemble des résultats repose sur des simulations, ce qui laisse entière la question du transfert sim-to-real pour les violations de sécurité elles-mêmes. L'initiative s'inscrit dans une dynamique plus large de maturation de l'évaluation des VLA, portée notamment par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure), dont les capacités de manipulation généraliste progressent plus vite que les outils pour les qualifier rigoureusement. Jusqu'ici, la communauté s'appuyait sur des métriques de succès binaires héritées de l'ère pré-VLA, insuffisantes dès lors que les politiques sont intégrées dans des chaînes de production ou à proximité d'opérateurs humains. SafeVLA-Bench se positionne comme un outil post-hoc, applicable aux benchmarks existants sans refaire les évaluations depuis zéro. Les prochaines étapes naturelles incluent l'extension à des environnements physiques réels et l'intégration dans les pipelines de certification des systèmes cobotiques. Le projet est documenté sur safevla.org.

UESafeVLA-Bench pourrait alimenter les cadres de certification des systèmes cobotiques en Europe, notamment dans le contexte de l'AI Act qui impose des évaluations de sécurité rigoureuses pour les systèmes IA à haut risque déployés à proximité d'opérateurs humains.

RechercheOpinion
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
181arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source
NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique
182The Robot Report 

NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique

Lors du GTC Taipei et du Computex, NVIDIA a dévoilé un ensemble de nouveaux outils open-source rassemblés sous le nom NVIDIA Agent Toolkit, destinés aux développeurs de systèmes d'IA physique : robotique, véhicules autonomes, vision industrielle et jumeaux numériques. L'objectif affiché est de réduire le coût et la complexité des pipelines de développement en rendant l'ensemble de la pile logicielle de NVIDIA directement orchestrable par des agents IA. Les outils concernés incluent Cosmos 3, le modèle de fondation pour la compréhension du monde physique (vidéo, texte, prédiction d'états futurs), les bibliothèques Omniverse pour la simulation et les jumeaux numériques, Isaac pour la robotique, Metropolis pour la vision IA, Alpamayo pour la conduite autonome, et la plateforme Jetson pour le déploiement embarqué. Le déploiement sécurisé de ces agents est encadré par le blueprint NemoClaw et le runtime OpenShell, qui appliquent des politiques de sécurité et de confidentialité en local comme dans le cloud. L'approche "agent-ready" de NVIDIA marque un changement de paradigme dans le développement de l'IA physique : plutôt que des bibliothèques que les ingénieurs assemblent manuellement, les outils deviennent des briques directement appelables par des agents de codage, capables d'enchaîner automatiquement génération de données, simulation, entraînement et évaluation. Pour les développeurs de véhicules autonomes, cela signifie qu'un agent peut reconstruire des scènes à partir de données de flotte, générer des scénarios de conduite photoréalistes et lancer des boucles de renforcement sans intervention manuelle à chaque étape. Pour les intégrateurs robotiques, des tâches comme l'automatisation de l'entraînement à la navigation ou le tuning de systèmes Jetson deviennent théoriquement scriptables. Rev Lebaredian, vice-président pour la simulation d'IA physique chez NVIDIA, a qualifié Cosmos 3 de "modèle de fondation frontier pour l'IA physique", capable de comprendre vidéo et texte, de prédire les états futurs et de générer des actions, positionnant ce world model comme un candidat généraliste opérationnel, même si aucune métrique de benchmark indépendante n'a été communiquée à ce stade. NVIDIA consolide avec cette annonce sa position d'infrastructure de référence pour l'IA physique, un rôle qu'elle occupe via ses GPU d'entraînement et ses plateformes Isaac Sim et Jetson. La compétition dans ce segment s'intensifie : Google DeepMind pousse MuJoCo et ses dérivés, Boston Dynamics, Figure, Agility Robotics et Physical Intelligence développent leurs propres stacks de simulation et d'apprentissage, tandis que des acteurs industriels comme Siemens ou ANSYS occupent le terrain des jumeaux numériques. En Europe, des entreprises comme Wandercraft ou Enchanted Tools pourraient bénéficier de ces outils si la promesse de réduction de complexité se confirme en pratique. NVIDIA joue ici la carte de la plateforme unifiée plutôt que du modèle de fondation isolé, un positionnement cohérent avec son modèle d'affaires mais qui reste à valider au-delà des démonstrations internes. Les suites annoncées incluent des applications en santé, dont le détail n'a pas été entièrement communiqué lors de l'événement.

UELes entreprises françaises comme Wandercraft et Enchanted Tools pourraient bénéficier de la réduction de complexité annoncée, mais aucun déploiement européen concret n'est confirmé à ce stade.

InfrastructureOpinion
1 source
Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée
183arXiv cs.RO 

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Une équipe de chercheurs a publié TouchSafeBench (arXiv:2605.31196), un benchmark pour évaluer ce qu'ils nomment le "collision grounding" dans les modèles de vision-langage (VLM) : la capacité à relier des observations visuelles à la géométrie du robot, la disposition de la scène et la proximité humaine pour déduire un contact présent ou imminent. Construit dans le simulateur Habitat 3.0 de Meta, il comprend 2 940 épisodes de coprésence indoor simulés, couvrant navigation sociale et réorganisation spatiale, avec des observations RGB-D multi-vues synchronisées, des cartes de trajectoire top-down et des labels de contact dérivés directement du simulateur. Trois VLMs orientés robotique ou frontier models ont été testés sur neuf représentations visuelles, autour de deux tâches : classifier l'état de sécurité courant et anticiper une collision imminente avant tout contact physique. Le meilleur score moyen Macro-F1 obtenu reste inférieur à 50 %. Ce chiffre souligne une limite fondamentale : la fluidité visuelle n'implique pas la responsabilité physique. Un modèle capable de décrire précisément une scène peut échouer à détecter si un bras robotique effleure un opérateur. Pour les intégrateurs travaillant sur la collaboration homme-robot, le signal est sans ambiguité : les VLMs actuels ne peuvent pas jouer le rôle de moniteurs de sécurité sans couche d'abstraction géométrique explicite. L'étude montre également que le contact robot-scène (obstacles, mobilier) est systématiquement plus difficile à détecter que la proximité humaine, contredisant l'intuition courante. Plus frappant encore : la profondeur RGB-D n'est pas automatiquement convertie en évidence de collision corps-robot, faute de représentation morphologique intégrée dans ces modèles. Ces résultats arrivent au moment où les architectures vision-langage-action (VLA) comme RT-2, OpenVLA ou pi0 de Physical Intelligence s'imposent dans les pipelines robotiques, en pariant sur la généralisation sémantique des VLMs pour piloter manipulateurs et robots mobiles. TouchSafeBench constitue un contrepoids empirique à cet enthousiasme : la généralisation linguistique ne résout pas la conscience géométrique nécessaire à la sécurité fonctionnelle. La plateforme sous-jacente, Habitat 3.0, est développée par Meta AI Research et fait référence en navigation sociale simulée. Le benchmark sera publié à l'acceptation de l'article. Les auteurs identifient comme prochaine étape des représentations liant explicitement point de vue caméra, morphologie du robot et géométrie métrique, potentiellement via des approches hybrides VLM et modèles cinématiques.

UELes intégrateurs européens développant des cobots sous contraintes AI Act doivent intégrer que les VLMs actuels ne sont pas des moniteurs de sécurité fiables sans couche d'abstraction géométrique explicite, ce qui impacte directement les architectures VLA en cours de déploiement industriel.

RecherchePaper
1 source
Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences
184arXiv cs.RO 

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Des chercheurs proposent sur arXiv (2605.27919) FGO (Frequency Guidance Operator), une méthode qui s'attaque au bruit haute fréquence inhérent aux démonstrations humaines utilisées pour entraîner des politiques robotiques par imitation. Ces artefacts, saccades et micro-pauses capturés lors des démonstrations opérateur, sont amplifiés lors du débruitage itératif propre aux politiques par diffusion, produisant des trajectoires erratiques en exécution. FGO guide les échantillons bruités à travers des variétés spectrales intermédiaires à bandes progressivement élargies, forçant la génération à structurer d'abord les composantes basse fréquence avant de raffiner les détails fins. Résultat annoncé : une meilleure régularité d'action et cohérence temporelle sur 15 tâches de manipulation issues de 5 benchmarks distincts, sans dégrader le taux de succès. L'intérêt pour les déployeurs tient à deux points. D'une part, les politiques diffusion (pi-0 de Physical Intelligence, Diffusion Policy de Columbia, ACT) sont devenues le paradigme dominant pour la manipulation dextère, et les comportements saccadés en production réduisent la durée de vie des actionneurs et génèrent des arrêts de ligne. D'autre part, FGO se présente comme une correction applicable sans ré-entraînement complet, là où les correctifs habituels restent des filtres de post-traitement ad hoc (lissage temporel, filtre de Kalman sur les actions). L'absence de validation sur hardware physique dans la publication invite toutefois à la prudence avant tout transfert industriel direct. Diffusion Policy (Columbia University, 2023) a posé les bases de cette famille d'algorithmes, rapidement adoptée par Physical Intelligence, Figure AI, Apptronik, et des laboratoires comme ETH Zurich et Stanford. Le bruit haute fréquence dans les données d'imitation est un problème connu, mais rarement traité au niveau du processus de génération lui-même plutôt qu'en aval. FGO s'inscrit dans une tendance émergente de régularisation spectrale des politiques de contrôle ; les étapes suivantes attendues sont une validation sur plateformes physiques réelles et une intégration dans des frameworks open-source comme LeRobot de Hugging Face.

UEL'intégration potentielle dans HuggingFace LeRobot (entreprise française) pourrait rendre cette correction spectrale accessible à l'écosystème robotique open-source francophone sans effort de ré-entraînement.

RechercheActu
1 source
Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)
185arXiv cs.RO 

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence. Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles. Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

UELe benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

RechercheOpinion
1 source
IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques
186arXiv cs.RO 

IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques

Des chercheurs ont publié sur arXiv (2604.07833) un cadre architectural pour la gouvernance d'exécution des agents incarnés, ces systèmes IA capables d'agir sur des robots, outils ou environnements physiques. La proposition centrale est une couche de gouvernance dédiée, externe à la boucle d'inférence de l'agent, chargée de cinq fonctions : vérification de politiques, admission de capacités, surveillance d'exécution, gestion des rollbacks et déclenchement d'override humain. Cette architecture formalise une frontière de contrôle entre l'agent incarné, des modules de capacité baptisés ECMs (Embodied Capability Modules) et la couche de gouvernance runtime. Les auteurs ont validé l'approche sur 1 000 essais de simulation randomisés couvrant trois dimensions de gouvernance : taux d'interception des actions non autorisées à 96,2 %, réduction des continuations non sécurisées de 100 % à 22,2 % en cas de dérive d'exécution, et 91,4 % de récupération avec conformité totale aux politiques, tous significativement supérieurs aux baselines testés (p<0,001). L'enjeu dépasse la robotique académique. À mesure que des agents IA obtiennent une autorité d'exécution réelle sur des bras industriels, des AMR (Autonomous Mobile Robots) ou des systèmes cyber-physiques, leur contrôlabilité devient un problème d'ingénierie système critique. L'approche dominante actuelle consiste à enfouir la logique de sécurité à l'intérieur de la boucle agent, ce qui rend l'audit difficile et la standardisation quasi impossible dans des environnements réglementés (santé, industrie critique). En externalisant la gouvernance dans une couche séparée, les auteurs proposent un modèle où la politique d'usage peut être modifiée ou vérifiée sans toucher aux poids du modèle, répondant à un besoin concret des intégrateurs industriels qui composent avec plusieurs fournisseurs et des référentiels de sécurité imposés par leurs clients. Ce papier s'inscrit dans un mouvement plus large de "safety at deployment", distinct de l'alignment par entraînement (RLHF, Constitutional AI). Il dialogue avec les architectures de contrôle comme ROS 2 et les travaux sur les systèmes multi-agents à responsabilité distribuée. Le contexte concurrentiel est direct : OpenAI, Google DeepMind, Figure AI, Physical Intelligence et Sanctuary AI développent tous des agents incarnés à capacité d'exécution croissante, mais la gouvernance runtime reste un angle mort industriel. Une telle architecture trouverait une application prioritaire dans les déploiements d'humanoïdes en environnement contrôlé, entrepôts ou lignes d'assemblage, où les opérateurs exigent des garanties d'auditabilité que les architectures end-to-end ne fournissent pas encore.

UEL'architecture de gouvernance externe proposée répond directement aux exigences d'auditabilité et de traçabilité de l'AI Act pour les systèmes d'IA à haut risque, offrant aux intégrateurs robotiques européens un cadre de référence concret pour démontrer la conformité de leurs agents incarnés sans modifier les poids des modèles.

RechercheOpinion
1 source
RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés
187arXiv cs.RO 

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

Des chercheurs du PurSec Lab ont publié RoboJailBench, un benchmark standardisé pour évaluer les attaques adversariales de type "jailbreak" et leurs contre-mesures dans les systèmes d'IA embarquée. Présenté sur arXiv (2605.19328), ce framework cible les agents robotiques et véhicules autonomes qui s'appuient sur des Vision-Language Models (VLMs) pour interpréter l'environnement visuel et exécuter des commandes en langage naturel. Il repose sur trois composantes: une taxonomie de sécurité dérivée des normes ISO et d'incidents documentés, couvrant 18 catégories de violations; un pipeline de données "intent contrast" associant à chaque exemple un objectif adversarial et un objectif bénin, afin de mesurer conjointement sécurité et utilité; et un dépôt évolutif de métriques standardisées. Les auteurs ont construit un dataset taxonomique, enrichi cinq datasets existants, intégré quatre types d'attaques et deux défenses, puis évalué l'ensemble sur les principaux VLMs embarqués actuels. Un leaderboard public est maintenu sur purseclab.github.io. L'enjeu dépasse la recherche académique. Un robot compromis par un jailbreak n'affiche pas une réponse textuelle inappropriée: il exécute une action physique potentiellement dangereuse. Les benchmarks existants ciblaient soit les LLMs conversationnels, soit la sécurité non-adversariale des agents incarnés, sans jamais capturer le triptyque risques adversariaux, conséquences physiques et arbitrage sécurité-utilité. Quantifier explicitement ce compromis est une contribution méthodologique significative: un système trop défensif bloque des commandes légitimes et devient inutilisable en production. Pour les intégrateurs industriels, une grille d'évaluation ancrée dans les normes ISO simplifie la qualification réglementaire avant tout déploiement réel. La montée en puissance des VLMs dans la robotique physique, illustrée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures de Figure AI, a considérablement élargi la surface d'attaque des systèmes autonomes. Des travaux antérieurs avaient documenté la vulnérabilité des agents embarqués aux jailbreaks visuels ou textuels, mais sans cadre d'évaluation reproductible. Alors que des fabricants comme Boston Dynamics, Unitree ou, côté européen, Enchanted Tools intègrent des VLMs en production, la robustesse adversariale est appelée à devenir une exigence réglementaire dans les secteurs logistique, manufacturier et médical. RoboJailBench pose une base commune sur laquelle industriels et académiques peuvent s'appuyer pour standardiser ces tests avant mise en service.

UELe benchmark RoboJailBench, ancré dans les normes ISO, fournit aux intégrateurs européens, dont Enchanted Tools (France) qui déploie des VLMs en production, un cadre standardisé pour qualifier la robustesse adversariale avant mise en service sous les exigences de l'AI Act.

Societe/EthiqueOpinion
1 source
Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie
188Interesting Engineering 

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Des chercheurs de Carnegie Mellon University (CMU) et du Bosch Center for AI ont publié un nouveau système d'IA baptisé HTD (Humanoid Transformer with Touch Dreaming), conçu pour améliorer la manipulation d'objets par des robots humanoïdes dans des environnements à contact complexe. Le framework combine l'apprentissage par imitation avec un module de prédiction tactile, permettant au robot d'anticiper l'évolution des forces de contact et du retour haptique avant et pendant la saisie. Testé sur cinq tâches réelles, insertion d'objet en T, rangement de livres, pliage de serviette, ramassage de litière et service du thé, HTD affiche une amélioration relative de 90,9 % du taux de réussite moyen par rapport à la baseline ACT, un modèle d'imitation de référence dans le domaine. Le système repose sur une architecture dissociée : un contrôleur bas-corps entraîné par renforcement en simulation via une méthode teacher-student stabilise l'orientation du torse, la vitesse et l'équilibre, tandis que la cinématique inverse et le retargeting de main gèrent les mouvements du haut du corps et la dextérité digitale. Les représentations tactiles ne sont pas reconstruites brutes mais encodées dans un espace latent compact via un réseau cible mis à jour lentement, ce qui filtre le bruit sensoriel et améliore la stabilité de la manipulation. Ce résultat est notable parce qu'il adresse directement l'un des verrous persistants de la robotique humanoïde : la cohabitation entre locomotion et manipulation fine sans dégradation mutuelle. La séparation architecturale bas/haut corps n'est pas nouvelle en soi, mais son intégration avec un modèle prédictif tactile dans une politique unifiée évite le recours à un pré-entraînement tactile séparé ou à un world model externe, ce qui simplifie le pipeline de déploiement. Les études d'ablation sont particulièrement instructives : incorporer le toucher comme entrée brute supplémentaire ne suffit pas, la prédiction dans l'espace latent apporte 30 % de gain relatif supplémentaire sur le raw tactile. Pour les intégrateurs qui envisagent des humanoïdes dans des cellules de manutention délicate, c'est un signal clair que la qualité de la représentation sensorielle prime sur la quantité de capteurs. HTD s'inscrit dans une vague de travaux cherchant à combler le sim-to-real gap pour la manipulation contact-riche. Le controller bas-corps a été entraîné sur le dataset AMASS, qui fournit des mouvements humains réalistes pour perturber le torse pendant l'apprentissage, une approche de robustification déjà utilisée dans des projets comme Isaac Lab de NVIDIA ou les travaux de Stanford sur whole-body control. Dans le paysage concurrentiel, Figure (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies travaillent tous sur des architectures VLA (Vision-Language-Action) pour la manipulation généraliste, mais peu publient des résultats quantitatifs sur des tâches aussi précises que l'insertion de connecteurs ou la manipulation de textiles. CMU n'a pas encore annoncé de partenariat industriel ni de calendrier de transfert vers un produit commercial, mais le Bosch Center for AI comme co-auteur suggère un intérêt applicatif concret dans l'automatisation industrielle à manipulation variable.

UELe Bosch Center for AI (Allemagne) co-auteur du papier signale un intérêt applicatif concret pour l'automatisation industrielle européenne à manipulation variable, sans calendrier de transfert industriel annoncé.

RechercheOpinion
1 source
Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs
189arXiv cs.RO 

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Des chercheurs ont publié sur arXiv (référence 2602.06339, version 2, février 2026) une analyse théorique des hallucinations d'action dans les modèles VLA (Vision-Language-Action), ces architectures de fondation qui promettent une généralisation large pour le contrôle robotique de bout en bout. L'étude, centrée sur les politiques génératives à variables latentes, identifie trois catégories de barrières structurelles qui provoquent des hallucinations, c'est-à-dire des actions générées violant des contraintes physiques du monde réel : une barrière topologique (liée à la topologie de l'espace d'action), une barrière de précision (résolution insuffisante pour les tâches fines), et une barrière d'horizon (dégradation des performances sur les séquences longues). Ces barrières ne sont pas des artefacts d'implémentation corrigeables à la marge, mais des inadéquations structurelles entre l'espace des comportements robots physiquement réalisables et les architectures de modèles courantes. La portée de ce travail dépasse le cadre académique : il fournit des explications mécanistes aux échecs empiriques régulièrement rapportés lors du déploiement de politiques VLA en conditions réelles, et remet en question une hypothèse dominante du secteur selon laquelle les modèles de fondation généralistes résoudraient intrinsèquement le problème de génération d'action en robotique incarnée. Pour les intégrateurs et les équipes R&D industrielles, cela signifie que des phénomènes observés en déploiement, comme des mouvements incohérents, des échecs sur des tâches longues ou des erreurs de précision fine, ont une origine architecturale identifiable, et non pas seulement un déficit de données d'entraînement. Les auteurs soulignent que ces limitations imposent des compromis inévitables, et non des problèmes résolubles uniquement par le scaling ou l'augmentation des datasets. Le champ des VLAs s'est considérablement densifié depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA (open-source) ou encore RT-2 de Google DeepMind, qui font tous le pari d'une politique robotique unifiée entraînée sur des données massives. Cette étude apporte une perspective critique et formalisée dans un domaine encore largement dominé par des démonstrations en environnements contrôlés, souvent sans publication des métriques d'échec. Les auteurs ne proposent pas d'abandonner l'approche générative, mais tracent des directions pour améliorer fiabilité et robustesse sans sacrifier la puissance expressive de ces architectures, un prérequis non négociable pour franchir le seuil du déploiement industriel réel.

UELes équipes R&D françaises et européennes travaillant sur des politiques robotiques VLA (INRIA, CEA-List, startups robotiques) peuvent réévaluer leurs choix architecturaux et ne plus imputer uniquement à un déficit de données les échecs de déploiement observés en conditions réelles.

💬 On sait depuis un moment que les VLAs galèrent en conditions réelles, mais tout le monde imputait ça à des données insuffisantes. Ces chercheurs identifient trois barrières structurelles (topologie, précision, horizon) que le scaling seul ne résoudra pas. Pour les équipes qui pariaient sur "encore plus de données pour y arriver", c'est un mur.

IA physiqueOpinion
1 source
Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA
190arXiv cs.RO 

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Des chercheurs ont publié mi-mai 2026 sur arXiv (référence 2605.11459) une méthode baptisée "Pace-and-Path Correction" pour corriger un angle mort structurel des modèles VLA (Vision-Language-Action). Ces modèles, socle technique des bras manipulateurs de nouvelle génération, sont entraînés sur des observations à image unique (single-frame), ce qui les rend incapables de percevoir les dynamiques temporelles lors de l'exécution d'une séquence planifiée. En pratique, dès qu'un objet bouge pendant que le robot exécute un "action chunk", les performances chutent sévèrement, même après fine-tuning sur des datasets dynamiques. L'opérateur proposé s'applique à l'inférence sans ré-entraînement, comme une couche wrapper autour de tout VLA à action chunking, et se décompose en deux canaux orthogonaux issus d'une minimisation de coût quadratique unique : un canal "pace" compressant l'exécution le long de la trajectoire prévue, et un canal "path" appliquant un décalage spatial orthogonal pour absorber les perturbations dynamiques dans la fenêtre temporelle du chunk. Évalué sur MoveBench, un benchmark conçu pour isoler le mouvement comme seule variable contrôlée, la méthode améliore le taux de succès de 28,8 points de pourcentage en environnement purement dynamique et de 25,9 points en contexte mixte statique-dynamique, surpassant les VLAs de base ainsi que les approches dynamiques-adaptatives existantes. L'enjeu est directement opérationnel : les VLAs actuels comme pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de Nvidia peinent dès qu'un convoyeur avance ou qu'un opérateur interfère avec la scène, soit le cas standard en environnement industriel réel. Corriger ce "dynamics gap" exigeait jusqu'ici un ré-entraînement coûteux, souvent rédhibitoire pour un intégrateur sans infrastructure ML dédiée. Le caractère training-free de Pace-and-Path Correction signifie qu'elle peut s'intégrer sur un modèle déjà déployé sans modifier les poids ni la pipeline d'apprentissage, abaissant drastiquement la barrière d'adoption pour des déploiements en conditions réelles. La "dynamics-blindness" des VLAs est une critique récurrente depuis l'émergence de pi-0 et OpenVLA en 2024-2025, la majorité des démonstrations publiques ayant lieu sur scènes statiques et laissant ouvert le demo-to-reality gap dès que les conditions industrielles se compliquent. Ce travail s'inscrit dans la course à la manipulation robuste que se livrent Nvidia, Figure (Figure 03), Boston Dynamics et 1X Technologies. Aucun acteur français n'est directement cité, mais les conclusions intéressent des intégrateurs comme Exotec et des équipes de recherche comme le LAAS-CNRS travaillant sur la manipulation en environnement non-structuré. La prochaine étape logique est une validation sur hardware réel - le papier reste à ce stade un benchmark simulé - et une intégration dans des stacks open-source comme LeRobot de Hugging Face.

UELes équipes LAAS-CNRS travaillant sur la manipulation non-structurée et des intégrateurs comme Exotec pourraient adopter cette correction sans ré-entraînement pour améliorer la robustesse de déploiements VLA en environnement industriel dynamique, sans infrastructure ML dédiée.

💬 Le dynamics gap des VLAs, on le connaissait depuis l'émergence de pi-0 : dès qu'un objet bouge pendant l'exécution d'un chunk, c'est la déroute. Ce qui change ici, c'est que la correction s'applique à l'inférence sans toucher aux poids, comme une couche qu'on pose par-dessus n'importe quel modèle déjà déployé. +28 points sur MoveBench, training-free : si ça tient sur hardware réel, les intégrateurs n'ont plus d'excuse pour rester sur des scènes statiques.

IA physiqueOpinion
1 source
ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA
191arXiv cs.RO 

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Des chercheurs ont déposé sur arXiv (référence 2605.08612) un cadre d'attaque par porte dérobée ciblant les modèles Vision-Language-Action (VLA), architectures qui connectent perception visuelle, compréhension du langage naturel et génération de commandes motrices pour robots. Le framework proposé, baptisé ATAAT (Adaptive Threat-Aware Adversarial Tuning), exploite la voie visuelle des VLA pour y injecter des déclencheurs adversariaux, et atteint un taux de succès d'attaque ciblée (TASR) supérieur à 80% avec un taux d'empoisonnement de seulement 5% des données d'entraînement. L'étude identifie un phénomène clé baptisé "interférence de gradient" : un échec d'optimisation qui survient lorsque les stratégies de rétropropagation entrent en conflit durant l'entraînement bout-en-bout, ce qui explique l'échec des attaques traditionnelles sur les VLA. ATAAT contourne cet obstacle via un mécanisme de "cartographie adaptative menace-méthode" qui sélectionne dynamiquement la stratégie de découplage de gradient selon les capacités supposées de l'attaquant. Ce travail soulève des questions de sécurité concrètes pour les équipes intégrant des VLA en contexte industriel. Un taux d'empoisonnement de 5% signifie qu'une contamination limitée de la pipeline de données d'entraînement suffit à implanter un comportement malveillant quasi indétectable lors des audits standards. Dans un bras robotique ou un système d'assistance physique, une porte dérobée activée par un déclencheur visuel discret, un objet dans le champ caméra ou une variation de couleur subtile, pourrait provoquer une action non désirée aux conséquences physiques réelles. Les auteurs revendiquent, pour la première fois dans ce contexte, des "attaques découplées implicites" en scénario d'empoisonnement de données, sans modification directe des poids du modèle, ce qui complique toute détection post-entraînement. Les VLA ont connu une montée en puissance rapide depuis 2023, portés par Pi-0 (Physical Intelligence), OpenVLA (Stanford), GR00T N2 (NVIDIA) et Helix (Figure AI), tous basés sur un encodeur visuel couplé à un grand modèle de langage et une tête de prédiction d'actions. Les recherches sur les portes dérobées dans les réseaux de neurones remontent aux travaux fondateurs BadNets et TrojanNN (2017-2018), mais leur adaptation aux VLA restait peu explorée, précisément en raison de la complexité de l'entraînement conjoint. Ce papier de recherche fournit une base théorique pour de futurs mécanismes défensifs sans proposer de contre-mesure opérationnelle immédiate. Pour les intégrateurs planifiant des déploiements VLA en production, il rappelle que la sécurité de la chaîne de données d'entraînement est aussi critique que celle de l'inférence elle-même.

UELes équipes R&D et intégrateurs européens déployant des VLA en contexte industriel doivent renforcer la sécurité de leur pipeline de données d'entraînement, ce vecteur d'attaque étant désormais formalisé avec des métriques concrètes.

RechercheActu
1 source
Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)
192arXiv cs.RO 

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv le 12 mai 2026 (référence 2605.09005) GuardVLA, premier cadre de vérification de propriété intellectuelle basé sur les backdoors pour les modèles Vision-Language-Action (VLA). Ces modèles permettent un contrôle robotique généraliste en convertissant des entrées multimodales (vision, langage, données proprioceptives) directement en séquences d'actions motrices. GuardVLA intègre un filigrane cryptographique lors de l'entraînement : un message secret est injecté dans les données visuelles du modèle sans altérer ses performances nominales sur les tâches cibles. La vérification post-déploiement s'effectue via un mécanisme baptisé "swap-and-detect" : un projecteur de déclenchement combiné à une tête de classification externe active et détecte le backdoor intégré à partir des probabilités de prédiction du modèle. Les expériences valident l'approche sur plusieurs architectures, jeux de données et scénarios d'adaptation. L'enjeu est direct pour les intégrateurs et éditeurs de modèles robotiques. Des VLA open-source comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) font déjà l'objet de fine-tuning intensif par des tiers. GuardVLA démontre que le filigrane résiste à ces adaptations post-release, ce qui contredit l'hypothèse courante selon laquelle le fine-tuning suffit à effacer toute traçabilité. Pour un éditeur cherchant à protéger un modèle robotique commercial ou à prouver sa propriété en cas de litige, c'est une voie technique crédible sans recours à des mécanismes de DRM contraignants. La capacité à certifier l'origine d'un modèle devient stratégique à l'heure où les VLA s'imposent comme actifs industriels à part entière. Le watermarking de modèles IA existe déjà pour les LLM et les modèles de diffusion d'images, mais les VLA posent une contrainte supplémentaire : leur sortie est une séquence d'actions motrices et non un texte ou une image, ce qui rend la détection de backdoor structurellement différente. Ce travail reste un preprint non évalué par les pairs, sans déploiement industriel annoncé à ce stade. Les approches concurrentes, hachage de poids ou licensing cryptographique, ne ciblent pas spécifiquement la modalité action des VLA. La soumission en conférence, probablement CoRL 2026 ou ICRA 2027, constituera la prochaine validation formelle. L'adoption à grande échelle dépendra aussi de l'intégration aux outils de distribution existants, notamment Hugging Face, où la majorité des VLA généralisés sont aujourd'hui hébergés et redistribués.

UELes éditeurs et chercheurs européens distribuant des modèles VLA via Hugging Face (entreprise française, principal hub de redistribution cité) pourraient adopter GuardVLA pour défendre leur propriété intellectuelle face aux fine-tunings non autorisés.

RechercheOpinion
1 source
AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action
193arXiv cs.RO 

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Des chercheurs de l'INSAIT (Institute for Computer Science, Artificial Intelligence and Technology, Sofia, Bulgarie) ont publié début 2026 AR-VLA, une architecture de politique robotique qui remplace les têtes d'action à base de blocs (chunk-based) par un expert d'action autorégressif autonome. Contrairement aux modèles VLA existants, qu'ils soient réactifs ou basés sur la diffusion, qui réinitialisent leur contexte temporel à chaque nouvelle observation, AR-VLA maintient une mémoire longue durée et génère les actions comme une séquence causale continue. Le système intègre un mécanisme de re-ancrage (re-anchoring) pour synchroniser les modalités asynchrones vision-langage-action, compensant mathématiquement le délai entre une perception lente (quelques Hz) et un contrôle moteur rapide (centaines de Hz). Les expériences couvrent des tâches de manipulation en simulation et sur robots réels, où AR-VLA atteint ou dépasse les taux de succès des VLA réactifs de l'état de l'art tout en produisant des trajectoires sensiblement plus lisses. L'enjeu central est le découplage entre raisonnement perceptif lent et contrôle moteur rapide, un problème structurel des architectures VLA actuelles. En traitant les actions comme une séquence autorégressive avec historique persistant plutôt que comme un bloc prédit à chaque nouvelle trame, AR-VLA rend la politique intrinsèquement consciente du contexte : elle sait ce qu'elle vient d'exécuter, pas seulement ce qu'elle observe à l'instant T. Pour les équipes robotiques et les intégrateurs, cette architecture autorise un préentraînement modulaire de la syntaxe cinématique indépendamment du backbone de perception, réduisant potentiellement les coûts de développement de politiques spécialistes ou généralistes. La cohérence spatio-temporelle accrue réduit également les oscillations et les reprises de mouvement, deux facteurs critiques en déploiement industriel. L'INSAIT, fondé en 2022 à Sofia avec le soutien de Google, Microsoft et de l'EPFL, s'est imposé rapidement comme un pôle de recherche en IA en Europe centrale. AR-VLA s'inscrit dans une compétition ouverte sur l'architecture des politiques robot-généralistes, où Physical Intelligence (pi-0, pi-0.5), NVIDIA (GR00T N2), Google DeepMind et des startups comme Figure (Helix) ou 1X défendent des approches concurrentes. L'approche par diffusion, popularisée notamment par pi-0 et Diffusion Policy, constitue l'alternative dominante aux VLA réactifs ; AR-VLA la défie directement en montrant qu'un modèle autorégressif pur peut produire des trajectoires plus cohérentes sans recourir à des processus de débruitage itératifs. AR-VLA demeure pour l'instant un preprint arXiv (2603.10126v2), sans annonce de déploiement industriel ni de commercialisation. Le code et les vidéos de démonstration sont disponibles sur arvla.insait.ai.

UEL'INSAIT (Sofia, Bulgarie), soutenu par Google, Microsoft et l'EPFL, positionne l'UE comme acteur de recherche crédible dans la course aux architectures VLA généralistes ; le code est disponible et testable par les équipes robotiques européennes.

FR/EU ecosystemeOpinion
1 source
AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée
194arXiv cs.RO 

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

Une équipe de recherche a publié en mars 2025 sur arXiv les spécifications complètes d'AhaRobot, un manipulateur mobile bimanuel open-source dont le coût matériel total s'élève à 1 000 dollars. Le système repose sur une architecture à deux bras de type SCARA, conçue pour réduire les couples moteurs nécessaires tout en maintenant un large espace de travail vertical. La précision annoncée est de 0,7 mm en répétabilité, obtenue grâce à une compensation de jeu mécanique par double moteur et à une technique de dithering pour neutraliser le frottement statique. L'interface de téléopération associée, RoboPilot, intègre une poignée marqueur à 26 faces qui réduit l'erreur de suivi de 80 % par rapport à une poignée à 6 faces et améliore l'efficacité de collecte de données de 30 %. L'ensemble du code, des fichiers CAO et de la documentation est mis à disposition en accès libre sur aha-robot.github.io. L'enjeu central est l'entraînement des modèles VLA (Vision-Language-Action), tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui exigent des volumes massifs de données de manipulation réelles et diversifiées. Les plates-formes commerciales équivalentes coûtent généralement entre 20 000 et 100 000 dollars, ce qui limite mécaniquement l'échelle de collecte. À 1 000 dollars par unité, AhaRobot rend théoriquement possible le déploiement de flottes de collecte à faible coût. Les auteurs affirment que la qualité des données est comparable à celle produite par des systèmes de téléopération VR haute gamme, une assertion non encore validée sur des benchmarks standardisés indépendants. La précision de 0,7 mm reste cependant un chiffre solide pour ce niveau de coût. Le projet s'inscrit dans un mouvement plus large de démocratisation du hardware robotique open-source, aux côtés de LeRobot, l'initiative de la société française HuggingFace, et du Low Cost Robot d'Alexander Koch. La conception SCARA bimanuelle fait un compromis délibéré entre dextérité et coût, en abaissant les exigences en couple pour utiliser des actionneurs moins chers. À ce stade, il s'agit d'un preprint de recherche sans déploiement industriel ni pilote commercial annoncé : la prochaine étape naturelle serait une reprise par des laboratoires académiques pour valider l'imitation learning sur des tâches bimanuelles complexes en conditions réelles, et mesurer si l'avantage coût se maintient à l'échelle.

UELa démocratisation du hardware robotique open-source profite aux laboratoires académiques européens aux budgets contraints, dans la continuité de l'initiative LeRobot portée par HuggingFace, entreprise française, qui milite pour les mêmes standards ouverts de collecte de données pour les modèles VLA.

RecherchePaper
1 source
OGPO : un affinage complet et efficace des politiques de contrôle génératives
195arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

IA physiqueOpinion
1 source
TAIL-Safe : surveillance de sécurité agnostique aux tâches pour les politiques d'apprentissage par imitation
196arXiv cs.RO 

TAIL-Safe : surveillance de sécurité agnostique aux tâches pour les politiques d'apprentissage par imitation

Des chercheurs ont publié le 5 mai 2026 TAIL-Safe (Task-Agnostic Imitation Learning Safety), une méthode de supervision de sécurité conçue pour les politiques d'apprentissage par imitation (IL) déployées sur robots manipulateurs. Le cœur du système repose sur une fonction Q à continuité Lipschitz qui évalue chaque paire état-action selon trois critères indépendants de la tâche : la visibilité de l'objet cible, sa reconnaissabilité par le système de perception, et sa saisissabilité géométrique. L'ensemble zéro-superniveau de cette fonction définit un ensemble invariant de contrôle empirique, c'est-à-dire une région de l'espace état-action depuis laquelle la politique aboutit systématiquement à succès. Lorsque la politique nominale propose une action hors de cet ensemble, un mécanisme de récupération inspiré du théorème de Nagumo applique un gradient ascendant sur la fonction Q pour ramener la trajectoire vers la zone sûre. Les expériences ont été conduites sur un robot Franka Emika avec des politiques de type flow-matching, une architecture IL récente aux résultats compétitifs sur des tâches de manipulation complexes, soumises à des perturbations appliquées en cours d'exécution. L'enjeu est direct pour les intégrateurs robotiques et les responsables de mise en production : les politiques IL modernes, y compris les diffusion policies et les flow-matching policies, échouent de façon imprévisible même dans des conditions proches de leur distribution d'entraînement. Ce phénomène, combinaison d'une sensibilité extrême aux conditions initiales et d'une dérive cumulée des erreurs d'approximation, rend leur déploiement industriel risqué sans couche de supervision formelle. TAIL-Safe répond précisément à ce besoin en délimitant une frontière opérationnelle sûre, sans hypothèse sur la nature de la tâche. Les résultats expérimentaux montrent des taux de succès nettement supérieurs à ceux de la politique non supervisée face aux perturbations, ce qui valide l'approche sur un cas concret de manipulation, et non sur de simples données simulées. Les politiques d'apprentissage par imitation ont gagné en maturité avec l'essor des architectures VLA (Vision-Language-Action) comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, mais leur fragilité au déploiement réel reste un frein structurel à l'industrialisation. Pour contourner la collecte de données d'échec sur matériel physique, coûteuse et risquée, l'équipe construit un jumeau numérique haute-fidélité basé sur le rendu Gaussian Splatting, permettant de générer systématiquement des cas limites sans exposer le robot. Cette stratégie ciblée sur les frontières de l'ensemble sûr s'inscrit dans une tendance plus large visant à combler le sim-to-real gap de façon chirurgicale plutôt que par simulation généraliste. La méthode étant agnostique à l'architecture de politique sous-jacente, elle pourrait s'appliquer à l'ensemble de l'écosystème IL, des manipulateurs industriels aux humanoïdes, et intéresse potentiellement des acteurs académiques européens actifs sur la manipulation sûre comme l'INRIA ou le LAAS-CNRS.

UELa méthode TAIL-Safe, agnostique à l'architecture de politique, pourrait intéresser directement des équipes françaises comme l'INRIA ou le LAAS-CNRS actives sur la manipulation sûre et le déploiement industriel de robots manipulateurs.

RecherchePaper
1 source
Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs
197arXiv cs.RO 

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

Une équipe de recherche publie sur arXiv (arXiv:2605.01191, mai 2026) Sentinel-VLA, un modèle de type vision-language-action (VLA) doté d'un module de surveillance active baptisé "sentinel". Contrairement aux VLA classiques qui exécutent des plans fixes, Sentinel-VLA déclenche un raisonnement approfondi uniquement lorsque c'est nécessaire : lors de la planification initiale d'une tâche, ou lorsque le module sentinel détecte une erreur d'exécution en temps réel. L'ensemble des données d'entraînement, couvrant 44 tâches et plus de 2,6 millions de transitions, a été généré et annoté automatiquement via un pipeline dédié. Le modèle intègre également l'algorithme SECL (Self-Evolving Continual Learning), qui lui permet d'identifier ses propres limites de compétence et de collecter automatiquement de nouvelles données pour les repousser, combiné à un adaptateur OC-Adapter (Orthogonal Continual Adapter) qui contraint les mises à jour de paramètres dans un espace orthogonal pour éviter l'oubli catastrophique. En conditions réelles (les détails des configurations expérimentales ne sont pas encore disponibles dans cette prépublication), les auteurs rapportent un gain de plus de 30 % de taux de succès par rapport à PI0, le modèle de Physical Intelligence actuellement considéré comme état de l'art. Le code, les poids et le pipeline de génération de données seront publiés en open source. Ces résultats, si confirmés par la communauté, adressent un blocage majeur dans le déploiement industriel des robots manipulateurs : l'incapacité à se corriger face à une perturbation imprévue. Les VLA existants, qu'il s'agisse de PI0, d'OpenVLA ou des dérivés de RT-2, produisent des plans d'action relativement rigides et échouent dès lors qu'une pièce est mal positionnée ou qu'un objet glisse. Le mécanisme "sentinel" propose une réponse architecturale à ce problème en dissociant l'exécution routinière (peu coûteuse en calcul) du raisonnement correctif (déclenché à la demande), ce qui est pertinent pour un déploiement sur du matériel embarqué à puissance de calcul limitée. L'approche SECL, qui combine auto-évaluation des capacités et apprentissage continu sans oubli, représente également une piste sérieuse pour les intégrateurs qui cherchent à étendre progressivement le répertoire de tâches d'un robot sans retraining complet. Il convient néanmoins de noter que le +30 % annoncé est issu d'expériences en laboratoire dont le protocole exact reste à préciser, et que les vidéos de démonstration n'ont pas encore été rendues publiques au moment de cette prépublication. Sentinel-VLA s'inscrit dans une vague de travaux cherchant à rendre les VLA robustes hors environnement contrôlé, une problématique que Physical Intelligence avait mise en lumière avec PI0 (lancé fin 2024) et que des acteurs comme Figure AI (Figure 03), Boston Dynamics ou 1X Technologies tentent également d'adresser côté hardware. Du côté recherche, les laboratoires de Carnegie Mellon, Stanford et Berkeley publient régulièrement des variantes de VLA avec des stratégies de correction différentes (chain-of-thought embarqué, boucles de feedback visuelles). La particularité de Sentinel-VLA est de traiter la correction non comme un post-processing, mais comme une composante native de l'architecture. L'open-source annoncé, code, poids et pipeline de données, pourrait accélérer l'adoption de cette approche dans la communauté académique et chez les constructeurs de robots à budget R&D contraint. Aucune date de release ni partenariat industriel n'est mentionné dans cette version préliminaire.

UELa publication open-source prévue (code, poids, pipeline de données) pourrait bénéficier aux laboratoires de robotique européens travaillant sur les VLA manipulateurs, mais aucun acteur français ou européen n'est directement impliqué dans cette prépublication.

💬 Ce qui m'intéresse ici, c'est pas le +30% (les configs restent floues, faut attendre les vidéos), c'est que la correction d'erreur est dans l'archi, pas greffée dessus après coup. Sur du matériel embarqué avec peu de calcul disponible, c'est le genre de truc qu'on attendait depuis un moment. Reste à voir si ça tient hors labo, mais l'open source annoncé va vite mettre ça à l'épreuve.

IA physiqueOpinion
1 source
Revue complète des modèles du monde pour l'apprentissage robotique
198arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois
199Interesting Engineering 

Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois

Figure, la startup californienne spécialisée en robotique humanoïde, a annoncé avoir atteint un rythme de production d'un robot Figure 03 par heure dans son usine BotQ, située en Californie. Ce chiffre représente une multiplication par 24 du cadence de fabrication en moins de quatre mois, partant d'un robot par jour début 2026. Plus de 350 unités ont été livrées à ce jour, plus de 500 batteries expédiées, et plus de 9 000 actionneurs produits. La ligne de fabrication s'appuie sur un logiciel propriétaire déployé sur plus de 150 postes de travail en réseau, avec plus de 50 points d'inspection intermédiaires. Le taux de réussite en fin de ligne (first-pass yield) dépasse 80 %, et le rendement de production des batteries atteint 99,3 %. Chaque unité subit plus de 80 tests fonctionnels incluant des exercices de stress mécanique (squats, jogging) avant expédition. L'objectif affiché reste de 12 000 robots par an à pleine capacité. Ce passage du stade prototype à la production industrielle est significatif dans la course aux humanoïdes, où la majorité des acteurs restent encore dans des phases de démonstrateur ou de déploiement pilote très limité. Un taux de rendement end-of-line supérieur à 80 % sur un produit mécatronique aussi complexe est un indicateur industriel crédible, bien que Figure ne précise pas la définition exacte de ce seuil ni les conditions de test. En parallèle, Figure a publié une mise à jour majeure de son modèle d'IA Helix, baptisée System 0 (S0). L'ancienne version reposait uniquement sur la proprioception (états articulaires, posture). S0 intègre désormais des caméras stéréo embarquées qui génèrent une représentation 3D de l'environnement, permettant au robot de naviguer des escaliers et des terrains variés avec une stabilité décrite comme comparable à celle d'un humain. Le système est entraîné par renforcement en simulation sur des terrains aléatoires, et les comportements appris se transfèrent directement au monde réel sans recalibration, ce qui constitue une avancée notable sur le classique problème du sim-to-real gap. Figure a été fondée en 2022 par Brett Adcock et a levé plus de 675 millions de dollars, dont une ronde notable en 2024 avec des participations de Microsoft, Nvidia, OpenAI et Samsung. Le Figure 03 est la troisième génération de son robot humanoïde, succédant au Figure 01 et 02. Dans un secteur extrêmement concurrentiel, Figure se positionne face à Tesla (Optimus Gen 2), Boston Dynamics (Atlas électrique), Agility Robotics (Digit, déployé chez Amazon), Physical Intelligence (Pi-0) et Unitree. La montée en volume de BotQ est aussi une course aux données : plus de robots déployés signifie davantage de données réelles pour entraîner Helix. Figure indique viser des déploiements dans les secteurs de la recherche, du commercial et de l'usage domestique, sans préciser de calendrier client ni de prix public pour le Figure 03.

HumanoïdesActu
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
200arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source