Aller au contenu principal

Dossier IA physique & VLA

80 articles

L'IA physique : modèles vision-langage-action qui contrôlent des corps robotisés. État de l'art académique (CoRL, RSS) et premières productions industrielles.

Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine
1SCMP Tech Chine/AsieOpinion

Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine

L'IA physique - la combinaison de machines avancées dotées de "cerveaux" capables d'interagir avec leur environnement - connaît une expansion accélérée en Chine. Des drones de livraison sillonnent désormais les airs au-dessus de Shenzhen, dans le sud du pays, tandis que des robots de livraison empruntent les réseaux de métro urbains. Les premiers véhicules autonomes circulent sur des axes publics, et des robots humanoïdes font leur apparition aussi bien sur les lignes de production industrielles que sur des scènes de spectacle. Cette convergence entre robotique, véhicules autonomes et drones représente un changement structurel dans la façon dont la Chine déploie l'IA au-delà des serveurs : il ne s'agit plus de démos en laboratoire, mais de systèmes en opération réelle dans des environnements non contrôlés. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le fossé entre prototype et déploiement se réduit concrètement sur plusieurs verticales simultanément, ce qui accroît la pression concurrentielle sur les acteurs occidentaux et japonais du secteur. Ce déploiement s'inscrit dans une stratégie industrielle nationale de long terme, soutenue par des financements publics et une chaîne d'approvisionnement en composants (actionneurs, capteurs, puces) largement localisée. Face à la Chine, les États-Unis misent sur des acteurs comme Figure AI, Agility Robotics ou Boston Dynamics, tandis qu'en Europe, des sociétés comme Enchanted Tools (France) ou Wandercraft restent à des stades de commercialisation plus précoces. Les prochaines étapes chinoises devraient inclure une densification des flottes de drones en zone urbaine et l'extension des corridors de test pour véhicules autonomes.

UELes entreprises françaises comme Enchanted Tools et Wandercraft, encore en phase de commercialisation précoce, subissent une pression concurrentielle croissante face aux déploiements à grande échelle opérés en Chine sur plusieurs verticales simultanément.

1 source
RedVLA : l'attaque physique des modèles vision-langage-action (VLA)
2arXiv cs.RO 

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion
1 source
Robotera lève près de 350 M$ en deux mois et revendique le premier PMF en IA incarnée
3Pandaily 

Robotera lève près de 350 M$ en deux mois et revendique le premier PMF en IA incarnée

Robotera, startup chinoise de robotique humanoïde, a finalisé un tour de financement supérieur à 2 milliards de RMB (environ 280 millions de dollars), mené par SF Group avec la participation de Sequoia China, IDG Capital, CICC Capital, Dongfeng Investment, ICBC Capital et des fonds affiliés à China Unicom. Ce nouveau round porte le total levé à près de 2,5 milliards de RMB (environ 350 millions de dollars) en deux mois, la demande ayant selon la société largement dépassé sa cible initiale. Le portefeuille d'investisseurs comprend désormais Alibaba, Geely, BAIC, Dongfeng, Samsung, Lenovo, Haier, Singtel et Woori Financial Group. Sur le plan opérationnel, Robotera annonce avoir commencé au deuxième trimestre 2026 des livraisons à l'échelle de plusieurs milliers d'unités, avec un taux de croissance revendiqué de 300% (sans base de comparaison publiée). La société déploie ses robots dans plus de dix centres logistiques en Chine du Nord, de l'Est et du Sud, en partenariat avec China Post et SF Group, atteignant dans certains contextes jusqu'à 85% de l'efficacité humaine, en cycle continu 24h/24. Ce financement, bouclé en deux mois, traduit un basculement dans la robotique industrielle chinoise : les grands opérateurs ne regardent plus, ils déploient. Pour les intégrateurs et décideurs B2B, le signal fort vient de la logistique, secteur à pénurie de main-d'oeuvre documentée et cycles de rentabilisation courts. Si les métriques annoncées restent difficiles à vérifier hors conditions contrôlées, la présence de SF Group simultanément comme investisseur et client opérationnel suggère un ancrage plus substantiel qu'une démonstration. L'affirmation d'un PMF ("product-market fit") qualifié de "premier de l'industrie" dans l'IA incarnée mérite d'être lue prudemment, mais la combinaison livraisons effectives et partenariats industriels diversifiés, couvrant la logistique, l'automobile avec Geely et Renault, et l'électronique grand public avec Haier, Lenovo et Samsung, distingue ce dossier des annonces purement technologiques. Positionnée sur une architecture full-stack intégrant cerveau IA, contrôle de mouvement, systèmes de données, mains dextres et hardware humanoïde, Robotera entre en compétition directe avec Figure AI (déployé chez BMW), Agility Robotics (Digit chez Amazon) et 1X Technologies côté occidental, ainsi qu'avec Unitree et Fourier Intelligence sur le marché chinois. Sa distinction principale réside dans un ancrage logistique plutôt qu'un focus sur l'assemblage de précision, marché structurellement plus vaste en volume d'unités. La présence de Samsung et Singtel au capital ouvre des scénarios de déploiement au-delà de la Chine, encore non confirmés calendairement. Les indicateurs à surveiller dans les prochains trimestres seront la réduction du coût unitaire à mesure que les volumes augmentent, et la capacité de la société à répliquer ses performances logistiques dans les secteurs automobile et électronique, où les exigences de précision sont sensiblement plus élevées.

UERenault est cité parmi les partenaires automobiles de Robotera, signal indirect pour l'industrie automobile française si ces déploiements s'étendent hors de Chine.

💬 350 millions en deux mois, c'est le chiffre qui accroche. Ce qui compte vraiment, c'est que SF Group est à la fois au capital et client opérationnel : ils déploient ces robots dans leurs propres entrepôts. Difficile d'appeler ça une démo quand c'est le même groupe qui signe le chèque et réceptionne les livraisons.

Chine/AsieOpinion
1 source
Xu Huazhe (破壳机器人) : des robots domestiques opérationnels attendus en Chine d'ici deux ans
436Kr 

Xu Huazhe (破壳机器人) : des robots domestiques opérationnels attendus en Chine d'ici deux ans

Xu Huazhe, ancien Chief Scientist et cofondateur de Xinghaitu (星海图) - startup d'IA incarnée valorisée à 20 milliards de yuans (environ 2,5 milliards d'euros) avec près de 3 milliards de yuans levés - a quitté l'entreprise fin 2025 pour fonder "破壳机器人" (Hatching Robot), une startup dédiée aux robots humanoïdes domestiques. En moins d'un mois d'existence, la société a bouclé un tour d'amorçage de plusieurs dizaines de millions de dollars mené par Yunqi Capital, avec Shunwei Capital, Xiaomi Strategic Investment, BV Baidu Ventures et Honghui Fund à bord. L'équipe compte vingt personnes, le premier modèle d'IA incarnée de 32 milliards de paramètres a complété son premier cycle d'entraînement, et le gant de collecte de données maison en est à sa cinquième ou sixième itération. Xu Huazhe, professeur assistant à l'Institute for Interdisciplinary Information Sciences de Tsinghua et figure connue des "Berkeley returnees", prédit l'arrivée de robots domestiques opérationnels sur le marché chinois d'ici deux ans. La thèse technique de Hatching Robot rompt avec le consensus sectoriel : l'équipe rejette les architectures VLA (Vision-Language-Action) dominantes au profit d'un modèle du monde traitant directement des paires vidéo-action. L'architecture propriétaire baptisée "UAG" remplace le schéma cascade waterfall par un pré-entraînement parallèle avec apprentissage par renforcement intégré de bout en bout - un gain d'efficacité d'entraînement de cinq fois est revendiqué, sans benchmark tiers disponible à ce stade. La collecte de données s'appuie sur trois couches complémentaires : gants UMI, exosquelette et caméra première personne. Xu Huazhe soutient que les environnements domestiques - vêtements enchevêtrés, vaisselle dispersée, enchaînements de tâches multi-étapes - constituent un terrain d'entraînement pour modèles généraux intrinsèquement supérieur aux ateliers industriels. Une position qui conteste directement le mouvement dominant consistant à déployer des humanoïdes en usine pour des opérations de manutention ou d'assemblage accessibles à des bras conventionnels. Ce virage domestique s'inscrit dans un contexte sectoriel qui commence à afficher des signaux de scaling concrets. Generalist AI, startup californienne, affirme avoir porté le taux de réussite de tâches de manipulation fine de 64 % à 99 % sur son modèle GEN-1 via apport massif de données - des résultats annoncés sans publication technique indépendante pour l'instant. Sunday Robotics, licorne américaine, a de son côté envoyé son robot Memo dans des foyers réels (cuisine, café, linge) pour constituer un corpus de démonstrations via gants UMI. Xu Huazhe a cofondé Xinghaitu en 2023 à son retour de Berkeley et Stanford, avant de juger la trajectoire industrielle insuffisamment alignée avec sa vision d'un robot grand public généralisé. Pour Hatching Robot, le positionnement visé n'est pas le calcul coût-heure d'un opérateur en usine, mais un produit hybride - assistant domestique, objet tech lifestyle - comparable selon le fondateur à l'achat d'un véhicule. La définition produit et la fourchette de prix restent en cours de finalisation, et aucun calendrier de disponibilité commerciale n'a été communiqué.

Chine/AsieActu
1 source
Hikrobot : chiffre d'affaires 2025 supérieur à 6,4 milliards de yuans, déploiement accéléré en IA incarnée
536Kr 

Hikrobot : chiffre d'affaires 2025 supérieur à 6,4 milliards de yuans, déploiement accéléré en IA incarnée

Hikvision Robotics, filiale robotique du géant chinois de la vidéosurveillance Hikvision, a annoncé un chiffre d'affaires 2025 de 6,452 milliards de yuans (environ 880 millions d'euros), avec des livraisons cumulées dépassant 10 millions d'unités en vision industrielle et 180 000 robots mobiles produits depuis sa fondation. La société, qui célèbre en 2026 son dixième anniversaire, a tenu sa conférence annuelle du 22 au 24 avril à Tonglu (Hangzhou), où plus de 35 nouveaux produits ont été présentés, couvrant la vision 2D, 2,5D et 3D haute précision ainsi que des modules de vision IA. Le PDG Jia Yonghua y a introduit le concept d'« embodied manufacturing » (具身智造), posant que l'automatisation traditionnelle, trop rigide, doit évoluer vers des systèmes capables de s'adapter à l'environnement plutôt que de contraindre l'opérateur à s'adapter à la machine. Les logiciels industriels propriétaires de l'entreprise comptent plus de 600 000 utilisateurs sous licence, pour plus de 20 000 clients mondiaux. Dans un entretien accordé à 36Kr, le vice-président Zhang Wencong détaille comment l'IA transforme concrètement la ligne de produits. En vision industrielle, les algorithmes de lecture de codes-barres et d'OCR fonctionnent désormais en mode plug-and-play sans entraînement sur site. Le cas le plus documenté concerne un fabricant chinois de gants médicaux jetables : en 2021, chaque nouvelle ligne nécessitait plusieurs dizaines de milliers d'images et une reconfiguration complète du modèle CNN. Après migration vers des grands modèles en 2023-2024, 100 à 200 images suffisent pour déployer une ligne supplémentaire. Le système détecte des défauts à partir de 0,8 mm avec un taux de détection supérieur à 99,995 % pour les défauts critiques (salissures, déchirures), à raison de 300 000 paires par jour et par ligne. Sur les robots mobiles, le système RCS intègre du reinforcement learning depuis 2019, permettant dès début 2021 la coordination de plus de 1 000 robots sur des cartes multi-zones dans une seule usine FAW-Toyota. Ces chiffres signalent une IA industrielle en déploiement réel, non en phase pilote, même si Zhang Wencong reconnaît que l'adoption globale reste freinée par des cycles de retour sur investissement jugés trop longs par les clients industriels. Fondée en 2016 sur la base technologique vision de sa maison mère, Hikvision Robotics structure son offre autour de trois pôles : vision machine, robots mobiles AMR/AGV et bras articulés, ce dernier segment étant encore en montée en charge après cinq ans d'existence. Sur les modèles VLA (Vision-Language-Action) et les robots humanoïdes, Zhang Wencong adopte une posture prudente : à court terme, la priorité est donnée à des combinaisons de petits modèles spécialisés pour garantir la fiabilité industrielle, tandis que des équipes dédiées travaillent en parallèle sur les architectures end-to-end. Face à des acteurs AMR comme Geek+ et Hai Robotics en Chine, ou KION Group et Omron à l'international, Hikvision Robotics mise sur l'intégration verticale logiciel-matériel comme principal levier de différenciation, avec comme prochaine étape déclarée l'approfondissement de l'IA dans des environnements d'inspection plus complexes.

UELa montée en puissance de Hikvision Robotics (880 M€ de CA, intégration verticale logiciel-matériel) accentue la pression concurrentielle sur les acteurs européens de l'AMR industriel comme KION Group, sans impact direct immédiat sur le marché français.

Chine/AsieActu
1 source
De la science-fiction à la réalité : l'avenir de l'IA physique selon le Dr Jan Liphardt
6Robotics Business Review 

De la science-fiction à la réalité : l'avenir de l'IA physique selon le Dr Jan Liphardt

Lors de son appel aux résultats du premier trimestre 2026, Tesla a annoncé des ambitions de production pour son robot humanoïde Optimus qui redessinent l'échelle de l'industrie. À Fremont, en Californie, l'entreprise prévoit dès le deuxième trimestre 2026 une première ligne à grande échelle, avec une capacité cible d'un million d'unités par an, en remplacement des lignes Model S et Model X existantes. À la Gigafactory du Texas, une ligne de seconde génération vise à terme 10 millions de robots par an, et la préparation du site est déjà en cours. Tesla développe en parallèle le processeur d'inférence AI5, conçu pour répondre aux besoins en calcul des programmes Optimus et robotaxi. Par ailleurs, le tribunal régional de Hambourg a prononcé une injonction préliminaire contre Elite Robots Deutschland GmbH, filiale allemande du fabricant chinois, sur action en contrefaçon logicielle initiée par Teradyne Robotics, maison mère d'Universal Robots. Enfin, HII (Huntington Ingalls Industries), Path Robotics et GrayMatter Robotics ont annoncé conjointement le programme HYPR (High-Yield Production Robotics), destiné à accélérer la construction navale américaine via la soudure mobile robotisée. Les chiffres Tesla méritent d'être lus avec prudence : aucun calendrier de livraison client ni spécification technique n'ont été communiqués, et la distinction entre capacité de production annoncée et déploiement réel reste entière. Un objectif de 10 millions d'unités annuelles positionnerait néanmoins Tesla à un ordre de grandeur au-dessus de tout acteur actuel du marché humanoïde, forçant Figure, Agility, 1X ou Boston Dynamics à reconsidérer leur stratégie de montée en volume. Sur le plan juridique, l'injonction hambourgeoise contre Elite Robots confirme que la concurrence sur les cobots low-cost se joue désormais aussi sur la propriété intellectuelle logicielle. David Brandt, CTO d'Universal Robots, a précisé que l'analyse du code embarqué d'Elite révélait des similitudes marquées avec le logiciel propriétaire d'UR. Après l'affaire Ocado/BrightPick à LogiMAT le mois dernier, ce second cas illustre pourquoi l'Allemagne reste un terrain judiciaire à haut risque pour les exposants en situation de tension brevétaire. Tesla a présenté Optimus en concept en 2021, dévoilé un prototype en 2022 et conduit des démonstrations d'usine en 2024-2025. Le remplacement des lignes Model S/X à Fremont signale un pari industriel fort : sacrifier une capacité automobile établie pour pivoter vers la robotique humanoïde. Universal Robots, fondé au Danemark en 2005 et acquis par Teradyne en 2015, est le leader mondial des cobots avec une base installée de plusieurs centaines de milliers d'unités ; Elite Robots est l'un des fabricants chinois apparus ces dernières années avec des produits fonctionnellement proches à prix sensiblement inférieur. Le programme HYPR, dont les détails techniques restent à préciser, représente une application sectorielle concrète de la robotique mobile de soudage, domaine où Path Robotics et GrayMatter avaient déjà collaboré avec des acteurs de la défense américaine.

UEL'injonction préliminaire du tribunal de Hambourg contre Elite Robots Deutschland, obtenue par Teradyne/Universal Robots (entreprise danoise, leader européen des cobots), crée un précédent juridique sur la propriété intellectuelle logicielle qui expose directement les importateurs et distributeurs de cobots chinois low-cost opérant sur le marché européen.

HumanoïdesActu
1 source
Accenture, Vodafone et SAP testent des robots humanoïdes en entrepôt
7Robotics Business Review 

Accenture, Vodafone et SAP testent des robots humanoïdes en entrepôt

Accenture, Vodafone Procure & Connect et SAP ont mené un pilote de robotique humanoïde dans l'entrepôt de Vodafone à Duisburg, en Allemagne, dont les résultats ont été présentés à Hannover Messe 2026. Durant ce programme, les robots recevaient leurs missions d'inspection directement via le système SAP Extended Warehouse Management (EWM) et effectuaient de manière autonome des rondes visuelles dans l'installation : détection de produits mal placés ou endommagés, évaluation de l'empilement des palettes et de la répartition des charges, repérage d'espaces de stockage sous-utilisés, identification de risques comme des obstacles dans les allées ou des palettes mal alignées. Les conclusions étaient remontées en temps réel dans le système SAP. Les robots sont équipés de la solution "Robot Brain" d'Accenture, entraînés dans des jumeaux numériques construits via l'Accenture Physical AI Orchestrator, lui-même basé sur NVIDIA Omniverse, le blueprint NVIDIA Mega et les outils NVIDIA Metropolis pour la vision IA. Ils interagissent avec les opérateurs par la voix, les gestes et le texte. Un point à noter : aucun modèle de robot humanoïde n'est communiqué dans les annonces officielles, et aucune métrique de performance -- charge utile, degrés de liberté, temps de cycle -- n'a été publiée. L'intérêt de ce pilote réside moins dans la prouesse robotique que dans la démonstration d'une intégration native avec un WMS standard du marché. SAP EWM équipe une grande partie des opérations logistiques mondiales : si cette interface tient à l'échelle, elle réduit considérablement la friction d'adoption pour les grands acteurs industriels, qui n'auront pas à refondre leur SI existant. Pour les COO logistiques, les arguments avancés -- réduction des accidents de travail, des heures supplémentaires et de la dépendance à l'intérim -- sont bien plus concrets que la promesse de l'"IA physique". Vodafone Procure & Connect va plus loin en évoquant explicitement un futur "business de solutions de main-d'oeuvre humanoïde", ce qui signale une ambition de monétiser l'expérience acquise au-delà de l'usage interne -- un signal que les intégrateurs et les investisseurs du secteur logistique devraient noter. Ce pilote s'inscrit dans la stratégie d'Accenture de se positionner comme intégrateur de référence pour la robotique humanoïde en entreprise, en capitalisant sur son partenariat technologique avec NVIDIA. Dans un marché où Boston Dynamics déploie Stretch chez DHL et GXO, Figure AI a signé avec BMW, et Apptronik travaille avec Mercedes-Benz, Accenture joue la carte de la couche d'intégration SI plutôt que du hardware -- aucun fabricant de robot n'est nommé dans les communications, ce qui suggère soit une architecture hardware-agnostique, soit des partenariats encore confidentiels. Pour SAP, c'est une démonstration de la pertinence de l'EWM dans un monde de robots physiques autonomes. Les prochaines étapes restent vagues : une extension à la chaîne d'approvisionnement globale de Vodafone est évoquée, mais sans dates ni volumes cibles. Ce projet demeure, pour l'heure, un pilote présenté en salon -- pas encore un déploiement industriel confirmé.

UELe pilote en entrepôt Vodafone à Duisburg démontre une intégration native des robots humanoïdes avec SAP EWM, ERP dominant de la logistique européenne, ce qui pourrait réduire significativement la friction d'adoption pour les opérateurs industriels européens sans refonte de leur SI existant.

FR/EU ecosystemeOpinion
1 source
Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?
8IEEE Spectrum Robotics 

Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?

La semaine du 18 avril 2026 a été marquée par plusieurs démonstrations robotiques notables, dont la plus emblématique s'est déroulée à Pékin : lors d'un semi-marathon de 21 kilomètres réunissant 12 000 coureurs humains, plus de 100 robots humanoïdes ont pris le départ aux côtés d'athlètes humains, et trois d'entre eux ont franchi la ligne d'arrivée avant tout concurrent humain. Ce résultat, relayé par Al Jazeera, illustre une progression rapide de la locomotion bipedale en conditions réelles. En parallèle, Sony AI publiait dans Nature les résultats d'un système autonome capable de disputer une partie de ping-pong contre des joueurs professionnels, en relevant le défi de la perception haute vitesse et du contrôle dynamique en temps réel, deux verrous longtemps considérés comme bloquants pour l'IA physique compétitive. Autre fait marquant, le robot AthenaZero du Robotics and AI Institute a réalisé du jonglage à trois balles à mains nues, sans motion capture externe ni entonnoir mécanique, en s'appuyant uniquement sur des capteurs embarqués et une coordination oeil-main apprise pour gérer l'incertitude au contact. Ces résultats alimentent le débat sur l'écart entre démonstration et déploiement réel. Le semi-marathon de Pékin constitue une preuve de robustesse locomotrice en environnement non contrôlé, même si les conditions de course (surface, pace, assistance technique en bord de piste) mériteraient d'être précisées pour évaluer la comparabilité exacte avec une performance humaine. La publication Sony dans Nature donne une légitimité scientifique au domaine de l'IA physique compétitive et valide l'idée que des boucles de contrôle rapide peuvent être apprises à partir de données réelles plutôt que simulées. AthenaZero, de son côté, illustre les progrès du sim-to-real sur des tâches de manipulation dynamique sans infrastructure externe, ce qui ouvre la voie à des applications industrielles de tri ou de reorientation d'objets en mouvement. En contrepoint, IEEE Spectrum souligne que la vraie valeur en entrepôt vient encore de systèmes d'automatisation mobile comme ceux de Berkshire Grey, et non des humanoïdes, une nuance importante pour les décideurs B2B qui évaluent des ROI à court terme. Le contexte de cette semaine s'inscrit dans une accélération visible de la robotique chinoise, portée notamment par des acteurs comme Unitree, qui présente des séquences de locomotion en milieu non structuré, et DEEP Robotics, dont les robots quadrupèdes sont déjà déployés en patrouille résidentielle en Amérique du Nord. Sur le plan matériau, le Max Planck Institute for Intelligent Systems a publié une méthode d'évaluation des actionneurs électrostatiques souples utilisant des actionneurs Peano-HASEL, atteignant un rendement électromécanique de 63,6 %, soit plus de trois fois supérieur aux valeurs antérieurement rapportées, ce qui ouvre des perspectives pour des robots légers et silencieux. Côté mobilité aérienne, Skydio a montré la capture de drones en vol avec un bras UR20, tandis qu'ETH Zurich continue ses travaux sur drones suractuatés. Enfin, Sphero se positionne pour combler le vide laissé par LEGO Mindstorms sur le marché de la robotique éducative, un segment commercial non négligeable laissé en friche depuis l'abandon de la gamme par LEGO.

UELes publications de l'ETH Zurich sur les drones suractuatés et du Max Planck Institute sur les actionneurs Peano-HASEL (rendement 63,6%) positionnent la recherche européenne comme contributrice active dans l'écosystème mondial de la robotique physique légère.

IA physiquePaper
1 source
XYZ Embodied AI lance le sac à dos de calcul embarqué BotPack B Series
9Pandaily 

XYZ Embodied AI lance le sac à dos de calcul embarqué BotPack B Series

XYZ Embodied AI (星源智机器人) a présenté le 23 avril 2026 au salon Hannover Messe en Allemagne sa gamme BotPack B Series, un sac à dos de calcul embarqué destiné aux robots quadrupèdes et humanoïdes. La gamme comprend deux modèles, le B5 et le B4, tous deux propulsés par des puces NVIDIA. L'ensemble pèse moins de 2,5 kg et embarque des interfaces réseau haut débit (Ethernet 10G, 5G et Wi-Fi 7) ainsi que des modules de positionnement pour la navigation autonome. La compatibilité a été confirmée avec le robot humanoïde Unitree G1 de Unitree Robotics. L'objectif affiché est de permettre aux robots d'exécuter des modèles d'IA localement, en réduisant la dépendance au cloud et la latence de traitement associée. La mise en production de capacités de calcul edge directement sur le châssis d'un robot répond à un verrou opérationnel fréquemment cité par les intégrateurs : la dépendance à une connectivité cloud stable nuit aux déploiements en environnements industriels contraints, ateliers, entrepôts ou zones à couverture réseau limitée. Un backpack standardisé compatible avec plusieurs plateformes ouvre la voie à une séparation entre matériel robot et compute stack, une logique analogue à celle des AMR modulaires. La connectivité Wi-Fi 7 et 5G, couplée à un Ethernet 10G, cible clairement les cas d'usage en inférence temps réel de modèles VLA (Vision-Language-Action), où la latence est critique. Il reste à valider en conditions réelles quelle charge de modèle les configurations B4 et B5 peuvent effectivement supporter, XYZ n'ayant publié ni benchmarks ni données terrain. XYZ Embodied AI avait précédemment développé la plateforme T5, une unité de calcul embarqué positionnée sur le même segment ; la BotPack B Series constitue une évolution vers des formats plus compacts et universels. Hannover Messe 2026 concentre plusieurs annonces dans le domaine du edge computing pour la robotique, un marché en structuration où NVIDIA pousse son stack Isaac/Jetson et où des startups spécialisées compute-on-robot émergent. La compatibilité affichée avec le Unitree G1 positionne le produit face aux solutions de compute intégrées des fabricants humanoïdes comme Agility Robotics ou Figure AI. Aucun prix ni volume de déploiement n'a été communiqué, ce qui classe cette annonce comme lancement commercial sans validation industrielle publique à ce stade.

UELes intégrateurs robotiques européens présents à Hannover Messe peuvent découvrir une solution de compute embarqué potentiellement compatible avec leurs plateformes humanoïdes ou quadrupèdes, mais l'absence de prix, de benchmarks et de déploiements validés rend toute décision d'achat prématurée.

InfrastructureOpinion
1 source
Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise
10arXiv cs.RO 

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise

Une équipe de chercheurs a conçu et testé une méthode de sensibilisation à la robotique en milieu industriel réel, en déployant un robot humanoïde contrôlé par un grand modèle de langage (LLM) lors d'un événement interne organisé par AD Ports Group aux Émirats arabes unis. Les employés du groupe portuaire, sans formation préalable en robotique, ont interagi avec le robot via des commandes vocales dans un environnement d'exercice inspiré de la logistique, structuré en équipes avec des rôles attribués. Au terme de l'activité, un questionnaire resté ouvert 16 jours a recueilli 102 réponses. La satisfaction globale atteint 8,46/10, l'intérêt déclaré pour la robotique et l'IA 4,47/5, et la compréhension des nouvelles formes de collaboration homme-robot 4,45/5. Les participants ayant interagi directement avec le robot ont évalué la naturalité de l'échange à 4,37/5 et la progression de la facilité d'interaction à 4,74/5. Les scores concernant la fiabilité et la prédictibilité du robot restent en revanche sensiblement plus bas, ce que les auteurs identifient comme un défi technique à adresser. Ce travail fournit l'une des rares mesures quantitatives issues d'un déploiement en organisation réelle, hors contexte laboratoire, sur l'efficacité des LLM comme interface d'entrée en robotique pour des non-spécialistes. Pour les décideurs industriels et les intégrateurs, il valide un format concret d'onboarding technique : une activité compétitive courte peut suffire à modifier la perception et l'appétence pour la robotique collaborative. La méthode est présentée comme réplicable, ce qui est significatif pour des groupes industriels cherchant à préparer leurs effectifs à des déploiements d'IA incarnée sans passer par une formation longue. L'exploration des LLM comme couche de contrôle en langage naturel pour les robots s'intensifie depuis 2023, portée notamment par des architectures comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), mais les preuves d'usage en conditions industrielles non contrôlées restent rares. AD Ports Group, opérateur de ports et de zones logistiques parmi les plus importants du Moyen-Orient, constitue un terrain d'expérimentation pertinent. L'étude ne précise pas le modèle de robot humanoïde utilisé ni l'architecture LLM sous-jacente, une limite notable pour qui voudrait reproduire l'approche. Les prochaines étapes annoncées portent sur l'amélioration de la fiabilité perçue et la réplication de la méthode dans d'autres contextes opérationnels industriels.

UELa méthodologie réplicable d'onboarding robotique par interaction LLM peut être directement adoptée par des groupes industriels français et européens pour préparer leurs effectifs aux déploiements de robots collaboratifs sans formation longue.

RecherchePaper
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
11arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

IA physiqueOpinion
1 source
Comment fonctionnent réellement les VLA en environnements ouverts
12arXiv cs.RO 

Comment fonctionnent réellement les VLA en environnements ouverts

Un article de recherche publié sur arXiv (référence 2604.21192) soumet les modèles vision-langage-action (VLA) à une évaluation critique sur le benchmark BEHAVIOR1K (B1K), un protocole simulant des tâches domestiques complexes de longue durée dans des environnements ouverts. Le constat est net : les métriques standards de ces benchmarks, taux de succès ou score partiel, ne mesurent que l'état final des objets manipulés, indépendamment des événements qui y ont conduit. Un robot qui renverse un verre avant de le replacer peut ainsi obtenir le même score qu'un robot qui l'a manipulé sans incident. Ce protocole dit "progress-agnostic" ignore entièrement les comportements dangereux en cours d'exécution. Les chercheurs ont soumis plusieurs VLA de pointe à une analyse multidimensionnelle couvrant robustesse, reproductibilité, violations de sécurité et causes d'échec des tâches. Les implications sont directes pour tout acteur envisageant un déploiement réel. Si les métriques actuelles gonflent artificiellement les performances rapportées, les décisions d'intégration basées sur ces benchmarks reposent sur des bases fragiles. La distinction est capitale entre un modèle qui complète une tâche et un modèle qui la complète de façon sûre et reproductible, deux propriétés que les scores agrégés actuels confondent. Les auteurs proposent de nouveaux protocoles d'évaluation capables de capturer les violations de sécurité, comblant un angle mort majeur de la recherche. Pour un intégrateur ou un décideur industriel, cela signifie que les chiffres de "success rate" publiés par les laboratoires doivent être lus avec prudence, en exigeant explicitement des données de reproductibilité et des métriques comportementales. La course aux VLA s'est accélérée depuis 2024 avec des modèles comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu de Stanford et Berkeley. Ces systèmes combinent une fondation vision-langage avec un module d'action, affichant des capacités de généralisation notables en simulation. Ce papier suggère que le fossé simulation-réel est peut-être plus profond qu'estimé : des modèles performants sur B1K pourraient s'avérer moins fiables dès lors qu'on intègre sécurité et consistance comportementale comme critères d'évaluation. Les auteurs appellent la communauté à adopter ces nouveaux protocoles dans les futures éditions du B1K Challenge pour aligner les standards de recherche avec les exigences concrètes du déploiement en environnement ouvert.

RechercheOpinion
1 source
ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot
13arXiv cs.RO 

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Des chercheurs ont présenté ExpressMM, un framework destiné aux manipulateurs mobiles déployés en environnements humains, capable de générer des comportements expressifs en temps réel pendant l'exécution de tâches collaboratives. Publié sur arXiv (2604.05320v3), le système repose sur une architecture à deux niveaux : un planificateur de haut niveau fondé sur un modèle vision-langage (VLM) prend en charge la perception et le raisonnement conversationnel, tandis qu'une politique vision-langage-action (VLA) de bas niveau produit les mouvements expressifs du robot. Élément distinctif : ExpressMM supporte les interactions interruptibles, c'est-à-dire que l'utilisateur peut modifier ou rediriger les instructions du robot en cours d'exécution. L'évaluation a été conduite sur un manipulateur mobile réel lors d'un scénario d'assemblage collaboratif, avec des démonstrations en direct devant un public et des questionnaires post-session. La majorité des travaux antérieurs sur les comportements expressifs des robots s'appuyaient sur des mouvements préprogrammés ou appris par démonstration, et n'anticipaient pas les interruptions en cours de tâche, un cas pourtant courant dès qu'un humain travaille aux côtés d'un robot. ExpressMM traite cette lacune en couplant une VLA capable de s'adapter dynamiquement aux nouvelles instructions avec un raisonnement langage-vision pour maintenir la cohérence sociale de l'interaction. Les résultats des questionnaires indiquent que les observateurs ont trouvé les actions du robot clairement interprétables, les interactions socialement appropriées, et le comportement prévisible et sûr. Pour les intégrateurs industriels et les équipes opérations, c'est un signal fort : les robots collaboratifs ne peuvent plus se contenter d'accomplir une tâche ; ils doivent être lisibles par les humains qui partagent l'espace de travail. Le sujet de l'expressivité robotique est activement exploré depuis plusieurs années dans la communauté HRI, mais les approches précédentes peinaient à généraliser au-delà de comportements scénarisés ou de démos contrôlées. L'utilisation conjointe d'un VLM et d'une VLA dans un seul pipeline interruptible représente une progression architecturale significative. Sur le plan concurrentiel, des acteurs comme Boston Dynamics (avec Spot) ou des startups HRI telles que Enchanted Tools en France (robot Miroki) travaillent également sur la dimension sociale des robots collaboratifs, mais peu publient des évaluations HRI aussi structurées en conditions réelles. Les prochaines étapes logiques pour ExpressMM seraient des déploiements en environnements industriels ou de service à plus grande échelle, où la variété des interactions humaines dépasse largement les scénarios d'assemblage contrôlés.

UELa recherche est directement pertinente pour Enchanted Tools (France, robot Miroki), qui travaille sur des problématiques similaires d'expressivité sociale et d'interaction humain-robot collaboratif.

IA physiqueOpinion
1 source
Pudu Robotics lève près de 150 millions de dollars pour cibler les applications industrielles
14Robotics Business Review 

Pudu Robotics lève près de 150 millions de dollars pour cibler les applications industrielles

Pudu Technology Inc., fabricant de robots de service basé à Shenzhen, a annoncé le 23 avril 2026 avoir levé près de 150 millions de dollars lors d'un nouveau tour de financement. Cette opération porte la valorisation de l'entreprise au-delà de 1,5 milliard de dollars, et son financement cumulé à plus de 300 millions de dollars depuis sa création en 2016. Pudu structure son offre autour de trois gammes de produits -- robots de livraison intérieure, systèmes de nettoyage commercial, et plateformes logistiques -- déployées dans dix secteurs d'activité incluant la restauration, le retail, l'hôtellerie, la santé, l'éducation et l'industrie. Sur le plan produit, la société a lancé en 2024 le PUDU T300, un robot mobile conçu pour évoluer dans des allées étroites avec des charges lourdes, avant de dévoiler début 2026 le PUDU T150, un AMR à faible charge utile ciblant la manutention en environnements d'entrepôt et de fabrication. Le T150 est disponible en Chine continentale et dans les régions de Hong Kong, Macao et Taïwan, avec un déploiement prévu dans plusieurs marchés à forte croissance : Vietnam, Thaïlande, Singapour, Malaisie, Indonésie, Corée du Sud et Turquie. Ce tour de table illustre un mouvement structurel dans la robotique de service : la migration vers l'industrie. Pudu, longtemps cantonné aux robots de livraison en restauration et hôtellerie, accélère son repositionnement sur la manutention industrielle et l'IA incarnée (embodied AI), un segment où les marges et les contrats sont plus solides qu'en service grand public. Les fonds seront affectés au développement de technologies d'IA embarquée, à l'élargissement du portefeuille produit, à l'expansion internationale et à la montée en capacité de production. Pour les intégrateurs et décideurs industriels, ce pivot signifie une concurrence accrue sur le segment AMR léger, traditionnellement occupé par des acteurs comme Geek+, Hai Robotics ou le français Exotec -- qui reste cependant positionné sur un créneau plus automatisé et dense. Aucune métrique de performance n'a été communiquée sur le T150 (vitesse, charge utile exacte, temps de cycle), ce qui rend toute comparaison technique prématurée à ce stade. Pudu n'est pas un cas isolé : D-Robotics, également basé à Shenzhen et spécialisé dans les plateformes matérielles et logicielles pour robots grand public et IA incarnée, a levé 270 millions de dollars en Série B quelques semaines plus tôt, en avril 2026. Ces levées massives de capitaux dans la robotique chinoise reflètent une course à l'échelle mondiale, soutenue par une chaîne d'approvisionnement locale compétitive et une pression croissante des gouvernements asiatiques pour automatiser leur secteur manufacturier. Fondée en 2016 par Felix Zhang, Pudu a d'abord conquis le marché de la restauration avant d'élargir progressivement son empreinte ; la prochaine étape déclarée est l'accélération hors de Chine, avec un focus sur l'Asie du Sud-Est et potentiellement l'Europe, sans calendrier précis annoncé à ce jour.

UELe pivot de Pudu vers l'AMR industriel léger intensifie la pression concurrentielle sur Exotec (FR), acteur de référence sur ce segment, bien que positionné sur un créneau plus automatisé et dense.

Chine/AsieActu
1 source
Vidéo : SamuRoid, le robot humanoïde chinois compact aux interactions plus intelligentes
15Interesting Engineering 

Vidéo : SamuRoid, le robot humanoïde chinois compact aux interactions plus intelligentes

SamuRoid, un robot humanoïde compact développé par la société chinoise XiaoR Geek Technology basée à Shenzhen, vient d'être présenté comme une nouvelle plateforme d'IA embarquée accessible aux chercheurs et développeurs. Mesurant 390 mm de hauteur pour 2,3 kg, il embarque 22 servomoteurs haute-couple de la série XRS couvrant l'intégralité du corps, une caméra 1080p grand angle sur une nacelle 2 axes, un microphone USB intégré, ainsi qu'une connectivité Wi-Fi 5 double bande et Bluetooth 5.0. Son cerveau est un Raspberry Pi 4 Model B disponible en 4 ou 8 Go de RAM. La batterie 12V 3000 mAh lui offre environ une heure d'autonomie. La version Professional Edition est proposée à environ 1 565 dollars, tandis que des éditions Developer et Flagship plus complètes sont actuellement en rupture de stock. Ce qui distingue SamuRoid de ses prédécesseurs, c'est son niveau d'intégration logicielle et ses capacités multimodales. Le robot fonctionne sous ROS (Robot Operating System), avec un code source ouvert compatible C++ et Python, et intègre OpenCV pour la reconnaissance faciale, le suivi de couleurs et la détection de QR codes. Surtout, il se connecte à des grands modèles de langage comme DeepSeek et Doubao, ce qui lui permet de comprendre des instructions en langage naturel plutôt que des commandes rigides. Si un utilisateur dit qu'il est fatigué et veut s'amuser, le système interprète l'intention et déclenche une action appropriée, comme une chorégraphie, tout en fournissant un retour vocal. Ce saut qualitatif positionne SamuRoid comme un outil de recherche crédible pour explorer l'interaction homme-machine de nouvelle génération, à un prix bien en dessous des plateformes industrielles. L'essor de robots humanoïdes compacts et ouverts reflète une tendance de fond dans l'industrie robotique mondiale : rendre l'IA incarnée accessible hors des grands laboratoires. Jusqu'ici, ce segment était dominé par des plateformes coûteuses ou des jouets aux capacités limitées. XiaoR Geek tente de combler cet écart en proposant une architecture ouverte compatible avec les workflows ROS standard, adoptés par la grande majorité des chercheurs en robotique. La Chine multiplie ces initiatives, portée par un écosystème de fabrication performant et des modèles de langage locaux comme DeepSeek qui rivalisent désormais avec les offres occidentales. SamuRoid arrive dans un contexte où plusieurs acteurs, d'Agility Robotics à Figure AI en passant par Boston Dynamics, cherchent à démocratiser l'humanoïde. La question ouverte reste celle de la durée d'autonomie, une heure restant un frein réel pour des usages continus, et de la robustesse en dehors des environnements contrôlés.

HumanoïdesActu
1 source
Le robot IA de Sony bat des joueurs pendant qu'un robot humanoïde remporte une course à Pékin
16AI News 

Le robot IA de Sony bat des joueurs pendant qu'un robot humanoïde remporte une course à Pékin

Un robot de tennis de table développé par Sony AI, baptisé Ace, a remporté des matchs contre des joueurs humains de haut niveau dans des conditions de compétition officielles, arbitrées selon les règles de la Fédération internationale de tennis de table. En avril 2025, Ace a gagné trois manches sur cinq face à des joueurs de niveau élite, avant d'enchaîner de nouvelles victoires contre des professionnels en décembre 2025 et début 2026. Le système repose sur neuf caméras synchronisées, trois systèmes de vision et huit articulations contrôlant la raquette, le tout capable de traiter le mouvement d'une balle à une vitesse que l'oeil humain ne peut résoudre. Contrairement aux robots de ping-pong existants depuis les années 1980, Ace n'a pas été entraîné par imitation de joueurs humains mais par auto-apprentissage en simulation, ce qui lui a permis de développer des stratégies propres, moins prévisibles pour ses adversaires. L'étude décrivant le système a été publiée dans la revue Nature. Cette performance marque une étape significative dans ce que l'industrie appelle la "physical AI", l'application de l'intelligence artificielle à des machines opérant dans des environnements réels et dynamiques. Le tennis de table représente un défi technique particulièrement difficile : la vitesse de la balle, la variabilité des effets et la contrainte de temps extrême exigent une perception et une coordination quasi instantanées. Peter Dürr, directeur de Sony AI Zurich et responsable du projet, souligne que contrairement aux jeux vidéo ou aux échecs, les sports physiques en temps réel restaient jusqu'ici hors de portée de l'IA. La joueuse professionnelle Mayuka Taira, battue par Ace, a noté que l'absence de signaux émotionnels du robot le rendait particulièrement difficile à lire : impossible de deviner ses points faibles ou ses préférences de jeu. L'équipe de Sony AI estime que les techniques de perception et de contrôle développées pour Ace pourront être transposées à la robotique industrielle et aux services. Dans un registre différent mais tout aussi révélateur de l'essor de la robotique physique, le premier semi-marathon de robots humanoïdes s'est tenu le même mois à Pékin, dans le district d'E-Town. L'événement a réuni plus d'une centaine de robots et quelque 12 000 coureurs humains sur des parcours séparés de 21 kilomètres. Le robot Lightning, développé par Honor, a franchi la ligne d'arrivée en 50 minutes et 26 secondes, établissant le meilleur temps de la compétition. Ces deux événements, le robot pongiste de Sony et le marathon pékinois, illustrent une même dynamique : après des années de progrès dans les environnements numériques contrôlés, l'IA s'attaque désormais au monde physique, avec des résultats qui commencent à rivaliser sérieusement avec les capacités humaines dans des disciplines concrètes et mesurables.

UELes techniques de perception et de contrôle développées par Sony AI Zurich pourraient influencer la robotique industrielle européenne à terme, mais aucun impact direct sur la France ou l'UE n'est identifiable à ce stade.

HumanoïdesOpinion
1 source
AGIBOT et l'Institut de promotion du commerce et des investissements de Macao concluent un partenariat stratégique pour déployer l'IA incarnée à l'échelle mondiale
17Pandaily 

AGIBOT et l'Institut de promotion du commerce et des investissements de Macao concluent un partenariat stratégique pour déployer l'IA incarnée à l'échelle mondiale

AGIBOT, entreprise chinoise spécialisée dans la robotique et l'intelligence artificielle incarnée, a signé un accord-cadre de partenariat stratégique avec l'Institut de promotion du commerce et des investissements de Macao (IPIM), lors d'une cérémonie tenue à Lisbonne, au Portugal. Cet accord prévoit la création d'une entité commerciale à Macao dédiée à la fabrication, à l'assemblage, à la R&D, ainsi qu'aux ventes et services après-vente de robots. La zone de coopération approfondie Guangdong-Macao à Hengqin servira de base de production, tandis que Macao constituera le centre commercial et de marque, selon un modèle hybride du type "R&D à Macao, production à Hengqin". Les deux parties envisagent également d'établir un centre de données conjoint avec des universités locales, orienté vers la collecte de données et le développement d'applications en intelligence artificielle incarnée. Les marchés cibles comprennent la Grande Baie, les pays lusophones et l'Asie du Sud-Est. Ce partenariat représente une étape significative dans la stratégie de mondialisation d'AGIBOT, qui s'appuie sur le positionnement unique de Macao comme plateforme de coopération commerciale entre la Chine et les pays de langue portugaise. Pour AGIBOT, l'accès à ce corridor diplomatique et économique ouvre des débouchés dans des marchés émergents difficiles à pénétrer directement depuis la Chine continentale, notamment le Brésil, le Portugal, l'Angola ou le Mozambique. L'IPIM apportera un accompagnement complet via son service "China-Portuguese Trade Navigator", incluant consultations sur les environnements d'investissement, cadres réglementaires, mise en relation avec des partenaires locaux, et soutien au développement des talents technologiques. Ce type de structure permettrait à AGIBOT de contourner certaines barrières réglementaires et géopolitiques en bénéficiant du statut particulier de Macao au sein du système juridique sino-portugais. La robotique incarnée, qui désigne des systèmes d'IA intégrés dans des robots physiques capables d'interagir avec leur environnement réel, est devenue l'un des fronts les plus compétitifs de l'industrie technologique mondiale. AGIBOT, fondée en 2023 et soutenue par des investisseurs de premier plan, s'est positionnée parmi les acteurs chinois les plus ambitieux de ce secteur, aux côtés d'Unitree Robotics et de Fourier Intelligence. La signature à Lisbonne n'est pas anodine : elle illustre une tendance plus large des entreprises chinoises de haute technologie à utiliser Macao comme tête de pont vers l'Europe et l'Afrique lusophone, profitant des avantages fiscaux et de la liberté de circulation des capitaux propres à ce territoire. AGIBOT a indiqué qu'elle avancerait sur ce projet en veillant à la conformité réglementaire, tout en s'impliquant activement dans la formation de talents locaux, ce qui pourrait faciliter son intégration dans les écosystèmes technologiques des marchés cibles.

UELe partenariat, signé à Lisbonne, vise à utiliser Macao comme tête de pont vers le Portugal et l'Europe lusophone, ce qui pourrait à terme ouvrir des débouchés commerciaux pour les robots AGIBOT sur le marché européen.

HumanoïdesActu
1 source
Pudu Robotics lève près d'un milliard de yuans et ouvre son siège américain
18Pandaily 

Pudu Robotics lève près d'un milliard de yuans et ouvre son siège américain

Pudu Robotics, fabricant chinois de robots de service commerciaux, a finalisé en avril 2026 une levée de fonds de près d'un milliard de yuans, soit environ 140 millions de dollars, portant sa valorisation à plus de 10 milliards de yuans (1,4 milliard de dollars). Ce tour de table a été co-dirigé par Longgang Financial Holdings et Ya Capital, avec la participation de BAIC Capital, Lens Technology, Honghui Fund et plusieurs fonds soutenus par des institutions gouvernementales chinoises spécialisées dans les technologies de pointe. Simultanément, la société a officiellement inauguré son siège américain à Dallas, au Texas, marquant une nouvelle étape dans son déploiement structuré sur le marché des Amériques. Depuis son entrée aux États-Unis en 2018, Pudu y a déployé près de 15 000 robots et enregistré une croissance de son chiffre d'affaires de 285 % en glissement annuel. L'entreprise revendique plus de 120 000 unités expédiées dans le monde, une présence dans plus de 80 pays, et une part de marché mondiale de 23 % selon le cabinet Frost & Sullivan, ce qui la place en première position mondiale dans son secteur. Les fonds levés seront investis dans la recherche en IA incarnée, l'élargissement du catalogue produit, l'augmentation des capacités de fabrication et le renforcement des chaînes d'approvisionnement. L'écosystème de Pudu couvre déjà la livraison en restauration et hôtellerie avec la gamme BellaBot, le nettoyage commercial avec le PUDU CC1, et la logistique industrielle avec les robots de la série T. Cette diversification positionne la société bien au-delà du robot de restaurant qui l'a rendue célèbre, vers une plateforme d'IA embarquée à spectre large. Pour les secteurs de la santé, du commerce de détail et de la logistique, cela signifie un accès croissant à des solutions robotiques commercialement éprouvées, à grande échelle et à coût maîtrisé. Pudu Robotics s'inscrit dans une tendance de fond : la montée en puissance de l'IA incarnée attire des capitaux considérables vers les entreprises capables de démontrer une commercialisation réelle, et non de simples prototypes. Fondée il y a une décennie à Shenzhen, la société est devenue l'une des rares à combiner volumes industriels, rentabilité commerciale et ambitions technologiques de long terme. L'ouverture du siège de Dallas répond à une pression croissante sur les entreprises chinoises d'IA et de robotique pour localiser leurs opérations aux États-Unis dans un contexte de tensions géopolitiques et de restrictions commerciales. Le fondateur et PDG Zhang Tao a déclaré que cette levée traduit la confiance des marchés dans la stratégie globale de l'entreprise. À terme, Pudu vise à passer du statut de fournisseur de solutions sectorielles à celui de plateforme d'IA incarnée à pile complète, capable de rivaliser avec les grands acteurs mondiaux de la robotique de service.

UEPudu Robotics, déjà présent dans plus de 80 pays dont l'Europe, pourrait accélérer son déploiement dans les secteurs de la restauration, la santé et la logistique européens grâce à cette levée, mais aucune initiative spécifique France/UE n'est annoncée.

Chine/AsieOpinion
1 source
AWS et NEURA Robotics unissent leurs forces pour industrialiser l’IA physique
19Le Big Data 

AWS et NEURA Robotics unissent leurs forces pour industrialiser l’IA physique

Amazon Web Services et NEURA Robotics ont annoncé le 21 avril 2026 un partenariat stratégique destiné à industrialiser ce que l'industrie appelle l'IA physique, soit des systèmes robotiques capables d'agir et d'apprendre dans des environnements réels. L'objectif affiché est le déploiement de millions de robots cognitifs d'ici 2030. Le partenariat repose sur trois piliers : l'hébergement du Neuraverse, l'environnement numérique centralisé de NEURA dédié à l'entraînement et au partage de données robotiques, sur l'infrastructure AWS ; la connexion des installations NEURA Gym à Amazon SageMaker pour standardiser la formation des modèles d'IA ; et l'intégration expérimentale des robots NEURA dans des centres logistiques d'Amazon, où la manutention, le tri et la collaboration homme-machine serviront de terrain de validation à grande échelle. L'enjeu central de cet accord est de résoudre un problème structurel qui bloque l'essor de la robotique intelligente : le manque chronique de données d'entraînement. Contrairement aux grands modèles de langage, nourris par des milliards de documents issus du web, les robots doivent apprendre à partir d'expériences physiques concrètes, difficiles à collecter et à reproduire. En couplant la plateforme cognitive de NEURA, qui permet aux machines de s'adapter en temps réel à leur environnement, avec la capacité de calcul distribuée et la couverture mondiale d'AWS, les deux acteurs cherchent à créer des boucles d'apprentissage continues entre simulation et réalité. Pour les industriels partenaires, cela signifie des cycles de développement raccourcis et des performances reproductibles quelle que soit l'implantation géographique de leurs flottes. Ce rapprochement s'inscrit dans une tendance de fond qui voit l'innovation robotique européenne s'appuyer sur les infrastructures cloud américaines pour franchir le cap du prototype à la production. NEURA Robotics, start-up allemande fondée en 2019 et déjà reconnue pour son approche intégrée de la robotique cognitive, dispose d'une expertise hardware et logicielle pointue mais manque de l'échelle nécessaire pour collecter et traiter des volumes de données comparables à ceux des géants technologiques. AWS, de son côté, cherche à positionner son cloud comme colonne vertébrale de la prochaine vague d'automatisation industrielle, un marché estimé à plusieurs centaines de milliards de dollars. Les entrepôts Amazon constituent un laboratoire idéal : si les robots NEURA y font leurs preuves, le modèle pourra être répliqué chez des milliers de clients industriels à travers le monde, accélérant la normalisation de l'IA physique bien au-delà de la logistique.

UELe partenariat implique NEURA Robotics, startup allemande de référence en robotique cognitive, illustrant comment l'innovation robotique européenne s'adosse aux infrastructures cloud américaines pour passer à l'échelle industrielle.

💬 Le vrai verrou de la robotique, c'est pas le hardware, c'est les données d'entraînement, et c'est un problème que personne n'avait vraiment résolu jusqu'ici. En ouvrant ses entrepôts, Amazon aide NEURA à franchir ce cap tout en se constituant un corpus d'apprentissage physique que personne d'autre n'aura. Malin de leur part, mais les clés du camion, c'est eux qui les gardent.

HumanoïdesOpinion
1 source
PokeVLA : un modèle vision-langage-action compact enrichi d'une connaissance globale du monde
20arXiv cs.RO 

PokeVLA : un modèle vision-langage-action compact enrichi d'une connaissance globale du monde

Des chercheurs ont publié PokeVLA, un nouveau modèle de fondation léger conçu pour la manipulation robotique, présenté dans un article déposé sur arXiv fin avril 2026. Le système repose sur une architecture Vision-Language-Action (VLA) qui intègre la compréhension visuelle et linguistique directement dans l'apprentissage des actions physiques d'un robot. Pour y parvenir, l'équipe a développé une approche en deux étapes : d'abord, un modèle vision-langage compact baptisé PokeVLM est pré-entraîné sur un jeu de données soigneusement constitué de 2,4 millions d'échantillons couvrant l'ancrage spatial, les affordances et le raisonnement incarné ; ensuite, des représentations spécifiques à la manipulation sont injectées dans l'espace d'action via un apprentissage sémantique multi-vues, un alignement géométrique et un module d'action inédit. Les expériences montrent des performances de pointe sur le benchmark LIBERO-Plus ainsi qu'en déploiement réel, surpassant les modèles comparables en taux de réussite et en robustesse face à diverses perturbations. Le code, les poids du modèle et les scripts de préparation des données seront rendus publics. Ce travail s'attaque à deux limites majeures des modèles VLA existants : leur inefficacité computationnelle et leur faible capacité à raisonner à haut niveau sur l'espace et les objets. En proposant un modèle à la fois compact et performant, PokeVLA ouvre la voie à des robots capables de comprendre leur environnement de manière plus fine sans nécessiter des ressources matérielles considérables. Pour l'industrie de la robotique, cela signifie que des systèmes plus accessibles pourraient atteindre des niveaux de fiabilité jusqu'ici réservés aux modèles volumineux, accélérant potentiellement l'adoption dans des contextes réels comme la logistique, la fabrication ou les soins à domicile. Les modèles VLA connaissent une montée en puissance rapide depuis que des travaux comme RT-2 de Google ou OpenVLA ont démontré l'intérêt de combiner grands modèles de langage et contrôle moteur. La tendance générale pousse vers des modèles toujours plus grands, mais PokeVLA prend le contre-pied en cherchant la compacité sans sacrifier les capacités. La mise en open source annoncée est stratégique : elle permettra à la communauté académique de reproduire les résultats et d'itérer rapidement, ce qui pourrait accélérer l'émergence de robots généralistes abordables dans les prochaines années.

IA physiqueActu
1 source
JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique
21arXiv cs.RO 

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau modèle de fondation baptisé JoyAI-RA 0.1, conçu pour doter les robots d'une autonomie généralisable dans des environnements réels et variés. Ce modèle de type vision-langage-action (VLA) s'appuie sur un cadre d'entraînement multi-sources et multi-niveaux inédit : il combine des données issues du web, des vidéos en vue subjective de manipulations humaines à grande échelle, des trajectoires générées par simulation, et des données collectées sur de vrais robots. Selon les résultats présentés, JoyAI-RA surpasse les méthodes les plus avancées sur des benchmarks en simulation comme en environnement réel, particulièrement sur des tâches variées nécessitant une capacité de généralisation. L'enjeu central de ce travail est la généralisation inter-robots, un problème récurrent dans le domaine : les modèles entraînés sur un type de robot peinent à s'adapter à d'autres architectures mécaniques ou capteurs différents. JoyAI-RA propose une unification explicite des espaces d'action, ce qui lui permet de transférer efficacement des comportements appris depuis des vidéos de manipulation humaine vers le contrôle robotique. Ce pont entre geste humain et mouvement machine est particulièrement prometteur pour réduire les coûts de collecte de données et accélérer le déploiement de robots polyvalents dans des contextes industriels, logistiques ou domestiques. La robotique autonome bute depuis des années sur deux obstacles structurels : la faible diversité des jeux de données disponibles et l'impossibilité de réutiliser des comportements appris d'un robot à l'autre. JoyAI-RA s'inscrit dans une tendance de fond qui voit émerger des modèles de fondation généralistes pour la robotique, à l'image de RT-2 de Google DeepMind ou d'OpenVLA. La particularité de cette approche réside dans l'intégration massive de vidéos de manipulation humaine comme source de supervision implicite, une stratégie qui contourne partiellement la rareté des données robotiques annotées. La publication en version 0.1 suggère que l'équipe, vraisemblablement liée à l'écosystème chinois au vu du nom JoyAI, entend faire évoluer ce modèle rapidement.

IA physiqueOpinion
1 source
X Square Robot lance WALL-B, un modèle d'IA embarquée pour usage domestique
22Pandaily 

X Square Robot lance WALL-B, un modèle d'IA embarquée pour usage domestique

La startup chinoise X Square Robot a présenté le 21 avril 2026 WALL-B, qu'elle décrit comme le premier modèle fondamental d'IA incarnée au monde basé sur une architecture World Unified Model (WUM). Contrairement aux approches traditionnelles de type Vision-Language-Action (VLA), WALL-B fusionne nativement la vision, le langage, le mouvement et la prédiction physique dans un entraînement conjoint. Le modèle repose sur trois capacités clés : la multimodalité native, la compréhension de la dynamique du monde physique, et la capacité d'auto-amélioration après un échec. Pour construire ce modèle, X Square Robot a utilisé une combinaison de données expérimentales et de scénarios réels, incluant des données collectées dans des centaines de foyers. La société a annoncé qu'en l'espace de 35 jours, des robots équipés de WALL-B et d'un hardware amélioré seront déployés dans de vraies maisons, avec un recrutement d'utilisateurs déjà lancé. Des détails techniques supplémentaires seront dévoilés le 27 avril lors de la première conférence sur les applications de l'IA du Guangdong. Ce lancement marque une rupture significative dans la robotique domestique. Les architectures VLA classiques souffrent de pertes d'information entre leurs modules et peinent à modéliser la physique du monde réel, deux limitations directement adressées par WALL-B. La capacité d'auto-évolution après l'échec est particulièrement notable : elle permettrait à un robot de s'adapter aux imprévus du quotidien sans intervention humaine, ce qui est le principal obstacle à la commercialisation grand public de robots domestiques. Pour les utilisateurs, cela ouvre la voie à des assistants capables de naviguer dans l'environnement complexe et imprévisible d'un foyer réel. La Chine investit massivement dans la robotique humanoïde et incarnée, avec une concurrence intense entre startups locales et géants comme Huawei ou Xiaomi. X Square Robot s'inscrit dans cette dynamique en ciblant explicitement le marché résidentiel, là où des acteurs comme Figure AI ou Boston Dynamics se concentrent davantage sur l'industrie. Pour lever les freins liés à la vie privée, la société a intégré une anonymisation visuelle locale, une autorisation explicite des utilisateurs et des restrictions d'usage strictes. La prochaine étape sera le déploiement en conditions réelles dans des foyers, un test grandeur nature qui déterminera si l'approche WUM tient ses promesses face aux exigences du monde domestique.

HumanoïdesActu
1 source
Le robot de tennis de table de Sony bat des joueurs d'élite
23Robohub 

Le robot de tennis de table de Sony bat des joueurs d'élite

Sony AI a publié le 22 avril 2026 dans la revue Nature les résultats d'Ace, un robot de tennis de table capable de battre des joueurs humains de haut niveau en compétition officielle. Lors d'évaluations menées sous les règles de la Fédération Internationale de Tennis de Table (ITTF), Ace a remporté trois victoires sur cinq matchs contre des joueurs élites, puis a enchaîné des victoires contre des joueurs professionnels lors de rencontres supplémentaires en décembre 2025 et mars 2026. Le robot a notamment atteint un taux de retour supérieur à 75 % face à des effets allant jusqu'à 450 rad/s. Développé par Sony AI à Zurich sous la direction de Peter Dürr, Ace combine neuf caméras à pixels actifs pour la localisation 3D de la balle, trois systèmes de contrôle du regard à base de capteurs de vision événementielle, et un système de contrôle fondé sur du reinforcement learning sans modèle, le tout monté sur un bras robotique haute vitesse capable de réactions à l'échelle de la milliseconde. C'est la première fois qu'un robot autonome surpasse des humains d'élite dans un sport physique compétitif réel, une rupture nette avec les victoires de l'IA dans les jeux de plateau (échecs, Go) ou les environnements numériques. Le tennis de table impose des contraintes particulièrement sévères : vitesse de balle extrême, trajectoires imprévisibles, effets complexes et adaptation constante à un adversaire. Ace réussit à généraliser à des situations rares et difficiles à simuler, comme les retours après rebond sur le filet, ce qui illustre la robustesse de son architecture de contrôle. Pour l'industrie robotique, cela valide l'idée que des agents IA physiques peuvent opérer en temps réel dans des environnements humains non structurés, ouvrant la voie à des applications bien au-delà du sport : assistance physique, logistique de précision, interfaces homme-machine rapides. Le projet s'inscrit dans une course mondiale à l'IA physique où les grands acteurs technologiques investissent massivement pour sortir l'intelligence artificielle de l'écran. Sony AI, division de recherche fondée en 2019, a fait du sport un terrain d'expérimentation privilégié, notamment avec des travaux antérieurs sur Gran Turismo. Le choix du tennis de table n'est pas anodin : c'est l'un des sports les plus rapides et les plus techniques au monde, ce qui en fait un banc d'essai exigeant pour la perception, la planification et le contrôle moteur. La publication dans Nature signale une ambition scientifique sérieuse, et les performances croissantes d'Ace entre les évaluations initiales et celles de mars 2026 suggèrent que le système continue de progresser. La prochaine étape pour l'équipe sera probablement d'élargir les capacités du robot à des contextes d'interaction encore plus ouverts et moins contraints.

UELa recherche conduite par Sony AI à Zurich positionne l'Europe comme pôle de robotique physique autonome, avec des retombées potentielles sur les programmes Horizon Europe dédiés à la robotique et à l'IA embarquée.

HII s'associe à Path Robotics et GrayMatter Robotics pour accélérer la construction navale
24Robotics Business Review 

HII s'associe à Path Robotics et GrayMatter Robotics pour accélérer la construction navale

HII (Huntington Ingalls Industries), premier constructeur naval américain basé à Newport News, Virginie, a annoncé cette semaine le programme HYPR (High-Yield Production Robotics) en partenariat avec Path Robotics et GrayMatter Robotics. Développé au sein du Dark Sea Labs Advanced Technology Group de HII, HYPR vise à combiner quatre capacités automatisées en une seule ligne de production coordonnée : soudage robotisé à base de physical AI, déplacement automatisé de matériaux, traitement autonome des surfaces et contrôles qualité autonomes. Path Robotics apporte son IA physique pour la fabrication ; GrayMatter Robotics contribue sa plateforme FSI (Factory SuperIntelligence) dédiée à la préparation de surface, la finition, le revêtement et l'inspection. HII réalise "des millions d'heures de soudage par an" et affiche un carnet de commandes de plusieurs milliards de dollars, selon Andy Lonsberry, CEO et co-fondateur de Path Robotics. Des démonstrations proof-of-concept sont prévues en 2026, avec un pilote complet en 2027. L'intérêt stratégique de HYPR dépasse la simple juxtaposition d'outils autonomes. En orchestrant plusieurs systèmes au sein d'une même ligne de fabrication structurale, le programme s'attaque à des tâches à forte variabilité qui ont jusqu'ici résisté à l'automatisation traditionnelle. Le soudage naval concentre les risques les plus aigus : Lonsberry le qualifie de "tâche la plus importante, la plus coûteuse et la plus destructive" du processus, car une erreur de cordon n'est pas récupérable à la différence d'un composant mal positionné. Pour les intégrateurs et les décideurs industriels, c'est un signal concret que les systèmes de physical AI commencent à opérer dans des environnements non structurés, loin des benchmarks de laboratoire. Le pilote 2027 constituera un test grandeur nature du passage sim-to-real dans la construction navale, secteur notoirement moins standardisé que l'automobile, où les surfaces complexes et les gabarits variables rendent les robots à trajectoires fixes peu adaptés. HII a consolidé ce partenariat en deux étapes rapprochées : un mémorandum d'entente avec Path Robotics signé en février 2026 pour explorer le soudage assisté par IA, suivi d'un accord avec GrayMatter Robotics début avril 2026. Dans ce même intervalle, Path Robotics a lancé Rove, un système de soudage mobile combinant son IA propriétaire Obsidian à un robot quadrupède, étendant ses capacités au-delà des postes fixes. GrayMatter, spécialisée dans l'industrialisation de l'IA pour les ateliers de fabrication, se positionne sur les opérations de finition et d'inspection que les robots classiques ne savent pas gérer. Le programme s'inscrit dans la politique de renforcement de la capacité navale nationale portée par le Département de la Défense américain, qui cherche à accélérer la production de ce qu'il nomme sa "golden fleet". Aucun acteur européen n'est impliqué directement, mais des groupes comme Naval Group surveillent ce type d'intégration multi-systèmes pour leurs propres programmes de modernisation.

UENaval Group et les chantiers navals européens surveillent le programme HYPR comme signal de maturité des systèmes multi-robots pour le soudage en environnement non structuré, mais aucun impact direct sur la France/UE à ce stade.

IndustrielOpinion
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
25arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source
Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes
26Interesting Engineering 

Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes

RobCo, startup allemande fondée à Munich, a dévoilé à la Hannover Messe 2026 un robot humanoïde industriel baptisé Autonomous Alfie, conçu pour des tâches de fabrication complexes impliquant une forte variabilité : kitting, palettisation, assemblage de précision et manipulation de matériaux sensibles. L'annonce intervient dans la foulée d'une levée de fonds Serie C de 100 millions de dollars, orientée vers le développement de ce que RobCo appelle la "Physical AI". Le robot embarque une manipulation bimanuels, c'est-à-dire une coordination à deux bras imitant la gestuelle humaine, couplée à un système de vision et de perception haptique permettant de gérer des pièces mal orientées ou des flux de travail changeants. Les premiers déploiements clients sont annoncés pour la fin 2026, sans précision sur les sites ou les secteurs ciblés. RobCo dispose déjà d'opérations à San Francisco et Austin, et l'essentiel de ce financement est clairement orienté vers le marché américain. Ce que RobCo met en avant, c'est le passage à ce qu'il nomme le "niveau 4 d'autonomie" en contexte industriel : un système capable d'apprendre par observation plutôt que par programmation explicite, et d'exécuter des tâches avec une intervention humaine minimale, même dans des environnements non structurés. C'est précisément le segment qui résiste encore à l'automatisation classique, dominée par les bras articulés répétitifs qui exigent des environnements stables et des fixtures précises. Si les performances annoncées se confirment en production réelle, Alfie s'attaquerait au "messy middle" de la chaîne industrielle, ce gisement de tâches manuelles à haute variabilité que ni les AMR ni les cobots traditionnels n'ont su automatiser à l'échelle. Le modèle Robotics-as-a-Service (RaaS) proposé en parallèle vise à supprimer le frein du capex initial, facilitant une adoption rapide sans engagement d'achat lourd. Il faut néanmoins noter qu'Alfie est décrit comme étant encore en "phase finale de développement" : les affirmations sur l'autonomie de niveau 4 restent à valider sur des lignes de production en conditions réelles, les vidéos de démo présentées à Hannover Messe ne constituant pas une preuve de déploiement industriel à l'échelle. RobCo n'est pas un nouvel entrant : la société était jusqu'ici positionnée sur les bras robotiques modulaires pour PME, avant de pivoter vers l'humanoïde et la Physical AI. Elle rejoint un champ concurrentiel désormais dense, où Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies se disputent la même promesse d'un robot généraliste pour l'industrie. En Europe, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft développent des approches parallèles, sans avoir encore atteint la phase de déploiement commercial annoncé. La prochaine étape décisive pour RobCo sera la publication de métriques de production vérifiables, notamment les temps de cycle en conditions non contrôlées et les taux d'erreur sur tâches à haute variabilité, seuls indicateurs capables de distinguer une démonstration convaincante d'un produit réellement opérationnel.

UERobCo, startup allemande basée à Munich, annonce un humanoïde industriel et lève 100M$ mais oriente son financement prioritairement vers le marché américain, limitant l'impact concret à court terme pour l'industrie européenne malgré la vitrine de Hannover Messe.

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
27arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

IA physiqueActu
1 source
InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes
28arXiv cs.RO 

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes

Une équipe de chercheurs a publié InternScenes, un jeu de données massif de scènes d'intérieur simulables, conçu pour l'entraînement des agents en Embodied AI. Le dataset agrège environ 40 000 scènes issues de trois sources hétérogènes : scans du monde réel, scènes générées procéduralement et environnements créés par des designers. Il couvre 15 types de pièces et 288 classes d'objets, pour un total de 1,96 million d'objets 3D. La densité est un point distinctif : chaque région contient en moyenne 41,5 objets, incluant délibérément les petits éléments (tasses, télécommandes, livres) souvent absents des datasets existants. Le pipeline de traitement comprend la création de répliques real-to-sim pour les scans, l'ajout d'objets interactifs, et une résolution des collisions par simulation physique. Le tout sera publié en open source, avec modèles et benchmarks associés. L'intérêt pour les équipes travaillant sur la robotique incarnée et la navigation autonome est direct : les datasets existants souffrent soit d'un manque d'échelle, soit de layouts artificiellement épurés qui ne reflètent pas la réalité d'un environnement domestique ou industriel. Un robot entraîné dans des scènes stériles échoue face au désordre ordinaire d'un bureau ou d'une cuisine. InternScenes attaque ce sim-to-real gap par la densité et la diversité des layouts. Les deux benchmarks proposés, génération de layouts et navigation point-goal, montrent que les scènes complexes posent des défis inédits, et que la montée en échelle du dataset améliore les performances sur les deux tâches, un signal que le volume de données simulées reste un levier non saturé pour ces modèles. Dans le paysage de l'Embodied AI, les datasets de référence comme Habitat-Matterport 3D (HM3D, ~1 000 scènes) ou MultiScan restaient très limités en volume et en densité d'objets. Les laboratoires universitaires et industriels qui développent des VLA (Vision-Language-Action models) ou des agents de navigation domestique manquaient d'un terrain d'entraînement à grande échelle réaliste. InternScenes comble partiellement ce vide, sans toutefois aborder les environnements industriels ou extérieurs. La prochaine étape logique sera de voir si des équipes comme celles derrière GR00T N2 (NVIDIA) ou Pi-0 (Physical Intelligence) intègrent ce type de données synthétiques denses dans leurs pipelines de pré-entraînement, ce que les auteurs n'annoncent pas explicitement à ce stade.

RecherchePaper
1 source
Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée
29arXiv cs.RO 

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

Une équipe de chercheurs a publié sur arXiv (2604.16886) COIN, pour Chain Of Interaction Benchmark, un nouveau protocole d'évaluation conçu pour mesurer la capacité des agents robotiques généralistes à raisonner et agir de manière interactive sur des tâches à horizon long. Le benchmark se structure en trois sous-ensembles : COIN-50, qui regroupe 50 tâches en environnement quotidien réaliste ; COIN-Primitive, consacré aux primitives d'action causalement dépendantes ; et COIN-Composition, de complexité intermédiaire, ciblant l'apprentissage et la généralisation de compétences. Pour constituer les données d'entraînement, les auteurs ont développé un système de télé-opération mobile en réalité augmentée à faible coût, permettant de collecter 1 000 démonstrations, 50 par tâche primitive. Trois familles d'approches ont été évaluées : CodeAsPolicy (génération de code exécutable par LLM), VLA (Vision-Language-Action models), et H-VLA (VLA hiérarchiques conditionnés au langage). Les résultats révèlent des lacunes critiques dans l'état de l'art actuel. Tous les modèles testés échouent significativement sur les tâches nécessitant un raisonnement interactif séquentiel, par exemple, ouvrir plusieurs tiroirs successifs avant de localiser et saisir un objet sous observabilité partielle. Le fossé constaté ne se situe pas tant dans la compréhension visuelle que dans le passage à l'exécution motrice : les modèles peinent à mettre à jour leurs plans en temps réel en fonction des nouvelles informations acquises à chaque étape. Ce résultat pèse directement sur les prétentions des VLA à opérer en autonomie dans des environnements non contrôlés, un signal d'alarme pour les intégrateurs qui anticipent des déploiements industriels à court terme. COIN s'inscrit dans une vague de benchmarks d'embodied AI cherchant à combler le manque de protocoles standardisés au-delà des tâches statiques de pick-and-place. Des travaux comme LIBERO, RLBench ou BEHAVIOR-1K ont posé des bases, mais aucun n'adressait explicitement la chaîne causale d'interactions sous observabilité partielle à cette granularité. La publication intervient alors que les laboratoires industriels, Physical Intelligence (pi) avec Pi-0, Google DeepMind avec RT-2 ou GR00T N2 de NVIDIA, multiplient les annonces sur la généralisation des VLA. COIN fournit un outil de comparaison indépendant, encore académique, dont l'adoption comme standard de facto dépendra de sa capacité à attirer des soumissions extérieures et à être intégré dans les pipelines d'évaluation des acteurs commerciaux.

IA physiqueActu
1 source
XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle
30arXiv cs.RO 

XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (référence 2604.18484) les travaux sur XEmbodied, un modèle fondateur côté cloud conçu pour améliorer l'annotation et l'entraînement des modèles Vision-Langage-Action (VLA) dans des environnements complexes à grande échelle. L'approche repose sur deux composants techniques distincts : un adaptateur 3D structuré qui intègre une représentation géométrique native (grilles d'occupation, boîtes englobantes 3D) dans un modèle de langage visuel (VLM) existant, et un adaptateur image-embodied efficace qui distille des signaux physiques en tokens contextuels. L'entraînement combine un curriculum progressif par domaine et un post-entraînement par apprentissage par renforcement. Les résultats sont évalués sur 18 benchmarks publics couvrant le raisonnement spatial, la sémantique trafic, l'affordance embodied et la généralisation hors distribution. Ce travail cible un goulot d'étranglement concret dans la chaîne de développement des systèmes autonomes incarnés : les pipelines d'annotation actuels s'appuient sur des VLM génériques pré-entraînés uniquement sur des paires image-texte 2D, sans compréhension intrinsèque de la géométrie 3D ni des contraintes physiques. Pour un intégrateur ou un décideur industriel qui cherche à construire des datasets de qualité pour robots mobiles ou bras manipulateurs, XEmbodied positionne la compréhension géométrique non comme une entrée auxiliaire optionnelle, mais comme une capacité fondamentale du modèle. Cela représente un changement d'approche notable dans la manière de produire des annotations scalables pour l'embodied AI, un segment où la qualité des données d'entraînement reste le principal facteur limitant avant même l'architecture du VLA lui-même. XEmbodied s'inscrit dans une vague de travaux visant à combler le fossé entre les VLM généralistes (GPT-4V, LLaVA, Qwen-VL) et les exigences de l'embodied AI, où les modèles comme π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA nécessitent des données d'entraînement spatialement cohérentes et physiquement plausibles. La contribution ici n'est pas un VLA en soi, mais une couche d'infrastructure cloud pour en produire de meilleurs. Aucun déploiement industriel ni partenariat commercial n'est mentionné dans l'article : il s'agit d'un travail académique, dont la valeur pratique dépendra de l'adoption par les équipes qui construisent ces pipelines d'annotation à l'échelle.

RechercheOpinion
1 source
L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques
31arXiv cs.RO 

L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques

Des chercheurs ont publié le 24 avril 2026 sur arXiv (arXiv:2604.18463) un benchmark nommé DESPITE, conçu pour évaluer systématiquement la sécurité des grands modèles de langage (LLM) utilisés comme planificateurs robotiques. Le jeu de données comprend 12 279 tâches couvrant à la fois des dangers physiques (collisions, manipulation de charges) et normatifs (violation de règles de sécurité industrielles), avec une validation entièrement déterministe. Testé sur 23 modèles, le résultat le plus frappant est le suivant : le meilleur modèle en termes de planification n'échoue à produire un plan valide que dans 0,4 % des cas, mais génère des plans dangereux dans 28,3 % des situations. Parmi les 18 modèles open-source évalués, allant de 3 milliards à 671 milliards de paramètres, la capacité de planification s'améliore fortement avec la taille (de 0,4 % à 99,3 % de réussite), tandis que la conscience du danger reste remarquablement plate (38 à 57 %). Trois modèles propriétaires dotés de capacités de raisonnement explicite atteignent des niveaux de sécurité nettement supérieurs, entre 71 % et 81 %, alors que les modèles propriétaires sans raisonnement et les modèles open-source restent sous le seuil des 57 %. Ces résultats contredisent directement l'hypothèse, implicite dans de nombreux projets d'intégration, selon laquelle un modèle plus capable est automatiquement plus sûr. Les auteurs identifient une relation multiplicative entre capacité de planification et conscience du danger : un LLM qui planifie mieux complète davantage de tâches en toute sécurité, mais uniquement parce qu'il génère plus de plans valides, pas parce qu'il évite mieux les situations à risque. Pour un intégrateur robotique ou un COO industriel qui envisage de déployer un LLM comme cerveau d'un AMR ou d'un bras manipulateur, cela signifie concrètement que la saturation des performances de planification, déjà proche pour les modèles frontier, déplace le goulot d'étranglement vers la sécurité, un axe que les recettes de scaling habituelles ne résolvent pas. Ce travail s'inscrit dans un débat actif autour des architectures VLA (Vision-Language-Action) et de l'utilisation des LLM comme planificateurs de haut niveau dans des systèmes comme ceux développés par Physical Intelligence (pi0), Figure AI ou Boston Dynamics. Le benchmark DESPITE comble un vide méthodologique : jusqu'ici, les évaluations de sécurité reposaient sur des scénarios ad hoc ou des métriques de performance générale. L'absence de tout modèle open-source dépassant les 57 % de conscience du danger soulève des questions directes pour les acteurs européens qui misent sur des modèles ouverts pour des raisons de souveraineté ou de coût, notamment dans les secteurs logistique et manufacturier. Les prochaines étapes logiques incluent l'intégration de DESPITE dans les pipelines de fine-tuning orientés sécurité et la collaboration avec des organismes de normalisation comme l'ISO ou l'IEC pour ancrer ces métriques dans des référentiels de certification robotique.

UELes acteurs européens qui misent sur des modèles open-source pour des raisons de souveraineté se retrouvent plafonnés à 57 % de conscience du danger, bien en dessous des modèles propriétaires à raisonnement explicite (71–81 %), ce qui fragilise directement les déploiements LLM-as-planner dans la logistique et le manufacturier européens.

RechercheOpinion
1 source
La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée
32arXiv cs.RO 

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Des chercheurs ont publié sur arXiv (arXiv:2604.16903) un framework de collecte de données pour robots embodied basé sur Unity, qui exploite la réalité virtuelle et les mécaniques de jeu vidéo pour contourner le goulet d'étranglement majeur du domaine : obtenir des démonstrations humaines en quantité suffisante. Le système combine génération procédurale de scènes, téléopération d'un robot humanoïde en VR, évaluation automatique des tâches et journalisation de trajectoires. Un prototype concret a été développé et validé : une tâche de pick-and-place de déchets, dans laquelle l'opérateur incarne le robot via un casque VR pour saisir et trier des objets dans des environnements générés aléatoirement. Les résultats expérimentaux montrent que les démonstrations collectées couvrent largement l'espace état-action, et que l'augmentation de la difficulté de la tâche entraîne une intensité de mouvement plus élevée ainsi qu'une exploration plus étendue de l'espace de travail du bras. Ce travail s'attaque à un problème structurel de l'intelligence embodied : les interfaces de téléopération classiques (manettes, bras maître-esclave, exosquelettes) sont coûteuses, peu accessibles et difficiles à déployer à grande échelle. En gamifiant la collecte, le framework ouvre la possibilité de recruter des opérateurs non spécialisés via des interfaces VR grand public, réduisant potentiellement le coût marginal par démonstration. La couverture large de l'espace état-action est un signal positif pour l'entraînement de politiques robustes, notamment les VLA (Vision-Language-Action models) qui dépendent de la diversité des trajectoires. Il faut toutefois nuancer : le prototype reste une tâche simple (ramassage d'objet), et les auteurs ne fournissent pas de métriques de transfert vers un robot physique réel, la question du sim-to-real gap reste entière. Ce type d'approche s'inscrit dans une tendance plus large de recours aux environnements synthétiques pour l'entraînement robotique, portée notamment par Physical Intelligence (pi0), Google DeepMind (RoboVQA, RT-2) et NVIDIA (GROOT). La génération procédurale de scènes est également au coeur des pipelines de simulation massive comme IsaacLab. L'originalité ici est l'angle "jeu vidéo" assumé, qui rapproche la collecte de données des méthodes de crowdsourcing humain utilisées en NLP. Les prochaines étapes naturelles seraient un benchmark sur robot physique, une extension à des tâches bimanuelle, et une évaluation de la qualité des politiques entraînées sur ces données face à des baselines téléopérées classiques.

IA physiqueActu
1 source
IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions
33arXiv cs.RO 

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17810) un travail portant sur la question-réponse incarnée multi-agents (MA-EQA), un paradigme où plusieurs robots coopèrent pour répondre à des requêtes sur ce qu'ils ont collectivement observé sur un horizon temporel long. Le problème central est l'allocation de puissance de transmission entre agents : quand les ressources radio sont limitées, quels robots doivent avoir la priorité pour transmettre leurs souvenirs ? Les auteurs proposent deux contributions : un modèle de qualité de mémoire (QoM) basé sur un examen génératif adversarial (GAE), et un algorithme d'allocation de puissance centré sur la mémoire (MCPA). Le GAE fonctionne par simulation prospective : il génère des questions-tests, évalue la capacité de chaque agent à y répondre correctement à partir de sa mémoire locale, puis convertit les scores obtenus en valeurs QoM. Le MCPA maximise ensuite la fonction QoM globale sous contraintes de ressources de communication. L'analyse asymptotique montre que la puissance allouée à chaque robot est proportionnelle à sa probabilité d'erreur GAE, ce qui revient à prioriser les agents dont la mémoire est la plus riche et la plus fiable. L'intérêt concret pour les architectes de systèmes multi-robots est de déplacer le critère d'optimisation réseau des métriques classiques (débit, latence, taux d'erreur paquet) vers une métrique applicative directement liée à la tâche cognitive. Dans les déploiements d'inspection industrielle, de surveillance ou d'exploration, les robots ne transmettent pas pour transmettre : ils transmettent pour que le système réponde correctement à des requêtes. Traiter la qualité de mémoire comme une ressource à optimiser, au même titre que la bande passante, est une rupture de cadre qui pourrait influencer la conception des protocoles MAC dans les flottes d'agents embarqués. Les expériences montrent des gains significatifs sur plusieurs benchmarks et scénarios, bien que les conditions exactes de déploiement (nombre d'agents, topologie réseau, type de mémoire) ne soient pas détaillées dans le résumé. Ce travail s'inscrit dans la convergence entre vision-langage-action (VLA), robotique incarnée et gestion des ressources sans-fil, un champ en forte expansion depuis 2023 avec les architectures de type RT-2 (Google DeepMind), GR00T (NVIDIA) et les travaux sur les mémoires épisodiques longue durée pour robots mobiles. Sur le plan académique, le GAE adversarial rappelle les techniques d'évaluation automatique utilisées dans les LLM, ici transposées à l'évaluation de mémoire sensorimotrice. Les prochaines étapes logiques seraient une validation sur flotte physique réelle et une intégration avec des architectures mémoire de type VectorDB embarqué. Aucun acteur industriel ni partenaire de déploiement n'est mentionné dans la publication.

RecherchePaper
1 source
StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel
34arXiv cs.RO 

StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel

Des chercheurs ont publié le 24 avril 2026 StableIDM, un framework spatio-temporel conçu pour stabiliser les modèles de dynamique inverse (IDM) en robotique manipulatrice. Les IDM sont des composants clés de l'IA incarnée : ils traduisent des observations visuelles brutes en commandes d'action bas-niveau, et servent à la fois pour l'annotation automatique de données d'entraînement et pour l'exécution de politiques. Le problème ciblé est la troncature du manipulateur, c'est-à-dire les situations où le bras robotique sort partiellement ou totalement du champ de la caméra, rendant la reconstruction d'état mathématiquement sous-déterminée. StableIDM intègre trois modules complémentaires : un masquage centré sur le robot pour éliminer le bruit de fond, une agrégation directionnelle de features (DFA) qui extrait des caractéristiques anisotropes le long des directions inférées depuis la partie visible du bras, et un raffinement temporel de la dynamique (TDR) qui lisse les prédictions via la continuité du mouvement. Sur le benchmark AgiBot, le système améliore la précision d'action stricte de 12,1 % sous troncature sévère, augmente le taux de succès moyen en rejeu réel de 9,7 %, améliore le succès de saisie de 11,5 % lors du décodage de plans issus de vidéos générées, et booste de 17,6 % les performances en conditions réelles quand StableIDM joue le rôle d'annotateur automatique pour un modèle VLA aval. Ces résultats sont significatifs pour quiconque déploie des bras manipulateurs en environnement non contrôlé. La troncature visuelle est une failure mode banale en production : un carton qui passe, un opérateur qui traverse, une caméra mal positionnée. Jusqu'ici, les IDM existants s'effondraient dans ces conditions, forçant les intégrateurs à multiplier les caméras ou à contraindre fortement la scène. StableIDM suggère qu'un traitement spatio-temporel ciblé peut absorber cette incertitude sans revoir l'infrastructure capteur. Par ailleurs, le gain de 17,6 % sur les VLA aval confirme une hypothèse montante dans le secteur : la qualité des annotations automatiques est un levier critique pour l'apprentissage à grande échelle, au moins autant que l'architecture du modèle de politique lui-même. Les IDM ont émergé comme alternative légère aux modèles de politique bout-en-bout dans le sillage des travaux sur l'imitation learning visuel (Gato, RT-2, OpenVLA). Le benchmark AgiBot, développé par la startup chinoise AgiBot, est devenu une référence de facto pour évaluer la manipulation dextre en conditions réelles. Sur le terrain concurrentiel, Physical Intelligence (pi) avec Pi-0, Figure AI avec son pipeline de données, et 1X Technologies travaillent tous sur des variantes d'IDM ou de VLA pour réduire la dépendance aux capteurs proprioceptifs. StableIDM se positionne comme un backbone généraliste compatible avec ces architectures, potentiellement intégrable comme préprocesseur dans des pipelines existants. Les auteurs n'annoncent pas de code public ni de partenariat industriel à ce stade : c'est une contribution de recherche, pas un produit shipped.

IA physiqueActu
1 source
GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale
35arXiv cs.RO 

GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17241) un nouveau framework vision-langage baptisé GaLa, conçu pour améliorer la planification procédurale dans les systèmes d'IA incarnée. Le système repose sur une représentation par hypergraphe : chaque objet détecté dans une scène devient un nœud, tandis que des hyper-arêtes agrègent ces objets selon leurs attributs fonctionnels et leur sémantique pour former des régions cohérentes. GaLa intègre également un encodeur baptisé TriView HyperGraph Encoder, qui impose une cohérence sémantique entre trois niveaux de représentation (vue nœud, vue zone, vue association nœud-zone) via apprentissage contrastif. Les expériences menées sur les benchmarks ActPlan1K et ALFRED montrent des gains significatifs sur le taux de succès d'exécution, le score LCS (Longest Common Subsequence) et la correction des plans générés, sans que les auteurs ne publient de chiffres absolus précis dans le résumé disponible. Ce travail cible un problème bien documenté dans la robotique d'interaction : les VLMs (Vision-Language Models) actuels raisonnent correctement sur du langage et de l'image de façon isolée, mais peinent à saisir les relations spatiales implicites et la hiérarchie fonctionnelle d'une scène réelle. Pour un robot devant exécuter une séquence de tâches domestiques (préparer un repas, ranger des objets), comprendre que le plan de travail et le réfrigérateur appartiennent à la même région fonctionnelle change radicalement la qualité du plan généré. GaLa propose une couche de structuration explicite en amont du raisonnement VLM, ce qui réduit la dépendance aux capacités d'inférence implicite des modèles de fondation et ouvre la voie à une meilleure généralisation sur des scènes non vues. Le benchmark ALFRED, développé par Allen AI, est devenu la référence standard pour évaluer la planification procédurale en environnement simulé domestique, et ActPlan1K cible des scénarios procéduraux plus complexes. La tendance actuelle dans ce sous-domaine consiste à enrichir les VLMs généralistes (GPT-4o, LLaVA, InternVL) avec des modules de représentation structurée, une approche que GaLa pousse plus loin que les travaux précédents via l'hypergraphe. Les concurrents directs incluent des travaux comme SQA3D, EmbodiedScan ou les pipelines VLA (Vision-Language-Action) de Physical Intelligence (pi0) et de Google DeepMind, qui cherchent eux aussi à réduire le gap simulation-réel. GaLa reste pour l'instant un résultat de recherche académique sans déploiement physique annoncé.

RechercheActu
1 source
Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)
36arXiv cs.RO 

Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 22 avril 2026 un article sur arXiv (référence 2604.18000) introduisant BeTTER, un benchmark de diagnostic conçu pour tester le raisonnement incarné réel dans les modèles de type Vision-Language-Action (VLA). L'objectif : vérifier si les taux de succès élevés affichés par des modèles comme pi-0, OpenVLA ou RoboVLMs sur les benchmarks standards reflètent une véritable intelligence physique, ou un artefact d'évaluation. BeTTER applique des interventions causales ciblées, modifications de la disposition spatiale, extrapolation temporelle, tout en isolant cinématiquement les échecs de raisonnement de haut niveau des limites d'exécution motrice de bas niveau. Résultat : les VLA de pointe s'effondrent dans des scénarios dynamiques, exhibant des raccourcis lexico-cinématiques (le modèle associe des mots à des patterns moteurs sans vraiment "comprendre"), une inertie comportementale, et un effondrement de la représentation sémantique. Ces résultats remettent en cause l'un des postulats les plus optimistes du secteur : que les hauts scores sur benchmarks constituent une preuve de généralisation. L'analyse mécaniste des auteurs identifie deux goulots d'étranglement architecturaux structurels, la compression de capacité et le sous-échantillonnage myope, qui dégradent systématiquement la représentation sémantique fondamentale du modèle. En d'autres termes, les architectures VLA actuelles sont structurellement contraintes à sacrifier le raisonnement de haut niveau pour maintenir la fréquence de contrôle nécessaire à l'exécution motrice en temps réel. Les protocoles d'évaluation trop statiques masquent cette dégradation en permettant au modèle d'overfitter aux priors sensorimoteurs du dataset, ce qui est un signal d'alarme direct pour les intégrateurs industriels qui évaluent ces systèmes avant déploiement. La famille VLA a connu une accélération marquée depuis fin 2023, avec les travaux de Physical Intelligence (pi-0), Google DeepMind (RT-2, puis Helix en collaboration avec Figure AI), et des efforts académiques nombreux autour de modèles open-source comme OpenVLA. Le gap benchmark-réalité est un problème récurrent en robotique, le sim-to-real transfer en est la version la plus connue, mais BeTTER le documente cette fois au niveau du raisonnement cognitif plutôt que de la dynamique physique. Les auteurs valident leurs conclusions sur robot réel, ce qui exclut l'hypothèse d'un artefact de simulation. La prochaine étape logique pour le secteur est de repenser les architectures VLA pour résoudre la tension structurelle entre contrôle haute fréquence et raisonnement sémantique robuste, probablement via des approches hiérarchiques déjà explorées par des équipes comme Wandercraft côté locomotion, ou Enchanted Tools pour la manipulation expressive.

UEWandercraft et Enchanted Tools, acteurs français actifs sur la locomotion et la manipulation expressive, sont directement concernés par les goulots d'étranglement architecturaux identifiés par BeTTER, qui constitue un signal d'alarme pour tout intégrateur européen évaluant des systèmes VLA avant déploiement industriel.

RechercheOpinion
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
37arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
38arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne
39arXiv cs.RO 

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

IA physiqueActu
1 source
EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles
40arXiv cs.RO 

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
41arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA
42arXiv cs.RO 

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Des chercheurs, vraisemblablement affiliés à l'Université de Pékin (l'URL du projet pointe vers pku-safevla.github.io), ont publié en mars 2025 SafeVLA, une méthode d'alignement sécurisé pour les modèles vision-langage-action (VLA) déployés sur robots physiques. L'approche, baptisée ISA (Integrated Safety Approach), repose sur le paradigme des processus de décision de Markov contraints (CMDP) et combine trois étapes : modélisation formelle des exigences de sécurité, élicitation active de comportements dangereux, puis optimisation min-max de la politique robot via du renforcement contraint. Sur des tâches de manipulation mobile à long horizon, SafeVLA réduit le coût cumulé des violations de sécurité de 83,58 % par rapport à la méthode de référence state-of-the-art, tout en améliorant simultanément le taux de succès des tâches de 3,85 points. Les données, modèles et benchmark associés sont publiés en open source. Ce résultat est notable parce qu'il adresse directement le principal frein à la commercialisation des VLA en environnement industriel : la garantie de comportement sûr hors distribution. Jusqu'ici, les politiques générales de type pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montraient des performances impressionnantes en laboratoire mais offraient peu de garanties formelles sur les scénarios de défaillance extrêmes, les cas limites ou les perturbations inattendues. SafeVLA propose un cadre d'assurance quantifiable, avec une généralisation démontrée aux perturbations out-of-distribution, ce qui intéresse directement les intégrateurs industriels et les COO qui exigent des SLA de sécurité avant tout déploiement en cellule humaine ou en espace partagé. L'amélioration simultanée du taux de succès contredit l'hypothèse courante selon laquelle la sécurité contrainte dégrade nécessairement la performance. Les VLA ont connu une accélération significative depuis 2023 avec des travaux fondateurs comme RT-2 (Google DeepMind) et OpenVLA, mais la question de leur alignement sécurisé pour une utilisation réelle restait largement ouverte, la plupart des équipes se concentrant sur les capacités génératives plutôt que sur les garanties de comportement. SafeVLA s'inscrit dans un mouvement plus large de formalisation de la sécurité robotique, en parallèle des travaux de Physical Intelligence sur pi-0, de 1X Technologies ou de Figure AI avec Figure 03. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication : il s'agit d'une contribution académique avec benchmark public, pas d'un produit shipé. Les prochaines étapes naturelles seraient l'intégration de cette approche dans des architectures VLA commerciales et sa validation sur des plateformes humanoïdes à grande échelle.

UELes résultats de SafeVLA pourraient alimenter les travaux de normalisation de la sécurité des VLA en Europe (AI Act, certification robots collaboratifs), mais aucun acteur européen n'est impliqué directement dans cette publication académique.

RechercheOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
43arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source
AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA
44arXiv cs.RO 

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17787) AnchorRefine, un framework hiérarchique conçu pour améliorer les modèles vision-langage-action (VLA) dans les tâches de manipulation robotique de précision. Le principe central repose sur une décomposition en deux niveaux : un planificateur d'ancres de trajectoire (anchor planner) qui génère un squelette de mouvement grossier, et un module de raffinement résiduel qui corrige les déviations en phase d'exécution pour améliorer la précision géométrique et de contact. Le système intègre également un mécanisme de raffinement de pince sensible aux transitions discrètes (decision-aware gripper refinement), conçu pour mieux capturer le caractère binaire et critique aux frontières du contrôle de préhension. Évalué sur les benchmarks LIBERO et CALVIN, ainsi que sur des tâches en robot réel, AnchorRefine affiche des gains allant jusqu'à 7,8 points de pourcentage en taux de succès en simulation et 18 points en conditions réelles, sur des backbones VLA à base de régression comme de diffusion. Le problème que cette architecture cherche à résoudre est structurel dans la conception actuelle des politiques VLA : lorsqu'une politique génère toutes les actions dans un espace unifié, les grands mouvements de transport dominent l'optimisation et noient les signaux correctifs de faible amplitude, pourtant critiques pour les tâches de précision comme l'assemblage, l'insertion ou la manipulation d'objets fragiles. En séparant explicitement la planification macroscopique de l'ajustement microscopique, AnchorRefine reproduit une structure proche de la motricité humaine, où la trajectoire globale et la correction locale sont des processus distincts. Le gain de 18 % en conditions réelles est significatif car il suggère une réduction effective du sim-to-real gap sur les tâches de contact, un verrou majeur pour la commercialisation des manipulateurs polyvalents. Ce travail s'inscrit dans une tendance de fond en robotique académique : l'hybridation entre planification à haut niveau (souvent guidée par le langage ou la vision) et contrôle fin en boucle fermée. Des approches comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent déjà des mécanismes proches, tandis que des labos comme celui de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley) explorent la hiérarchie action depuis plusieurs années. AnchorRefine se distingue en proposant une solution modulaire compatible avec des backbones existants sans réentraîner l'ensemble du modèle, ce qui facilite potentiellement son intégration dans des pipelines VLA déjà déployés. Les auteurs ne mentionnent pas de partenariat industriel ni de timeline de déploiement, et les évaluations restent cantonnées à des benchmarks académiques, ce qui tempère les conclusions sur la robustesse en environnement non contrôlé.

RechercheOpinion
1 source
ShadowAI lève 14 millions de dollars pour ses modèles du monde en 3D
45Pandaily 

ShadowAI lève 14 millions de dollars pour ses modèles du monde en 3D

ShadowAI, startup fondée à Hangzhou en juin 2024, a bouclé trois tours de financement successifs (angel, angel+ et pré-série A) pour un total d'environ 100 millions de yuans, soit 14 millions de dollars. La société développe des modèles de monde 3D dynamiques natifs pour l'IA incarnée (embodied AI), avec un portefeuille qui comprend YingShen 360, un système de capture 3D temps réel utilisant quatre à cinq caméras RGB bas coût, le modèle de monde dynamique S1, et des robots de fabrication flexible. Déployés en production réelle, ces robots atteignent 3 000 paires de chaussures produites par shift de 8 heures dans le secteur de la chaussure, un chiffre concret qui distingue cette annonce d'un simple démonstrateur. La levée illustre l'intérêt croissant des investisseurs pour la couche "perception 3D temps réel" de la robotique industrielle, un maillon souvent sous-estimé face aux modèles de langage visuel (VLA). En rendant la capture 3D accessible via des caméras RGB standard plutôt que des LiDAR onéreux, ShadowAI cible directement les intégrateurs et les PME industrielles pour lesquels le coût du capteur est un frein à l'automatisation flexible. Min Wei, fondateur et CEO, est docteur de l'Université Tsinghua et a dirigé des équipes robotique chez la division services locaux d'Alibaba, ce qui lui confère une connaissance opérationnelle des contraintes de déploiement à grande échelle. La société s'inscrit dans un écosystème chinois dense, en concurrence avec des acteurs comme Unitree, Agibot ou les divisions robotique de Meituan, mais se différencie par un positionnement centré sur la modélisation 3D du monde plutôt que sur le robot physique lui-même. Les prochaines étapes probables incluent une extension à d'autres secteurs de fabrication légère et un potentiel tour de série A pour financer l'industrialisation du S1.

Chine/AsieOpinion
1 source
IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson
46NVIDIA Developer Blog 

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson

L'article source est tronqué (coupé après le premier paragraphe). Je vais rédiger à partir du contenu visible et des faits techniques documentés sur ce sujet, en restant factuel. --- La démocratisation des modèles d'IA générative open source crée une nouvelle pression sur les plateformes embarquées : les développeurs veulent désormais faire tourner des modèles de plusieurs milliards de paramètres directement sur des robots et agents autonomes opérant dans le monde physique, sans connexion permanente au cloud. Sur les modules NVIDIA Jetson Orin, la contrainte principale est la mémoire unifiée partagée entre CPU et GPU, plafonnée à 64 Go sur le Jetson AGX Orin et à 8 ou 16 Go sur les variantes Orin NX et Nano. Des techniques comme la quantification INT4 et INT8 via TensorRT-LLM, le paged KV cache et le flash attention permettent de faire tourner des modèles comme Llama 3 8B, Mistral 7B ou Phi-3 sur ces plateformes avec des compromis mesurés sur la précision. L'enjeu n'est pas académique : pour les intégrateurs robotiques et les OEM industriels, la capacité à exécuter un VLA (Vision-Language-Action model) localement sans latence réseau est un prérequis pour la manipulation en environnement non structuré, l'inspection autonome ou la navigation en entrepôt. La quantification agressive réduit l'empreinte mémoire d'un facteur 4 à 8x par rapport au FP16, mais introduit une dégradation de précision qu'il faut valider tâche par tâche. NVIDIA positionne cette optimisation comme un élément central de sa stack Physical AI via l'écosystème Isaac ROS. La plateforme Jetson est déployée dans des centaines de produits robotiques en production, des AMR d'entrepôt aux bras collaboratifs et drones d'inspection industrielle. Sur le segment concurrent, Qualcomm pousse ses puces RB3/RB5 avec le moteur Hexagon NPU, et Hailo (Israël) vise spécifiquement l'inférence embarquée légère. La prochaine étape pour NVIDIA sera l'intégration native de GR00T N2, son modèle de fondation humanoïde, sur Jetson Thor, une puce annoncée pour les robots humanoïdes haut de gamme et attendue dans les déploiements pilotes courant 2025-2026.

IA physiqueOpinion
1 source
La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China
47Pandaily 

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

X Square Robot, startup chinoise spécialisée dans l'IA incarnée fondée en décembre 2023, a bouclé un tour de série B de près de 2 milliards de yuans (environ 276 millions de dollars) entre fin mars et début avril 2026, co-mené par le bras d'investissement stratégique de Xiaomi et Sequoia China. Cette levée intervient à peine trois mois après un tour A++ d'un milliard de yuans (138 millions de dollars) annoncé le 12 janvier, dans lequel ByteDance, Sequoia China, le Beijing Information Industry Development Fund et le Shenzhen Capital Group figuraient déjà comme investisseurs principaux. Meituan et Alibaba ont également rejoint le cap table, ce qui fait de X Square Robot la seule entreprise d'IA incarnée en Chine à avoir attiré les trois géants de l'internet chinois simultanément. La société a déjà commercialisé deux plateformes robotiques propriétaires : Quantum-1 et Quantum-2, ce dernier étant un humanoïde à roues à usage général. En moins de six mois d'existence publique, X Square Robot cumule plus de 400 millions de dollars levés, un rythme qui place la startup dans la même trajectoire de capitalisation accélérée que Figure AI ou Physical Intelligence aux États-Unis. La présence conjointe de Xiaomi, acteur hardware avec une chaîne d'approvisionnement robuste, et de ByteDance, maître de la donnée comportementale à grande échelle, suggère une stratégie d'intégration verticale : modèles de fondation incarnés alimentés par des volumes de données massifs, déployés sur du matériel maîtrisé. Le fait que le fonds IA dédié de Shenzhen Capital ait effectué ici son premier investissement signale également un intérêt institutionnel croissant pour la robotique généraliste en Chine. X Square Robot émerge dans un contexte de compétition intense entre Beijing et la Silicon Valley sur les modèles de fondation robotiques : Unitree, Agibot et Galbot d'un côté, Figure, 1X Technologies et Physical Intelligence de l'autre. La différenciation affichée de X Square repose sur des "modèles de fondation d'intelligence incarnée générale" développés en interne, une approche similaire à celle de Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les détails techniques des modèles, leurs benchmarks réels et les déploiements clients concrets restent à ce stade non divulgués, les annonces demeurant au stade du positionnement stratégique plutôt que du produit validé en conditions industrielles.

UELa capitalisation accélérée de X Square Robot par Xiaomi, ByteDance et Alibaba simultanément accentue la pression concurrentielle mondiale sur les projets européens de robots humanoïdes et de modèles de fondation incarnés, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source
GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente
48arXiv cs.RO 

GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente

Des chercheurs ont publié GIST (Grounded Intelligent Semantic Topology), un pipeline de traitement multimodal capable de transformer un nuage de points 3D capturé avec un équipement grand public en une carte de navigation sémantiquement annotée. Le système construit d'abord une carte d'occupation 2D, en extrait la topologie spatiale, puis y superpose une couche sémantique légère par sélection intelligente de keyframes. Quatre modules sont démontrés en aval : un moteur de recherche sémantique capable d'inférer des alternatives catégorielles quand la correspondance exacte échoue, un localisateur one-shot atteignant 1,04 mètre d'erreur de translation moyenne (top-5), un classificateur de zones segmentant le plan de sol en régions sémantiques de haut niveau, et un générateur d'instructions de navigation en langage naturel ancré visuellement dans des repères contextuels. Une évaluation in situ sur cinq participants affiche un taux de succès de navigation de 80 % en s'appuyant uniquement sur des instructions verbales. L'intérêt pour les intégrateurs industriels réside dans l'approche bas coût : GIST ne requiert pas de LiDAR haute précision, mais exploite un nuage de points mobile grand public, ce qui abaisse significativement le seuil d'entrée pour des déploiements en entrepôt, hôpital ou grande surface. La robustesse à la distribution longue des sémantiques visuelles, problème classique dans les environnements retail denses où les rayonnages changent fréquemment, est explicitement adressée, là où les VLMs (Vision-Language Models) courants échouent sur le grounding spatial en environnement encombré. Cela dit, l'évaluation reste exploratoire (N=5), et les résultats ne constituent pas une validation à l'échelle industrielle. Le papier s'inscrit dans un courant de recherche actif autour de la navigation sémantique pour l'IA incarnée, en concurrence directe avec des approches comme les semantic maps dérivées de NeRF ou les pipelines SLAM enrichis par LLM. Côté Europe, des acteurs comme Enchanted Tools (robots hospitaliers) ou Exotec (systèmes AMR pour entrepôts) pourraient trouver dans ce type de représentation topologique une brique utile pour la localisation fine et la génération d'instructions opérateur. L'article est disponible en preprint sur arXiv (2604.15495) et n'a pas encore été soumis à évaluation par les pairs au moment de sa publication.

UEDes acteurs français comme Enchanted Tools (robots hospitaliers) et Exotec (AMR entrepôts) pourraient exploiter ce type de cartographie sémantique bas coût pour améliorer la localisation fine et la génération d'instructions opérateur, sans investissement LiDAR haute précision.

RecherchePaper
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
49arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
Hesai dévoile sa stratégie et de nouveaux produits pour redéfinir l'infrastructure d'IA physique, de l'automobile à la robotique
50Pandaily 

Hesai dévoile sa stratégie et de nouveaux produits pour redéfinir l'infrastructure d'IA physique, de l'automobile à la robotique

Le 17 avril 2026, Hesai Technology (NASDAQ: HSAI, HKEX: 2525) a tenu son Technology Open Day annuel pour dévoiler le Picasso SPAD-SoC, présenté comme le premier chip LiDAR 6D full-color au monde. Ce circuit intègre à la fois la détection couleur RGB et la mesure de distance par temps de vol (TOF) au niveau pixel, générant directement des nuages de points colorés sans post-traitement. Le LiDAR traditionnel se limite aux trois dimensions spatiales XYZ ; le Picasso ajoute la teinte (RGB), portant à six les dimensions de perception simultanée. Son efficacité de détection photonique (PDE) dépasse 40 %, ce qui permet de détecter des objets plus lointains et de mieux performer en faible luminosité. Ce chip alimente la série ETX, plateforme LiDAR full-color dépassant 1 000 lignes, disponible en configurations 1 080, 2 160 et 4 320 lignes. En version haute résolution, le ETX affiche une portée jusqu'à 600 mètres, 400 mètres à 10 % de réflectivité, et est capable d'identifier une barrière de chantier à 300 mètres, un petit animal à 280 mètres, ou un bloc de bois à 150 mètres. La mise en production de masse est prévue pour le second semestre 2026, avec un déploiement sur des modèles phares attendu entre 2027 et 2028. L'annonce repositionne Hesai sur un marché en pleine redéfinition : le passage de la voiture autonome de niveau 2+ vers le L3 exige que le LiDAR passe du statut de composant optionnel à celui de système de sécurité critique. Les architectures véhicules basculent vers des configurations multi-LiDAR (typiquement 3 à 6 capteurs pour une couverture 360°), ce qui démultiplie les volumes par véhicule. Le fait que Hesai soit aujourd'hui le seul fabricant de LiDAR à développer en interne l'intégralité de ses sept composants clés, lasers, détecteurs, drivers, TIA, ADC, DSP et contrôleurs, lui confère une autonomie verticale rare dans un secteur très dépendant des fournisseurs asiatiques de semi-conducteurs. Avec 21 puces certifiées AEC-Q, 230 millions d'unités livrées cumulées et des commandes constructeurs dépassant les 6 millions d'unités pour les seuls produits basés sur le Fermi C500 (lancé en novembre 2025 sur architecture RISC-V), Hesai présente des métriques de commercialisation réels, pas seulement des démonstrations de laboratoire. Fondée à Shanghai, Hesai a construit son écosystème chip en cinq générations de R&D. La dénomination "Picasso", référence au peintre cubiste et à sa maîtrise de la représentation multidimensionnelle, marque symboliquement le pivot stratégique de l'entreprise vers ce qu'elle appelle l'"intelligence spatiale", matérialisé par le nouveau produit Kosmo (hardware IA spatial) et une direction inédite autour de modules d'alimentation pour la robotique. Sur ce dernier segment, Hesai entre en compétition directe avec des acteurs comme Ouster (désormais Ouster-Velodyne fusionné avec Sense Photonics), Luminar, ou encore RoboSense, qui ciblent tous la robotique humanoïde et les AMR industriels. Hesai prévoit que ses livraisons cumulées dépasseront 300 millions d'unités d'ici fin 2026. Les prochaines étapes attendues concernent les homologations L3 par les constructeurs partenaires et les premières intégrations Kosmo dans des environnements de test physique AI, mais aucun client ni calendrier précis n'a été communiqué sur ces deux points.

InfrastructureActu
1 source