Aller au contenu principal

Dossier IA physique & VLA

516 articles

L'IA physique : modèles vision-langage-action qui contrôlent des corps robotisés. État de l'art académique (CoRL, RSS) et premières productions industrielles.

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
1arXiv cs.RO IA physiquePaper

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

1 source
EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
2arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

IA physiqueOpinion
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques
4arXiv cs.RO 

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (référence 2606.13578) un article présentant LabVLA, un modèle Vision-Language-Action conçu spécifiquement pour l'exécution autonome de protocoles expérimentaux en laboratoire scientifique. Le système repose sur deux briques : RoboGenesis, un moteur de génération de données par simulation qui décompose des flux de travail en compétences atomiques, valide les exécutions et exporte des démonstrations structurées pour différents profils de robots ; et LabVLA lui-même, dont l'entraînement se déroule en deux étapes -- un préentraînement par tokenisation d'actions FAST sur le backbone Qwen3-VL-4B-Instruct, suivi d'un affinage par flow matching avec un expert d'actions de type DiT (Diffusion Transformer) sous isolation des connaissances. Sur le benchmark LabUtopia, LabVLA affiche le taux de succès moyen le plus élevé parmi tous les systèmes testés, en distribution comme hors distribution. L'enjeu est structurant : les IA actuelles peuvent lire de la littérature scientifique, générer des hypothèses et planifier des protocoles, mais l'exécution physique au banc de laboratoire reste humaine. Les instruments spécialisés, les liquides transparents (difficiles à percevoir pour les capteurs RGB classiques) et les séquences protocolaires rigides créent des défis absents des benchmarks domestiques sur lesquels la plupart des VLA existants -- Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont été entraînés. Si LabVLA tient ses promesses hors simulation, cela ouvrirait la voie à une automatisation crédible des laboratoires de biologie, chimie ou pharmacologie, un marché adressé aujourd'hui par des acteurs comme Automata, Opentrons ou Hamilton Robotics. La course aux VLA généralistes a démarré en 2024 avec Octo, puis OpenVLA et Pi-0, calibrés principalement sur des tâches ménagères. Le sim-to-real gap en milieu laboratoire reste un obstacle non résolu : les résultats présentés dans ce preprint sont entièrement issus de simulation -- LabUtopia est lui-même un environnement virtuel -- et aucun déploiement sur robot physique n'est rapporté. La robustesse sur de vraies paillasses, avec contaminations, vibrations et variabilités instrumentales, reste à démontrer. Les auteurs annoncent comme prochaines étapes l'extension des profils de robots compatibles avec RoboGenesis et des évaluations sur hardware réel.

UEImpact indirect pour les laboratoires pharmaceutiques et biotechs européens si le sim-to-real gap est comblé, mais aucun déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
5arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source
À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique
6Robotics Business Review 

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

X Square Robot a mis en open source XRZero-G0, un système de collecte de données robotiques combinant un casque VR PICO 4 à tracking spatial inside-out, une caméra frontale et deux caméras poignet, ainsi qu'une paire de grippers physiques duals, un gripper en H à actionnement par pression et un gripper en G à entraînement digital. Le dispositif assure une estimation de pose 6-DOF à précision millimétrique et intègre un parsing spatiotemporel embarqué pour synchroniser flux visuels, données de trajectoire et annotations langagières. En parallèle, la société publie le G0-Dataset : 2 000 heures de démonstrations humaines multimodales, disponibles sur HuggingFace avec le code source sur GitHub. Sous conditions expérimentales contrôlées, X Square Robot annonce une réduction des besoins en données réelles pouvant atteindre un facteur 20x : environ 10 épisodes collectés sans robot, combinés à un seul épisode sur robot réel, suffiraient à égaler les performances d'un entraînement purement issu de données robotiques. L'enjeu est direct pour les équipes qui développent des politiques de manipulation dextre : le goulot d'étranglement de l'embodied AI n'est pas le compute, c'est la donnée de qualité à grande échelle. XRZero-G0 formalise ce que le secteur cherche depuis plusieurs années, une pipeline fermée "collecte-inspection-entraînement-évaluation" qui filtre automatiquement les trajectoires invalides via cinématique inverse corps entier avec contraintes de collision et de limites articulaires, et valide par rejeu réel sur robot avant d'intégrer les épisodes à l'entraînement. Si les chiffres de réduction 20x se confirment sur des tâches variées hors conditions de labo, cela change structurellement l'économie de déploiement des VLA (Vision-Language-Action models) : les industriels pourraient composer leurs datasets sans immobiliser de flotte robotique pendant des semaines. Le transfert cross-embodiment revendiqué, démontration humaine transférable à des plateformes non vues à l'entraînement, reste la promesse la plus forte, et la plus à vérifier indépendamment. X Square Robot s'inscrit dans un mouvement plus large de standardisation de la collecte de données robotiques, aux côtés d'initiatives comme Open-X Embodiment (Google DeepMind, 2023), DROID (Berkeley, 2024) ou les efforts de Physical Intelligence autour de pi0. Le positionnement open source du G0-Dataset rappelle la stratégie d'Hugging Face avec LeRobot, visant à créer une infrastructure commune de benchmarking. Aucun concurrent européen direct n'est impliqué ici, bien qu'Enchanted Tools et Wandercraft opèrent sur des segments adjacents (interaction et mobilité bipède) qui pourraient bénéficier de telles ressources de préentraînement. Les prochaines étapes annoncées incluent l'utilisation du dataset pour du préentraînement à grande échelle et des expériences de transfert cross-embodiment, sans timeline commerciale précisée, ce projet reste pour l'instant dans le périmètre recherche.

UELes équipes R&D françaises et européennes (Enchanted Tools, Wandercraft) pourraient exploiter le G0-Dataset open source pour le préentraînement de leurs modèles VLA, réduisant potentiellement leur dépendance à la collecte de données robotiques en flotte, si le facteur 20x se confirme hors conditions contrôlées.

IA physiqueOpinion
1 source
Des voitures électriques aux humanoïdes : le PDG de Xpeng prend la tête de la division robotique
7SCMP Tech 

Des voitures électriques aux humanoïdes : le PDG de Xpeng prend la tête de la division robotique

He Xiaopeng, président-directeur général de Xpeng, constructeur chinois de véhicules électriques coté à New York, a annoncé mercredi 11 juin 2026 dans un mémo interne révélé par le South China Morning Post qu'il prendrait personnellement la direction du département robotique de l'entreprise. Ce pivot de gouvernance intervient à quelques mois d'une phase de production de masse des humanoïdes Xpeng, que He décrit comme un "tournant" stratégique dans la trajectoire de la firme vers le "physical AI", terme qu'il utilise pour désigner la fusion entre intelligence artificielle embarquée et systèmes physiques autonomes. La décision d'un PDG de descendre directement au niveau d'un département opérationnel est rare dans l'industrie automobile, et elle envoie un signal fort aux investisseurs et aux équipes d'ingénierie : la robotique humanoïde n'est plus un projet de R&D périphérique chez Xpeng, mais un axe de croissance prioritaire. Pour les intégrateurs industriels et les décideurs B2B, cela suggère une accélération du calendrier de commercialisation et une consolidation des ressources autour du programme humanoïde, avec un soutien en capital et en légitimité que peu de labs robotiques indépendants peuvent égaler. Xpeng s'inscrit dans une vague de constructeurs automobiles chinois qui convertissent leurs capacités de fabrication à grande échelle en avantage compétitif pour la robotique -- une trajectoire similaire à celle de BYD et SAIC qui investissent dans des joint-ventures robotiques. Ses concurrents directs sur le segment humanoïde incluent UBTECH, Fourier Intelligence et Unitree en Chine, et Tesla avec Optimus à l'international. La prochaine étape visible sera l'annonce officielle des volumes de production et des premiers clients industriels, probablement lors d'un événement de communication au second semestre 2026.

Chine/AsieOpinion
1 source
Xingyuanzhi Robot lève 1 milliard de yuans en 10 mois pour son IA physique intégrée
8Pandaily 

Xingyuanzhi Robot lève 1 milliard de yuans en 10 mois pour son IA physique intégrée

Fondée en septembre 2025 à Pékin et incubée par la Beijing Academy of Artificial Intelligence (BAAI), Xingyuanzhi Robot a levé 1 milliard de yuans (environ 140 millions de dollars) en moins de dix mois, dont la dernière tranche bouclée début juin 2026. L'entreprise compte une cinquantaine d'employés dont plus de 90 % en R&D, et a déjà généré plus de 10 millions de yuans de chiffre d'affaires en 2025 en livrant plusieurs centaines d'unités de sa plateforme T5, un contrôleur de domaine haute performance couplé à des modèles d'IA embarquée capables d'inférence en temps réel sur edge, sans dépendance au cloud. Son CEO, Liu Dong, ancien directeur général de la conduite autonome chez JD.com, est épaulé par le co-fondateur Mu Yadong, professeur à l'Université de Pékin et chercheur au BAAI spécialisé en IA incarnée. Parmi les clients déjà acquis figurent AgiBot, l'un des principaux développeurs chinois de robots humanoïdes, ainsi que Beijing Yizhuang Robot, avec qui un partenariat stratégique représente un carnet de commandes annoncé à plus de 500 millions de yuans sur trois ans. Sur le segment des équipements industriels, Xingyuanzhi développe avec EP Equipment, fabricant de chariots élévateurs électriques, des solutions de chargement et déchargement autonomes basées sur son système RoboBrain Pro. Le modèle économique de Xingyuanzhi est délibérément "brain-only" : l'entreprise ne fabrique aucun châssis ni actionneur, et se positionne exclusivement comme fournisseur de la couche intelligence pour des intégrateurs et fabricants tiers. Ce positionnement est directement calqué sur la stratégie de Huawei dans le véhicule électrique, où le groupe fournit la plateforme logicielle et les systèmes ADAS sans produire de voitures. Pour les industriels et intégrateurs robotiques, ce modèle signifie une possible convergence vers un middleware standardisé de l'IA incarnée en Chine, réduisant le coût et la complexité d'intégration de la perception et du contrôle dans des robots hétérogènes. La capacité à déployer de l'inférence sur edge sans infrastructure cloud est un argument opérationnel concret dans des environnements d'entrepôts ou de lignes de production à connectivité contrainte. Reste à noter que les métriques commerciales annoncées, notamment le carnet de commandes Yizhuang Robot et les volumes T5 livrés, proviennent de communications de la startup elle-même et n'ont pas été vérifiées indépendamment. Dans le contexte de la course chinoise aux robots humanoïdes et à l'IA physique, Xingyuanzhi arrive dans un écosystème déjà dense : Unitree, AgiBot, LimX Dynamics et Agilex côté hardware, tandis que des plateformes logicielles comme Zhiyuan Robotics et des laboratoires universitaires cherchent également à occuper la couche middleware. L'angle BAAI donne à Xingyuanzhi une crédibilité académique forte et un accès aux réseaux de financement publics pékinois. La levée d'un milliard de yuans en dix mois traduit l'appétit des investisseurs chinois pour la thèse de l'IA incarnée comme secteur stratégique, dans un contexte de politiques industrielles nationales orientées vers l'autonomisation robotique des usines et entrepôts. Les prochaines étapes probables incluent le passage à l'échelle de la plateforme T5, l'extension aux marchés de la logistique et de la fabrication, et potentiellement une consolidation via des partenariats avec des équipementiers plus larges.

Chine/AsieOpinion
1 source
Agile Robots présente sa technologie de contrôle de force, ses humanoïdes et son IA physique au salon Robot Technology Japan
9Robotics & Automation News 

Agile Robots présente sa technologie de contrôle de force, ses humanoïdes et son IA physique au salon Robot Technology Japan

Agile Robots a profité du salon Robot Technology Japan (RTJ) 2026, tenu à Nagoya du 9 au 12 juin, pour exposer l'étendue de son portefeuille : systèmes de contrôle de force, robots collaboratifs, plateformes humanoïdes et automation pilotée par l'IA physique. La société, dont le siège social est à Munich, positionne cette démonstration comme un signal de son ambition d'accélération sur les marchés asiatiques, notamment japonais, réputé pour ses exigences élevées en matière de précision et de fiabilité industrielle. Aucun chiffre de déploiement ni spécification technique détaillée n'a été communiqué dans l'annonce initiale, ce qui situe cet événement clairement du côté teaser plutôt que lancement produit. L'enjeu pour l'industrie est la démonstration que le contrôle de force intégré peut coexister avec des capacités d'IA incarnée à l'échelle réelle, un double pari que peu d'acteurs ont concrétisé hors laboratoire. Pour les intégrateurs systèmes et les décideurs industriels, la question centrale reste l'écart entre démo salon et déploiement terrain : RTJ est un terrain de validation marketing, pas une preuve de maturité opérationnelle. Agile Robots, fondée en 2016 et soutenue notamment par Alibaba, s'est d'abord imposée avec ses cobots Diana, dotés d'une détection force-couple intégrée sur chaque axe, ciblant les segments d'assemblage fin et de manipulation délicate. La société concurrence Universal Robots, Fanuc et Techman Robot sur le segment cobot, tout en cherchant à monter en gamme vers l'humanoïde face à Figure, 1X ou Agility Robotics. Le marché japonais, dominé par Fanuc, Yaskawa et DENSO, représente un test de crédibilité technique autant qu'une opportunité commerciale.

UEAgile Robots, dont le siège est à Munich, cherche à valider sa technologie de contrôle de force et sa plateforme humanoïde sur le marché japonais exigeant, ce qui pourrait renforcer sa crédibilité et sa position concurrentielle en Europe face aux acteurs asiatiques.

FR/EU ecosystemeOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
10arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances
11arXiv cs.RO 

Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances

Un article de synthèse déposé sur arXiv (identifiant 2606.12207) en juin 2026 cartographie les méthodes de construction de benchmarks pour l'intelligence incarnée, un domaine couvrant désormais la navigation, l'assistance domestique, la manipulation robotique, la conduite autonome, les agents aériens et le contrôle par grands modèles multimodaux. Les auteurs structurent leur analyse autour d'un pipeline en cinq étapes : définition des exigences et des tâches, acquisition des données, nettoyage et annotation, génération de la suite d'évaluation avec définition des métriques, puis exécution avec retour diagnostique. Pour chaque étape, l'étude compare la curation manuelle, l'automatisation traditionnelle, l'assistance par modèles de fondation et les workflows en boucle fermée pilotés par agents. Les coûts de construction sont analysés selon six axes : main-d'oeuvre humaine, acquisition de données et d'assets, calcul et simulation, validation et débogage, gouvernance et maintenance, et risque de rework. La conclusion centrale remet en cause l'hypothèse selon laquelle automatiser la construction de benchmarks réduirait mécaniquement les coûts. Les auteurs montrent qu'elle déplace les dépenses vers la validation, l'auditabilité, la gestion de versions et la gouvernance à long terme. Pour les équipes de recherche et les industriels qui s'appuient sur ces benchmarks pour comparer des systèmes (bras manipulateurs, humanoïdes, AMR), cela signifie qu'un benchmark peu coûteux à générer peut devenir onéreux à maintenir. Le risque de rework, souvent sous-estimé, est identifié comme le poste de coût le plus variable selon la stratégie de construction choisie. Ce survey s'inscrit dans un contexte de prolifération rapide des systèmes incarnés où les évaluations sur jeux de données statiques ne suffisent plus à capturer la complexité d'environnements dynamiques réels. La question est directement pertinente pour les VLA (Vision-Language-Action models) en cours de déploiement chez Figure, 1X, Agility ou Physical Intelligence (Pi-0), dont les performances dépendent de benchmarks robustes et maintenables. Le cadre d'analyse proposé s'applique aux initiatives de benchmarking publiées par Google DeepMind, Meta FAIR ou le Stanford HAI. La thèse centrale : les progrès en évaluation robotique dépendront autant de la qualité des pipelines de construction, auditables et actualisables, que de la taille des suites de tests elles-mêmes.

RecherchePaper
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
12arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique
13Robotics Business Review 

NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique

NEURA Robotics GmbH, basée à Metzingen en Allemagne, a annoncé le 10 juin 2026 une levée de fonds de Série C pouvant atteindre 1,4 milliard de dollars, financée par un consortium d'investisseurs technologiques dont Tether, Qualcomm et Amazon. La startup, fondée en 2019 par David Reger, commercialise une gamme couvrant des bras robotiques légers, des robots mobiles (série MAV), des robots humanoïdes (modèle 4NE1) et un manipulateur mobile polyvalent baptisé MiPA, ciblant principalement la fabrication et la supply chain. Ce tour de table vient financer deux axes prioritaires : le développement de la plateforme "Neuraverse", décrite comme un écosystème ouvert d'IA physique permettant aux robots d'apprendre collectivement entre déploiements, et l'expansion d'un réseau mondial de "NEURA Gyms", des environnements d'entraînement à grande échelle combinant interaction sensorielle réelle, simulation et pipelines d'apprentissage multimodal. Il s'agit à ce stade d'une annonce de financement, pas d'un produit expédié ni d'un déploiement industriel documenté à grande échelle. Sur le fond, une levée de 1,4 milliard de dollars pour un acteur européen de la robotique humanoïde est un signal fort : les capitaux qui se concentraient jusqu'ici quasi exclusivement sur Figure AI, Agility Robotics, 1X ou Tesla Optimus commencent à irriguer des challengers hors Silicon Valley. Pour les intégrateurs et les décideurs industriels, la question concrète est celle du sim-to-real gap, que NEURA tente de réduire via son partenariat avec Dassault Systèmes annoncé en avril 2026. Le concept de Neuraverse, où plusieurs robots partagent une intelligence distribuée entre déploiements, s'inscrit dans une tendance plus large des architectures VLA (Vision-Language-Action) à l'échelle fleet, comme l'illustre Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Les métriques de performance annoncées restent cependant absentes du communiqué, ce qui rend toute comparaison technique avec les concurrents impossible à ce stade. NEURA Robotics a bâti depuis 2019 un réseau de partenaires industriels structurant : Bosch pour le développement logiciel des humanoïdes (janvier 2026), Dassault Systèmes pour la simulation, mais aussi Schaeffler, Kawasaki, Delta Electronics, Qualcomm et NVIDIA pour l'infrastructure edge AI et les composants. Ce positionnement d'écosystème décentralisé tranche avec l'approche verticalement intégrée de Figure ou de Tesla. En Europe, NEURA est aujourd'hui l'acteur humanoïde le mieux capitalisé, loin devant des startups comme Enchanted Tools (France) ou Wandercraft, qui opèrent sur des segments différents (cobots expressifs et exosquelettes médicaux). Les prochaines étapes déclarées portent sur l'accélération du déploiement à l'échelle industrielle et l'ouverture de nouveaux NEURA Gyms à l'international, sans calendrier précis communiqué.

UENEURA Robotics, acteur allemand désormais le humanoïde le mieux capitalisé d'Europe avec 1,4 Md$, implique directement Dassault Systèmes (France) comme partenaire stratégique simulation et repositionne l'UE comme concurrent crédible face aux leaders américains de la robotique humanoïde industrielle.

FR/EU ecosystemeOpinion
1 source
BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique
14arXiv cs.RO 

BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique

Des chercheurs ont publié BadRobot (arXiv:2407.20242, juillet 2024, v5), un cadre d'attaque ciblant les agents IA incarnés (embodied AI) : des robots et systèmes physiques dont la planification de tâches est pilotée par un grand modèle de langage. L'attaque exploite trois vecteurs distincts : la manipulation du LLM embarqué via des interactions vocales standard, le désalignement structurel entre les sorties linguistiques du modèle et les actions physiques réellement exécutées, et les comportements dangereux involontaires causés par des lacunes dans les connaissances du monde encodées dans le modèle. Pour évaluer la menace, les auteurs ont constitué un benchmark de requêtes d'actions physiques malveillantes, testé contre trois frameworks embodied AI de référence : VoxPoser, Code as Policies et ProgPrompt. Les expériences montrent que ces trois systèmes peuvent être amenés à exécuter des comportements nuisibles dans le monde physique, sans nécessiter de modification matérielle ni d'accès privilégié au système. Ce travail pointe un angle mort structurel : les techniques de jailbreaking, jusqu'à présent évaluées sur des sorties textuelles, produisent des conséquences physiques irréversibles lorsque le LLM pilote un effecteur. Le désalignement documenté est systémique, car les guardrails de sécurité sont appliqués à la couche linguistique sans validation cohérente lors de la planification motrice ou de l'exécution de tâches. Pour un intégrateur industriel déployant un robot manipulateur ou un AMR guidé par LLM, cela signifie que les mécanismes de conformité conçus pour les chatbots sont insuffisants en contexte physique. La démonstration sur trois frameworks activement utilisés en recherche et en prototypage industriel renforce la portée opérationnelle de l'alerte. VoxPoser (2023) et Code as Policies (Google, 2022) ont popularisé l'utilisation des LLM comme planificateurs de tâches haut niveau en robotique, tandis que ProgPrompt (2022) ciblait les robots de service autonomes. BadRobot paraît alors que des systèmes commerciaux comme Figure 02, l'Optimus de Tesla ou les robots Agility déployés chez Amazon commencent à intégrer des pipelines LLM en production réelle, rendant la surface d'attaque concrète. Aucun acteur français ou européen n'est directement mentionné dans l'étude, mais des entreprises comme Enchanted Tools (Mirokaï) ou Pollen Robotics (Reachy), qui explorent l'intégration de LLM dans leurs plateformes, sont exposées aux mêmes vecteurs. Les auteurs ont mis leur code en accès libre sur GitHub, ouvrant la voie à des reproductions indépendantes et au développement de contre-mesures architecturales spécifiques à l'embodied AI.

UEEnchanted Tools (Mirokaï) et Pollen Robotics (Reachy), deux acteurs français intégrant des LLM dans leurs plateformes robotiques, sont explicitement cités comme exposés aux mêmes vecteurs d'attaque documentés par BadRobot.

RechercheOpinion
1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
15arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
16arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

IA physiqueOpinion
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
17arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

IA physiqueOpinion
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
18arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action
19arXiv cs.RO 

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

Un préprint déposé sur arXiv le 10 juin 2026 (identifiant 2606.10568) présente VeriSpace, un vérificateur d'actions tridimensionnel conçu pour renforcer la fiabilité des modèles VLA (Vision-Language-Action) en robotique de manipulation. Ces modèles interprètent une scène visuelle et un objectif en langage naturel pour générer des commandes motrices, mais souffrent d'une limite structurelle : la prédiction se fait en un seul coup, sans réévaluation avant exécution. La moindre imprécision sur la position de préhension peut provoquer un échec de saisie, une collision ou une progression erronée dans la tâche. VeriSpace propose une vérification au moment du test (test-time verification) : le système génère plusieurs actions candidates que le vérificateur évalue avant d'en sélectionner une pour exécution. Il s'appuie sur deux composants : un encodage de scène à double chemin intégrant la géométrie 3D explicite (Dual-Path 3D-Injected Scene Encoding), et un raisonnement spatial sur les relations géométriques, la validité de chaque action et sa progression attendue vers l'objectif. Les expériences couvrent des benchmarks publics et des tâches de manipulation réelles, avec des gains rapportés en distribution et hors distribution, bien que les valeurs précises ne figurent pas dans le résumé du preprint. Cette approche répond à une fragilité bien documentée : les VLA, malgré les progrès de modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), restent vulnérables dès que la scène présente une ambiguïté géométrique subtile. La vérification au test-time n'est pas une idée nouvelle, mais VeriSpace la rend opérationnelle sur des scènes 3D réelles, là où les approches précédentes peinent à distinguer des actions candidates géométriquement proches aux conséquences pourtant très différentes. Son mode d'intégration plug-in, compatible avec les politiques VLA existantes sans modification, facilite l'adoption dans des pipelines déjà déployés. Pour les équipes robotique industrielle, c'est un mécanisme potentiellement utile pour réduire les taux d'échec sans requalifier les modèles sous-jacents. Le contexte est celui d'une compétition intense autour de la robustesse des VLA. Physical Intelligence, Google DeepMind (RT-2), NVIDIA et plusieurs équipes académiques de Berkeley, Stanford et CMU investissent massivement dans la généralisation et la réduction du sim-to-real gap. La vérification d'actions au test-time est une direction en émergence, distincte du fine-tuning continu ou de l'augmentation de données d'entraînement. VeriSpace reste pour l'instant au stade de préprint académique, sans annonce de déploiement industriel ni partenariat commercial associé. Les prochaines étapes naturelles seraient une évaluation chiffrée sur des benchmarks standardisés comme RoboSuite ou Open X-Embodiment, et une intégration dans des pipelines open-source pour validation par la communauté.

IA physiqueOpinion
1 source
Standard Bots lève 200 millions de dollars pour développer sa présence dans l'industrie manufacturière américaine
20Robotics Business Review 

Standard Bots lève 200 millions de dollars pour développer sa présence dans l'industrie manufacturière américaine

Standard Bots, fabricant américain de bras robotiques industriels basé à Glen Cove (New York), a annoncé le 9 juin 2026 une levée de fonds de 200 millions de dollars en Série C, portant sa valorisation à un milliard de dollars. Le tour a été mené par RoboStrategy, un fonds fermé coté spécialisé en robotique, avec la participation d'investisseurs existants. La société prévoit d'utiliser ce capital pour agrandir son site de production de Glen Cove à 70 000 pieds carrés (environ 6 500 m²), où elle assemble l'intégralité de sa chaîne de valeur sur sol américain. Standard Bots commercialise des bras robotiques avec des charges utiles de 7 à 30 kg, ainsi que des humanoïdes industriels, tous programmables par démonstration sans ligne de code. Les applications couvertes incluent l'usinage, la soudure, la palettisation, le meulage, le vissage, la distribution, l'assemblage et l'inspection. La société affirme avoir déployé ses robots auprès de centaines d'entreprises américaines dans presque tous les États, des grands comptes Fortune 100 aux PME manufacturières. La levée intervient dans un contexte de réindustrialisation américaine sous tension compétitive forte. Standard Bots avance un chiffre structurant : la Chine a installé neuf fois plus de robots industriels que les États-Unis l'an dernier, davantage que le reste du monde combiné. Le pays est passé de 20 millions d'emplois manufacturiers en 1979 à 13 millions aujourd'hui, un recul que Standard Bots attribue en partie à l'absence d'investissement national en automatisation. La société revendique une trajectoire permettant de représenter 10% des nouveaux déploiements de robots industriels américains d'ici à l'an prochain -- un objectif ambitieux dont aucun audit tiers n'est mentionné. L'argument différenciant central est l'apprentissage par démonstration ("physical AI"), qui réduit le temps d'intégration sur le terrain sans nécessiter d'intégrateur spécialisé -- un point de douleur réel pour les manufacturiers de taille intermédiaire. Standard Bots a été fondée par Evan Beard, qui cumule les rôles de PDG et d'ingénieur en chef -- une configuration de fondateur-technicien rare dans l'industrie robotique traditionnellement dominée par des groupes comme FANUC, KUKA (Midea), ABB et Yaskawa. La société se positionne explicitement contre les équipements d'origine chinoise : elle conseille la Maison Blanche et le Congrès sur une stratégie nationale robotique, avec parmi ses recommandations une interdiction d'importation de robots et composants industriels chinois -- ce qui place Standard Bots à l'intersection du lobbying industriel et de la politique commerciale américaine. Face à elle, on trouve aussi des acteurs "AI-native" comme Machina Labs ou Veo Robotics dans le segment programmation sans code, et des startups en humanoides industriels comme Figure ou Apptronik. Les prochaines étapes annoncées se limitent à la montée en cadence de production à Glen Cove ; aucun partenariat ni déploiement pilote à grande échelle n'est précisé dans cette annonce.

UELa politique de réindustrialisation américaine et le lobbying pour interdire les robots industriels chinois pourraient alimenter des débats similaires en Europe sur la dépendance aux équipementiers asiatiques (KUKA/Midea, Yaskawa), sans impact direct immédiat sur la France ou l'UE.

IndustrielActu
1 source
La Chine peut apporter une contribution exceptionnelle dans la prochaine décennie, selon un ex-responsable de l'ONU sur l'IA et la robotique
21Pandaily 

La Chine peut apporter une contribution exceptionnelle dans la prochaine décennie, selon un ex-responsable de l'ONU sur l'IA et la robotique

Sam Daws, ancien haut fonctionnaire des Nations Unies et directeur du Project on Peace, Security, and AI à l'Université d'Oxford, a participé à un dialogue stratégique organisé par le Chongyang Institute for Financial Studies de l'Université Renmin de Chine, dans le cadre de la série Mingde Strategic Dialogue. Il a positionné la Chine comme détenant une "position de leadership mondial" en robotique humanoïde et en IA incarnée (embodied AI), tout en reconnaissant que les États-Unis conservent une avance sur la conception des puces avancées. L'avantage distinctif chinois résiderait, selon lui, dans sa capacité à intégrer l'intelligence incarnée à la fabrication industrielle avancée via l'initiative nationale "AI+". Sur la question de l'IA militaire, Daws a mis en garde contre ce qu'il nomme "l'illusion de la précision algorithmique" : les environnements de combat restent intrinsèquement incertains, avec des données incomplètes et des conditions dynamiques, ce qui rend tout déploiement autonome sans contrôle humain réel particulièrement risqué. Il a par ailleurs cité le KazLLM du Kazakhstan -- un grand modèle de langage en langue kazakhe -- comme exemple réussi de développement d'IA localisée dans le contexte des pays du Sud Global. Ce dialogue illustre un glissement dans le débat autour de la souveraineté technologique : les puissances intermédiaires refusent de plus en plus de choisir entre blocs technologiques rivaux, et exigent des infrastructures fiables, une puissance de calcul accessible et des standards interopérables. Pour l'industrie robotique, la thèse de Daws est notable : il soutient que la transition de l'"IA informationnelle" vers l'"IA agentique" -- des systèmes capables d'exécuter des tâches complexes de manière autonome ou semi-autonome -- représente la prochaine rupture structurelle. Si la Chine réussit à convertir son avance dans l'integration manufacturing-embodied AI en standards de facto, les intégrateurs et les OEM mondiaux pourraient se retrouver contraints d'adopter des architectures chinoises pour accéder aux marchés émergents. Le contexte géopolitique éclaire la portée du discours : Daws a évoqué des discussions en cours entre la Chine, l'ASEAN et l'UE sur l'interopérabilité robotique, ainsi qu'une coopération trilatérale potentielle Chine-Japon-Corée du Sud sur les standards des robots humanoïdes -- un signal d'alignement régional à surveiller face à la dynamique américaine autour de Boston Dynamics, Figure AI ou 1X Technologies. Il a identifié l'Organisation des Nations Unies pour le développement industriel (ONUDI/UNIDO) comme plateforme clé pour accompagner la montée en gamme industrielle dans l'ère de l'IA. Il convient de noter que ce compte-rendu reste celui d'un dialogue d'experts, sans annonce de produit ni déploiement concret : l'enjeu ici est normatif et géopolitique, pas opérationnel.

UEDes discussions Chine-ASEAN-UE sur l'interopérabilité robotique sont évoquées, avec un risque que des standards de facto chinois s'imposent aux intégrateurs et OEM européens souhaitant accéder aux marchés émergents.

Chine/AsieOpinion
1 source
IA physique : le middleware robotique comme couche d'intégration
22arXiv cs.RO 

IA physique : le middleware robotique comme couche d'intégration

Un article de recherche déposé sur arXiv le 9 juin 2026 (arXiv:2606.09416) propose de redéfinir formellement le rôle du middleware robotique à l'ère de l'IA physique. Les auteurs partent d'un constat : les politiques apprises, les planificateurs et les modèles vision-langage-action (VLA) sont désormais des participants causaux sur le chemin de contrôle des robots déployés, mais la couche logicielle qui les intègre n'a jamais reçu de nom précis dans la littérature robotique. Ils empruntent le terme "harness" à la communauté des agents LLM, où il désigne le système externe qui orchestre les outils, gère l'état, borne les ressources et enregistre l'exécution, et soutiennent que le middleware robotique est exactement ce harness. La différence avec un harness logiciel classique est structurelle : un modèle VLA ne franchit pas une seule frontière, il en traverse trois simultanément, ses commandes modifient la trajectoire (contrôle), son temps d'inférence perturbe l'ordonnancement (calcul), et son volume de données sollicite la bande passante réseau (communication). L'enjeu pour les intégrateurs et les décideurs industriels est concret. Aujourd'hui, les trois fonctions d'enforcement manquantes, que les auteurs nomment Projection (filtrage de chaque sortie du modèle à l'émission), Isolation (encadrement du slot d'exécution et de transmission), et Transfer (repli sur une baseline vérifiée en cas d'échec), existent déjà dans les systèmes déployés, mais sous forme de code applicatif artisanal, reconstruit à chaque projet. Cette fragmentation augmente les coûts d'intégration et crée des surfaces de défaillance non standardisées. Le papier ne présente pas de benchmark de performance ni de déploiement validé en production : c'est un cadre conceptuel et une proposition de standardisation, pas un produit livré. La proposition concrète est un "ROS 2 Harness Profile", un artefact de déploiement qui encapsule la région de sortie déclarée d'un modèle IA, son budget d'inférence et son régime opérationnel, tandis que le middleware (ROS 2, DDS, Zenoh) en assure l'application. Cette démarche s'inscrit dans un mouvement plus large de formalisation des couches d'intégration pour les systèmes robotiques apprenants, auquel contribuent aussi des travaux autour de ROS 2 Nav2, de micro-ROS pour les systèmes embarqués, et des frameworks d'évaluation de robustesse comme ceux proposés par des acteurs tels qu'Intrinsic (filiale Alphabet) ou des laboratoires académiques travaillant sur le sim-to-real. La prochaine étape logique serait une implémentation de référence et une validation sur un système physique, ce que les auteurs n'ont pas encore publié.

RecherchePaper
1 source
Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée
23arXiv cs.RO 

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

Un article soumis en juin 2026 sur arXiv (2606.08520) propose une méthode graduée pour convertir des modèles de vision-langage généralistes (VLMs) en politiques de contrôle robotique (VLAs). Les auteurs identifient un double fossé qui explique les échecs du fine-tuning direct : un fossé visuel (les VLMs sont entraînés sur des images internet, pas sur des scènes de manipulation robot) et un fossé d'objectif (passer de la compréhension de texte à la prédiction de commandes motrices). Pour combler ces deux ruptures progressivement, ils introduisent les "embodied trajectory-coupled data" (ETC), des paires vision-langage extraites des mêmes trajectoires et environnements visuels que ceux utilisés pour l'entraînement à l'action, mais conservant un objectif de supervision en langage naturel. La recette d'entraînement se déroule en trois étapes séquentielles : Distribution Bridging (adaptation sémantique au domaine incarné), Objective Bridging (transition progressive vers la prédiction d'action), puis Retentive Adaptation (spécialisation au domaine de déploiement cible). Les expériences sont validées en simulation et sur robot réel, sans que l'abstract ne précise le matériel ni les benchmarks utilisés. La contribution centrale n'est pas un nouveau modèle mais une stratégie de curriculum d'entraînement qui conteste une hypothèse répandue dans la communauté : que le fine-tuning direct sur données d'action suffit, comme cela fonctionne pour d'autres domaines (vision médicale, OCR). Le papier montre expérimentalement que ce raccourci provoque une dégradation des généralisations acquises en préentraînement, phénomène particulièrement prononcé dans les architectures multimodales. Pour les intégrateurs, l'enjeu est concret : les ETC data peuvent être générées depuis des trajectoires déjà enregistrées sans coût de collecte supplémentaire, et les mélanger avec une faible quantité de données d'action permettrait de généraliser à de nouvelles conditions visuelles et linguistiques sans démonstrations supplémentaires, ce qui adresse directement le problème du long-tail en déploiement industriel. Ce travail s'inscrit dans la dynamique ouverte par RT-2 (Google DeepMind, 2023) qui a lancé la course aux VLAs, avec des modèles comme pi-zéro (Physical Intelligence), OpenVLA, ou RoboFlamingo comme repères concurrents. Le coût des données d'action robotique reste le noeud central pour des acteurs comme Figure AI, 1X Technologies ou Agility Robotics, qui financent massivement la collecte en déploiement réel. L'approche ETC propose une voie complémentaire en valorisant les trajectoires déjà existantes, sans nécessairement passer par de nouvelles sessions de télé-opération. Au stade de la soumission, les auteurs n'ont annoncé ni code public ni implémentation open-source.

IA physiqueOpinion
1 source
Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération
24arXiv cs.RO 

Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération

Une équipe de chercheurs a publié le 10 juin 2026 (arXiv:2606.08881) un benchmark standardisé pour évaluer des modèles Vision-Language-Action (VLA) sur le robot SO-101, une plateforme manipulatrice à faible coût issue de la communauté open-source. Quatre politiques ont été comparées sur quatre tâches de manipulation représentatives avec des protocoles d'évaluation unifiés : Pi-0.5 (Physical Intelligence), SmolVLA (HuggingFace), Wall-X et ACT (Action Chunking with Transformers, référence en imitation learning). Toutes ont été fine-tunées directement sur le matériel physique à partir de démonstrations télé-opérées en conditions réelles, sans passer par la simulation. Au-delà du simple taux de succès binaire, l'étude introduit une taxonomie structurée des échecs, une décomposition sémantique et d'exécution, ainsi que des métriques de récupération (recovery-aware metrics) pour qualifier la robustesse de chaque architecture. Les résultats confirment que les VLA pré-entraînés sur de larges corpus surpassent globalement la baseline en imitation learning pure, mais cette supériorité reste fortement dépendante de la tâche. Ce point est crucial pour les intégrateurs : l'instabilité d'exécution, et non les erreurs de compréhension sémantique, constitue la source d'échec dominante. La capacité de récupération varie significativement selon les architectures, ce qui suggère que les benchmarks centrés uniquement sur le taux de succès final masquent des différences opérationnelles importantes. Pour un COO industriel, cela signifie que le choix d'un modèle VLA ne peut pas se faire sur des métriques agrégées sans analyser le comportement en cas d'échec partiel. Le SO-101 s'est imposé comme plateforme de référence communautaire grâce à son coût accessible, là où la plupart des évaluations VLA existantes reposent sur des robots industriels onéreux (Franka, UR, Boston Dynamics Spot) ou restent cantonnées à la simulation. Ce travail s'inscrit dans un effort plus large de démocratisation des benchmarks robotiques, face à des acteurs comme Figure AI, Agility Robotics ou 1X Technologies qui évaluent leurs systèmes en environnements propriétaires non reproductibles. Les auteurs positionnent explicitement le SO-101 comme socle pratique pour l'évaluation de l'IA incarnée dans des conditions de déploiement réalistes à faible coût. La prochaine étape naturelle serait d'étendre ce protocole à des scénarios de manipulation plus complexes et à davantage d'architectures VLA émergentes, notamment celles intégrant des retours haptiques.

UESmolVLA de HuggingFace (entreprise française) est directement comparé à Pi-0.5, Wall-X et ACT dans ce benchmark standardisé, offrant une visibilité internationale sur les forces et faiblesses du modèle français face aux architectures VLA concurrentes.

FR/EU ecosystemeActu
1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
25arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion
1 source
Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)
26arXiv cs.RO 

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié début juin 2026 (arXiv:2606.09749) une méthode de filtrage de sécurité sans entraînement pour les modèles VLA (Vision-Language-Action) en manipulation robotique. La technique repose sur une découverte clé : un petit nombre de têtes d'attention internes au modèle localise de manière fiable l'objet que la politique de contrôle cherche à atteindre. Ces têtes sont exploitées à chaque pas de contrôle pour identifier la cible active, traiter le reste de la scène comme obstacles, et alimenter un filtre CBF (Control Barrier Function) garantissant l'évitement de collisions. Couplée à un tracker léger en temps réel, l'approche gère également les obstacles mobiles. Sur le benchmark SafeLIBERO étendu aux scénarios dynamiques, la méthode surpasse de 43 % en moyenne une baseline oracle disposant de l'état complet du simulateur. L'enjeu est concret pour les intégrateurs de systèmes robotiques déployant des VLA en environnement non contrôlé. Les filtres de sécurité existants interrogent un VLM pour identifier les obstacles, un processus trop lent pour la boucle de contrôle, limité à une initialisation en début d'épisode et incapable de traquer des obstacles en mouvement. L'approche proposée contourne ce goulot en réutilisant les signaux perceptuels déjà présents dans le modèle, sans latence supplémentaire significative. Concrètement, un VLA déjà déployé comme Pi-0, OpenVLA ou RoboFlamingo pourrait être doté d'un filtre de sécurité dynamique sans re-fine-tuning ni surcoût matériel, réduisant le demo-to-reality gap sur les lignes de production avec opérateurs humains à proximité. Ce travail s'inscrit dans la dynamique des VLA depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA, Pi-0 (Physical Intelligence) et d'autres architectures fondées sur des modèles de langage. La sécurité et la garantie de comportement sont restées en retrait face à la course aux performances end-to-end, mais deviennent critiques pour les déploiements industriels réels, notamment en Europe où la réglementation sur les systèmes autonomes se renforce. La méthode CBF est mathématiquement établie en théorie du contrôle ; son intégration sans entraînement dans des pipelines VLA existants constitue un résultat notable. Limite à signaler : les évaluations restent pour l'instant en environnement simulé, et l'extension à des scènes avec occlusions partielles ou robots multiples reste à démontrer.

UELa méthode pourrait accélérer la certification de VLA en environnements industriels européens soumis à la réglementation sur les systèmes autonomes (AI Act), en fournissant un mécanisme de sécurité formellement vérifiable sans surcoût matériel.

IA physiqueOpinion
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
27arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)
28arXiv cs.RO 

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion
1 source
TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels
29arXiv cs.RO 

TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels

Une équipe de chercheurs propose TBD-VLA (Temporal Block Diffusion Vision Language Action Model), un nouveau cadre de génération d'actions pour les modèles Vision-Language-Action (VLA) robotiques, publié le 9 juin 2026 sur arXiv (identifiant 2606.07895). L'approche repose sur la diffusion discrète par blocs temporels : les séquences d'actions sont partitionnées en blocs, à l'intérieur desquels un processus de diffusion masquée génère les tokens d'action en parallèle, tandis que la génération reste autoregressive d'un bloc à l'autre. Le modèle intègre également une fonctionnalité baptisée "Real-Time Chunking", qui permet l'exécution asynchrone des blocs d'action via un mécanisme d'interpolation temporelle (temporal in-painting). Les auteurs rapportent des gains de performance significatifs sur benchmarks en simulation et sur des tâches de manipulation en environnement réel par rapport aux approches VLA antérieures, sans préciser de métriques chiffrées dans l'abstract. L'enjeu central que TBD-VLA cherche à résoudre est double : la latence d'inférence élevée des VLA discrets classiques, et l'absence de modélisation explicite des dépendances temporelles dans les architectures de décodage parallèle récentes. Les VLA discrets standard génèrent les actions token par token de manière autoregressive, une approche précise mais trop lente pour les contraintes temps-réel d'un bras manipulateur industriel. Les tentatives précédentes de décodage parallèle accélèrent l'inférence mais sacrifient la cohérence temporelle entre tokens. TBD-VLA propose un compromis structuré : parallélisme intra-bloc pour la vitesse, autoregressivité inter-blocs pour la cohérence. Si les gains annoncés se confirment à l'échelle, cette architecture offre une voie vers des VLA déployables en milieu industriel avec des contraintes de cycle time réalistes. Le développement des VLA robotiques s'est accéléré depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence (basé sur la diffusion continue), OpenVLA de l'Université de Californie Berkeley, et les approches RoboVLMs. TBD-VLA se distingue en restant dans l'espace des tokens discrets, aligné avec les architectures LLM standards, tout en empruntant à la diffusion pour la génération intra-bloc. Le papier publie un site de projet (tbd-vla.github.io) et présente des résultats sur simulation et manipulation réelle, mais reste à ce stade une contribution académique sans déploiement industriel annoncé. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning sur données propriétaires, terrain sur lequel Physical Intelligence et Figure AI conservent une avance significative.

IA physiqueOpinion
1 source
Une entreprise chinoise va déployer 100 robots humanoïdes dans des foyers pour les tâches quotidiennes
30Interesting Engineering 

Une entreprise chinoise va déployer 100 robots humanoïdes dans des foyers pour les tâches quotidiennes

La société chinoise GigaAI, basée à Wuhan, a déployé un premier lot de 100 robots humanoïdes SeeLight S1 dans des foyers réels, dans ce que l'entreprise présente comme le premier test à grande échelle d'un robot humanoïde polyvalent à usage domestique en Chine. Dans un appartement de démonstration à Wuhan, deux unités ont exécuté une série de tâches documentées fin mai 2026: l'une a préparé un petit-déjeuner (récupération d'aliments, chauffe au micro-ondes, débarrassage des couverts, chargement du lave-vaisselle), l'autre a sorti le linge d'un sèche-linge, plié des vêtements et rangé une armoire. Selon GigaAI, ces séquences ont été apprises en moins d'un mois de formation sur site. Le SeeLight S1 repose sur ce que l'entreprise appelle un "modèle de fondation incarné" (embodied foundation model), capable de traiter des instructions en langage naturel, d'interpréter son environnement visuel, de planifier une action et de l'exécuter de manière autonome, y compris lorsque la disposition des meubles change en cours de route. Ce déploiement illustre le changement de paradigme central dans la course humanoïde: passer de la démonstration contrôlée au test en conditions réelles, là où réside précisément la difficulté. Contrairement aux environnements d'usine, structurés et prévisibles, les foyers sont imprévisibles: meubles déplacés, objets laissés hors de leur place, conditions lumineuses variables, routines différentes d'un foyer à l'autre. Ce phénomène, connu sous le nom de paradoxe de Moravec, explique pourquoi des tâches en apparence simples comme plier du linge ou saisir un objet sans le renverser restent plus difficiles à automatiser que des problèmes mathématiques complexes. Les limites constatées lors du déploiement sont significatives et méritent d'être signalées: organiser quelques livres peut prendre plusieurs minutes, plier un seul vêtement peut dépasser dix minutes, et le robot a eu des difficultés à manipuler des verres contenant des liquides. GigaAI qualifie elle-même ce déploiement de "plateforme de collecte de données" plutôt que de produit fini, une distinction importante pour les intégrateurs et décideurs industriels qui suivent le secteur. GigaAI s'inscrit dans une vague de startups chinoises qui accélèrent sur le segment humanoïde domestique, en concurrence directe avec des acteurs américains comme Figure (Figure 02), Physical Intelligence (Pi-0) ou encore Tesla (Optimus Gen 2), ainsi qu'avec des compétiteurs locaux tels qu'Unitree Robotics (G1) et UBTECH (Walker S). Le co-fondateur et directeur scientifique Zhu Zheng résume l'enjeu technique en opposant "cervelet" (mouvements acrobatiques, équilibre) et "cerveau" (planification, adaptation au contexte), soulignant que c'est cette seconde dimension qui différencie la robotique domestique de la robotique industrielle classique. L'entreprise prévoit de lancer le SeeLight S2 d'ici fin 2026, avec un châssis plus compact, une autonomie de batterie étendue, une portée de bras améliorée et des algorithmes d'IA plus avancés. Le programme de tests devrait également s'élargir à des foyers avec des personnes âgées et des enfants, deux segments particulièrement exigeants pour l'embodied AI et potentiellement les plus porteurs commercialement.

UESignal concurrentiel indirect pour les acteurs européens de la robotique humanoïde : la Chine franchit le cap du déploiement domestique réel avant les occidentaux, ce qui pourrait accélérer la pression sur les roadmaps et financements européens du secteur.

Chine/AsieOpinion
1 source
Robot humanoïde à IA incarnée gérera une supérette 24h/24 à Hong Kong
31Interesting Engineering 

Robot humanoïde à IA incarnée gérera une supérette 24h/24 à Hong Kong

Hong Kong ouvrira prochainement sa première épicerie opérée par un robot humanoïde, installée sur le front de mer de Hung Hom dans un format capsule de neuf mètres carrés fonctionnant vingt-quatre heures sur vingt-quatre. Le robot, surnommé "Xiao Gai", est conçu pour accueillir les clients, initier des conversations, orienter la navigation dans le magasin et accompagner les achats de snacks, produits dérivés et médicaments sans ordonnance. Le projet est porté par une entreprise chinoise continentale spécialisée dans l'IA incarnée (embodied AI), dont c'est la première implantation hors de Chine. Le Secrétaire financier de Hong Kong, Paul Chan, a annoncé l'initiative dans son blog hebdomadaire, la présentant comme un levier de sensibilisation du grand public à l'intelligence artificielle. Le format s'inspire du "Galaxy Space Capsule" déjà déployé dans le district de Haidian à Pékin, présenté par l'entreprise comme le premier point de vente au monde routinièrement opéré par un humanoïde, avec environ 1 000 clients servis par jour depuis début août 2025. Ce déploiement constitue un signal concret pour les décideurs B2B et les intégrateurs qui suivent la commercialisation de la robotique humanoïde : il ne s'agit plus d'une démonstration en laboratoire mais d'un environnement retail public, plurilingue et à fort flux. L'entreprise revendique une hausse de 30 à 40 % du trafic client à proximité des capsules installées, un chiffre à prendre avec prudence faute de méthodologie publiée. Ce qui est plus significatif est la confirmation du format capsule comme vecteur d'intégration bas-seuil : infrastructure réduite, configuration modulable par catégorie produit, déploiement rapide en milieu urbain dense. Pour le secteur, ce cas Hong Kong teste la capacité des humanoïdes à gérer des interactions sociales non scriptées dans un cadre commercial réel, ce que les benchmarks en simulation ne permettent pas de valider. L'entreprise annonce un déploiement de 100 capsules dans 10 villes dans les prochains mois, ce qui représente le premier plan de rollout à échelle significative pour un humanoïde en contexte retail. Hong Kong cherche par ailleurs à renforcer son positionnement sur l'embodied intelligence : un comité gouvernemental de haut niveau dédié au développement de l'IA vient d'être constitué et doit tenir sa première réunion ce mois de juin 2026. Sur le plan concurrentiel, ce format capsule opéré par humanoïde se distingue des solutions AMR (robots mobiles autonomes) déployées par des acteurs comme Exotec ou des opérateurs de dark stores, en ciblant l'interaction client directe plutôt que la logistique interne. Les prochaines étapes à surveiller sont la publication de données de performance réelles sur le site de Hung Hom et l'éventuelle extension du modèle à des environnements moins contrôlés que la capsule fermée.

UESignal concurrentiel indirect : ce déploiement retail à échelle commerciale en Asie accélère la pression concurrentielle sur les acteurs européens de la robotique humanoïde, sans impact réglementaire ou opérationnel direct sur la France/UE.

HumanoïdesOpinion
1 source
NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA
32NVIDIA Blog Robotics 

NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA

NVIDIA et LG Group ont annoncé la construction d'une infrastructure conjointe qualifiée d'"AI factory", destinée à accélérer les activités du conglomérat coréen dans quatre domaines: la robotique, la conduite autonome, les technologies de centres de données et les services cloud GPU. L'infrastructure couvrira l'intégralité du cycle, de l'entraînement à la simulation et au déploiement, en reliant génération de données, simulation robotique et jumeaux numériques dans un workflow unifié. Du côté robotique, LG Electronics intègre les frameworks NVIDIA Isaac Sim et Isaac Lab dans le développement de CLoiD, son robot domestique conçu pour les tâches d'intérieur, et explore l'adoption du modèle de fondation GR00T, un VLA (vision-language-action model) destiné à lui conférer un raisonnement de type humanoïde. LG Electronics développe également une data factory d'IA physique pour fournir des données d'entraînement aux entreprises coréennes et mondiales, en s'appuyant sur NVIDIA Cosmos pour la génération de données synthétiques. LG Innotek prépare des solutions de capteurs optiques optimisées pour les environnements GPU NVIDIA, tandis que LG CNS intègre Isaac, Cosmos et GR00T dans sa plateforme industrielle PhysicalWorks pour accélérer l'automatisation logistique et manufacturière. Sur le volet infrastructure, les deux groupes approfondissent leur collaboration autour du refroidissement des AI factories, incluant des unités de distribution de refroidissement (CDU), des plaques froides et un design modulaire préfabriqué, le tout aligné sur la plateforme NVIDIA DSX. Ce partenariat illustre la verticalisation des stacks d'IA physique, du modèle de fondation jusqu'au déploiement industriel. LG apporte des données de fabrication issues de sites mondiaux, une expertise optique via Innotek et des capacités d'intégration SI via CNS, là où NVIDIA fournit la couche logicielle et les accélérateurs. L'annonce de la data factory mérite une attention particulière: LG se positionne comme fournisseur de données d'entraînement pour l'industrie robotique, une ressource devenue critique face au défi du sim-to-real. Il convient cependant de souligner que CLoiD et l'intégration GR00T restent au stade de l'exploration déclarée, non d'un produit expédié, et qu'aucune métrique de déploiement industriel ni de volumétrie de production n'est communiquée. Ce rapprochement s'inscrit dans la stratégie NVIDIA d'expansion de l'écosystème Isaac et GR00T auprès des industriels asiatiques, après des partenariats similaires avec Foxconn et Hyundai. LG entre ainsi en compétition directe avec Samsung et SK dans la course des conglomérats coréens à intégrer l'IA physique dans leur portefeuille. Dans le segment des robots de service, CLoiD sera en concurrence indirecte avec Figure 03, Tesla Optimus Gen 3, 1X NEO et Sanctuary AI Phoenix, tous en déploiements pilotes chez des industriels. Côté infrastructure AI factory, Dell, HPE et Lenovo sont également partenaires certifiés NVIDIA DSX, ce qui relativise toute exclusivité de l'accord. Aucune date de livraison ni volume de déploiement n'est précisé dans l'annonce: il s'agit pour l'instant d'un cadre de coopération stratégique, pas d'un contrat de déploiement signé.

Chine/AsieOpinion
1 source
CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé
33Pandaily 

CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé

En mai 2026, la banque d'investissement chinoise CSC Financial a publié un rapport sectoriel couvrant cinq industries, dont deux dominent l'analyse: la robotique humanoïde et les engins de chantier. Sur ce dernier segment, les ventes d'excavateurs ont atteint 24 794 unités en Chine le mois dernier, en hausse de 36,2% sur un an. Les ventes domestiques ont progressé de 38,6% à 11 628 unités, tandis que les exportations ont crû de 34,2% pour atteindre 13 166 unités. Trois grands fabricants ont simultanément relevé leurs prix: SANY Heavy Industry a appliqué une hausse de 5% au 15 mai, Liugong une augmentation identique au 20 mai, et XCMG une revalorisation de 3 à 5% au 1er juin. Sur le front de la robotique, Unitree - constructeur chinois de robots humanoïdes connu pour ses modèles H1 et G1 - a franchi l'examen de l'autorité boursière pour son introduction en bourse, étape préliminaire à une cotation effective. Le rapport note par ailleurs que le programme Optimus de Tesla approche de la production de masse, le lancement du modèle V3 et les objectifs de volume pour la chaîne d'approvisionnement devenant progressivement plus précis. La validation du dossier d'IPO d'Unitree constitue un signal de maturité pour le secteur du Physical AI: les marchés financiers commencent à traiter la robotique humanoïde comme une industrie à trajectoire commerciale crédible, et non comme une promesse spéculative. Pour les décideurs industriels et les intégrateurs, cela annonce potentiellement une revalorisation en cascade des acteurs du secteur, à mesure que d'autres entreprises chinoises avancent vers leur propre cotation dans les prochains trimestres. Du côté des engins de chantier, la convergence des hausses tarifaires chez SANY, Liugong et XCMG - officiellement justifiées par la hausse des matières premières - est lue par les analystes comme le signe que la guerre des prix destructrice pesant sur les marges du secteur commence enfin à se résorber. Unitree s'est imposé ces dernières années parmi les acteurs les plus actifs de la scène robotique chinoise, aux côtés d'entreprises comme UBTECH et Fourier Intelligence. Son accession à une cotation publique intervient dans un contexte de compétition mondiale intense sur le segment humanoïde, où s'affrontent Tesla (Optimus), Figure AI, Boston Dynamics et leurs homologues chinois. Le rapport de CSC Financial ne détaille pas les métriques opérationnelles d'Unitree en conditions industrielles réelles - ce qui rend difficile l'évaluation du fossé entre les démonstrations publiées et les capacités effectives en production. Les introductions en bourse attendues d'autres acteurs du secteur dans les prochains trimestres permettront de mieux cerner les valorisations que le marché est prêt à accorder à cette nouvelle génération de robotique physique.

UELa validation de l'IPO d'Unitree et la trajectoire vers la production de masse d'Optimus accélèrent la maturité commerciale du secteur humanoïde chinois, renforçant indirectement la pression concurrentielle sur les acteurs européens qui n'ont pas encore atteint ce stade de crédibilité financière.

Chine/AsieOpinion
1 source
NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA
34NVIDIA Blog Robotics 

NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA

NVIDIA et le conglomérat sud-coréen Doosan Group ont annoncé en juin 2026 un élargissement de leur collaboration couvrant quatre entités du groupe : Doosan Robotics, Doosan Bobcat, Doosan Enerbility et Doosan Corporation Electro-Materials BG. Côté robotique, Doosan Robotics intègre la pile physique AI de NVIDIA, dont Isaac Sim et Isaac Lab pour la simulation, les modèles de fondation Cosmos pour la génération de monde physique, le moteur de physique open source Newton, et le SoC embarqué Jetson Thor. L'objectif est de faire évoluer leur plateforme "Agentic Robot OS" -- présentée comme une couche logicielle unifiant perception, raisonnement, simulation, apprentissage et inférence on-device -- pour des tâches industrielles concrètes comme la dépalettisation et le ponçage, ainsi que pour de nouveaux facteurs de forme incluant des bras doubles et des plateformes humanoïdes. Doosan Bobcat, spécialisé dans les engins compacts (construction, agriculture, manutention), entend de son côté exploiter les mêmes technologies pour développer des world models spécialisés. Enfin, Doosan Enerbility explore l'alimentation des AI factories NVIDIA via turbines à gaz, vapeur, réacteurs modulaires de petite taille (SMR) et piles à combustible hydrogène, pendant que Doosan Electro-Materials fournit des copper clad laminates (CCL) haute performance pour les PCB des accélérateurs et serveurs IA compatibles NVIDIA MGX. Il faut lire cette annonce pour ce qu'elle est : un accord de collaboration, pas un déploiement. Aucun chiffre de production, de cycle time, ni de volume shipment n'est communiqué. Cela dit, la structure de l'accord est stratégiquement cohérente. Doosan couvre plusieurs couches de la chaîne de valeur de l'infrastructure IA simultanément : hardware embarqué (Jetson Thor sur cobots), logiciel de simulation (Isaac Lab), matériaux de base pour data centers (CCL), et production d'énergie pour alimenter ces mêmes data centers. Pour les intégrateurs industriels, le signal le plus concret est le passage revendiqué de Doosan Robotics d'un fournisseur de bras articulés vers une entreprise "AI-first full-stack" -- une ambition que partagent Universal Robots, Fanuc et Yaskawa, mais que peu ont encore matérialisée à l'échelle. L'intégration sim-to-real via Cosmos et Newton suggère une volonté de réduire le demo-to-reality gap qui plombe encore de nombreuses démonstrations de manipulation complexe. Doosan Group, fondé en Corée du Sud en 1896 et désormais actif dans l'énergie, l'industrie lourde et la robotique, a acquis Bobcat en 2007 et structuré Doosan Robotics en unité autonome cotée en 2023. Sur le terrain de la robotique collaborative, ses concurrents directs incluent Universal Robots (acquis par Teradyne), FANUC, ABB et Techman Robot, tous en train d'intégrer des couches IA similaires. Sur le segment humanoïde, auquel Doosan fait désormais référence explicitement, la concurrence est plus intense encore : Figure (qui déploie chez BMW), Agility Robotics (Amazon), 1X, Apptronik et Tesla Optimus avancent tous sur des timelines industrielles. NVIDIA, de son côté, capitalise sur cette annonce pour consolider son positionnement de "système d'exploitation de la robotique physique", après des accords similaires avec Boston Dynamics, Foxconn et Intrinsic (Alphabet). Les prochaines étapes mentionnées restent vagues : des cas d'usage de référence sont "en cours de développement", sans date ni client annoncés.

IndustrielOpinion
1 source
Video Friday : ce robot court dans les escaliers sans tomber
35IEEE Spectrum Robotics 

Video Friday : ce robot court dans les escaliers sans tomber

La sélection vidéo hebdomadaire d'IEEE Spectrum de début juin 2026 réunit plusieurs démonstrations robotiques aux profils contrastés. DEEP Robotics publie une vidéo d'un humanoïde récupérant son équilibre sur un escalier dans une séquence que les éditeurs du magazine jugent eux-mêmes impressionnante, tout en soulignant l'incertitude sur sa reproductibilité. La startup Generative Bionics annonce que GENE01, sa première plateforme humanoïde, est passée de la conception au lancement en production en série en seulement trois mois, avec deux configurations interchangeables de membres inférieurs et une couche baptisée "Physical AI" couvrant le contrôle moteur et la modélisation monde-action, sans qu'aucune métrique de charge utile, de degrés de liberté ni de temps de cycle n'accompagne l'annonce. IHMC Robotics présente Alex, son premier humanoïde entièrement développé en interne, qui a effectué ses premiers pas en extérieur sans attache lors d'une démonstration dans le Maryland. Flexiv Robotics dévoile le MICO, un système bimanuel compact sur la plateforme Enlight, orienté collaboration en espace de travail industriel partagé. À l'occasion de l'ICRA 2026, des chercheurs publient CCRobot-S dans IEEE Transactions on Robotics : une équipe de robots grimpeurs câbles reconfigurables capables d'inspecter et d'entretenir en opération parallèle les haubans de ponts à grande portée. Boston Dynamics contribue avec deux vidéos, l'une sur des pieds interchangeables pour Atlas, l'autre montrant le robot apprendre à jouer au football. La revendication la plus saillante de cette sélection est le délai de trois mois de Generative Bionics entre conception et production en série. Si elle se confirme, elle signalerait une compression radicale des cycles de développement matériel dans la robotique humanoïde, un secteur qui exige habituellement plusieurs années d'itération. L'absence de spécifications techniques rend l'évaluation indépendante impossible à ce stade : l'annonce ressemble davantage à une opération de visibilité qu'à une divulgation produit. Les essais en extérieur d'IHMC avec Alex sont une contribution plus modeste mais techniquement crédible : sortir du laboratoire vers un environnement non structuré reste l'un des tests les plus rigoureux de la robustesse locomotrice, et l'un des plus rares à être documentés publiquement, adressant directement le demo-to-reality gap qui frappe de nombreuses démonstrations du secteur. CCRobot-S illustre une autre dynamique, celle des applications robotiques collaboratives à vocation industrielle précise, portées par des contraintes de sécurité et de régulation réelles dans le domaine des infrastructures. Le paysage concurrentiel des humanoïdes reste dense. Figure AI a livré le Figure 03, Tesla teste l'Optimus Gen 3 en production, le modèle VLA pi0 de Physical Intelligence structure plusieurs pilotes commerciaux, et le Digit d'Agility Robotics est déployé dans des entrepôts Amazon. L'Atlas de Boston Dynamics, malgré ses qualités mécaniques, n'a pas encore établi de trajectoire commerciale clairement définie, et les vidéos football semblent davantage viser la notoriété grand public que l'intégration industrielle. IHMC Robotics, laboratoire affilié à Florida International University, a historiquement alimenté l'écosystème en infrastructures et en talents plutôt qu'en produits commerciaux directs. Generative Bionics est un nom nouveau dans le secteur et mérite un suivi si de prochaines publications techniques viennent étayer la revendication des trois mois. Aucun acteur européen n'apparaît directement dans cette sélection, bien qu'Enchanted Tools, Wandercraft et Pollen Robotics restent actifs sur leurs segments respectifs.

HumanoïdesActu
1 source
VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique
36arXiv cs.RO 

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

Des chercheurs ont publié sur arXiv (identifiant 2606.05395) un framework nommé VASO, pour "Verification-guided Self-evolution of LLM-generated robot skill contracts", qui vise à rendre les compétences robotiques générées par des grands modèles de langage à la fois réutilisables et formellement vérifiables. L'idée centrale : chaque compétence n'est plus un simple script exécutable mais un contrat sémantique à double interface, une interface formelle qui aligne états du robot, observations et commandes de contrôle avec des propositions logiques pour le model checking, et une interface orientée planificateur qui guide la génération de comportements exécutables. Lorsqu'un plan généré échoue à la vérification, VASO traduit la trace de contre-exemple en un gradient textuel qui met à jour le contrat de compétence réutilisable, sans toucher aux poids du modèle de fondation. Sur des plateformes Clearpath Jackal et PX4 (quadrocoptère), le framework atteint 97,2 % de conformité aux spécifications temporelles formelles en moins de 100 échantillons d'optimisation, surpassant les baselines de feedback d'exécution, d'optimisation de prompt et de fine-tuning. Le problème adressé est précis et rarement traité : les boucles d'évolution de compétences existantes, retour d'exécution, tests unitaires, récompenses d'environnement, auto-critique LLM, ne fournissent que des preuves au niveau de la trace. Elles montrent qu'une compétence a fonctionné sur des exécutions échantillonnées, pas qu'elle satisfait des contrats de sécurité temporelle dans des conditions non testées. Pour un intégrateur ou un COO industriel, c'est la différence entre une démo convaincante en lab et un déploiement certifiable en production. Le fait que VASO maintienne les poids du modèle gelés est également notable sur le plan économique : pas de fine-tuning, pas de GPU dédié à la mise à jour du modèle. Ce travail s'inscrit dans la tendance des "physical AI agents" où les LLM orchestrent des comportements robotiques à long horizon depuis des instructions en langage naturel. Les compétences réutilisables sont devenues les unités de base de ces architectures, mais leur fiabilité formelle reste un angle mort notable. Des approches concurrentes comme les VLA (Vision-Language-Action models) ou les frameworks d'optimisation de prompts comme OPRO ne ferment pas cette boucle vérification-évolution. VASO affirme être le premier à le faire explicitement. Il s'agit néanmoins d'un preprint sans validation industrielle publiée, et les résultats obtenus sur deux plateformes relativement simples devront être confirmés sur des environnements plus complexes et des chaînes de compétences plus longues avant d'envisager un déploiement en conditions réelles.

RecherchePaper
1 source
Vers un cycle vertueux de données pour l'IA physique en logistique
37arXiv cs.RO 

Vers un cycle vertueux de données pour l'IA physique en logistique

Une équipe de chercheurs publie sur arXiv (réf. 2606.05960) un cadre de recherche baptisé "data flywheel" pour l'intelligence incarnée appliquée à la logistique. L'idée centrale : transformer les opérations quotidiennes d'un robot déployé en actifs de données réutilisables pour entraîner et améliorer les politiques de contrôle. La contribution technique principale est WM-DAgger (World Model-based Data Aggregation), une extension de l'algorithme classique DAgger qui exploite un modèle du monde pour synthétiser des données de récupération hors-distribution. En clair, lorsqu'un robot rencontre un colis dans une configuration rare qu'il n'a jamais vue, le modèle du monde génère des trajectoires de correction synthétiques sans nécessiter une nouvelle intervention humaine. Le cadre intègre également trois types de données multimodales : démonstrations humaines étiquetées, vidéos opérationnelles non étiquetées, et journaux système du robot en conditions réelles. L'enjeu industriel est direct. Les pipelines robotiques traditionnels en perception-planification-contrôle, dominants en entrepôt, ne généralisent pas bien aux cas rares, or c'est précisément là que se concentrent les défaillances en conditions réelles. Les systèmes d'apprentissage par imitation promettent plus de flexibilité, mais se heurtent au problème du "long tail" : les configurations atypiques de colis (forme, poids, orientation, emballage dégradé) représentent une fraction infime du volume mais la majorité des erreurs. WM-DAgger s'attaque à ce goulet en générant synthétiquement les données de récupération manquantes, ce qui réduit théoriquement le besoin de collecte terrain coûteuse pour chaque variante. Si le concept tient à l'échelle, il change l'équation économique du déploiement : le robot s'améliore en opérant, sans interrompre la chaîne logistique pour des sessions de collecte dédiées. Sur le plan du contexte, la recherche s'inscrit dans un mouvement plus large d'industrialisation de la manipulation apprenable, porté côté startups par Covariant (racheté par ABB), Dexterity, Nimble Robotics ou encore Pickle Robot aux États-Unis, et en Europe par des acteurs comme Exotec, dont le Skypod reste cependant dans le registre AMR plutôt que manipulation fine. La logistique de colis est devenue le banc d'essai favori de la communauté robotique pour tester le passage du laboratoire au déploiement réel. Ce papier reste pour l'instant un preprint de recherche : WM-DAgger est décrit comme un "résultat initial" et les travaux en cours sont présentés comme exploratoires. Aucun chiffre de performance en conditions industrielles n'est communiqué, et aucun partenaire industriel n'est mentionné. À surveiller pour les résultats de validation à venir.

RecherchePaper
1 source
Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux
38arXiv cs.RO 

Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux

Des chercheurs ont déposé en juin 2026 sur arXiv (référence 2606.05952) un article de recherche présentant un cadre de "gamification agentique" destiné à entraîner des politiques de sécurité pour robots physiques. Le principe repose sur un jeu adversarial entre deux agents logiciels : une Red Team chargée d'explorer l'espace des défaillances possibles en construisant des scénarios dangereux, et une Blue Team qui raffine itérativement les politiques de sécurité pour y répondre. Ce processus en boucle vise à faire émerger des cas limites à haut risque que ni la simulation aléatoire ni l'énumération manuelle de scénarios ne permettent d'identifier efficacement. Il est important de noter que les auteurs décrivent eux-mêmes un travail en cours : la contribution se limite à une formulation du problème et à une architecture de solution proposée, sans validation expérimentale publiée à ce stade. L'enjeu industriel est réel. À mesure que les systèmes de Physical AI, notamment les bras manipulateurs et les robots humanoïdes, quittent les environnements contrôlés pour des déploiements en atelier ou en logistique, la robustesse des politiques de sécurité devient un critère de qualification aussi important que la performance. Les approches classiques de test par simulation aléatoire souffrent d'une couverture insuffisante des situations rares mais critiques, et l'énumération manuelle ne passe pas à l'échelle. L'idée d'un red teaming automatisé, si elle est validée expérimentalement, offrirait un pipeline scalable pour certifier des comportements sûrs avant déploiement, ce que les intégrateurs industriels attendent avec impatience. Le red teaming est une technique éprouvée en cybersécurité et dans l'alignement des grands modèles de langage : Anthropic et OpenAI l'utilisent systématiquement pour identifier les comportements dangereux de leurs LLMs avant mise en production. Sa transposition à la robotique physique est plus complexe, car l'espace d'états est continu, les conséquences des défaillances sont immédiates et irréversibles, et la simulation doit capturer une physique réaliste. Dans un secteur où Figure, Tesla (Optimus), Boston Dynamics et Agility Robotics accélèrent leurs déploiements en environnements non structurés, la question de la certification de sécurité reste un verrou non résolu. Ce travail propose une direction méthodologique, mais ses auteurs n'annoncent ni calendrier d'implémentation ni partenariat industriel à ce stade.

RechercheOpinion
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
39arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
40arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion
1 source
IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena
41Pandaily 

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

La société chinoise Kuawei Intelligence a décroché la première place du classement mondial WorldArena Track 2 (Data Engine) pour le mois de mai 2026, devançant les concurrents internationaux WoW et BLM. Ce benchmark évalue non pas la qualité visuelle des sorties générées, mais les taux de succès réels de robots sur des tâches physiques, ce qui le rend plus pertinent pour les déploiements industriels que les métriques classiques de génération d'images. Le modèle lauréat, DSCFuncWorld, repose sur l'architecture DexWorldModel et est conçu pour produire des données d'entraînement robotique de haute qualité. Contrairement aux world models génératifs conventionnels qui opèrent au niveau du pixel, Kuawei utilise l'espace de features sémantiques DINO pour la prédiction d'état, une approche qui réduit la charge de calcul tout en améliorant la robustesse. La société a par ailleurs open-sourcé son infrastructure de données EmbodiChain. Ces résultats benchmark s'accompagnent de chiffres de déploiement concrets : Kuawei revendique plus de 1 000 projets dans plus de 50 secteurs industriels, un taux de succès de 99,99 % sur une ligne de production Hisense, une efficacité de tri trois fois supérieure à l'humain chez Midea, un chiffre d'affaires dépassant 100 millions de RMB en 2024 et plus de 100 unités de son robot humanoïde W1 Pro livrées à des clients comme BYD, GAC, Zoomlion, SANY et Panasonic. Ces chiffres sont issus de communications officielles de l'entreprise et n'ont pas fait l'objet de vérification indépendante. La performance de Kuawei sur WorldArena Track 2 est significative précisément parce que ce classement mesure le sim-to-real transfer, soit la capacité d'un modèle entraîné en simulation à fonctionner sur du matériel réel, longtemps considéré comme le principal obstacle à la robotisation à l'échelle. Si les chiffres revendiqués se confirment, ils suggèrent qu'une entreprise chinoise de taille intermédiaire a résolu, au moins partiellement, le problem de la data engine, c'est-à-dire la génération automatisée de données d'entraînement suffisamment réalistes pour produire des politiques motrices robustes. Pour les intégrateurs industriels et les décideurs B2B, l'argument le plus fort n'est pas le benchmark lui-même mais la combinaison revenus/déploiements réels, qui tranche avec le schéma habituel du secteur humanoïde, souvent long en annonces et court en traction commerciale. Kuawei Intelligence s'inscrit dans une vague d'acteurs chinois de l'IA incarnée qui ont émergé depuis 2023, parmi lesquels Unitree Robotics, Fourier Intelligence et AgileX Robotics, tous positionnés sur le segment des robots à bas coût et des plateformes open-source. Sur la scène internationale, elle affronte Physical Intelligence (Pi-0), Apptronik, Figure AI (Figure 03) et Boston Dynamics, dont les approches misent davantage sur la puissance des VLA (Vision-Language-Action models) que sur la data synthesis. La victoire de Kuawei à l'ICRA 2025 avec un robot bi-bras en manipulation fine sans intervention humaine avait déjà signalé ses ambitions. La prochaine étape pour l'entreprise sera de démontrer que ses déploiements tiennent dans des environnements non structurés, au-delà des lignes de production contrôlées où les benchmarks ont jusqu'ici été réalisés.

Chine/AsieActu
1 source
BYD développe secrètement un robot humanoïde sous le nom de code "Yao-Shun-Yu" alors que les géants de l'automobile s'élancent vers l'IA incarnée
42Pandaily 

BYD développe secrètement un robot humanoïde sous le nom de code "Yao-Shun-Yu" alors que les géants de l'automobile s'élancent vers l'IA incarnée

BYD, premier constructeur automobile électrique chinois, confirme le développement discret d'un robot humanoïde sous le nom de code "Yao-Shun-Yu". C'est Li Ke, vice-président exécutif du groupe, qui a levé le voile dans une interview récente. Le projet a été lancé en 2022 et est piloté par la 15e unité opérationnelle de BYD, dédiée à l'intégration électronique et à l'intelligence embarquée. L'entreprise dispose d'une équipe de plus de 4 000 ingénieurs spécialisés en conduite autonome et a annoncé un investissement de 100 milliards de yuans dans l'IA et l'intelligence automobile. Tesla, de son côté, a déjà déployé 50 unités de son Optimus Gen 3 dans son usine de Shanghai en production de série. XPeng prévoit de lancer la production de masse de son humanoïde IRON d'ici fin 2026, et Li Auto pilote un projet interne baptisé Nexus. Ce développement illustre un changement structurel dans la course aux humanoïdes : les grands constructeurs automobiles ne se positionnent plus comme observateurs mais comme acteurs à part entière de la robotique généraliste. BYD s'appuie sur des atouts industriels concrets, motorisation, batteries, électronique de puissance, fabrication de précision et semiconducteurs, que peu de pure players robotiques peuvent revendiquer. L'entreprise prévoit d'être son propre premier client, avec des déploiements envisagés dans ses showrooms comme agents d'accueil et sur ses lignes de production comme opérateurs d'atelier. Ce débouché captif résout un problème que la majorité des startups humanoïdes n'ont pas encore résolu : la validation à l'échelle dans un environnement contrôlé et à faible coût de sortie. La stratégie dite du "technology fish pond", qui consiste à préparer en amont un portefeuille technologique large et à l'activer au moment opportun, laisse également envisager une approche plateforme ouverte, avec intégration de composants tiers plutôt qu'une verticalité totale. BYD n'est pas venu à la robotique par hasard. La maîtrise des actionneurs électriques, des systèmes de gestion d'énergie et des architectures de calcul embarqué, accumulée sur des millions de véhicules électriques, constitue une base technologique directement transférable. Li Ke a formulé le diagnostic sectoriel en ces termes : "les robots chinois manquent de cerveau, les robots américains manquent de muscles", BYD visant explicitement l'excellence sur les deux axes. Face à Boston Dynamics (propriété de Hyundai), Agility Robotics (Amazon), Figure AI ou Physical Intelligence côté occidental, et à Unitree, Fourier Intelligence ou UBTECH côté chinois, BYD arrive avec une surface financière et une base industrielle hors norme. Aucune date de présentation publique ni de feuille de route commerciale n'a été communiquée : le projet reste pour l'instant au stade de l'annonce interne, sans prototype démontré publiquement ni métrique de performance vérifiable.

Chine/AsieOpinion
1 source
Yuanli Lingji acquiert un fabricant de robots logistiques et lève des fonds auprès de Zhipu, SenseTime et StepFun
4336Kr 

Yuanli Lingji acquiert un fabricant de robots logistiques et lève des fonds auprès de Zhipu, SenseTime et StepFun

La startup chinoise Yuanli Lingji vient de boucler un tour de table réunissant quatre grands laboratoires chinois de modèles fondationnels : Zhipu AI, Stepfun, SenseTime, et Alibaba, qui avait mené en exclusivité le tour A+. Des industriels comme Huaqin et SAIC Hengxu ont également participé. Fondée en mars 2025 par Tang Wenbin, co-fondateur et ex-CTO de Megvii, la société développe un modèle universel d'IA incarnée baptisé DM0. Simultanément, Yuanli Lingji a acquis par échange d'actions Atomix, spécialiste des robots de logistique fondé par Tang en juillet 2024 après scission de Megvii. Atomix revendique, selon ses propres déclarations, un chiffre d'affaires annuel proche d'un milliard de yuans (~125 M€), le second rang mondial des ventes de véhicules navettes à quatre directions (4-way shuttle), plus de 500 projets dans une vingtaine de pays, et des clients comme Uniqlo, Mixue Bingcheng et CATL. La convergence simultanée de ces quatre acteurs de l'IA sur un même dossier d'embodied AI est inédite en Chine et signale un déplacement de la compétition des tokens vers les actions physiques. La fusion vise surtout à briser le "noeud de données" qui paralyse le secteur : les modèles ont besoin de données d'erreur réelles pour progresser, mais les robots ne peuvent entrer en production sans modèle fiable, bloquant ainsi la collecte. En agrégeant les données opérationnelles d'Atomix, issues de 500+ déploiements réels, à l'entraînement de DM0, la stratégie vise un data flywheel fermé. Avec seulement 2,4 milliards de paramètres et une fusion tri-domaine (sémantique web, conduite autonome, manipulation robotique), DM0 atteint une précision infra-millimétrique et se transfère à différentes morphologies de robots sans recalibration. Tang Wenbin pilotait la logistique intelligente chez Megvii dès 2016, via le système Hetu de gestion multi-robots ; il a scindé cette activité pour fonder Atomix en juillet 2024, puis lancé Yuanli Lingji en mars 2025. La semaine même de cette annonce, ByteDance intensifiait son recrutement en embodied AI, et Skild AI acquérait l'activité automation de Zebra Technologies. La dynamique est identique des deux côtés du Pacifique : fabricants, détenteurs de données, développeurs de modèles et opérateurs industriels accélèrent leur convergence dans la course à la scaling law de l'IA incarnée.

UELa consolidation de l'écosystème robotique-IA chinois autour d'Atomix, actif dans une vingtaine de pays dont potentiellement des marchés européens de la logistique, accentue la pression concurrentielle sur les intégrateurs et fabricants EU de robots de stockage automatisé.

Chine/AsieOpinion
1 source
IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture
44Robotics & Automation News 

IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture

CreateMe, startup spécialisée dans l'automatisation du prêt-à-porter et dirigée par Campbell Myers, développe des systèmes de fabrication textile basés sur l'IA physique, des modèles capables de percevoir et de manipuler des matériaux souples en temps réel. L'approche centrale de l'entreprise repose sur le bonding (collage structurel) plutôt que sur la couture traditionnelle, une décision technique qui vise à simplifier radicalement la chaîne d'assemblage. L'industrie de l'habillement emploie plusieurs dizaines de millions de travailleurs à l'échelle mondiale, concentrés principalement en Asie du Sud-Est, et reste l'un des secteurs les moins automatisés de la fabrication industrielle. La manipulation de tissus constitue l'un des derniers grands verrous non résolus de la robotique. Contrairement aux pièces rigides traitées en automobile ou en électronique, les textiles se déforment, se plissent et changent de géométrie entre chaque opération, rendant inutilisables les approches classiques à trajectoire fixe. Passer du stitching au bonding n'est pas qu'un choix de process : c'est une façon de réduire le nombre d'états intermédiaires que le robot doit gérer, ce qui rend le problème de manipulation conditionnellement plus tractable pour les VLA (Vision-Language-Action models) actuels. SoftWear Automation avait tenté une première vague d'automatisation textile avec ses robots Sewbot dès les années 2010, sans atteindre la scalabilité industrielle. Sewts (Munich) travaille sur des segments adjacents liés au tri et au dépliage. CreateMe se positionne en aval, sur l'assemblage final, là où la valeur ajoutée est la plus dense. Le sim-to-real gap sur les déformables reste le principal obstacle technique non résolu ; les prochaines annonces de l'entreprise seront à lire en distinguant soigneusement démos contrôlées et déploiements en conditions réelles.

UESewts (Munich) est mentionné comme acteur européen sur des segments adjacents (tri et dépliage textile), mais CreateMe n'a annoncé aucun déploiement ni partenariat en Europe.

IA physiqueOpinion
1 source
IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence
45Pandaily 

IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence

Une entreprise chinoise spécialisée en intelligence artificielle incarnée (embodied AI) a décroché la première place du classement RoboArena lors de la conférence NVIDIA GTC Taipei 2026, devançant NVIDIA et Physical Intelligence (PI). Le benchmark RoboArena est conçu pour évaluer des systèmes d'IA robotique sur des tâches physiques réelles variées : manipulation d'objets, navigation mobile et utilisation d'outils complexes. Sa méthodologie inclut des conditions environnementales aléatoires, des perturbations adversariales et des exigences strictes de reproductibilité, ce qui en fait l'un des rares benchmarks difficiles à truquer par overfitting. Fait notable : l'article source ne mentionne pas le nom de cette entreprise, ce qui affaiblit la portée de l'annonce et rend toute vérification indépendante impossible pour l'instant. La solution retenue s'appuie sur une architecture qui intègre étroitement la perception visuelle et le contrôle moteur au niveau du réseau de neurones, permettant une adaptation rapide à de nouveaux environnements avec un fine-tuning minimal. L'entrée de NVIDIA, construite sur sa plateforme Isaac et ses pipelines de simulation-to-real accélérés GPU, ainsi que celle de Physical Intelligence, connue pour ses politiques robotiques généralistes (dont le modèle Pi-0), ont toutes deux été surpassées en score agrégé. Ce résultat conteste l'hypothèse dominante selon laquelle la puissance de calcul brute est le principal levier de performance en embodied AI. Si confirmé, cela suggère que l'innovation architecturale et une utilisation efficace des données réelles peuvent compenser un désavantage de ressources significatif face à des acteurs comme NVIDIA ou PI, qui disposent de budgets compute sans commune mesure. Pour les intégrateurs et décideurs industriels, cela signifie que le marché reste ouvert à des challengers lean, et que la course à la généralisation robotique n'est pas encore jouée par les seuls hyperscalers. La validation par un benchmark tiers réputé représente un argument commercial fort, surtout dans un secteur où les démonstrations en conditions contrôlées sont légion. Il convient cependant de rester prudent : aucune métrique précise (payload, degrés de liberté, temps de cycle, taux de succès par tâche) n'est communiquée dans l'annonce, et les vidéos de démonstration n'ont pas encore été soumises à un audit indépendant. RoboArena a été lancé comme réponse directe aux critiques sur la reproductibilité des benchmarks robotiques, dans un contexte où des acteurs comme Figure AI (Figure 03), Tesla (Optimus Gen 3), Boston Dynamics, 1X Technologies et Physical Intelligence publient des résultats difficiles à comparer. La Chine construit depuis plusieurs années un écosystème embodied AI dense, porté par une base de fabrication hardware mature, un vivier de talents en vision par ordinateur issus des géants technologiques (Baidu, Alibaba, DJI), et un soutien gouvernemental actif à l'industrialisation de l'IA. La prochaine étape logique pour cette entreprise anonyme sera de se nommer publiquement, de publier ses données brutes et d'annoncer des déploiements pilotes en environnement industriel réel pour confirmer que la performance benchmark se traduit en valeur opérationnelle.

UELa compétitivité croissante de l'écosystème chinois en IA incarnée constitue un signal d'alerte indirect pour les industriels et laboratoires européens positionnés sur la robotique généraliste.

Chine/AsieOpinion
1 source
NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
46NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

IA physiqueOpinion
1 source
RoboBusiness 2026 lance un appel à conférenciers
47Robotics Business Review 

RoboBusiness 2026 lance un appel à conférenciers

RoboBusiness 2026 ouvrira ses portes les 19 et 21 octobre au Santa Clara Convention Center, en Californie, et l'appel à communications vient d'être lancé avec une date limite fixée au 8 juillet 2026. Six thématiques structureront le programme : Physical AI (apprentissage à partir de données capteurs, adaptation situationnelle), technologies habilitantes (contrôle du mouvement, vision machine, logiciels embarqués), humanoïdes (conception et déploiement industriel), robotique de terrain (agriculture, construction, applications outdoor), développement (simulation, CAD/CAM, méthodologies d'ingénierie) et Business & Deployment (stratégies go-to-market, financement, scaling de startups). Les conférenciers retenus bénéficient d'une accréditation complète à l'événement et de deux passes invités supplémentaires. La manifestation inclut également le Pitchfire Robotics Startup Competition, compétition de pitch ouverte aux startups en recherche de visibilité auprès d'investisseurs. La programmation 2026 reflète les inflexions majeures du secteur. La thématique humanoïdes acquiert une place centrale, cohérente avec l'accélération des annonces industrielles de Figure, Agility Robotics, Boston Dynamics ou 1X ces dix-huit derniers mois. L'intégration du Physical AI comme thématique à part entière -- soit les architectures combinant perception, raisonnement et action, dont les modèles VLA (vision-language-action) -- signale que la question n'est plus théorique : les industriels veulent comprendre comment ces systèmes se comportent hors laboratoire, en conditions réelles, et pas seulement dans des vidéos soigneusement sélectionnées. L'ajout d'une thématique dédiée au Business & Deployment traduit également une maturité du marché : la robotique commerciale sort du cycle démo-pilote pour entrer dans celui de la scalabilité et du ROI mesurable. RoboBusiness existe depuis vingt ans et est organisé par WTWH Media, groupe éditorial qui publie The Robot Report et Automated Warehouse, et co-produit le Robotics Summit & Expo. Parmi les intervenants récurrents figurent Jeff Burnstein, président de l'Association for Advancing Automation (A3), Ken Goldberg, titulaire de la chaire William S. Floyd Jr. Distinguished en ingénierie à l'UC Berkeley, et Deepu Talla, vice-président robotique et edge AI chez NVIDIA. Sur un marché des événements robotique de plus en plus concurrencé -- ICRA côté recherche académique, MODEX et ProMat côté intralogistique, AUTOMATE pour l'automatisation industrielle -- RoboBusiness maintient un positionnement délibérément orienté commercialisation et go-to-market, ciblant intégrateurs, décideurs et investisseurs plutôt que chercheurs. Les propositions de conférence sont à soumettre via formulaire en ligne avant le 8 juillet ; le contact programme est Steve Crowe (scrowe@wtwhmedia.com).

BusinessOpinion
1 source
L'équipe de Boston University remporte le MassRobotics Form & Function Challenge au Robotics Summit
48Robotics Business Review 

L'équipe de Boston University remporte le MassRobotics Form & Function Challenge au Robotics Summit

Lors du Robotics Summit & Expo de Boston fin mai 2026, MassRobotics a dévoilé les lauréats de sa quatrième édition du Form & Function Robotics Challenge, compétition annuelle réservée aux équipes universitaires. Quinze équipes issues d'établissements nord-américains et internationaux -- MIT, Purdue, WPI, Laval, UPenn, University of British Columbia, Waterloo, Manipal Academy de Dubaï, entre autres -- ont présenté leurs projets devant un jury d'experts de l'industrie. La première place et le prix du public reviennent à l'équipe de Boston University pour AGROBOT T.O.M., un robot de récolte de précision monté sur portique gantry, conçu pour l'agriculture verticale et indoor. Le système parcourt de façon autonome les bacs de culture, s'appuie sur un pipeline lidar et vision/machine learning pour détecter les fruits, évalue maturité et état via des indicateurs de couleur et taille, puis récolte uniquement les fruits qualifiés grâce à un préhenseur à actionnement pneumatique souple. La deuxième place revient à Northeastern University pour un mécanisme plan dédié à la métrologie, et la troisième à WPI pour un chargeur centrifuge pour l'automatisation de laboratoire. Les sponsors -- AMD, Dassault Systèmes, Harmonic Drive, maxon, Mitsubishi Electric -- ont fourni composants et logiciels aux équipes participantes. AGROBOT T.O.M. illustre une tendance concrète dans la robotique agricole : l'intégration bout-en-bout de perception, décision et manipulation dans un système autonome déployable en environnement contrôlé. Le choix d'un préhenseur souple pour des fruits fragiles, couplé à un pipeline de qualification visuelle en temps réel, répond directement aux freins commerciaux du secteur -- taux de casse, faux positifs, adaptabilité à des variétés multiples. Ce type de projet étudiant sert aussi d'indicateur avancé des priorités technologiques de l'industrie : la sélection de sujets autour de la métrology robotique (Northeastern) et de l'automatisation de labo (WPI) confirme l'intérêt croissant pour des niches à haute valeur ajoutée, moins médiatisées que l'humanoïde mais commercialement plus matures. MassRobotics est un hub à but non lucratif basé à Boston qui fédère startups, laboratoires et grands industriels autour de la robotique physique. En parallèle de la compétition, l'organisation a présenté son Startup Alley avec treize startups résidentes -- dont Ava Robotics, XYZ Robotics, TP7 AI Robotics et LabyrinthAI -- et annoncé la deuxième promotion de son Physical AI Fellowship, programme de huit semaines en distanciel co-organisé avec NVIDIA et AWS. Cette cohorte réunit neuf startups, parmi lesquelles Haply Robotics (interface haptique, Canada), Telexistence (Japon), Burro (robots agricoles) et Roboto AI. Le fellowship vise l'accélération au stade de l'intégration matérielle et logicielle, là où la plupart des startups physiques butent sur le passage à l'échelle. Aucune date de démo publique ni de commercialisation n'a été communiquée pour les projets du fellowship.

RecherchePaper
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
49arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

IA physiqueOpinion
1 source
Mémoire épisodique pour robots à filtrage par surprise
50arXiv cs.RO 

Mémoire épisodique pour robots à filtrage par surprise

Des chercheurs ont publié sur arXiv (référence 2606.03787) une architecture de mémoire épisodique sélective pour robots généralistes, baptisée "Surprise-Gated Episodic Memory". Le principe central : utiliser la surprise bayésienne comme filtre pour décider quels événements méritent d'être mémorisés à long terme. Plutôt que de stocker l'intégralité du flux sensoriel, un mécanisme de calcul de surprise opère dans l'espace latent de V-JEPA-2, le modèle vidéo de Meta, jugé sémantiquement riche et indépendant du contexte de déploiement. Cette mémoire épisodique filtrée vient augmenter une mémoire spatiale fondée sur des graphes de scène 4D. Sur les benchmarks de question-answering robot, l'approche surpasse les méthodes de référence d'au moins 12 % sur les questions temporelles, spatiales et binaires, et bat également des méthodes supervisées ainsi que des approches non-causales, avec une méthode non supervisée et causale pour la segmentation d'événements. L'enjeu derrière ce résultat est directement opérationnel : un robot généraliste déployé en entrepôt, en hôpital ou sur un chantier reçoit des instructions ancrées dans des événements passés ("Retourne là où le colis a été mal placé hier soir"). Sans mémoire épisodique sélective, soit le robot stocke tout et sature sa mémoire, soit il oublie et échoue à répondre. La surprise bayésienne comme critère de filtrage est élégante parce qu'elle ne nécessite aucun superviseur humain ni liste de tâches futures a priori, elle capte l'inhabituel de façon autonome. Que cette méthode non supervisée et causale batte des méthodes supervisées est un signal fort : le sim-to-real gap pour la mémoire sémantique pourrait se réduire sans annotation coûteuse. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la mémoire à long terme pour les robots mobiles, face aux limites des approches purement réactives popularisées par les VLA (Vision-Language-Action models). V-JEPA-2, publié par Meta en 2025, s'impose progressivement comme fondation visuelle pour plusieurs équipes de recherche extérieures à Meta. Sur le plan concurrentiel, des approches comparables sont développées par des groupes travaillant sur les représentations spatiales pour l'embodied AI (CMU, Stanford, ETH Zurich). L'étape suivante naturelle serait de valider la méthode sur du matériel réel en conditions non contrôlées, les résultats actuels restant des benchmarks, la question du passage à l'échelle sur des robots comme Figure 03 ou Unitree G1 en déploiement continu reste entière.

RecherchePaper
1 source