Aller au contenu principal

Dossier 1X Technologies — page 2

156 articles · page 2 sur 4

1X Technologies (ex-Halodi) : robot humanoïde NEO, soutiens d'OpenAI, vision d'un humanoïde domestique grand public.

KRVF : représentation du monde en voxels sémantiques sensible à la source pour la manipulation mobile embarquée
51arXiv cs.RO RecherchePaper

KRVF : représentation du monde en voxels sémantiques sensible à la source pour la manipulation mobile embarquée

Des chercheurs ont déposé sur arXiv (identifiant 2606.26321) un rapport technique décrivant KRVF, un système de représentation sémantique du monde en voxels conçu pour les manipulateurs mobiles soumis à des contraintes de calcul embarqué. L'architecture attribue à chaque voxel cinq propriétés: occupation de l'espace, couleur, évidence sémantique, fraicheur temporelle de la donnée et source d'origine de la mesure. Ce dernier attribut, la "conscience de la source", est le trait distinctif du système: il trace l'origine de chaque information, qu'elle provienne d'un capteur direct, d'une hypothèse a priori ou d'une inférence. L'implémentation repose sur ROS 2 et traite des flux RGB-D en temps réel pour construire une mémoire du robot orientée tâche, centrée sur la localisation des objets saisissables et des candidats à la préhension. L'acronyme KRVF n'est pas développé dans l'abstract disponible. L'enjeu technique central est la robustesse aux défaillances des capteurs de profondeur, problème récurrent en déploiement réel (occlusions, surfaces spéculaires, zones hors portée). Les pipelines de reconstruction classiques, optimisés pour la fidélité géométrique globale, corrompent silencieusement leur modèle persistant quand les mesures de profondeur sont absentes ou erronées. KRVF répond en séparant explicitement l'occupation mesurée des hypothèses sémantiques a priori: le robot peut raisonner sur un objet probable sans altérer la géométrie de référence. La carte existante sert également à générer une profondeur synthétique pour combler les lacunes capteur, fermant une boucle de rétroaction entre cartographie et perception. Ces choix ciblent directement les déploiements sans infrastructure cloud: la cognition spatiale s'exécute entièrement à bord du robot, sans latence réseau. Ce travail s'inscrit dans une dynamique de recherche active sur la représentation du monde pour robots mobiles, aux côtés de systèmes comme ConceptFusion ou LERF qui explorent des cartes neuronales 3D interrogeables en langage naturel. Sur le marché des manipulateurs mobiles, des acteurs comme Boston Dynamics (Spot ARM), Hello Robot (Stretch) ou des startups comme Agility Robotics et 1X Technologies cherchent précisément ce type de module de perception embarqué à faible empreinte de calcul. KRVF reste un préprint non évalué par les pairs, sans benchmark comparatif public ni annonce de mise à disposition du code: c'est une contribution architecturale cohérente, mais dont la portée industrielle dépendra d'une validation expérimentale sur des plateformes réelles et dans des scénarios adversariaux.

1 source
RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel
52arXiv cs.RO 

RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel

Des chercheurs de Microsoft Research ont publié fin juin 2026 un framework baptisé Object-Centric Residual RL (arXiv:2606.18953), conçu pour améliorer la robustesse des modèles Vision-Language-Action (VLA) dans des tâches de manipulation physique précise. Le principe : entraîner une politique correctrice en simulation pure, basée non pas sur des images mais sur les poses des objets, puis la transférer directement sur un robot réel sans aucun fine-tuning supplémentaire. Sur un bras Franka Research 3 (FR3), la méthode fait passer le taux de succès moyen de 42 % à 76 % en zero-shot sur cinq tâches de manipulation, avec une politique résiduelle entraînée exclusivement en simulation, avec injection de bruit de pose et dropout. Le processus inclut également le rejeu des démonstrations de télé-opération en simulation pour entraîner un VLA "jumeau" simulé, auquel la politique résiduelle est ensuite couplée avant transfert zero-shot. L'enjeu est direct pour les intégrateurs et les équipes de déploiement robotique : les VLA actuels, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA ou des modèles RT de Google, généralisent bien à travers des tâches variées mais accumulent des erreurs d'exécution lors d'interactions physiques précises (pincements, insertions, assemblages) où la précision millimétrique est requise. Les approches concurrentes butent sur un trilemme classique : les méthodes à états privilégiés nécessitent une distillation coûteuse pour le déploiement, les méthodes basées image souffrent du fossé visuel sim-to-réel, et le RL en conditions réelles reste coûteux et risqué pour le matériel. En substituant les poses d'objets aux images comme espace d'observation, le framework crée une représentation compacte et cohérente entre simulation et réalité, suffisamment légère pour un transfert zero-shot fiable. Autre résultat notable : les rollouts améliorés peuvent être réutilisés pour ré-entraîner le VLA de base, ouvrant une boucle d'auto-amélioration sans télé-opération supplémentaire. Le sim-to-real gap est un problème structurel qui freine la commercialisation des robots polyvalents depuis plusieurs années, et les VLA n'y échappent pas malgré leurs capacités de généralisation linguistique. Cette publication s'inscrit dans une dynamique de recherche intense où Physical Intelligence (Pi-0, Pi-0 FAST), Figure AI et 1X Technologies tentent chacun de réduire cet écart par des voies différentes : données réelles massives, domain randomization, ou standardisation du hardware. Microsoft Research, moins visible sur le déploiement commercial que ces acteurs, confirme ici un axe de recherche sur la correction post-entraînement des fondations robotiques par RL simulé. La page projet est publiée en accès ouvert sur le site de Microsoft Research ; aucun partenariat industriel ni timeline de déploiement n'est mentionné dans la publication, qui reste pour l'heure une contribution académique.

💬 La précision millimétrique, c'est là où tous les VLA craquent en conditions réelles. Microsoft Research contourne le problème par le bon bout : en travaillant sur des poses d'objets plutôt que sur des images, le fossé visuel sim-to-real disparaît, et on monte de 42 % à 76 % de succès sur un Franka réel, zero-shot. Aucun partenaire industriel dans la publication pour l'instant, mais l'approche est solide.

IA physiqueOpinion
1 source
Autonomique déploie des robots semi-humanoïdes et de l'IA chez un équipementier automobile canadien de rang 1
53Robotics Business Review 

Autonomique déploie des robots semi-humanoïdes et de l'IA chez un équipementier automobile canadien de rang 1

Autonomique Inc., startup californienne fondée en 2024 et issue des laboratoires de SRI International (Menlo Park), annonce le passage en déploiement industriel de sa plateforme d'IA physique chez F&P Manufacturing, équipementier automobile Tier 1 canadien basé à Tottenham, Ontario, spécialisé dans les systèmes de chassis et de suspension. La société ne commercialise pas de robot propre mais une couche logicielle hardware-agnostique conçue pour ajouter dextérité et raisonnement à des bras industriels existants, issus notamment de Denso, Staubli et RealMan Robotics. Son PDG, Vikrant Tomar, docteur en IA et ancien fondateur de Fluent.ai, insiste sur la distinction entre démonstration et production : les métriques annoncées (temps de cycle, précision, réduction de rebuts) restent à ce stade déclaratifs, sans données publiques indépendantes pour les valider. Le déploiement chez F&P est présenté comme un pilote progressant vers une industrialisation, non comme un rollout à l'échelle déjà opérationnel. L'intérêt technique réside dans l'architecture dite "généraliste-spécialiste" : plutôt qu'un unique modèle vision-langage-action (VLA) monolithique, la plateforme orchestre dynamiquement des compétences déterministes (apprentissage par renforcement en ligne pour les insertions de précision, par exemple) et des modèles VLA plus flexibles pour gérer les anomalies ou les tâches non prévues. Cette approche répond à une critique structurelle du secteur : les VLA génériques peinent à tenir les cadences et la répétabilité exigées en production réelle. Si Autonomique tient ses promesses chez F&P, ce serait un signal concret que le sim-to-real gap peut être comblé sur des workflows multi-étapes en environnement industriel contraint, sans recours à des end-effectors coûteux comme les mains robotiques polyarticulées. Autonomique s'appuie sur des licences de technologies SRI, dont le système de télé-opération déjà utilisé par l'armée américaine pour le déminage et par des laboratoires pharmaceutiques en salles blanches, ce qui donne à sa base de données d'entraînement une provenance inhabituelle pour une startup robotique. Ses concurrents directs dans le segment "software layer for industrial arms" incluent Covariant (racheté par Amazon), Machina Labs ou Physical Intelligence (Pi-0), tandis que des acteurs comme 1X Technologies ou Figure AI ciblent l'humanoïde complet, segment qu'Autonomique juge prématuré pour la production. Les prochaines étapes annoncées : extensions de partenariats avec Holiday Robotics et Rainbow Robotics, discussions en cours avec des développeurs d'humanoïdes, et réplication du blueprint F&P sur d'autres lignes et sites. Aucun acteur européen ou français n'est impliqué à ce stade.

💬 La couche logicielle sur bras existants, c'est le seul modèle qui colle vraiment avec la réalité des usines : pas besoin de remplacer le hardware. L'architecture généraliste-spécialiste d'Autonomique (déterminisme pour les tâches de précision, VLA pour gérer les exceptions) s'attaque enfin au problème que personne n'avait résolu proprement en prod réelle. Reste à valider les chiffres sur la durée, parce que pour l'instant c'est Autonomique qui parle d'Autonomique.

IA physiqueOpinion
1 source
DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine
54arXiv cs.RO 

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.17418) les spécifications techniques de la DexLink Hand, une main robotique anthropomorphe à 16 degrés de liberté intégrant 20 articulations commandées par 16 actionneurs indépendants. Le prototype, de la taille d'une main humaine, pèse 320 grammes et affiche un coût total inférieur à 400 dollars, un seuil rarissime pour ce niveau de polyvalence. L'architecture mécanique repose sur un système hybride de mécanismes à liaisons planes et spatiales, permettant des mouvements multidirectionnels découplés, des synergies articulaires biomimétiques et une forte capacité de charge passive sans actionnement. Le pouce intègre des caractéristiques biomimétiques supportant les mouvements de reconfiguration et d'opposition propres à la main humaine. Lors des évaluations expérimentales, la main a atteint le score de Kapandji maximal (référence standard en chirurgie et robotique pour évaluer l'amplitude de mouvement du pouce) et a reproduit les 33 types de préhension du catalogue Feix, couvrant l'intégralité des prises répertoriées sur des sujets humains. L'intérêt industriel du travail réside principalement dans le ratio coût/dextérité : les mains robotiques commerciales atteignant un niveau comparable (Shadow Dexterous Hand, Allegro Hand) se situent entre 5 000 et 70 000 dollars, rendant leur déploiement en série peu viable. Un module à moins de 400 dollars change les calculs pour les intégrateurs de robots humanoïdes ou de cellules de téléopération. La masse de 320 g est également compatible avec les bras des humanoïdes de nouvelle génération, dont les payloads distaux sont souvent contraints à moins de 500 g. La reproduction de l'intégralité des types Feix constitue une donnée concrète pour le robot learning : les datasets entraînés sur des démonstrations humaines deviennent directement exploitables sans remapping cinématique, ce qui réduit le gap sim-to-real pour les approches VLA (vision-language-action). Le défi de la main dextère est structurel dans le secteur : la majorité des plateformes humanoïdes commerciales (Figure 03, Tesla Optimus Gen 3, Agility Digit, Unitree H1) utilisent encore des mains simplifiées à 2 à 6 DOF pour des raisons de robustesse et de coût. Ce prototype reste pour l'heure un démonstrateur académique sans annonce de commercialisation ni partenariat industriel déclaré. Les chercheurs le positionnent explicitement pour la manipulation dextère, la téléopération et le robot learning en environnements centrés sur l'humain, des cas d'usage directement alignés avec les feuilles de route de Boston Dynamics, de 1X Technologies ou des équipes travaillant sur Pi-0 (Physical Intelligence). Aucune timeline d'intégration sur un bras complet ni d'évaluation en conditions industrielles n'est communiquée.

HumanoïdesPaper
1 source
EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action
55arXiv cs.RO 

EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action

EgoInfinity est un moteur de données 4D présenté en juin 2026 dans un article arXiv (2606.17385), conçu pour convertir automatiquement des vidéos RGB de manipulation humaine en données d'entraînement exploitables par des robots. Son architecture modulaire enchaîne perception, segmentation, reconstruction 3D, raffinement contextuel et reciblage cinématique. À partir d'une vidéo ordinaire, le système produit des représentations 4D indépendantes de l'agent : trajectoires de main, poses d'objets à 6 degrés de liberté (6-DoF) et états de contact. Un module de reciblage de mouvement compile ensuite ces données en trajectoires articulaires exécutables pour n'importe quelle morphologie de robot, à partir de tout angle de vue ou cadrage, même lorsque le corps humain n'est que partiellement visible. Le pipeline a été validé sur des tâches de préhension, coupe, essuyage et versage en conditions réelles. L'enjeu industriel est direct : les données de manipulation collectées en laboratoire ou en usine restent rares, coûteuses et peu diversifiées, plafonnant la généralisation des systèmes d'apprentissage par imitation. EgoInfinity ouvre théoriquement l'accès à Internet comme réservoir de données à l'échelle du web, sans annotation humaine dans la boucle. Le raffinement dit "interaction-aware" (conscient des contacts) corrige les dérives métriques et incohérences de contact fréquentes dans les reconstructions purement visuelles, problème récurrent dans les pipelines sim-to-real. Pour un intégrateur ou un COO industriel, l'argument clé est la portabilité : un même pipeline produit des trajectoires pour des morphologies différentes, sans re-collecte de données. Ce travail s'inscrit dans une compétition intense autour de la donnée pour robots manipulateurs. Les approches concurrentes incluent les datasets collaboratifs comme Open X-Embodiment, les données téléopérées de Physical Intelligence (Pi-0) ou 1X Technologies, et les efforts open-source de HuggingFace (Paris) avec LeRobot, qui cible précisément la démocratisation de la collecte de données à faible coût. L'originalité d'EgoInfinity est d'exploiter des vidéos "in the wild" plutôt que des démonstrations contrôlées, une approche qui reste à valider à grande échelle : les résultats publiés portent sur des tâches isolées, et le passage à des scénarios industriels complexes n'est pas documenté.

UEConcurrence directe pour HuggingFace/LeRobot (Paris) sur le segment de la démocratisation des données de manipulation robotique à faible coût.

RechercheOpinion
1 source
MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique
56arXiv cs.RO 

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Des chercheurs présentent ce mois-ci MuseVLA (arXiv:2606.17598, juin 2026), un modèle Vision-Language-Action capable d'intégrer des capteurs non-RGB comme entrées de perception active lors de tâches de manipulation robotique. Sur un robot à main dextre testée en conditions réelles, MuseVLA atteint un taux de succès moyen de 80,6 % sur trois familles de tâches : saisie guidée par la température, recherche d'objet par signal audio, et récupération d'objet dissimulé assistée par radar. L'architecture repose sur un mécanisme en deux temps : le modèle génère d'abord un "sensor token" qui sélectionne dynamiquement la modalité sensorielle pertinente pour la tâche en cours, puis convertit la mesure capteur en une "grounded sensor image", une représentation intermédiaire unifiée fusionnée avec le flux RGB classique avant la génération d'action. Les auteurs introduisent également un pipeline de synthèse de données qui augmente des datasets RGB existants avec des images capteur simulées, contournant ainsi le coût prohibitif de la collecte de données multisensorielles réelles. L'apport principal est architectural plutôt que purement empirique : le découplage entre le traitement capteur spécifique et le backbone VLA permet d'intégrer de nouveaux capteurs sans réentraîner le modèle de base, un principe analogue aux "tool calls" dans les LLM. Cette modularité répond à une limite structurelle des VLA actuels, dont Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA), qui opèrent quasi exclusivement sur RGB. La capacité de zéro-shot sur des tâches non vues lors de l'entraînement est notable, même si les conditions expérimentales restent celles d'un laboratoire, sans déploiement industriel rapporté. Les métriques de cycle time ou de robustesse en environnement non contrôlé ne sont pas fournies, ce qui limite l'interprétation du 80,6 % en contexte réel. Le papier s'inscrit dans une effervescence autour des VLA généralistes depuis mi-2024, avec des acteurs comme Physical Intelligence, 1X Technologies, Enchanted Tools côté européen, et les équipes de Google DeepMind ou Carnegie Mellon qui multiplient les approches de fusion multimodale. MuseVLA reste pour l'instant un preprint sans code ni dataset publié, et la question de la généralisation à des capteurs industriels standards (LiDAR, force/torque) n'est pas traitée. Les prochaines étapes naturelles seraient un benchmark comparatif sur des plateformes connues type Franka ou UR, et une validation hors labo pour confirmer la thèse du sim-to-real sur les données capteur synthétiques.

UELes acteurs européens comme Enchanted Tools opèrent dans le même segment VLA généraliste, mais ce preprint n'implique aucune institution ou entreprise française ou européenne.

IA physiqueOpinion
1 source
Kawasaki Robotics dévoile sa plateforme d'IA physique RL030N à Automate
57Robotics Business Review 

Kawasaki Robotics dévoile sa plateforme d'IA physique RL030N à Automate

Kawasaki Robotics dévoilera la semaine prochaine, lors du salon Automate 2026 à Chicago (McCormick Place, stand S-2201), sa nouvelle plateforme RL030N, un bras robotique à 8 degrés de liberté (DoF) conçu pour les applications d'IA physique. L'entreprise présentera également deux robots industriels inédits, le MXP360L dédié à la manutention lourde et le BA013L, ainsi que sa technologie d'inspection Pulseboard brevetée. Le RL030N se distingue des bras six axes conventionnels par un axe supplémentaire en configuration dite "plongeoir" ("diving board") : une extension supplémentaire qui permet d'atteindre des positions en espace confiné sans tomber en singularité, c'est-à-dire sans perdre le contrôle du couple cinématique inverse. Selon Paul Marcovecchio, directeur des industries générales chez Kawasaki Robotics (siège américain à Wixom, Michigan), cette articulation maintient également la pleine capacité de charge sur toute l'amplitude de mouvement, un compromis que les bras traditionnels étirent ne peuvent généralement pas tenir. La plateforme repose sur l'API temps réel ouverte KRNX de Kawasaki et supporte l'évitement d'obstacles, la planification de mouvement complexe et l'orchestration externe, c'est-à-dire le pilotage du robot par un superviseur logiciel tiers. L'intérêt industriel de la RL030N réside dans le pont qu'elle tente de construire entre les robots industriels fiables et les exigences de dextérité des nouveaux systèmes d'IA physique. Plusieurs startups ont développé des logiciels de planification de mouvement avancés, mais se heurtaient aux limites cinématiques des plateformes existantes ou à des latences incompatibles avec le contrôle temps réel. Kawasaki répond à cette demande en offrant un matériel pensé dès la conception pour être commandé par des orchestrateurs externes, ce qui réduit la friction d'intégration pour les éditeurs de VLA (Vision-Language-Action models) ou de systèmes de manipulation adaptative. La posture de Kawasaki est délibérément pragmatique : l'entreprise évite le discours "humanoid-first" et mise sur des robots industriels éprouvés reconvertis pour l'IA physique, un pari sur la robustesse plutôt que sur la rupture spectaculaire. Kawasaki Robotics opère dans l'automatisation industrielle depuis 1969, filiale de Kawasaki Heavy Industries, conglomérat japonais actif dans l'aéronautique, le ferroviaire et les véhicules récréatifs. Cette origine manufacture-first explique le discours centré sur les résultats concrets plutôt que sur les benchmarks de laboratoire. Sur un marché où Boston Dynamics, Agility Robotics, Figure ou 1X Technologies concentrent l'attention médiatique autour de l'humanoïde, Kawasaki choisit un positionnement différent : bras industriel augmenté, compatible physique AI, déployable immédiatement dans des lignes existantes. Automate 2026 sera le premier test public de la RL030N ; aucun calendrier de disponibilité commerciale ni tarif n'ont été communiqués à ce stade, ce qui en fait pour l'instant une annonce de salon plutôt qu'un produit disponible à la commande.

UEKawasaki dispose d'une filiale européenne (KRE, Allemagne) et équipe les lignes de production EU, mais la RL030N est présentée exclusivement sur le marché américain sans calendrier ni partenariat européen annoncé.

IA physiqueOpinion
1 source
Genesis AI lance Eno, son robot polyvalent
58Robotics Business Review 

Genesis AI lance Eno, son robot polyvalent

Genesis AI a dévoilé le 16 juin 2026 Eno, son robot à usage général, accompagné de GENE, le modèle de fondation développé en interne pour piloter le système. Contrairement aux approches humanoïdes bipedaleset bipèdes dominantes dans le secteur, Eno repose sur une base roulante surmontée d'une colonne articulée dont la hauteur est ajustable en temps réel, permettant au robot de se replier pour le stockage ou d'étendre sa portée selon la tâche. Ses bras sont équipés de mains propriétaires à cinq doigts conçues pour manipuler des outils et objets calibrés pour des utilisateurs humains. Le robot intègre en option un écran affichant en temps réel l'état cognitif du système, c'est-à-dire les intentions et raisonnements en cours, un choix de design rare dans l'industrie. La société, basée à San Carlos en Californie et financée à hauteur de 105 millions de dollars en seed en 2025, prévoit de lancer la production et les premiers déploiements clients d'ici fin 2026, en ciblant en priorité les secteurs industriels (manufacturing, logistique, laboratoires), avant d'adresser l'hôtellerie, les hôpitaux, puis le grand public. L'annonce est notable non pas tant pour les performances revendiquées que pour le positionnement architectural choisi. En optant pour une base mobile sur roues plutôt que la locomotion bipedaleet bipède, Genesis AI fait le pari de la fiabilité opérationnelle sur des sols industriels plats plutôt que de la polyvalence locomotrice, ce qui réduit la complexité mécanique et le risque de chute tout en simplifiant l'intégration en entrepôt et en laboratoire. La transparence cognitive via l'écran intégré est un signal adressé aux opérateurs et intégrateurs, chez qui la confiance dans les décisions autonomes du robot reste un frein réel au déploiement. GENE est présenté comme un système capable de gérer des tâches longues et séquentielles en raisonnant sur le contexte, sans se limiter à des commandes isolées, ce qui correspond à la catégorie des VLA (Vision-Language-Action models) appliqués à la manipulation. Les affirmations de "précision au millimètre" et de "manipulation au niveau humain" restent à valider indépendamment : aucune métrique de benchmark externe n'est citée dans l'annonce. Genesis AI arrive sur un marché déjà très occupé. Figure AI (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus Gen 3) sont déjà en phase de déploiement pilote ou de production limitée. Nvidia pousse GR00T N2 comme socle commun pour les VLA humanoïdes. Dans ce contexte, Eno se distingue par son format non humanoïde et son interface de transparence, deux paris qui tranchent avec la convergence du secteur vers le robot bipède anthropomorphe. La co-conception corps-cerveau revendiquée par Genesis, où le hardware et le modèle GENE auraient été développés conjointement dès l'origine, reste une tendance lourde que l'on retrouve chez 1X Technologies ou Apptronik. Les prochaines étapes annoncées restent vagues : "déploiements ciblés" fin 2026 sans noms de clients ni volumes. L'annonce est pour l'instant une présentation publique de concept, pas un produit en livraison.

IA physiqueOpinion
1 source
Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce
59Interesting Engineering 

Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce

Le RB-Y1 de Rainbow Robotics, filiale à 35 % de Samsung, aurait débuté des tests opérationnels dans un entrepôt de fulfillment de Coupang, premier e-commerce de Corée du Sud - ce qui constituerait son premier déploiement en environnement logistique commercial réel. Selon le Korea Herald et des sources industrielles citées par ETNews, le pilote vise à évaluer si le robot peut trier, transporter et manipuler des colis de manière fiable dans ce réseau hautement automatisé. Ni Coupang, ni Samsung, ni Rainbow Robotics n'ont confirmé officiellement l'essai : on reste au stade de test non annoncé, pas de déploiement validé. Le RB-Y1 adopte une architecture distincte des humanoïdes bipèdes qui dominent l'actualité : c'est un manipulateur mobile sur base à roues (AMR), mesurant 1,4 mètre pour 131 kilogrammes, équipé de deux bras à 7 degrés de liberté chacun, avec un payload de 3 kg par bras et une vitesse de déplacement de 1,5 m/s. L'ensemble est coordonné par un système de contrôle corps entier à 20 axes avec logiciel d'anti-collision intégré. Coupang a par ailleurs investi plus de 84 millions de dollars dans des startups IA mondiales depuis 2023 dans le cadre de sa stratégie de modernisation logistique. Ce pilote illustre un franchissement potentiel du fossé laboratoire-terrain pour les manipulateurs mobiles avancés, qui restent habituellement cantonnés à des environnements contrôlés. Le contexte réglementaire coréen renforce l'urgence : la loi sur la punition des accidents graves (Serious Accidents Punishment Act) engage pénalement les dirigeants en cas d'accident mortel sur le lieu de travail, créant une incitation directe à automatiser les tâches à risque. Le payload de 3 kg par bras positionne clairement le RB-Y1 sur le tri et le picking de petits articles - un segment différent de robots comme le Boston Dynamics Stretch, conçu pour des charges jusqu'à 23 kg. Pour les décideurs B2B, l'approche AMR plus double bras articulé, plus sobre que les humanoïdes bipèdes, pourrait s'avérer plus rapidement opérationnelle en conditions industrielles réelles - à condition que les métriques annoncées tiennent hors cadre laboratoire. Rainbow Robotics a été fondée en 2011 par des chercheurs issus du KAIST. Samsung a progressivement monté au capital avant d'en faire une filiale, identifiant la robotique comme axe stratégique aux côtés de l'IA et des semi-conducteurs avancés. La Corée du Sud affiche déjà la densité robotique la plus élevée au monde selon l'IFR, avec 1 012 robots industriels pour 10 000 travailleurs manufacturiers, soit plus de sept fois la moyenne mondiale. Dans la compétition sur les manipulateurs mobiles pour la logistique, le RB-Y1 fait face à l'Apollo d'Apptronik (partenaire de Mercedes-Benz), au Digit d'Agility Robotics (évalué par Amazon) et aux solutions de 1X Technologies. En Europe, Enchanted Tools et Pollen Robotics (France) travaillent sur des architectures comparables, à des stades de commercialisation plus précoces. Si le pilote Coupang est concluant, un déploiement à grande échelle en ferait l'un des premiers cas documentés de standardisation de ce type de robot dans la logistique commerciale mondiale.

UEEnchanted Tools et Pollen Robotics (France) sont explicitement positionnées comme en retard de commercialisation face au RB-Y1 de Rainbow Robotics, soulignant la pression concurrentielle que les acteurs européens subissent des conglomérats coréens soutenus par Samsung.

Chine/AsieOpinion
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
60arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA
61arXiv cs.RO 

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

IA physiqueOpinion
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
62arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion
1 source
MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle
63arXiv cs.RO 

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Des chercheurs ont présenté MV-Actor (arXiv:2606.10899, juin 2026), un framework de perception multi-vues conçu pour la manipulation bimanuele robotique. Le système intègre trois modules successifs : Multi-view Semantic Interaction, qui partage la perception sémantique entre les différents flux caméra plutôt que de les traiter isolément ; Semantic-Spatial Token Interaction, qui ancre ces sémantiques visuelles dans une représentation 3D via un modèle de reconstruction feed-forward ; et un module Guided Metric Depth Repair, qui corrige la profondeur dégradée issue de capteurs grand public (Intel RealSense, Azure Kinect) pour fournir des ancres métriques fiables. Sur le benchmark PerAct2, référence académique dédiée à la manipulation bimanuele multi-tâches, MV-Actor atteint un taux de succès moyen de 87,8%, niveau state-of-the-art. Les évaluations en conditions réelles, avec changements de points de vue fréquents et profondeur bruitée, confirment des gains mesurables par rapport aux baselines RGB et RGB-D. Le verrou que MV-Actor tente de lever est structurel : les politiques multi-vues existantes encodent chaque vue indépendamment ou fusionnent les features de façon superficielle, ce qui produit une perception sémantique fragmentée et une localisation spatiale peu fiable. Pour les intégrateurs B2B qui déploient des cellules à deux bras (assemblage, emballage, picking de pièces déformables), c'est un problème concret : une politique qui "voit" mais ne comprend pas la cohérence entre vues génère des échecs en tâches coordonnées. Le module de réparation de profondeur est notable car il évite le recours à des lidars industriels onéreux, ce qui abaisse le seuil d'adoption. Le 87,8% sur PerAct2 est encourageant, mais ce benchmark reste simulé pour l'essentiel ; les auteurs mentionnent des tests réels sans publier de métriques détaillées par tâche, un point à nuancer. La manipulation bimanuele est un objectif central de plusieurs équipes : CMU, Stanford, ETH Zurich côté académique, et côté industrie les équipes de Figure, 1X Technologies et Sanctuary AI, qui intègrent des bras duaux dans leurs humanoïdes. Les politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux DeepMind sur RoboVLMs s'attaquent au même problème de coordination multi-membres. PerAct2, publié en 2024, étend PerAct au cas bimanuel et s'impose comme référence de comparaison. MV-Actor est pour l'heure un travail académique sans affiliation industrielle déclarée ; aucun pilote ni partenariat de déploiement n'est annoncé, ce qui le situe côté recherche fondamentale plutôt que produit imminent.

UEETH Zurich est cité comme acteur académique sur la manipulation bimanuele, mais MV-Actor n'implique aucune institution ou entreprise européenne directement ; pas d'impact immédiat sur la France/UE.

IA physiqueOpinion
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
64Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée
65arXiv cs.RO 

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

Un article soumis en juin 2026 sur arXiv (2606.08520) propose une méthode graduée pour convertir des modèles de vision-langage généralistes (VLMs) en politiques de contrôle robotique (VLAs). Les auteurs identifient un double fossé qui explique les échecs du fine-tuning direct : un fossé visuel (les VLMs sont entraînés sur des images internet, pas sur des scènes de manipulation robot) et un fossé d'objectif (passer de la compréhension de texte à la prédiction de commandes motrices). Pour combler ces deux ruptures progressivement, ils introduisent les "embodied trajectory-coupled data" (ETC), des paires vision-langage extraites des mêmes trajectoires et environnements visuels que ceux utilisés pour l'entraînement à l'action, mais conservant un objectif de supervision en langage naturel. La recette d'entraînement se déroule en trois étapes séquentielles : Distribution Bridging (adaptation sémantique au domaine incarné), Objective Bridging (transition progressive vers la prédiction d'action), puis Retentive Adaptation (spécialisation au domaine de déploiement cible). Les expériences sont validées en simulation et sur robot réel, sans que l'abstract ne précise le matériel ni les benchmarks utilisés. La contribution centrale n'est pas un nouveau modèle mais une stratégie de curriculum d'entraînement qui conteste une hypothèse répandue dans la communauté : que le fine-tuning direct sur données d'action suffit, comme cela fonctionne pour d'autres domaines (vision médicale, OCR). Le papier montre expérimentalement que ce raccourci provoque une dégradation des généralisations acquises en préentraînement, phénomène particulièrement prononcé dans les architectures multimodales. Pour les intégrateurs, l'enjeu est concret : les ETC data peuvent être générées depuis des trajectoires déjà enregistrées sans coût de collecte supplémentaire, et les mélanger avec une faible quantité de données d'action permettrait de généraliser à de nouvelles conditions visuelles et linguistiques sans démonstrations supplémentaires, ce qui adresse directement le problème du long-tail en déploiement industriel. Ce travail s'inscrit dans la dynamique ouverte par RT-2 (Google DeepMind, 2023) qui a lancé la course aux VLAs, avec des modèles comme pi-zéro (Physical Intelligence), OpenVLA, ou RoboFlamingo comme repères concurrents. Le coût des données d'action robotique reste le noeud central pour des acteurs comme Figure AI, 1X Technologies ou Agility Robotics, qui financent massivement la collecte en déploiement réel. L'approche ETC propose une voie complémentaire en valorisant les trajectoires déjà existantes, sans nécessairement passer par de nouvelles sessions de télé-opération. Au stade de la soumission, les auteurs n'ont annoncé ni code public ni implémentation open-source.

IA physiqueOpinion
1 source
AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles
66The Robot Report 

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

AGIBOT Innovation Technology, également connue sous le nom de Zhiyuan Robotics, a organisé la AGIBOT World Challenge 2026 en marge de l'ICRA 2026 à Vienne, réunissant 526 équipes de recherche et d'entreprises issues de 27 pays autour de deux pistes compétitives en IA incarnée : "Reasoning to Action" (R2A) et "World Model" (WM). La finale hors ligne s'est déroulée sur le robot humanoïde AGIBOT G2, avec des évaluations standardisées via les benchmarks EWMBench et Genie Sim 3.0. Dans la piste R2A, qui élargit l'évaluation de la simple exécution motrice à la compréhension d'environnement et à la planification de tâches, c'est l'équipe PrismBot de vivo qui a remporté le championnat avec 43,47 points, devant RP-VLA de Shanghai RoboParty (35,66 points) et GreenVLA de la Russie (33,19 points). Dans la piste WM, NeoVerse-ABot, équipe conjointe de l'Institut d'Automatisation de l'Académie des Sciences de Chine et du laboratoire Amap CV, a décroché la première place. Plus de 100 équipes ont dépassé le score de référence officiel, avec des participants issus de la Tsinghua University, de l'USTC, de l'UC San Diego, d'Alibaba et du Sber Robotics Center russe. La signification industrielle de cet événement tient moins aux classements qu'au format d'évaluation lui-même : l'abandon progressif des scores de simulation au profit de tests en boucle fermée sur robots réels, avec des métriques reproductibles et standardisées. Pour les intégrateurs et les décideurs B2B, c'est un signal que le secteur commence à construire des référentiels comparables entre systèmes -- un prérequis pour toute contractualisation sérieuse. La piste "World Model", centrée sur la prédiction de changements physiques et la modélisation d'interactions à partir d'entrées sensorielles, teste directement la capacité des VLA (Vision-Language-Action models) à généraliser hors distribution, y compris le transfert zéro-shot et l'adaptation aux perturbations. Le benchmark supermarché co-développé avec Dexmal va plus loin en intégrant des interactions physiques non idéales -- chutes d'objets, échecs de préhension -- et impose la navigation autonome, le picking et le placement sous contraintes réelles (hauteurs de rayonnage variables, placement aléatoire des articles), contrôlés via API distante. C'est une démarche de validation orientée déploiement, pas de démonstration. AGIBOT, fondée à Shanghai, s'est imposée comme l'un des acteurs centraux de l'écosystème robotique humanoïde chinois, aux côtés d'Unitree, de Fourier Intelligence et de l'initiative GR00T de NVIDIA. Son dataset open-source AGIBOT WORLD, utilisé pour entraîner les modèles de la piste WM, constitue un levier de standardisation communautaire similaire à ce qu'Open X-Embodiment représente côté américain. La compétition s'appuie sur Genie Sim 3.0 pour l'évaluation de capacités couvrant la compréhension du langage, le raisonnement spatial et les compétences atomiques de manipulation. Dans la course mondiale à la robotique humanoïde commerciale -- où Boston Dynamics, Figure AI, Agility Robotics et 1X Technologies avancent leurs propres plateformes -- AGIBOT positionne le G2 comme un banc d'essai de référence pour la communauté académique et industrielle, avec une stratégie d'écosystème ouverte qui rappelle davantage un hub de recherche qu'une pure offre produit.

Chine/AsieOpinion
1 source
OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples
67arXiv cs.RO 

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Des chercheurs ont publié OSCAR (Omni-Embodiment Skeleton-Conditioned World Action Model), un modèle de monde vidéo conditionné par les actions, capable de généraliser à travers différentes morphologies de robots. Décrit dans un preprint arXiv (2606.04463), le système s'appuie sur deux éléments centraux : un pipeline de données à grande échelle qui agrège, filtre et déduplique des jeux de données robotiques et des séquences vidéo égocentrées humaines pour couvrir des tâches, scénarios et morphologies variés ; et un conditionnement par rendu de squelette cinématique 2D, représentation unifiée fonctionnant aussi bien pour des bras robotiques de morphologies différentes que pour des mains humaines. Le modèle de base Cosmos-Predict2.5-2B de NVIDIA a été fine-tuné sur un seul GPU GH200. OSCAR a ensuite été déployé pour évaluer des politiques de contrôle issues de RoboArena, plateforme de benchmark communautaire, et démontre une corrélation significative entre évaluations virtuelles et tests en conditions réelles. L'enjeu central est le sim-to-real gap dans l'évaluation des policies : les environnements de simulation classiques reproduisent mal la physique réelle, rendant les benchmarks peu prédictifs du comportement sur robot physique. OSCAR propose une alternative directe, générer des vidéos conditionnées par les trajectoires d'actions pour simuler l'exécution d'une politique sans déploiement matériel. Si la corrélation annoncée se confirme à plus grande échelle, cela réduirait significativement les coûts et les cycles d'itération pour les équipes développant des VLA (Vision-Language-Action models). La représentation par squelette 2D est également notable : en évitant une spécialisation par embodiment, elle adresse un blocage récurrent de la généralisation multi-robot. Le fine-tuning sur GPU unique, contre des baselines nécessitant des modèles plus grands ou davantage de ressources de calcul, améliore l'accessibilité de l'approche. Les video world models appliqués à la robotique constituent un domaine en forte compétition : UniSim, RoboDreamer et le World Model de 1X Technologies ont chacun tenté d'adresser la simulation vidéo pour l'entraînement ou l'évaluation de robots, avec des résultats limités en diversité de scénarios ou en généralisation inter-embodiment. Le recours au modèle Cosmos de NVIDIA comme base pré-entraînée positionne OSCAR dans l'écosystème robotique croissant de NVIDIA, qui comprend Isaac Lab et GR00T. Les auteurs ouvrent explicitement la perspective d'une évaluation purement virtuelle des politiques robots, une proposition qui intéresse directement les intégrateurs cherchant à réduire les cycles de test hardware. Les étapes naturelles seraient la validation sur des morphologies plus variées, des tâches de manipulation complexes, et un passage à l'échelle vers des configurations multi-GPU.

RechercheOpinion
1 source
IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence
68Pandaily 

IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence

Une entreprise chinoise spécialisée en intelligence artificielle incarnée (embodied AI) a décroché la première place du classement RoboArena lors de la conférence NVIDIA GTC Taipei 2026, devançant NVIDIA et Physical Intelligence (PI). Le benchmark RoboArena est conçu pour évaluer des systèmes d'IA robotique sur des tâches physiques réelles variées : manipulation d'objets, navigation mobile et utilisation d'outils complexes. Sa méthodologie inclut des conditions environnementales aléatoires, des perturbations adversariales et des exigences strictes de reproductibilité, ce qui en fait l'un des rares benchmarks difficiles à truquer par overfitting. Fait notable : l'article source ne mentionne pas le nom de cette entreprise, ce qui affaiblit la portée de l'annonce et rend toute vérification indépendante impossible pour l'instant. La solution retenue s'appuie sur une architecture qui intègre étroitement la perception visuelle et le contrôle moteur au niveau du réseau de neurones, permettant une adaptation rapide à de nouveaux environnements avec un fine-tuning minimal. L'entrée de NVIDIA, construite sur sa plateforme Isaac et ses pipelines de simulation-to-real accélérés GPU, ainsi que celle de Physical Intelligence, connue pour ses politiques robotiques généralistes (dont le modèle Pi-0), ont toutes deux été surpassées en score agrégé. Ce résultat conteste l'hypothèse dominante selon laquelle la puissance de calcul brute est le principal levier de performance en embodied AI. Si confirmé, cela suggère que l'innovation architecturale et une utilisation efficace des données réelles peuvent compenser un désavantage de ressources significatif face à des acteurs comme NVIDIA ou PI, qui disposent de budgets compute sans commune mesure. Pour les intégrateurs et décideurs industriels, cela signifie que le marché reste ouvert à des challengers lean, et que la course à la généralisation robotique n'est pas encore jouée par les seuls hyperscalers. La validation par un benchmark tiers réputé représente un argument commercial fort, surtout dans un secteur où les démonstrations en conditions contrôlées sont légion. Il convient cependant de rester prudent : aucune métrique précise (payload, degrés de liberté, temps de cycle, taux de succès par tâche) n'est communiquée dans l'annonce, et les vidéos de démonstration n'ont pas encore été soumises à un audit indépendant. RoboArena a été lancé comme réponse directe aux critiques sur la reproductibilité des benchmarks robotiques, dans un contexte où des acteurs comme Figure AI (Figure 03), Tesla (Optimus Gen 3), Boston Dynamics, 1X Technologies et Physical Intelligence publient des résultats difficiles à comparer. La Chine construit depuis plusieurs années un écosystème embodied AI dense, porté par une base de fabrication hardware mature, un vivier de talents en vision par ordinateur issus des géants technologiques (Baidu, Alibaba, DJI), et un soutien gouvernemental actif à l'industrialisation de l'IA. La prochaine étape logique pour cette entreprise anonyme sera de se nommer publiquement, de publier ses données brutes et d'annoncer des déploiements pilotes en environnement industriel réel pour confirmer que la performance benchmark se traduit en valeur opérationnelle.

UELa compétitivité croissante de l'écosystème chinois en IA incarnée constitue un signal d'alerte indirect pour les industriels et laboratoires européens positionnés sur la robotique généraliste.

Chine/AsieOpinion
1 source
L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA
69Pandaily 

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé. L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique. La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

UEL'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

Chine/AsieOpinion
1 source
La Chine déploie des robots humanoïdes capables de trier 1 200 colis par heure dans un grand centre postal
70Interesting Engineering 

La Chine déploie des robots humanoïdes capables de trier 1 200 colis par heure dans un grand centre postal

La Chine a déployé des robots humanoïdes dans le centre logistique de Jianggao, rattaché au hub postal de Guangzhou (province du Guangdong), pour trier les colis à une cadence annoncée de 1 200 unités par heure. Des images diffusées cette semaine par l'agence Xinhua montrent ces systèmes humanoïdes travaillant en parallèle avec des bras robotiques et des chariots élévateurs autonomes dans un entrepôt fortement automatisé opéré par China Post Group. Le site traite en moyenne 6,5 millions de pièces de courrier par jour, avec des pics dépassant 10 millions. Les robots filmés saisissent des colis depuis des conteneurs et les déposent sur des lignes de tri, tandis que des véhicules autonomes assurent les flux au sol. À noter : les chiffres de cadence (1 200 colis/heure) émanent des médias d'État et n'ont pas été vérifiés de manière indépendante, et les vidéos publiées ne montrent que des séquences sélectionnées dans des conditions optimales. Ce déploiement marque une inflexion notable dans la stratégie d'automatisation logistique. Les robots humanoïdes présentent un avantage structurel par rapport à l'automatisation industrielle fixe : ils peuvent théoriquement opérer dans des infrastructures conçues pour les humains, sans nécessiter de refonte complète de l'entrepôt. Pour les intégrateurs et les décideurs B2B, cela réduit la barrière à l'entrée par rapport aux systèmes dédiés qui exigent une architecture entrepôt repensée de zéro. La logistique devient ainsi le premier secteur à tester à grande échelle la promesse de la robotique humanoïde en conditions réelles, au-delà des démos en laboratoire, dans un environnement à forte pression opérationnelle (24h/24, volumes croissants portés par l'e-commerce, pénuries de main-d'oeuvre régionales). C'est précisément ce contexte de charge élevée et continue qui permet d'évaluer si le gap sim-to-real est réellement comblé. China Post Group s'inscrit dans une dynamique nationale soutenue par des investissements publics massifs dans la robotique humanoïde, avec des acteurs comme Unitree, Fourier Intelligence et UBTECH qui cherchent à commercialiser leurs systèmes dans l'industrie, les services à la personne et la logistique. À l'international, les concurrents directs incluent Figure (avec son robot 02 déployé chez BMW), Agility Robotics (Digit chez Amazon) et 1X Technologies. La différence est que la Chine déploie à une échelle de volumes postaux nationaux, là où les déploiements occidentaux restent pour l'instant des pilotes industriels circonscrits. Des interrogations légitimes subsistent sur la fiabilité à long terme, les coûts de maintenance et la pertinence économique face à des alternatives plus simples comme les AMR (robots mobiles autonomes). Mais la décision de China Post de franchir le seuil du déploiement opérationnel à grande échelle, plutôt que de rester en mode pilote, constitue en soi un signal industriel significatif.

UELe déploiement à grande échelle de robots humanoïdes par China Post accentue le retard compétitif des intégrateurs et constructeurs européens, qui restent cantonnés à des pilotes industriels circonscrits face à une automatisation logistique humanoïde déjà opérationnelle à l'échelle nationale en Chine.

Chine/AsieOpinion
1 source
Transformer des modèles vidéo en politiques robotiques généralistes
71arXiv cs.RO 

Transformer des modèles vidéo en politiques robotiques généralistes

Des chercheurs du MIT CSAIL ont publié fin mai 2026 un preprint (arXiv:2605.27817) présentant VERA, pour Video-to-Embodied Robot Action Model, une architecture qui transforme des modèles vidéo génératifs en politiques robotiques généralisables. L'idée centrale est de découpler deux composants qui, dans les approches récentes, sont souvent entraînés conjointement : un planificateur vidéo, qui prédit des séquences d'images représentant la complétion d'une tâche, et un modèle de dynamique inverse (IDM, Inverse Dynamics Model) spécifique à l'effecteur, qui traduit ces images en commandes motrices concrètes. L'IDM est conçu à partir du Jacobien cinématique du robot, ce qui le rend à la fois efficient en données et extensible aux espaces d'action de haute dimension. L'équipe démontre VERA sur deux configurations : manipulation zero-shot d'un bras Panda 7-DOF et réorientation de cube en dextérité avec une main Allegro à 16 degrés de liberté, sur des benchmarks simulés et réels. Ce découplage constitue une alternative architecturale directe aux fondations robotiques qui co-entraînent prédiction d'observations et prédiction d'actions sur des données étiquetées (action-labeled), comme le proposent Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'avantage opérationnel est concret : le planificateur vidéo reste agnostique à l'effecteur et peut être partagé entre plusieurs robots en changeant uniquement l'IDM associé, sans réentraîner le backbone vidéo. L'IDM peut lui-même être entraîné sur des données de self-play facilement disponibles, ce qui réduit la dépendance aux démonstrations humaines coûteuses. Les résultats zero-shot sur des tâches de manipulation réelle renforcent la thèse que le gap sim-to-real peut être atténué par une modélisation géométrique rigoureuse de l'effecteur. La course aux VLA (Vision-Language-Action models) et aux politiques cross-embodiment est aujourd'hui dominée par des laboratoires bien capitalisés : Physical Intelligence avec Pi-0 et Pi-0.5, NVIDIA avec GR00T N2, Figure AI avec Helix, et 1X Technologies. VERA positionne le MIT CSAIL dans ce paysage avec une approche plus modulaire que les architectures monolithiques en vogue. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé ni partenariat hardware mentionné. Les résultats sont disponibles sur vera.csail.mit.edu, et la prochaine étape naturelle serait une évaluation sur des effecteurs plus variés ou des environnements non structurés pour valider la généralisation à plus grande échelle.

RechercheOpinion
1 source
BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers
72Pandaily 

BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers

Li Ke, vice-président exécutif de BYD, a détaillé dans une interview récente la stratégie robotique humanoïde du constructeur, développée en interne sous le nom de code "Yao-Shun-Yu". Le projet en est à sa septième génération d'itération, signe d'un cycle de développement soutenu. Les premiers déploiements visent les concessions automobiles 4S à l'international, les réseaux européens étant cités parmi les sites prioritaires. Les robots y assureront accueil client, démonstrations produits et support commercial standardisé en plusieurs langues simultanément, répondant à un problème opérationnel concret : recrutement difficile et coûts élevés dans les marchés étrangers. À plus long terme, BYD envisage un second débouché, le domicile, avec des fonctions de ménage, préparation des repas et compagnie sociale. Aucun chiffre de production, de spécifications techniques ou de calendrier de livraison précis n'a été communiqué ; il s'agit d'une annonce de stratégie, pas d'un produit expédié. L'entrée de BYD dans la robotique humanoïde est structurellement significative pour deux raisons. D'abord, le groupe dispose d'une chaîne d'approvisionnement verticalement intégrée : l'expertise en systèmes logiciels embarqués et en fabrication de précision acquise dans l'automobile électrique se transpose directement à la robotique, où la maîtrise mécanique et le contrôle temps réel sont aussi critiques que l'intelligence artificielle. Ensuite, Li Ke a formulé un diagnostic précis sur l'état du secteur : les humanoïdes chinois présentent généralement un hardware solide mais un "cerveau" IA insuffisant, tandis que les concurrents américains affichent l'inverse. BYD se positionne explicitement comme intégrateur des deux capacités dans une plateforme unique. Si cette convergence se concrétise à l'échelle, elle modifierait les rapports de force dans la commercialisation des humanoïdes industriels, où aucun acteur n'a encore démontré de production de masse rentable. BYD est devenu en 2023 le premier constructeur mondial de véhicules électriques par le volume, précisément sur la base de cette intégration verticale, supplantant Tesla dans plusieurs segments. Le groupe s'inscrit dans une vague plus large de groupes industriels chinois investissant la robotique humanoïde : UBTECH, Unitree et Fourier Intelligence sont déjà actifs sur ce terrain. Côté américain, les références restent Figure Robotics (Figure 02 en déploiement chez Amazon), Boston Dynamics (Atlas), Tesla (Optimus Gen 2) et 1X Technologies. BYD se distingue en se déclarant lui-même acheteur initial à grande échelle dans ses propres usines chinoises, un levier de dérisquage commercial que très peu de roboticiens peuvent activer de façon crédible. Les prochaines étapes annoncées portent sur des pilotes en concessions européennes, sans calendrier précis confirmé à ce jour.

UEBYD cible explicitement les réseaux de concessions automobiles européens comme sites de déploiement prioritaires, ce qui pourrait introduire un acteur chinois à intégration verticale sur le marché européen de la robotique de service B2B.

Chine/AsieActu
1 source
Les progrès vers l'IPO d'Unitree stimulent les achats d'actions des sociétés exposées au fabricant de robots humanoïdes
73SCMP Tech 

Les progrès vers l'IPO d'Unitree stimulent les achats d'actions des sociétés exposées au fabricant de robots humanoïdes

Unitree Robotics a franchi une étape décisive vers une introduction en bourse domestique en déposant une demande de cotation sur le Star Market de Shanghai, la place boursière dédiée aux entreprises technologiques chinoises. Lundi, la société a confirmé que l'autorité de la bourse examinerait son dossier la semaine suivante. Cette annonce a immédiatement déclenché une vague d'achats sur les titres des investisseurs pré-IPO et des partenaires commerciaux d'Unitree, les traders cherchant à s'exposer indirectement au fabricant de robots avant sa cotation officielle. Le montant de la valorisation cible n'est pas encore divulgué publiquement. L'engouement boursier illustre à quel point les humanoïdes sont devenus le thème d'investissement central de 2026. Une IPO réussie d'Unitree validerait la thèse selon laquelle le marché grand public des robots mobiles est commercialement viable, pas seulement au stade de la démonstration. Pour les intégrateurs et les décideurs industriels, cela signifie que des acteurs comme Unitree, dont le G1 humanoïde est affiché à environ 16 000 dollars, atteignent une maturité opérationnelle suffisante pour justifier une cotation publique avec les obligations de transparence financière que cela implique. Unitree, fondée par Wang Xingxing, s'est imposée comme le fournisseur de robots mobiles le plus agressivement tarifé du marché, avec la gamme Go2 (quadrupède) et les humanoïdes H1 et G1. La société fait face à la concurrence directe de Fourier Intelligence, Leju Robotics et Agibot en Chine, ainsi que de Figure AI, Agility Robotics et 1X Technologies à l'international. Une cotation sur le Star Market renforcerait sa capacité de R&D et de déploiement à grande échelle, au moment où la course au robot humanoïde s'accélère mondialement.

Chine/AsieOpinion
1 source
IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle
7436Kr 

IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle

Coowa Technology, fondée en 2015 à Shanghai et dont le siège social est à Pékin, a présenté lors de la conférence AI+ Industry de Yizhuang en mai 2026 un bilan opérationnel chiffré: 55 millions de kilomètres réels parcourus, déploiement dans plus de 50 villes chinoises, et 10 millions de clips vidéo-sémantique-action alignés collectés. La gamme commercialisée comprend des robots d'assainissement urbain de 1 et 3 tonnes, le minibus autonome Coobus (déployé dans une dizaine de villes à l'échelle mondiale, dont prochainement Yizhuang), le robot de gestion immobilière Wall-E R0, et des robots-chiens quadrupèdes pour la livraison du dernier kilomètre, capables d'assurer des livraisons en moins de 30 minutes dans un rayon de 3 km sans modification des ascenseurs ni de l'infrastructure existante. Li Kehong, COO et co-fondateur, a indiqué une rentabilité annuelle de "plusieurs centaines de millions de yuans". L'argument central de la présentation porte sur la donnée comme avantage concurrentiel structurel: dans l'IA incarnée (embodied AI), le goulot d'étranglement n'est pas algorithmique mais datalogique. Coowa y répond avec une stratégie où les revenus d'exploitation financent directement l'itération du modèle CooWAIM (World-Action Interactive Model), une architecture duale combinant inférence temps réel en bordure de réseau pour la sécurité immédiate et planification sémantique longue portée pour la navigation globale. L'approche "Drive+Work", qui fusionne mobilité et manipulation dans un espace d'action indissociable, s'écarte du paradigme modulaire dominant dans la robotique de service. Les chiffres d'exploitation donnent une mesure concrète: aux heures de pointe, les robots traitent en temps réel plus de 100 caractéristiques dynamiques par intersection (piétons, véhicules non motorisés); un gain de 20% sur le temps de traversée équivaut selon Coowa à une hausse de 20% de la marge brute, argument directement actionnable pour un décideur B2B ou un intégrateur. Fondée sur la base académique de l'Université Jiaotong de Shanghai, Coowa opère depuis dix ans dans les environnements urbains ouverts chinois, accumulant une antériorité opérationnelle que peu de concurrents peuvent revendiquer à cette échelle commerciale. Waymo, issu du laboratoire Google X après plus d'une décennie de développement, et Tesla, qui s'appuie sur sa flotte de plusieurs millions de véhicules pour constituer ses données d'entraînement, progressent en robotaxi sur un périmètre distinct; les acteurs de la robotique humanoïde comme Figure, Agility Robotics ou 1X Technologies demeurent majoritairement en phase de pilote industriel. Coowa anticipe l'ouverture réglementaire de marchés étrangers en positionnant en priorité ses produits dans les pays de l'initiative "Ceinture et Route". Les prochaines étapes concernent la montée en puissance de la livraison instantanée à court terme et, à horizon plus long, l'entrée dans les environnements domestiques fermés, segment le plus complexe techniquement mais potentiellement le plus générateur de données d'entraînement inédites.

Chine/AsieActu
1 source
Pourquoi Tesla mise des milliards sur Optimus
75Robot Magazine FR 

Pourquoi Tesla mise des milliards sur Optimus

Tesla a engagé un pivot stratégique majeur vers la robotique humanoïde avec son robot Optimus, présenté pour la première fois en 2021 et progressivement monté en priorité interne. Selon des déclarations publiques répétées d'Elon Musk courant 2024-2025, le groupe recrute massivement des ingénieurs en vision par ordinateur, robotique et IA, sans que des chiffres précis d'investissement ou de volumes de production n'aient été officiellement communiqués. Musk a qualifié Optimus de "produit le plus important de Tesla", positionnant le robot comme une plateforme capable d'intervenir dans les usines, entrepôts, logistique et services grand public. À date, Tesla a publié des démonstrations vidéo d'Optimus réalisant des tâches manuelles en environnement contrôlé. Il n'existe pas encore de déploiement industriel à l'échelle documenté ni de prix catalogue annoncé pour des tiers. L'intérêt stratégique d'Optimus repose sur une hypothèse structurelle : le marché des robots humanoïdes polyvalents pourrait dépasser celui de l'automobile à long terme. Pour les décideurs industriels, la promesse est réelle, les humanoïdes pourraient théoriquement remplacer des postes de travail répétitifs sans reconfigurer entièrement les lignes de production, contrairement aux bras industriels fixes. Mais l'écart entre démonstration et déploiement opérationnel reste considérable. Le "demo-to-reality gap" n'est pas comblé : aucun constructeur, ni Tesla, ni Figure AI, ni Boston Dynamics, n'a prouvé une fiabilité suffisante en conditions réelles non supervisées à grande échelle. Ce que le pivot Tesla prouve, c'est que la narration "constructeur automobile" ne suffit plus à soutenir une valorisation boursière qui restait, début 2025, un multiple très élevé par rapport aux revenus automobiles nets. Tesla arrive sur un marché humanoïde déjà encombré. Figure AI (Figure 03, en partenariat avec BMW) a annoncé des déploiements en usine. Agility Robotics (Digit) est en production chez Amazon. Physical Intelligence (pi-0) et 1X Technologies progressent sur les modèles fondationnels robotiques. Boston Dynamics positionne Atlas sur les environnements industriels difficiles. NVIDIA soutient l'écosystème via GR00T et la plateforme Isaac. La Chine industrialise rapidement avec Unitree et Fourier Intelligence. Tesla dispose d'un avantage potentiel : l'accès à d'immenses volumes de données réelles via ses véhicules et ses usines, et une chaîne de fabrication à bas coût. Mais la pression concurrentielle sur l'automobile, notamment de BYD, Xiaomi et Xpeng, comprime les marges et renforce l'urgence de diversifier les revenus. Une éventuelle IPO de SpaceX constitue un risque de dilution d'attention capitalistique supplémentaire pour Tesla. Les prochaines étapes à surveiller : un déploiement interne dans les Gigafactories, et une éventuelle communication sur les métriques de fiabilité opérationnelle.

HumanoïdesOpinion
1 source
CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
76arXiv cs.RO 

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

IA physiquePaper
1 source
Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée
77arXiv cs.RO 

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Key-Gram (arXiv:2605.18556, mai 2026) est un preprint qui propose un cadre de mémoire conditionnelle séparant explicitement la connaissance linguistique du raisonnement visuel dans les politiques de manipulation robotique. Là où les architectures VLA (Vision-Language-Action) actuelles fusionnent langage et vision dans un backbone partagé, Key-Gram décompose une instruction en "key-grams" (unités sémantiques propres à la tâche), récupère des priors linguistiques via un lookup déterministe O(1) dans une table externe, puis injecte ces entrées dans des couches cachées sélectionnées via gating contextuel et fusion convolutive légère. Appliqué aux modèles π₀ et π₀.₅ de Physical Intelligence, le système enregistre des gains relatifs de 29,5 %/9,9 % sur le benchmark de simulation RoboTwin2.0, de 35,8 %/4,5 % sur LIBERO-Plus en transfert sans fine-tuning sur le domaine cible, et de 15,4 %/8,1 % sur des tâches longues en manipulation bimanuelle réelle. Ces résultats quantifient un problème structurel rarement isolé dans la littérature VLA : la compétition de modalités dans le backbone partagé, où raisonnement visuel et compréhension linguistique se disputent la capacité de calcul. Le gain de 35,8 % sur LIBERO-Plus sans réentraînement cible est la donnée la plus exploitable pour les intégrateurs industriels : il suggère qu'une mémoire externe améliore la généralisation entre tâches sans fine-tuning complet, réduisant directement le coût de déploiement sur des lignes de production variées. La table de mémoire, extensible sans mise à jour du backbone et chargeable en mémoire hôte à l'inférence, permet d'ajouter de nouveaux vocabulaires de tâches sans redéploiement de l'ensemble du modèle. Physical Intelligence (Pi), fondée en 2023 par d'anciens chercheurs de Google et de l'UC Berkeley, a développé π₀ en 2024 comme VLA généraliste pour la manipulation bimanuelle. Key-Gram s'appuie sur ce backbone sans le modifier, ce qui constitue son atout principal : la séparation de la composante linguistique est architecturalement propre et non-destructive. Sur ce créneau de la généralisation compositionnelle, Google DeepMind, Figure AI (architecture Helix) et 1X Technologies proposent des approches concurrentes à base de transformers multi-modaux. La principale limite du papier est l'absence de validation sur des backbones autres que π, ce qui laisse ouverte la question de la généricité de la méthode.

💬 35% de gain sur LIBERO-Plus sans réentraînement, c'est le chiffre à retenir. L'idée de sortir le vocabulaire de tâche dans une table externe (plutôt que de tout enfouir dans le backbone partagé), c'est architecturalement propre et ça permet d'ajouter de nouvelles tâches sans redéployer l'ensemble du modèle. Reste que pour l'instant ça n'a été validé que sur π₀, donc faut voir si ça tient sur d'autres architectures avant de crier victoire.

IA physiqueOpinion
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
78arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion
1 source
FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension
79arXiv cs.RO 

FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension

Des chercheurs ont publié FlashSAC, un algorithme d'apprentissage par renforcement (RL) hors-politique conçu pour le contrôle robotique en haute dimension. Basé sur Soft Actor-Critic (SAC), FlashSAC réduit drastiquement le nombre de mises à jour de gradient tout en compensant par des modèles plus grands et un débit de données plus élevé. Pour stabiliser l'entraînement à cette échelle, l'algorithme impose des bornes explicites sur les normes de poids, de features et de gradients, limitant ainsi l'accumulation d'erreurs du critique par bootstrapping. Testé sur plus de 60 tâches dans 10 simulateurs différents, il surpasse systématiquement PPO et les baselines hors-politique standards, aussi bien en performance finale qu'en efficacité d'entraînement. Le gain le plus marqué est observé sur des tâches à haute dimensionnalité comme la manipulation dextre. En locomotion humanoïde avec transfert sim-to-real, FlashSAC réduit le temps d'entraînement de plusieurs heures à quelques minutes. Ce résultat est significatif parce qu'il attaque directement le principal frein des méthodes hors-politique en robotique : leur instabilité sur des espaces d'états et d'actions complexes. Les méthodes sur-politique comme PPO dominent aujourd'hui les benchmarks robotiques précisément parce qu'elles sont stables, malgré leur inefficacité en données. FlashSAC propose un chemin pour inverser ce compromis sans sacrifier la convergence, ce qui est particulièrement pertinent pour la manipulation dextre et la locomotion humanoïde, où l'espace d'action peut dépasser plusieurs dizaines de degrés de liberté. La réduction du temps d'entraînement sim-to-real de quelques heures à quelques minutes change l'équation économique des cycles de développement pour les équipes robotique. L'algorithme s'inscrit dans une tendance plus large d'application des lois de scaling, jusqu'ici observées en apprentissage supervisé, aux algorithmes RL, une hypothèse activement explorée par des laboratoires comme Google DeepMind, Meta AI et des startups humanoïdes telles que Figure, Apptronik ou 1X Technologies. Ces acteurs cherchent tous à accélérer le sim-to-real pour leurs plateformes humanoïdes, où le coût d'entraînement en conditions réelles reste prohibitif. FlashSAC n'est pas encore associé à un déploiement industriel annoncé, mais la démonstration de locomotion humanoïde en simulation suggère une applicabilité directe aux robots à deux jambes actuellement en phase de pilote chez plusieurs intégrateurs. La prochaine étape naturelle serait une validation sur hardware réel à grande échelle.

RecherchePaper
1 source
La Chine attribue des numéros d'identification officiels aux robots humanoïdes pour suivre leur cycle de vie complet
80Interesting Engineering 

La Chine attribue des numéros d'identification officiels aux robots humanoïdes pour suivre leur cycle de vie complet

La province du Hubei, en Chine, lance un système d'identification officielle pour les robots humanoïdes : chaque machine recevra désormais un code unique de 29 caractères, comparable au numéro de carte d'identité nationale, avec 11 caractères supplémentaires propres au secteur robotique. Ce code embarque l'origine du fabricant, le modèle produit, le numéro de série, les spécifications matérielles, le niveau d'intelligence et les données de sortie d'usine. L'initiative est pilotée par le Hubei Humanoid Robot Innovation Center, basé à Wuhan, qui a déjà finalisé les dossiers de demande et les tests de codage pour une première vague d'entreprises soumises au ministère de l'Industrie et des Technologies de l'Information (MIIT). Les sociétés participant à ce premier lot incluent Optics Valley Dongzhi, Glroad, Hubei Qirobotics, Jingchu Humanoid Robot, HandX, Guanggu Haribit et Maxnova, dont plusieurs robots ont déjà été enregistrés. Ces systèmes sont actuellement déployés dans la fabrication industrielle, les services commerciaux et les démonstrations de formation. L'émission officielle des numéros débutera une fois les normes nationales correspondantes adoptées par le MIIT. Au-delà du registre de base, la plateforme numérique associée centralise le suivi opérationnel tout au long du cycle de vie de chaque robot : historique de maintenance, scénarios d'utilisation, usure des articulations, état des batteries et précision des mouvements sont accessibles en temps réel via l'identifiant unique. Pour les intégrateurs et les équipes de maintenance, cela signifie une identification rapide des pannes par consultation des journaux de service, sans multiplier les inspections à chaque redéploiement. Le système vise également à clarifier les responsabilités en cas de dysfonctionnement ou d'incident de données, et à fluidifier un marché secondaire naissant : un futur acquéreur pourra accéder directement à l'historique complet d'un robot via son profil ID. C'est un changement structurant pour un secteur jusqu'ici fragmenté, où l'absence de cadre unifié pour la traçabilité, la supervision de sécurité et l'échange de données freinait la montée en échelle industrielle. Ce déploiement s'inscrit dans un marché en croissance rapide mais encore morcelé. En 2025, les expéditions mondiales de robots humanoïdes ont atteint environ 17 000 unités, pour un marché évalué à 2,88 milliards de yuans. La Chine y occupe une position dominante : plus de 140 fabricants actifs, environ 14 400 unités expédiées, soit 84,7 % de la production mondiale, et un marché domestique estimé à 1,55 milliard de yuans représentant 53,8 % du total global. Face à des acteurs occidentaux comme Boston Dynamics, Figure AI, Agility Robotics ou 1X Technologies, la stratégie chinoise mise sur la standardisation de l'écosystème plutôt que sur les seules prouesses techniques. Le système d'identification du Hubei est présenté comme un pilote national destiné à s'étendre une fois les standards MIIT finalisés, avec pour ambition explicite de soutenir un développement industriel à grande échelle.

UELa standardisation chinoise du cycle de vie des robots humanoïdes risque d'accélérer la montée en échelle industrielle de la Chine et de creuser l'écart compétitif avec les fabricants et intégrateurs européens, qui ne disposent pas encore d'un cadre équivalent de traçabilité et de supervision.

Chine/AsieActu
1 source
IA incarnée : cartographie des stratégies de toucher affectif sur un robot humanoïde
81arXiv cs.RO 

IA incarnée : cartographie des stratégies de toucher affectif sur un robot humanoïde

Une équipe de chercheurs a publié en mai 2026 une étude (arXiv:2605.11825) examinant comment les humains expriment des émotions par le toucher physique sur un robot humanoïde. L'expérience impliquait 32 participants interagissant avec le robot iCub, développé par l'Istituto Italiano di Tecnologia (IIT) et équipé de capteurs tactiles distribués sur l'ensemble du corps. Les participants devaient exprimer huit émotions distinctes dans trois conditions : toucher libre (sans restriction de zone), toucher limité au bras, et toucher limité au torse. L'étude mesurait simultanément les zones de contact choisies et les dynamiques gestuelles, soit la pression, l'amplitude et la vitesse de mouvement. Les résultats contredisent une hypothèse courante en HRI (Human-Robot Interaction) : celle selon laquelle les stratégies de toucher affectif seraient stables et transposables d'une région corporelle à l'autre. En toucher libre, les participants privilégient nettement le haut du corps, socialement accessible (épaules, bras), tandis que les zones moins sollicitées présentent une sélectivité émotionnelle plus marquée. En condition bras-seulement, la variation émotionnelle se traduit principalement par des caractéristiques de mouvement ; en condition torse-seulement, c'est la pression qui porte l'information affective. Les stratégies ne se transfèrent pas entre conditions contraintes, même pour une région corporelle grossièrement similaire. Ce résultat a une implication directe pour la conception : un système de reconnaissance du toucher émotionnel entraîné sur une seule zone corporelle ne généralisera pas à l'ensemble du robot. Environ 30 % des participants ont signalé une modification de leur perception de la relation sociale avec iCub, et l'ensemble du groupe a rapporté une augmentation du sentiment de proximité après l'interaction. L'iCub est l'une des rares plateformes humanoïdes académiques disposant d'une surface tactile distribuée complète, ce qui en fait un outil expérimental difficile à reproduire en dehors de l'IIT, acteur européen de référence en robotique de recherche. Cette publication s'inscrit dans un champ actif autour de la robotique sociale affective, où des acteurs comme SoftBank Robotics (Pepper), Enchanted Tools (France, avec Miroki) ou 1X Technologies tentent de rendre les interactions physiques homme-robot plus naturelles. Les prochains verrous techniques concernent la reconnaissance automatique des émotions exprimées par le toucher et l'adaptation comportementale du robot en temps réel : deux composants encore absents des systèmes commerciaux actuels, ce qui maintient ces résultats dans le registre de la recherche fondamentale plutôt que du déploiement industriel à court terme.

UEL'IIT (Italie), acteur européen de référence disposant de la plateforme iCub avec surface tactile distribuée complète, positionne l'UE comme leader en recherche HRI affective, avec des implications de conception pertinentes pour des acteurs français comme Enchanted Tools (Miroki).

FR/EU ecosystemePaper
1 source
Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental
82arXiv cs.RO 

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

Une équipe de chercheurs a publié sur arXiv (référence 2604.14484) une analyse théorique des politiques de clonage comportemental (behavior cloning, BC) sur robots à commande en position. L'étude démontre que les erreurs d'action, modélisées comme variables sous-gaussiennes indépendantes, se propagent via la dynamique en boucle fermée d'un contrôleur PD pour produire des erreurs de position gouvernées par une matrice proxy X∞(K). La probabilité d'échec sur l'horizon T se factorise en un indice d'amplification Γ_T(K) dépendant des gains et en la perte de validation augmentée d'un terme de généralisation. Pour le système PD scalaire du second ordre, la variance stationnaire admet la forme fermée X∞(α,β) = σ²α/(2β), strictement monotone en rigidité (α) et en amortissement (β) sur l'ensemble de l'orthant stable. Quatre régimes canoniques sont classés : le mode conforme-suramorti (CO) minimise les erreurs ; le mode rigide-sous-amorti (SU) les maximise ; les deux cas intermédiaires restent dépendants de la dynamique propre du système. L'implication opérationnelle est directe : la perte d'entraînement ou de validation ne prédit pas la fiabilité en boucle fermée. Un modèle bien calibré peut échouer en déploiement si les gains du contrôleur PD amplifient les erreurs résiduelles de la politique apprise. Ce cadre analytique fournit aux intégrateurs robotiques un outil de dimensionnement concret : choisir des gains conformes-suramortis réduit statistiquement le risque d'échec de tâche, indépendamment de la qualité des démonstrations. Ce résultat remet en question une hypothèse largement répandue dans la communauté du robot learning, selon laquelle améliorer les données ou l'architecture du modèle suffit à améliorer les performances en conditions réelles. Ce travail prolonge les recherches de Bronars et al. sur l'atténuation d'erreurs dépendante des gains en offrant une extension non-asymptotique à horizon fini, qui manquait dans la littérature. Si les propriétés asymptotiques de stabilité des contrôleurs PD sont bien établies, leur traduction en bornes probabilistes finies sur l'échec de tâche restait ouverte. La contribution est directement applicable aux architectures BC modernes, notamment les VLA (Vision-Language-Action models) déployés sur des manipulateurs et des humanoïdes chez des acteurs comme 1X Technologies, Figure AI, Boston Dynamics ou Sanctuary AI. La discrétisation ZOH (Zero-Order Hold) est traitée explicitement, ancrant les résultats dans les implémentations numériques réelles plutôt que dans la seule analyse en temps continu.

UELes laboratoires et équipes R&D européens (INRIA, CEA-List, start-ups BC/VLA) déployant des politiques apprises sur manipulateurs ou humanoïdes peuvent appliquer directement ce cadre analytique pour calibrer leurs gains PD et réduire statistiquement les échecs en déploiement réel.

RecherchePaper
1 source
Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête
83Pandaily 

Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête

Lumos Robotics (鹿明机器人), startup d'IA incarnée fondée par des chercheurs de l'université Tsinghua, a bouclé deux tours de financement successifs (A1 et A2) pour un total d'environ 1 milliard de RMB (soit ~140 millions de dollars), avec la filiale chinoise de Mitsubishi Electric comme chef de file sur les deux opérations. Le tour A1 a été co-mené par la filiale spécialisée en manufacturing intelligent de Mitsubishi Electric, ainsi que par les investisseurs historiques Puhua Capital et Wuzhong Jinkong ; le tour A2 a réuni en sus Hengsheng Electronics, Haigao Group et Kunshi Investments. La société, dirigée par le CEO Yu Chao, commercialise deux plateformes distinctes : le robot humanoïde pleine taille LUS et le robot MOS, un bras manipulateur monté sur base roulante lourde. Des laboratoires communs avec Mitsubishi Electric ont été établis à Suzhou et Shanghai, où le MOS est déjà opérationnel pour l'inspection visuelle par IA sur des lignes de production d'automates programmables (PLC). La participation répétée de Mitsubishi Electric, acteur industriel de premier rang et non un fonds de capital-risque généraliste, aux deux tours signale un intérêt stratégique concret. Pour les intégrateurs B2B, cela valide l'architecture technique de Lumos : le moteur propriétaire Nexcore combine des modèles du monde (world models) avec un entraînement conjoint VLA (Vision-Language-Action), une optimisation de l'attention visuelle dédiée à l'industrie, et un réseau d'experts de type MoE pour le contrôle de mouvement haute précision. Le déploiement annoncé du MOS sur des lignes PLC réelles constitue un signal de robustesse terrain, même si aucun volume de déploiement, taux de défaut ni temps de cycle n'est communiqué, ce qui rend toute évaluation objective des performances impossible à ce stade. Lumos Robotics s'inscrit dans une vague de startups chinoises d'IA incarnée issues des grandes universités, en concurrence directe avec Unitree, Fourier Intelligence et LimX Dynamics sur le marché domestique, et avec Figure AI, 1X Technologies ou Agility Robotics à l'international. Sa singularité réside dans un positionnement dual humanoïde/bras mobile combiné à un partenariat industriel ancré chez un équipementier japonais établi. Les prochaines étapes restent floues : ni timeline de série B, ni objectifs de production en volume, ni métriques de performance terrain n'ont été publiés. Le déploiement en inspection PLC à Suzhou et Shanghai représente pour l'instant un pilote industriel validé plutôt qu'un passage à l'échelle commerciale.

Chine/AsieOpinion
1 source
MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”
84FrenchWeb 

MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”

Le 7 juillet 2026, Paris accueille MACHINA by RAISE, un événement dédié à la robotique et à la "physical AI" organisé au sein de l'écosystème RAISE, l'un des principaux acteurs du capital-risque technologique en France. L'initiative se distingue des grands rendez-vous sectoriels en adoptant délibérément une perspective européenne, à rebours des formats dominants encore largement pilotés depuis les États-Unis et l'Asie, notamment la Chine et le Japon qui concentrent l'essentiel des investissements mondiaux en robotique industrielle et humanoïde. La "physical AI" désigne la convergence entre l'intelligence artificielle générative et les systèmes robotiques capables d'agir dans le monde réel : bras industriels, robots humanoïdes, véhicules autonomes. Ce segment connaît une accélération spectaculaire depuis 2024, portée par les annonces de Tesla, Figure AI ou encore 1X Technologies, et représente selon plusieurs analystes le prochain front compétitif majeur après les grands modèles de langage. Pour l'Europe, l'enjeu est de ne pas reproduire le décrochage observé dans les LLMs face aux acteurs américains. RAISE, qui gère plusieurs milliards d'euros d'actifs et finance des startups deeptech françaises, positionne MACHINA comme une plateforme de rencontre entre investisseurs, industriels et chercheurs pour structurer un écosystème européen cohérent. La France dispose d'atouts réels dans ce domaine, notamment via des laboratoires comme l'INRIA et des startups en robotique chirurgicale ou logistique, mais la compétition internationale reste féroce et les besoins en capitaux considérables pour atteindre une masse critique industrielle.

UEMACHINA by RAISE 2026 à Paris vise à structurer un écosystème européen de la physical AI, offrant aux startups deeptech françaises et aux investisseurs européens une plateforme pour réduire le décrochage face aux acteurs américains et asiatiques dans la robotique humanoïde et industrielle.

💬 Paris qui se positionne sur la physical AI, c'est le genre de pari qu'on peut pas se permettre de rater. On a déjà vu ce qui se passe quand on laisse les Américains structurer l'écosystème LLM sans contre-poids européen. Reste à voir si MACHINA sera vraiment un lieu de décision ou juste un beau networking event avec des robots en démo.

HumanoïdesActu
1 source
Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC
85Pandaily 

Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Xiaoyubot, startup chinoise spécialisée dans l'IA embodied industrielle, a bouclé un tour de financement de série B+ de plusieurs centaines de millions de yuans (montant exact non précisé), selon le média financier IPOZaozhidao. Ce tour est co-mené par cinq investisseurs industriels : Xiaomi, Didi, BAIC Investment (bras financier du constructeur automobile BAIC), Fosun Venture et la China Construction Bank Development (CCDC). Lei Wanqiang, co-fondateur de Xiaomi, y participe pour la quatrième fois consécutive, signe d'une conviction institutionnelle durable. Les fonds levés seront affectés à l'accélération du déploiement de Xiaoyubot sur l'ensemble des scénarios industriels couverts par l'IA embodied, terme désignant les systèmes d'IA capables d'agir physiquement dans un environnement réel via un corps robotique. L'ambition déclarée de Xiaoyubot est d'atteindre un rythme de livraison de 100 000 unités par an, seuil qu'elle présente elle-même comme le ticket d'entrée pour la phase finale de la course aux robots incarnés. La société développe une architecture baptisée "un cerveau, plusieurs formes" (one brain, multiple forms), conçue pour piloter différentes morphologies robotiques depuis un même système cognitif général, avec l'objectif de mutualiser les coûts de développement logiciel tout en couvrant un spectre large de cas d'usage industriels. La composition du tour est elle-même un signal stratégique : réunir des acteurs de l'internet (Xiaomi, Didi), de l'automobile (BAIC), de la finance privée (Fosun) et de la finance d'État (CCB) sous un même cap est rare et suggère un positionnement de plateforme nationale plutôt qu'une verticale sectorielle étroite. Fondée avec pour mission de déployer des robots IA dans des scénarios industriels variés, Xiaoyubot s'inscrit dans un écosystème chinois de la robotique en pleine effervescence, aux côtés de Unitree Robotics, Fourier Intelligence ou encore UBTECH. Ce tour intervient alors que plusieurs acteurs chinois cherchent à atteindre une échelle de production industrielle avant leurs concurrents occidentaux tels que Boston Dynamics, Figure AI ou 1X Technologies. L'objectif des 100 000 unités annuelles reste une cible annoncée, sans calendrier précis ni preuve de commandes fermes publiés à ce stade.

UELa constitution d'un consortium industrie-finance-État autour de Xiaoyubot accélère la course chinoise aux 100 000 unités annuelles et intensifie la pression concurrentielle sur les acteurs européens de la robotique industrielle, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieActu
1 source
IA incarnée : un compromis nécessaire entre confidentialité et utilité
86arXiv cs.RO 

IA incarnée : un compromis nécessaire entre confidentialité et utilité

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.05017) un article de position soutenant que les systèmes d'IA incarnée (Embodied AI, EAI) entrent dans des environnements réels sensibles sans architecture conçue pour gérer la confidentialité de façon systémique. Le problème identifié est structurel : les solutions EAI actuelles optimisent leurs composantes isolément, en quatre étapes distinctes (instruction, perception, planification, interaction), sans prendre en compte leurs interactions en matière de vie privée dans des déploiements haute fréquence où les fuites de données sont souvent irréversibles. Les auteurs proposent SPINE (Secure Privacy Integration in Next-generation Embodied AI), un cadre unifié qui traite la confidentialité comme un signal de contrôle dynamique traversant l'ensemble du cycle de vie du système, et non comme une fonction locale à chaque étape. SPINE intègre une matrice de classification de sensibilité contextuelle multi-critères et a été conceptuellement validé par des études de cas préliminaires en simulation et en conditions réelles. L'enjeu central est architectural : en optimisant chaque étape indépendamment, les concepteurs créent une crise systémique de confidentialité dès le déploiement en environnement sensible. Un robot qui planifie ses déplacements, perçoit son environnement visuel et suit des instructions vocales génère un flux continu de données croisées : plans de logement, routines quotidiennes, visages, conversations. SPINE démontre que des correctifs locaux restent insuffisants face à ce couplage inter-étapes. Pour les intégrateurs et décideurs B2B en secteurs réglementés (santé à domicile, garde d'enfants, industrie), ce cadre propose une grille d'analyse systémique à intégrer en amont de tout déploiement, avant que les fuites ne deviennent impossibles à contenir. Ce travail s'inscrit dans un contexte de multiplication rapide des robots humanoïdes destinés à des environnements non industriels, avec des acteurs comme Figure, 1X Technologies et Boston Dynamics côté américain, et en Europe des entreprises comme Enchanted Tools ou Wandercraft qui positionnent leurs systèmes vers des espaces partagés. Le RGPD impose déjà des obligations strictes sur la collecte de données biométriques et comportementales, mais aucun standard sectoriel spécifique aux EAI n'existe encore. Les auteurs publient leur code sur GitHub (rminshen03/EAIPrivacy\Position) et formulent une invitation explicite à structurer un agenda de recherche autour de systèmes EAI sécurisés et fonctionnels, dont une prochaine étape naturelle serait l'intégration de SPINE dans des pipelines VLA (Vision-Language-Action) existants pour mesurer le coût réel en performance de ces contraintes de confidentialité.

UELe RGPD s'applique directement aux déploiements EAI en Europe et le cadre SPINE offre aux intégrateurs européens (dont Enchanted Tools et Wandercraft) une grille d'analyse systémique pour anticiper la conformité réglementaire avant tout déploiement en environnement sensible.

RechercheOpinion
1 source
Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries
87Interesting Engineering 

Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries

Un robot humanoïde Unitree G1 a provoqué un retard de plus d'une heure à l'aéroport international d'Oakland, en Californie, après que le personnel de la compagnie aérienne a soulevé des questions sur la capacité de sa batterie embarquée. Le pack d'accumulateurs du robot dépassait les seuils en watt-heure fixés par la Federal Aviation Administration (FAA) pour les cellules lithium-ion transportées en cabine et en soute : au-delà de 100 Wh, une batterie de rechange nécessite l'accord explicite de la compagnie ; au-delà de 160 Wh, elle est simplement interdite en cabine. Or, les robots humanoïdes modernes embarquent des packs d'une capacité comprise entre 1 kWh et plus de 2 kWh, soit jusqu'à douze fois la limite autorisée pour un ordinateur portable. Les agents au sol ont dû traverser une cascade de questions sur la chimie des cellules, la configuration du pack, sa démontabilité et sa classification matières dangereuses, avant que l'appareil puisse être autorisé au départ, sous les regards impatients des autres passagers. Ce retard illustre une lacune structurelle dont les conséquences dépassent un simple incident opérationnel. La réglementation FAA sur les matières dangereuses a été conçue pour les appareils électroniques grand public et les véhicules électriques transportés en fret, non pour un robot bipède occupant un siège passager. Un pack de 2 kWh représente une énergie thermique potentielle comparable à douze batteries de laptop combinées, avec un risque d'emballement thermique non négligeable dans un fuselage pressurisé où les possibilités d'intervention sont limitées. Pour les intégrateurs et les entreprises qui déploient des humanoïdes hors des environnements contrôlés, l'incident d'Oakland signale que chaque nouveau contexte (usine, hôpital, entrepôt, aéroport) est susceptible de rencontrer un cadre réglementaire écrit sans eux, générant des blocages opérationnels imprévisibles et potentiellement coûteux. L'humanoïde impliqué est le G1 de Unitree Robotics, constructeur chinois qui a misé sur l'accessibilité tarifaire de ses plateformes pour accélérer la diffusion grand public de la robotique humanoïde. Commercialisé autour de 16 000 dollars, le G1 est l'un des humanoïdes les plus abordables du marché, loin devant les propositions de Figure AI, Boston Dynamics ou 1X Technologies. L'incident survient dans un contexte où la FAA fait déjà face à une pression soutenue pour réviser ses règles sur les batteries lithium, à la suite d'incidents d'incendie en fret aérien. Sans directive explicite pour cette nouvelle catégorie d'appareils, les agents au sol continueront d'improviser au cas par cas et les passagers d'attendre. Une clarification réglementaire s'impose à mesure que les robots humanoïdes quittent les laboratoires pour intégrer des espaces publics et des flux logistiques réels.

UELes opérateurs européens de robots humanoïdes sont exposés aux mêmes restrictions EASA sur les batteries lithium, et cet incident révèle un vide réglementaire qui pourrait bloquer le transport aérien de ces appareils en Europe sans cadre spécifique.

RegulationReglementation
1 source
Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire
88arXiv cs.RO 

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Des chercheurs ont publié le 6 mai 2026 sur arXiv (référence 2605.03363) un framework de contrôle hiérarchique hybride pour la préhension dextre réactive. L'architecture sépare explicitement deux niveaux d'exécution : un planificateur haut niveau basé sur du multi-agent RL, avec deux agents spécialisés distincts (un pour le bras, un pour la main), qui génère des commandes de vitesse en espace tâche; et un contrôleur bas niveau de programmation quadratique (QP) parallélisé sur GPU, qui traduit ces commandes en vitesses articulaires tout en respectant strictement les limites cinématiques et en assurant l'évitement de collisions. Le système a été validé sur matériel réel, avec un bras 7-DOF équipé d'une main anthropomorphique 20-DOF, en démontrant un transfert zero-shot depuis la simulation vers des objets non vus pendant l'entraînement, dans des environnements non structurés. La contribution principale n'est pas seulement la performance de saisie : c'est la propriété de "zero-shot steerability", c'est-à-dire la capacité d'un opérateur à ajuster dynamiquement les marges de sécurité ou à contourner des obstacles imprévus sans réentraîner la politique. Pour un intégrateur industriel, cela change radicalement le calcul de déploiement : les approches end-to-end classiques (VLA inclus) nécessitent typiquement un fine-tuning coûteux pour chaque variation d'environnement. Ici, la séparation structurelle entre planification et exécution permet d'injecter des contraintes nouvelles au niveau du QP sans toucher à la politique RL, ce qui accélère aussi la convergence en entraînement. La robustesse aux perturbations physiques imprévues, démontrée en conditions réelles, renforce la crédibilité du pipeline sim-to-real. Ce travail s'inscrit dans un mouvement de recherche qui cherche à dépasser les architectures purement end-to-end pour la manipulation dextre, en réintroduisant des couches de contrôle classiques (QP, contraintes cinématiques) comme fondation sûre sous une politique apprise. Des approches similaires émergent chez des équipes comme Physical Intelligence (Pi-0), Figure AI (Figure 03) ou 1X Technologies, qui combinent toutes apprentissage et contrôle structuré. La prochaine étape naturelle pour ce type de framework sera la validation sur des tâches d'assemblage industriel avec variabilité de forme et de matière, ainsi que l'extension à des mains à plus haute densité de capteurs pour fermer la boucle tactile.

IA physiquePaper
1 source
Un cadre d'autonomie sémantique pour robots mobiles d'intérieur intégrant un VLM : raisonnement déterministe hybride et mémoire adaptative inter-robots
89arXiv cs.RO 

Un cadre d'autonomie sémantique pour robots mobiles d'intérieur intégrant un VLM : raisonnement déterministe hybride et mémoire adaptative inter-robots

Des chercheurs ont publié sur arXiv (réf. 2605.02525) le "Semantic Autonomy Stack", un framework de référence en six couches conçu pour permettre aux robots mobiles d'intérieur de suivre des instructions en langage naturel, sans se limiter à des coordonnées métriques. Validé sur deux robots différentiels custom équipés de Raspberry Pi 5 sans GPU embarqué, le système repose sur un résolveur paramétrique en sept étapes qui traite 88 % des requêtes en moins de 0,1 milliseconde, sans invoquer de VLM (Vision-Language Model) ni de GPU. Seules les instructions réellement ambiguës remontent au VLM, dont la latence d'inférence oscille entre 2 et 9 secondes sur hardware grand public. Un mécanisme de mémoire sémantique cross-robot transfère ensuite les préférences apprises d'un robot à l'autre via un digest compilé partagé, avec une réduction de latence mesurée à 103 000 fois. Sur 82 scénarios répartis en trois sessions, le système affiche 100 % de précision de transfert sémantique (33/33, IC 95 % [0,894 à 1,000]), sans aucune donnée d'entraînement. Ce résultat s'attaque directement aux deux freins structurels des déploiements VLM en robotique de service: la latence d'inférence à l'edge qui rend le contrôle temps-réel impraticable, et l'amnésie session-par-session propre aux modèles de langage. Le fait que 88 % des instructions soient résolues de manière déterministe en sous-milliseconde invalide l'hypothèse selon laquelle intégrer un VLM impose un coût computationnel permanent. Le mécanisme cross-robot va plus loin: les préférences acquises par interaction VLM sont compilées en règles déterministes puis diffusées à l'ensemble de la flotte, ouvrant la voie à des flottes apprenantes sans cycle d'entraînement ni données labellisées. Pour les intégrateurs AMR et les COO industriels, c'est une architecture crédible sur hardware off-the-shelf, ce qui abaisse significativement le seuil de déploiement. Les frameworks actuels couvrent soit la navigation purement métrique (ROS 2 Navigation 2), soit le raisonnement sémantique mais avec dépendance réseau ou GPU (SayPlan, LM-Nav, NLMap). Ce travail, présenté comme preprint arXiv et non comme produit commercial ni déploiement industriel, spécifie une taxonomie de mémoire en cinq catégories: connaissance globale d'environnement, préférences par opérateur, et capacités par robot. La validation reste limitée à deux robots différentiels custom; la montée en charge sur flottes commerciales ou architectures non différentielles (1X Technologies, Agility Robotics, Figure) n'a pas été testée, et certaines métriques comme le taux de 88 % dépendent du corpus de scénarios choisi. Aucun acteur FR/EU n'est impliqué. Les suites logiques seraient la validation sur flottes de taille réelle et l'intégration de VLM multimodaux récents comme Qwen-VL.

RechercheOpinion
1 source
SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes
90arXiv cs.RO 

SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes

Des chercheurs ont publié début mai 2026 sur arXiv (réf. 2605.01427) SixthSense, un système d'estimation des forces et couples de contact (wrenches) pour robots humanoïdes fonctionnant exclusivement à partir de la proprioception et d'une centrale inertielle (IMU), sans capteur de force-couple dédié. Le système infère en temps réel le moment, la localisation et l'amplitude des wrenches appliqués sur l'ensemble du corps, même lorsque les points de contact sont indéterminés. Techniquement, SixthSense emploie le conditional flow matching pour tokeniser des historiques proprioceptifs et estimer un flux d'événements de contact spatialement et temporellement parcimonieux. Les validations expérimentales couvrent trois régimes distincts - posture statique, marche et suivi de trajectoire corps entier - avec des performances décrites comme "sans précédent" par les auteurs, bien que l'article ne publie pas de métriques comparatives chiffrées pour étayer cette affirmation. L'enjeu est concret pour l'intégration industrielle : les humanoïdes actuellement déployés (Figure 02, Optimus Gen 2, Unitree G1) manquent de perception fiable des efforts de contact pour des tâches exigeant une interaction physique précise - assemblage, manipulation d'objets fragiles, collaboration en cellule mixte. Les méthodes analytiques existantes supposent des contacts connus et des mesures souvent indisponibles en production, notamment en raison de la dynamique en base flottante propre aux bipèdes. SixthSense se présente comme un module plug-and-play intégrable sans modification matérielle, ciblant trois cas d'usage : détection de collision, interaction physique humain-robot (pHRI) et téléopération avec retour d'effort. Ce travail s'inscrit dans l'effort plus large visant à combler le fossé entre démonstrations en laboratoire et déploiements réels pour la perception haptique des humanoïdes. Les principaux acteurs commerciaux - Figure, Agility Robotics, Apptronik, 1X Technologies - comme les plateformes académiques partagent ce même déficit. En France, Wandercraft, spécialiste de l'exosquelette humanoïde pour la rééducation, fait face à des contraintes similaires pour la perception d'effort en interaction avec le patient. La publication demeure une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé, et la robustesse hors conditions contrôlées reste à démontrer.

UEWandercraft (France) développe des exosquelettes humanoïdes à interaction physique patient-robot ; ce module d'estimation d'effort sans capteur dédié pourrait, s'il est validé hors laboratoire, réduire les coûts matériels et améliorer la sécurité de contact en rééducation.

RecherchePaper
1 source
Figure et 1X accélèrent la production de robots humanoïdes
91IEEE Spectrum Robotics 

Figure et 1X accélèrent la production de robots humanoïdes

Figure atteint désormais une cadence de production de 55 robots humanoïdes par semaine, selon une annonce publiée fin avril 2026. Ces unités sont, selon la startup américaine, destinées aux équipes internes de R&D, à la collecte de données, au développement de tâches domestiques de bout en bout et à des "cas d'usage commerciaux en développement", une formulation qui interroge sur la destination réelle de cette production alors que les déploiements commerciaux restent à maturité. En parallèle, 1X Technologies a officiellement ouvert la NEO Factory à Hayward, en Californie : une usine de 58 000 pieds carrés (environ 5 400 m²) employant plus de 200 personnes, avec une chaîne entièrement intégrée couvrant moteurs, batteries, transmissions, capteurs, structures et assemblage final. Les premières unités NEO sortent déjà des lignes de production, avec des livraisons grand public annoncées pour 2026. Sur le plan technique, Agility Robotics a publié des tests d'équilibre dynamique sur une seule jambe pour son robot Digit, et une équipe de recherche a présenté HTD (Humanoid Transformer with Touch Dreaming), un système de manipulation humanoïde combinant téleopération VR, apprentissage par renforcement pour le bas du corps et capteurs tactiles distribués. La montée en cadence simultanée de Figure et 1X marque un glissement du secteur humanoïde vers la production industrielle, mais chaque annonce appelle une lecture critique. Produire 55 unités par semaine sans contrats commerciaux confirmés suggère soit une stratégie de collecte de données à grande échelle, ressource clé pour l'entraînement des politiques VLA (Vision-Language-Action), soit une anticipation agressive de la demande avant une prochaine levée de fonds. L'intégration verticale revendiquée par 1X, inspirée du modèle Tesla, offre une flexibilité d'itération et réduit la dépendance aux fournisseurs, mais mobilise des capitaux considérables. Les travaux d'Agility sur l'équilibre dynamique illustrent par ailleurs que le gap sim-to-real reste un verrou technique central : la moindre divergence entre modèle simulé et robot réel peut provoquer une instabilité en conditions réelles, limitant directement la fiabilité en milieu industriel. Figure, fondée en 2022 par Brett Adcock, a levé plus de 750 millions de dollars avec BMW, Microsoft et Amazon comme partenaires, et opère un pilote chez BMW Manufacturing en Caroline du Sud depuis 2024, bien que les vidéos publiées restent en conditions contrôlées. 1X, société norvégienne soutenue par OpenAI et Tiger Global, se positionne sur le marché résidentiel face à Tesla Optimus (déployé progressivement dans les usines Tesla), aux robots Agility Digit (opérés chez Amazon) et aux fabricants chinois comme Unitree (G1, H1) qui exercent une pression tarifaire croissante. Aucun acteur européen, ni Wandercraft, ni Enchanted Tools, ni Pollen Robotics, n'annonce de production à ce volume pour l'instant. Les prochains trimestres détermineront si ces cadences correspondent à des commandes fermes ou à une stratégie de positionnement avant financement.

UELa montée en cadence de Figure et 1X exerce une pression concurrentielle sur les acteurs européens (Wandercraft, Enchanted Tools, Pollen Robotics), qui n'annoncent pas de volumes de production comparables à ce stade.

HumanoïdesActu
1 source
De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
92arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
AI² Robotics défend les modèles VLA et lance NeuroVLA
93Pandaily 

AI² Robotics défend les modèles VLA et lance NeuroVLA

Guo Yandong, fondateur et PDG d'AI² Robotics, a présenté NeuroVLA, un modèle d'action robotique de troisième génération qui réduit la latence de réponse de plusieurs centaines de millisecondes à quelques dizaines de millisecondes. L'entreprise articule l'évolution des architectures VLA (Vision-Language-Action) en trois stades : les modèles end-to-end de première génération unifiant perception et contrôle ; les systèmes de deuxième génération intégrant des world models pour le raisonnement prédictif ; et désormais NeuroVLA, architecture neuro-inspirée permettant une optimisation continue comparable à la mémoire musculaire. En parallèle, AI² Robotics a lancé AlphaBrain Platform, une boîte à outils open-source combinant modèles VLA neuro-inspirés, entraînement par reinforcement learning à base de tokens et architectures modulaires de world model, avec support des benchmarks de référence LIBERO et CALVIN. L'annonce ne précise ni contexte de déploiement réel, ni clients industriels : il s'agit d'un lancement de modèle et de plateforme, pas d'un déploiement terrain. La réduction de latence revendiquée est le chiffre à surveiller. En manipulation robotique, passer sous 50 ms est généralement considéré comme le seuil nécessaire pour des gestes précis en environnement non structuré. Si NeuroVLA tient ces performances hors laboratoire, cela représenterait une avancée concrète sur le sim-to-real gap, obstacle persistant à la commercialisation des robots VLA. L'ouverture d'AlphaBrain en open-source signale une stratégie d'écosystème : AI² Robotics cherche à fédérer des contributeurs autour de son approche architecturale, à l'image de ce que tente Physical Intelligence avec pi0. AI² Robotics est une startup chinoise spécialisée dans l'embodied AI pour robots manipulateurs et humanoïdes. La prise de position publique de Guo Yandong en faveur des VLA intervient dans un débat architectural actif : les pipelines VLA end-to-end, portés aussi par Figure AI et 1X Technologies, s'affrontent aux approches hybrides modulaires de Sanctuary AI ou Apptronik. Les prochains jalons crédibles à suivre sont les résultats publiés sur LIBERO et CALVIN, qui permettront une comparaison objective avec les modèles concurrents, ainsi que l'annonce éventuelle de pilotes industriels validant les métriques en conditions réelles.

IA physiqueOpinion
1 source
GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle
94arXiv cs.RO 

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Des chercheurs ont soumis sur arXiv (arXiv:2604.19522) un framework baptisé GenerativeMPC, destiné aux robots manipulateurs mobiles bimanaux. Le système articule un modèle de vision-langage couplé à une génération augmentée par récupération (VLM-RAG) avec un contrôleur prédictif sur le corps entier (Whole-Body MPC). Concrètement, le module VLM-RAG analyse la scène en temps réel, visuellement et en langage naturel, puis génère des contraintes de contrôle numériques directement exploitables: limites de vitesse dynamiques et marges de sécurité injectées dans le MPC. Parallèlement, il module les gains de raideur et d'amortissement virtuels d'un contrôleur impédance-admittance unifié pour adapter la compliance du robot au contexte. Les expériences menées dans les simulateurs MuJoCo et IsaacSim, puis sur une plateforme physique bimanuale, font état d'une réduction de vitesse de 60% à proximité des humains. Le système s'appuie sur une base de données vectorielle alimentée par l'expérience passée, ce qui permet d'ancrer les paramètres de contrôle sans ré-entraînement du modèle. L'enjeu architectural est significatif pour les intégrateurs et les décideurs industriels. Les approches end-to-end de type VLA, comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), délèguent entièrement la traduction sémantique-physique au réseau neuronal, rendant les garanties de sécurité difficiles à certifier formellement. GenerativeMPC propose une architecture hybride explicite: le grand modèle raisonne sur le contexte (présence humaine, nature de la tâche) et produit des paramètres numériques interprétables qui alimentent un MPC classique au comportement auditable et déterministe. Pour les secteurs à forte contrainte réglementaire, c'est un argument de poids. La réduction de 60% reste cependant une métrique à contextualiser: le papier ne précise pas la vitesse de référence initiale ni les conditions exactes des essais physiques, un bémol courant dans les publications de ce type. La manipulation mobile bimanuale est l'un des problèmes ouverts les plus exigeants de la robotique collaborative, coincé entre contrôleurs classiques contextuellement aveugles et modèles end-to-end difficilement certifiables. L'utilisation du RAG pour paramétrer des contrôleurs physiques est une direction de recherche émergente, distincte de l'apprentissage par renforcement. Dans l'écosystème concurrent, Figure AI (Figure 03), Boston Dynamics (Atlas) et 1X Technologies explorent des architectures hybrides pour des tâches bimanales. En Europe, Enchanted Tools (France) et des laboratoires comme le LAAS-CNRS avancent sur des architectures de contrôle sûres pour la collaboration humain-robot. GenerativeMPC reste pour l'instant un résultat de recherche académique sans déploiement industriel annoncé, mais son approche explicitement certifiable ouvre des perspectives concrètes pour la logistique collaborative et la robotique médicale.

UELe LAAS-CNRS et Enchanted Tools (France) travaillent sur des architectures de contrôle sûres similaires ; l'approche hybride certifiable de GenerativeMPC pourrait renforcer le positionnement européen dans les débats réglementaires sur la certification des robots collaboratifs au titre de l'AI Act.

RechercheOpinion
1 source
Quanzhibo lève des centaines de millions de yuans lors d'un tour de Série A++
95Pandaily 

Quanzhibo lève des centaines de millions de yuans lors d'un tour de Série A++

Quanzhibo, développeur chinois de joints servo fondé en 2020 à Wuxi, a bouclé le 21 avril 2026 un tour Series A++ de plusieurs centaines de millions de yuans, avec la participation de Shenzhen Investment Holdings, Photosynthesis Ventures, Orient Jiafu, Junshan Capital, Liangjiang Capital et Junxi Capital. Cette levée porte le financement total cumulé à plus de 600 millions de RMB en huit tours. La société commercialise trois familles de joints servo intégrés (planétaire PA, harmonique HA, cycloïdal CA) couvrant des couples de 2 à 400 Nm, pour humanoïdes et robots quadrupèdes. En 2025, ses livraisons ont dépassé 100 000 modules, auprès de clients comme Songyan Power et Leju Robotics. En avril 2026, son usine de fabrication de précision à Wuxi est entrée en production avec un cycle de 90 secondes par unité, un taux d'automatisation de 85 %, un rendement au premier passage de 96 % et un rendement global supérieur à 98 %, pour une capacité annuelle annoncée à l'échelle du million d'unités. Ce financement reflète la tension croissante autour des joints actionneurs, qui restent l'un des principaux verrous pour les fabricants d'humanoïdes. Couvrir 2 à 400 Nm avec un seul fournisseur simplifie la chaîne d'approvisionnement des intégrateurs, des doigts jusqu'aux hanches. Atteindre 100 000 unités expédiées en 2025 et viser le million par an place Quanzhibo dans un registre de volume compatible avec une production en série, à condition que le taux de rendement annoncé (98 % global) résiste à une vérification indépendante, hors contexte de communication financière. Fondée en 2020, l'entreprise a enchaîné cinq tours en 2025 seul (A2 à A6), rythme qui traduit une compétition intense côté chinois sur les actionneurs de précision, où des acteurs comme INNFOS et des filiales de groupes industriels investissent également. À l'international, Figure AI (Figure 03), Tesla (Optimus) et 1X Technologies développent leurs joints en interne, tandis que Harmonic Drive AG reste la référence sur les marchés occidentaux. En Europe, des sociétés comme Wandercraft ou Enchanted Tools s'approvisionnent encore majoritairement hors de Chine. L'ouverture de l'usine de Wuxi marque le passage de Quanzhibo d'une logique de R&D à une logique de composant de série ; les prochaines étapes probables incluent des accords OEM avec des fabricants d'humanoïdes de second rang et des ambitions à l'export.

UELa montée en puissance industrielle de Quanzhibo (capacité annoncée à 1 million d'unités/an) accentue la pression concurrentielle sur les fournisseurs d'actionneurs de précision non-chinois, au moment où des fabricants européens d'humanoïdes comme Wandercraft et Enchanted Tools s'approvisionnent encore majoritairement hors de Chine.

Chine/AsieActu
1 source
Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes
96Interesting Engineering 

Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes

RobCo, startup allemande fondée à Munich, a dévoilé à la Hannover Messe 2026 un robot humanoïde industriel baptisé Autonomous Alfie, conçu pour des tâches de fabrication complexes impliquant une forte variabilité : kitting, palettisation, assemblage de précision et manipulation de matériaux sensibles. L'annonce intervient dans la foulée d'une levée de fonds Serie C de 100 millions de dollars, orientée vers le développement de ce que RobCo appelle la "Physical AI". Le robot embarque une manipulation bimanuels, c'est-à-dire une coordination à deux bras imitant la gestuelle humaine, couplée à un système de vision et de perception haptique permettant de gérer des pièces mal orientées ou des flux de travail changeants. Les premiers déploiements clients sont annoncés pour la fin 2026, sans précision sur les sites ou les secteurs ciblés. RobCo dispose déjà d'opérations à San Francisco et Austin, et l'essentiel de ce financement est clairement orienté vers le marché américain. Ce que RobCo met en avant, c'est le passage à ce qu'il nomme le "niveau 4 d'autonomie" en contexte industriel : un système capable d'apprendre par observation plutôt que par programmation explicite, et d'exécuter des tâches avec une intervention humaine minimale, même dans des environnements non structurés. C'est précisément le segment qui résiste encore à l'automatisation classique, dominée par les bras articulés répétitifs qui exigent des environnements stables et des fixtures précises. Si les performances annoncées se confirment en production réelle, Alfie s'attaquerait au "messy middle" de la chaîne industrielle, ce gisement de tâches manuelles à haute variabilité que ni les AMR ni les cobots traditionnels n'ont su automatiser à l'échelle. Le modèle Robotics-as-a-Service (RaaS) proposé en parallèle vise à supprimer le frein du capex initial, facilitant une adoption rapide sans engagement d'achat lourd. Il faut néanmoins noter qu'Alfie est décrit comme étant encore en "phase finale de développement" : les affirmations sur l'autonomie de niveau 4 restent à valider sur des lignes de production en conditions réelles, les vidéos de démo présentées à Hannover Messe ne constituant pas une preuve de déploiement industriel à l'échelle. RobCo n'est pas un nouvel entrant : la société était jusqu'ici positionnée sur les bras robotiques modulaires pour PME, avant de pivoter vers l'humanoïde et la Physical AI. Elle rejoint un champ concurrentiel désormais dense, où Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies se disputent la même promesse d'un robot généraliste pour l'industrie. En Europe, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft développent des approches parallèles, sans avoir encore atteint la phase de déploiement commercial annoncé. La prochaine étape décisive pour RobCo sera la publication de métriques de production vérifiables, notamment les temps de cycle en conditions non contrôlées et les taux d'erreur sur tâches à haute variabilité, seuls indicateurs capables de distinguer une démonstration convaincante d'un produit réellement opérationnel.

UERobCo, startup allemande basée à Munich, annonce un humanoïde industriel et lève 100M$ mais oriente son financement prioritairement vers le marché américain, limitant l'impact concret à court terme pour l'industrie européenne malgré la vitrine de Hannover Messe.

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA
97arXiv cs.RO 

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Des chercheurs, vraisemblablement affiliés à l'Université de Pékin (l'URL du projet pointe vers pku-safevla.github.io), ont publié en mars 2025 SafeVLA, une méthode d'alignement sécurisé pour les modèles vision-langage-action (VLA) déployés sur robots physiques. L'approche, baptisée ISA (Integrated Safety Approach), repose sur le paradigme des processus de décision de Markov contraints (CMDP) et combine trois étapes : modélisation formelle des exigences de sécurité, élicitation active de comportements dangereux, puis optimisation min-max de la politique robot via du renforcement contraint. Sur des tâches de manipulation mobile à long horizon, SafeVLA réduit le coût cumulé des violations de sécurité de 83,58 % par rapport à la méthode de référence state-of-the-art, tout en améliorant simultanément le taux de succès des tâches de 3,85 points. Les données, modèles et benchmark associés sont publiés en open source. Ce résultat est notable parce qu'il adresse directement le principal frein à la commercialisation des VLA en environnement industriel : la garantie de comportement sûr hors distribution. Jusqu'ici, les politiques générales de type pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montraient des performances impressionnantes en laboratoire mais offraient peu de garanties formelles sur les scénarios de défaillance extrêmes, les cas limites ou les perturbations inattendues. SafeVLA propose un cadre d'assurance quantifiable, avec une généralisation démontrée aux perturbations out-of-distribution, ce qui intéresse directement les intégrateurs industriels et les COO qui exigent des SLA de sécurité avant tout déploiement en cellule humaine ou en espace partagé. L'amélioration simultanée du taux de succès contredit l'hypothèse courante selon laquelle la sécurité contrainte dégrade nécessairement la performance. Les VLA ont connu une accélération significative depuis 2023 avec des travaux fondateurs comme RT-2 (Google DeepMind) et OpenVLA, mais la question de leur alignement sécurisé pour une utilisation réelle restait largement ouverte, la plupart des équipes se concentrant sur les capacités génératives plutôt que sur les garanties de comportement. SafeVLA s'inscrit dans un mouvement plus large de formalisation de la sécurité robotique, en parallèle des travaux de Physical Intelligence sur pi-0, de 1X Technologies ou de Figure AI avec Figure 03. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication : il s'agit d'une contribution académique avec benchmark public, pas d'un produit shipé. Les prochaines étapes naturelles seraient l'intégration de cette approche dans des architectures VLA commerciales et sa validation sur des plateformes humanoïdes à grande échelle.

UELes résultats de SafeVLA pourraient alimenter les travaux de normalisation de la sécurité des VLA en Europe (AI Act, certification robots collaboratifs), mais aucun acteur européen n'est impliqué directement dans cette publication académique.

RechercheOpinion
1 source
StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel
98arXiv cs.RO 

StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel

Des chercheurs ont publié le 24 avril 2026 StableIDM, un framework spatio-temporel conçu pour stabiliser les modèles de dynamique inverse (IDM) en robotique manipulatrice. Les IDM sont des composants clés de l'IA incarnée : ils traduisent des observations visuelles brutes en commandes d'action bas-niveau, et servent à la fois pour l'annotation automatique de données d'entraînement et pour l'exécution de politiques. Le problème ciblé est la troncature du manipulateur, c'est-à-dire les situations où le bras robotique sort partiellement ou totalement du champ de la caméra, rendant la reconstruction d'état mathématiquement sous-déterminée. StableIDM intègre trois modules complémentaires : un masquage centré sur le robot pour éliminer le bruit de fond, une agrégation directionnelle de features (DFA) qui extrait des caractéristiques anisotropes le long des directions inférées depuis la partie visible du bras, et un raffinement temporel de la dynamique (TDR) qui lisse les prédictions via la continuité du mouvement. Sur le benchmark AgiBot, le système améliore la précision d'action stricte de 12,1 % sous troncature sévère, augmente le taux de succès moyen en rejeu réel de 9,7 %, améliore le succès de saisie de 11,5 % lors du décodage de plans issus de vidéos générées, et booste de 17,6 % les performances en conditions réelles quand StableIDM joue le rôle d'annotateur automatique pour un modèle VLA aval. Ces résultats sont significatifs pour quiconque déploie des bras manipulateurs en environnement non contrôlé. La troncature visuelle est une failure mode banale en production : un carton qui passe, un opérateur qui traverse, une caméra mal positionnée. Jusqu'ici, les IDM existants s'effondraient dans ces conditions, forçant les intégrateurs à multiplier les caméras ou à contraindre fortement la scène. StableIDM suggère qu'un traitement spatio-temporel ciblé peut absorber cette incertitude sans revoir l'infrastructure capteur. Par ailleurs, le gain de 17,6 % sur les VLA aval confirme une hypothèse montante dans le secteur : la qualité des annotations automatiques est un levier critique pour l'apprentissage à grande échelle, au moins autant que l'architecture du modèle de politique lui-même. Les IDM ont émergé comme alternative légère aux modèles de politique bout-en-bout dans le sillage des travaux sur l'imitation learning visuel (Gato, RT-2, OpenVLA). Le benchmark AgiBot, développé par la startup chinoise AgiBot, est devenu une référence de facto pour évaluer la manipulation dextre en conditions réelles. Sur le terrain concurrentiel, Physical Intelligence (pi) avec Pi-0, Figure AI avec son pipeline de données, et 1X Technologies travaillent tous sur des variantes d'IDM ou de VLA pour réduire la dépendance aux capteurs proprioceptifs. StableIDM se positionne comme un backbone généraliste compatible avec ces architectures, potentiellement intégrable comme préprocesseur dans des pipelines existants. Les auteurs n'annoncent pas de code public ni de partenariat industriel à ce stade : c'est une contribution de recherche, pas un produit shipped.

IA physiqueActu
1 source
Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg
99Interesting Engineering 

Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg

Le robot humanoïde Digit, développé par Agility Robotics (Oregon, États-Unis), vient de réaliser un soulevé de terre de 29 kilogrammes (65 livres) dans un environnement de laboratoire contrôlé. La démonstration met en évidence une coordination corpo-entière, bras, jambes et torse s'ajustent dynamiquement en temps réel pour maintenir l'équilibre sous charge. Selon l'entreprise, l'exercice a été conçu pour tester les limites des actionneurs, la durabilité des articulations et les systèmes de contrôle en temps réel. La politique de contrôle a été entraînée en simulation : un objet virtuel est introduit dans un environnement numérique, permettant au modèle d'apprendre la distribution de charge, les forces de préhension et les déplacements du centre de masse. Des milliers d'essais simulés affinent ensuite la stabilité de prise et le contrôle postural avant transfert sur le robot physique. La version actuelle de Digit embarque également une autonomie batterie de quatre heures, un système d'auto-recharge par docking autonome, des membres renforcés, des effecteurs terminaux avancés, et des protocoles de sécurité industrielle incluant un arrêt de catégorie 1, des PLCs de sécurité et le protocole FailSafe over EtherCAT. Ce que révèle cette démonstration va au-delà du simple exercice de force : elle illustre le passage des trajectoires articulaires programmées manuellement vers des politiques adaptatives apprises, un changement de paradigme significatif pour les intégrateurs industriels. Le sim-to-real, longtemps considéré comme un verrou majeur de la robotique humanoïde, semble ici suffisamment mature pour gérer des tâches de manipulation lourde avec consistance et sans réinitialisation. Pour un COO industriel, la promesse concrète est un robot capable d'empiler des bacs, charger des chariots et manutentionner des matériaux variés de façon autonome et répétable, en complément de robots mobiles autonomes (AMR) qui assurent le transport. La durabilité sous charge soutenue reste toutefois à valider en conditions réelles de production : la vidéo présentée est un test laboratoire, pas un déploiement opérationnel. Agility Robotics a été fondée en 2015 à partir des travaux de l'Oregon State University sur la locomotion bipède. L'entreprise a signé un partenariat stratégique avec Amazon, qui a piloté Digit dans ses entrepôts en 2023-2024. Elle se positionne directement face à Figure AI (Figure 02, partenariat BMW), Boston Dynamics (Atlas), Tesla (Optimus) et 1X Technologies sur le segment de l'humanoïde industriel. Contrairement à Figure ou Tesla qui communiquent davantage sur des capacités de manipulation généraliste, Agility mise sur une intégration logistique ciblée, en couplant Digit aux flottes AMR existantes. Les prochaines étapes annoncées incluent une accélération de la cadence de production et un déploiement élargi dans des environnements entrepôt multi-unités, sans date précise communiquée à ce stade.

HumanoïdesActu
1 source
La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China
100Pandaily 

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

X Square Robot, startup chinoise spécialisée dans l'IA incarnée fondée en décembre 2023, a bouclé un tour de série B de près de 2 milliards de yuans (environ 276 millions de dollars) entre fin mars et début avril 2026, co-mené par le bras d'investissement stratégique de Xiaomi et Sequoia China. Cette levée intervient à peine trois mois après un tour A++ d'un milliard de yuans (138 millions de dollars) annoncé le 12 janvier, dans lequel ByteDance, Sequoia China, le Beijing Information Industry Development Fund et le Shenzhen Capital Group figuraient déjà comme investisseurs principaux. Meituan et Alibaba ont également rejoint le cap table, ce qui fait de X Square Robot la seule entreprise d'IA incarnée en Chine à avoir attiré les trois géants de l'internet chinois simultanément. La société a déjà commercialisé deux plateformes robotiques propriétaires : Quantum-1 et Quantum-2, ce dernier étant un humanoïde à roues à usage général. En moins de six mois d'existence publique, X Square Robot cumule plus de 400 millions de dollars levés, un rythme qui place la startup dans la même trajectoire de capitalisation accélérée que Figure AI ou Physical Intelligence aux États-Unis. La présence conjointe de Xiaomi, acteur hardware avec une chaîne d'approvisionnement robuste, et de ByteDance, maître de la donnée comportementale à grande échelle, suggère une stratégie d'intégration verticale : modèles de fondation incarnés alimentés par des volumes de données massifs, déployés sur du matériel maîtrisé. Le fait que le fonds IA dédié de Shenzhen Capital ait effectué ici son premier investissement signale également un intérêt institutionnel croissant pour la robotique généraliste en Chine. X Square Robot émerge dans un contexte de compétition intense entre Beijing et la Silicon Valley sur les modèles de fondation robotiques : Unitree, Agibot et Galbot d'un côté, Figure, 1X Technologies et Physical Intelligence de l'autre. La différenciation affichée de X Square repose sur des "modèles de fondation d'intelligence incarnée générale" développés en interne, une approche similaire à celle de Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les détails techniques des modèles, leurs benchmarks réels et les déploiements clients concrets restent à ce stade non divulgués, les annonces demeurant au stade du positionnement stratégique plutôt que du produit validé en conditions industrielles.

UELa capitalisation accélérée de X Square Robot par Xiaomi, ByteDance et Alibaba simultanément accentue la pression concurrentielle mondiale sur les projets européens de robots humanoïdes et de modèles de fondation incarnés, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source