Aller au contenu principal

Dossier Figure — page 2

505 articles · page 2 sur 11

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines
51arXiv cs.RO IA physiqueOpinion

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

Des chercheurs ont publié LUCID (arXiv:2606.11628, juin 2026), un framework en deux étapes qui apprend des compétences de manipulation dextère à partir de vidéos humaines non étiquetées issues d'internet, sans démonstrations robotiques coûteuses. LUCID découple l'apprentissage en un modèle d'intention, qui prédit à court horizon ce qui doit se passer ensuite dans la scène en boucle fermée, et une politique sensorimorale spécifique à chaque effecteur, chargée de convertir cette intention en actions concrètes. Ce découplage permet au même modèle d'intention d'opérer sur des effecteurs différents, de la main dextère multi-doigts au préhenseur parallèle à deux mâchoires, sans réentraînement. Le système a été validé sur cinq tâches réelles : mélange, essuyage et tri en bac, supervisés par des vidéos internet uniquement avec transfert zéro-shot vers de nouveaux objets et scènes, et push-T et routage de câbles, supervisés chacun par une heure de vidéo smartphone collectée par les auteurs. Ce résultat s'attaque au principal goulot d'étranglement du robot learning industriel : la dépendance à des démonstrations coûteuses et liées à un embodiment précis. Les pipelines actuels, qu'ils reposent sur la télé-opération (Figure AI, 1X), l'imitation structurée (ACT, Diffusion Policy) ou les VLA end-to-end, exigent tous des données robotiques spécifiques à l'effecteur. LUCID substitue à cela des vidéos humaines à l'échelle web pour la compréhension de tâche, et de la simulation massivement parallèle pour le contrôle moteur. Si le paradigme passe à l'échelle, il réduit significativement les coûts d'intégration pour chaque nouvel effecteur, argument directement adressé aux intégrateurs industriels qui gèrent des parcs de bras multi-marques. LUCID se positionne face à pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui privilégient des architectures end-to-end. La principale différenciation est l'interface d'intention agnostique à l'embodiment, apprise depuis des données internet non étiquetées, ce qui constitue une direction distincte de la course à la collecte massive de démonstrations robotiques. Le preprint ne mentionne ni partenaire industriel ni feuille de route commerciale ; les résultats restent en environnement laboratoire sur des tâches de complexité modérée, et le passage à des contextes industriels non contraints reste à démontrer.

1 source
Le robot humanoïde chinois Z01 maîtrise le tai-chi avec un équilibre et un contrôle dignes d'un humain
52Interesting Engineering 

Le robot humanoïde chinois Z01 maîtrise le tai-chi avec un équilibre et un contrôle dignes d'un humain

Zoomlion, géant chinois de l'équipement de construction coté à Shenzhen et Hong Kong, a présenté son robot humanoïde bipède Z01 au salon KOMATEK 2026 à Istanbul, où l'engin a exécuté une séquence de Tai Chi devant les visiteurs. La performance, diffusée par l'entreprise, illustre les capacités de contrôle dynamique et d'équilibre du robot : transitions fluides entre postures, coordination corps entier, adaptation posturale en temps réel. Côté spécifications, Zoomlion reste délibérément vague : Z01 disposerait d'une réponse motrice à l'échelle de la milliseconde, d'une architecture haute-DOF (degré de liberté, sans chiffre précis communiqué), d'un système d'exploitation embarqué censé réduire de trois à cinq fois la complexité de développement robotique, et d'une « puissance de calcul IA embarquée » non quantifiée. Aucun prix, ni date de commercialisation, ni volume de déploiement n'ont été annoncés. En janvier 2026, l'entreprise avait présenté un système IA « full-chain » couvrant machines, fabrication, management et robotique. Fin 2025, Zoomlion comptait huit prototypes de robots à intelligence incarnée répartis en quatre catégories (humanoïdes et plateformes à roues), testés en environnements industriels réels pour des tâches de logistique, d'inspection, de chargement et de contrôle qualité. La démonstration de Tai Chi est un classique du marketing robotique chinois et dit peu sur la capacité du Z01 à opérer en production réelle, mais elle dit beaucoup sur la maturité du contrôle dynamique. Maintenir l'équilibre bipède lors de séquences lentes et continues exige une gestion fine du centre de masse et une réponse proprioceptive rapide, deux verrous qui limitent encore de nombreux humanoïdes hors démos contrôlées. Ce qui est plus intéressant pour les décideurs industriels, c'est le positionnement de Zoomlion sur la pile technologique complète : hardware robotique, composants core, algorithmes de contrôle moteur, moteurs de décision IA et écosystème logiciel intégrés dans un framework unifié. La plateforme Robot Ops, présentée à Hannover Messe 2026, vise la coordination multi-robots et le déploiement industriel à l'échelle. Si cette intégration verticale tient ses promesses, elle réduit la dépendance des intégrateurs aux assemblages multi-fournisseurs, un point critique en B2B. En revanche, les métriques restent non vérifiables : aucune donnée indépendante sur le cycle time, le payload réel, ou la durée de session en conditions industrielles. Zoomlion a amorcé son pivot vers la robotique incarnée en 2024, s'appuyant sur Zvalley, sa plateforme IoT industrielle, et une équipe de près de 1 300 ingénieurs R&D. Le Z01 s'inscrit dans ce que l'entreprise appelle sa « troisième courbe de croissance », après les grues et les équipements agricoles. Sur le marché des humanoïdes, Zoomlion entre dans un espace déjà dense : côté occidental, Figure (Figure 03 en déploiement chez BMW), Agility Robotics (Digit chez Amazon), Tesla (Optimus Gen 3) et Physical Intelligence (Pi-0) sont en production ou en pilote avancé ; côté chinois, Unitree, UBTECH et Fourier Intelligence sont déjà sur le terrain. Pour crédibiliser ses ambitions, Zoomlion devra dépasser la démo de salon : un pilote industriel annoncé publiquement, des chiffres de cycle time en conditions réelles, ou un partenariat OEM constitueraient les prochaines étapes tangibles. Pour l'instant, Z01 reste un prototype démonstratif prometteur, pas un produit déployé.

Chine/AsieOpinion
1 source
L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement
53Pandaily 

L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement

La startup Acorn Robot, cofondée par le Dr. Jiang Yao (doctorat en génie mécanique à Tsinghua, postdoctorat en neurosciences à Harvard), a présenté un robot de manipulation capable d'apprendre des tâches physiques sans aucune donnée d'entraînement préalable, sans trajectoires de démonstration et sans modèle visuel. Le système repose sur un modèle de décision embarqué baptisé "Natus" (pour "instinct-driven behavioral emergence"), qui fonctionne par essais et erreurs en temps réel sur le matériel physique. Le hardware est délibérément minimaliste : une pince industrielle parallèle à 1 degré de liberté, équipée de capteurs tactiles sur ses deux mâchoires en V, sans caméra externe ni connexion cloud. La démonstration présentée montre le robot parvenir à saisir une carte bancaire posée à plat sur une table, un défi reconnu pour les préhenseurs industriels conventionnels, en utilisant une mâchoire comme levier contre le bord de la carte et la surface de la table comme point d'appui. Le système requiert typiquement huit à neuf tentatives pour converger vers cette stratégie. Selon la société, une preuve de concept a été validée chez l'un des principaux fabricants de cosmétiques en Chine, avec un déploiement à l'échelle annoncé. La cible commerciale visée est la fabrication flexible B2B, où l'adaptabilité prime sur le volume de données. L'approche représente une rupture philosophique avec le paradigme dominant de la robotique contemporaine, qui s'appuie massivement sur des données de démonstration, des modèles vision-langage-action (VLA) et de l'apprentissage par simulation. Le Dr. Jiang soutient que les forces de contact imprévisibles et les variations mécaniques entre robots individuels rendent les approches data-driven structurellement fragiles, décrivant la dépendance aux données comme un "puits sans fond impossible à combler" et affirmant qu'il n'existe pas de modèle universel, seulement un modèle optimal pour un robot donné. Pour les intégrateurs industriels et les décideurs en fabrication flexible, le claim est potentiellement significatif : un système capable de s'adapter à une nouvelle tâche physique sans pipeline de collecte de données ni infrastructure cloud réduit le coût de déploiement et le délai de mise en service. Il convient toutefois de nuancer : les huit à neuf tentatives annoncées proviennent d'une vidéo de démonstration sélectionnée, les conditions exactes du déploiement cosmétique ne sont pas détaillées, et la distinction entre preuve de concept validée et déploiement industriel à grande échelle reste à préciser. Acorn Robot s'inscrit dans un paysage robotique mondial où l'essentiel des investissements se concentre sur les humanoïdes dotés de VLA à grande échelle : Figure 03 de Figure AI, Optimus Gen 3 de Tesla, pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche d'Acorn, centrée sur un préhenseur industriel à faible complexité matérielle plutôt que sur une plateforme humanoïde généraliste, repositionne la question de la généralisation robotique au niveau du comportement émergent plutôt que de la capacité de représentation. La startup appartient à une génération de chercheurs sino-américains explorant des alternatives à l'apprentissage supervisé massif, un espace également investigué par des équipes européennes en robotique cognitive, notamment en France et en Suisse. Les prochaines étapes annoncées portent sur l'extension à d'autres scénarios de fabrication flexible, sans calendrier précis communiqué à ce stade.

Chine/AsiePaper
1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
54arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
55arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion
1 source
Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion
56arXiv cs.RO 

Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion

Des chercheurs ont publié sur arXiv (2606.11034, juin 2026) une architecture SNN (Spiking Neural Network) capable de coordonner en temps réel le contrôle des bras et la locomotion bipède d'un humanoïde simulé, une combinaison absente des travaux précédents dans ce paradigme. Le système s'appuie sur le Neural Engineering Framework (NEF) et la Semantic Pointer Architecture (SPA), avec un modèle de ganglions de la base à impulsions biologiquement inspiré pour arbitrer la sélection entre marche et manipulation. La co-simulation Nengo (contrôle neural) et Isaac Sim de NVIDIA (physique) a permis de valider quatre tâches : atteinte de cible en espace 3D, dessin continu de chiffres, locomotion en suivi de trajectoire, et commutation dynamique entre marche et contrôle du bras via désinhibition des ganglions de la base. Le principal argument de l'approche est son potentiel d'efficacité énergétique sur matériel neuromorphique (Intel Loihi, SpiNNaker), là où les humanoïdes commerciaux actuels comme Figure 03, Optimus ou Unitree G1 exigent des GPU embarqués énergivores. Cette publication revendique la première intégration unifiée locomotion-manipulation sur plateforme humanoïde pleine échelle dans le paradigme SNN, les rares précédents traitant les deux sous-systèmes en modules entièrement isolés. La limite centrale à signaler est que l'ensemble des résultats est issu de simulation pure, le gap sim-to-real n'étant pas adressé dans cette étude. Les SNNs s'imposent depuis quelques années comme alternative crédible aux réseaux denses pour les systèmes embarqués à contrainte énergétique forte. Le framework Nengo, développé par Applied Brain Research, est l'outil de référence de cet écosystème. Face à cette approche, les acteurs majeurs de la course humanoïde, Figure AI, 1X Technologies, Boston Dynamics et Physical Intelligence (auteurs de Pi-0), misent sur des VLA (Vision-Language-Action models) et du reinforcement learning à grande échelle ; l'approche SNN vise un axe orthogonal, davantage frugal et interprétable, mais encore en retrait sur les benchmarks de manipulation en environnement réel. Les auteurs annoncent le déploiement sur matériel neuromorphique basse consommation comme prochaine étape, ce qui constituera le vrai test de l'hypothèse énergétique centrale à ce travail.

RecherchePaper
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
57Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
58arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
59arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives
60arXiv cs.RO 

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Des chercheurs ont publié ActProbe (arXiv:2606.08508), un détecteur de défaillances léger pour les politiques robotiques génératives, ces systèmes qui produisent des séquences d'actions continues comme les politiques de diffusion ou les architectures ACT déployées sur des robots tels que Figure 03 ou entraînés avec pi-0. Plutôt que d'accéder aux états internes du modèle ou d'introduire un rééchantillonnage coûteux à l'exécution, ActProbe opère exclusivement sur les chunks d'actions émis lors d'un seul passage avant (forward pass). Deux signaux suffisent : l'erreur de cohérence temporelle (TCE), qui mesure l'incohérence entre deux chunks consécutifs, et l'amplitude du chunk courant (ACM). Ces métriques alimentent une architecture LSTM-MLP légère conditionnée par la tâche, produisant une probabilité de défaillance par étape. Sur un ensemble diversifié de benchmarks, ActProbe améliore le front de Pareto précision (F1)/précocité d'un gain en hypervolume de +12,7 % par rapport aux méthodes existantes, et affiche un avantage de +9,0 % en ROC-AUC sur des tâches non vues à l'entraînement. L'intérêt opérationnel tient à une contrainte réelle : les politiques commerciales comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne donnent pas accès à leurs états internes. Un détecteur purement black-box est donc la seule option viable en déploiement industriel. ActProbe émet ses alertes avant que la défaillance ne soit visuellement reconnaissable, ce qui est critique pour interrompre une action irréversible avant qu'elle ne soit engagée. Côté fine-tuning par renforcement (PPO), le système réduit de 2,9 fois le nombre d'interactions nécessaires avec l'environnement, un gain direct lorsque chaque interaction implique un robot physique. Le transfert sur des tâches de saisie réelles non vues lors de l'entraînement valide la généralisation hors simulateur. ActProbe s'inscrit dans les travaux ciblant le fossé entre démonstration en laboratoire et déploiement à l'échelle, l'obstacle central à la commercialisation des robots généralistes depuis 2023. Les approches concurrentes, qu'elles reposent sur le monitoring d'incertitude interne ou sur des signaux côté observation, souffrent d'un manque d'accès aux internals ou d'une latence incompatible avec le temps réel. La prochaine étape logique serait l'intégration dans des boucles de contrôle réactives pour robots humanoïdes industriels, terrain où Figure AI, Apptronik et Agility Robotics accélèrent leurs déploiements en entrepôt en 2026. ActProbe reste à ce stade une publication académique préliminaire, sans produit ni partenariat industriel annoncé.

RechercheOpinion
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
61arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
62arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes
63arXiv cs.RO 

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
64arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
65arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

IA physiqueOpinion
1 source
OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles
66arXiv cs.RO 

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

Une équipe de chercheurs publie sur arXiv (juin 2026) le framework OASIS, une approche pour entraîner des robots humanoïdes à des tâches de loco-manipulation, combinaison de locomotion et de manipulation d'objets, en s'appuyant exclusivement sur des données de simulation. Le système reconstruit automatiquement des assets 3D réalistes à partir d'images du monde réel via un modèle génératif, puis collecte des trajectoires par télé-opération dans ce simulateur. Ces trajectoires sont ensuite augmentées par randomisation de domaine : variations d'éclairage, de textures et de configuration environnementale. Une politique visuomotrice hiérarchique, entraînée sur ces données simulées, est déployée en zero-shot sur un robot humanoïde physique, sans fine-tuning sur données réelles. Les résultats publiés indiquent que cette politique dépasse, sur la majorité des tâches testées, les performances d'une politique entraînée sur des données de télé-opération réelle. Ce résultat, à prendre avec prudence, le preprint n'étant pas encore soumis à peer review, va à contre-courant d'une hypothèse largement répandue : que la qualité des données terrain serait irremplaçable pour la manipulation fine. Le principal facteur explicatif avancé par les auteurs est la couverture plus large des variations d'éclairage et d'environnement dans le rendu simulé, que la collecte physique peine à égaler à grande échelle. Si le résultat se confirme, il soulage considérablement le goulot d'étranglement de la collecte terrain, qui implique aujourd'hui des resets manuels coûteux et une infrastructure dédiée par tâche. La loco-manipulation reste l'un des défis les plus complexes en robotique humanoïde, car elle exige une coordination simultanée du contrôle de marche et de la manipulation d'objets. Des plateformes comme Figure 03, l'Optimus Gen 3 de Tesla ou l'Atlas de Boston Dynamics cherchent des solutions via des approches diverses : imitation learning sur données réelles (pi-0 de Physical Intelligence), politiques VLA (GR00T N2 de Nvidia) ou RL massivement simulé (Unitree). OASIS positionne la simulation augmentée comme alternative crédible à la télé-opération physique, ce qui pourrait accélérer le bootstrapping de nouvelles tâches sans mobiliser de cellules robotiques dédiées. Les prochaines étapes attendues sont une évaluation sur un spectre plus large de tâches industrielles et une soumission à une conférence avec évaluation par les pairs.

RechercheOpinion
1 source
Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest
67Interesting Engineering 

Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest

Un robot humanoïde Unitree G1 modifié, baptisé "Pemba", a atteint le sommet du Chimborazo en Équateur le 7 juin 2026, soit 6 200 mètres d'altitude. L'expédition, conduite par l'ingénieur Pablo Berlanga Boemare et son entreprise Geologic Dome, s'est déroulée sur 16 heures. Pemba est une première étape d'un programme baptisé "Triple Crown" qui vise à terme l'ascension de l'Everest. À noter : le robot n'a pas grimpé en autonomie totale. Il a marché de manière indépendante sur les sections présentant une inclinaison inférieure à 30 degrés, mais a été porté par les membres de l'expédition sur les passages plus techniques. Les modifications matérielles incluent des systèmes de gestion thermique sur mesure et des équipements de ventilation intégrés aux vêtements protecteurs du robot, s'appuyant sur des tests antérieurs conduits dans la région chinoise d'Altay à des températures descendant jusqu'à -47,4°C. Ce projet répond à une question que les benchmarks en laboratoire ne peuvent pas trancher : un humanoïde peut-il opérer de manière utile dans des environnements extrêmes, là où les capteurs fixes sont coûteux à déployer et où les conditions mettent en danger les opérateurs humains ? Berlanga Boemare, ancien collaborateur du WWF dans le bassin du Congo et en Amazonie, articule le cas d'usage autour de la surveillance environnementale mobile : remplacer ou compléter des réseaux de caméras stationnaires par des plateformes autonomes capables de patrouiller de grandes surfaces, équipées de caméras, capteurs et connectivité satellite (Starlink est mentionné). Pour les décideurs B2B et les intégrateurs industriels, l'intérêt est ailleurs : il s'agit d'un premier jeu de données réel sur la résilience des batteries, la cinématique articulaire et le comportement thermique de l'électronique embarquée au-delà de 6 000 mètres, dans des conditions que les simulations ne modélisent pas fidèlement. Unitree Robotics, fabricant chinois du G1, s'est imposé ces deux dernières années comme un acteur de référence sur le segment des humanoïdes accessibles, face à Boston Dynamics, Figure AI et Agility Robotics qui ciblent davantage le marché industriel avec des machines nettement plus coûteuses. Geologic Dome ne s'inscrit pas dans cette course à la productivité d'entrepôt, mais ouvre un segment distinct : la robotique d'exploration et de surveillance environnementale en terrain hostile. La prochaine étape annoncée est l'Everest, en partenariat avec l'opérateur népalais Fourteen Peaks Expedition, avec un programme de test prévu entre le camp de base et le Camp IV (environ 8 000 mètres), couvrant performance des batteries, stress articulaire et collecte de données environnementales. Le projet bute cependant sur un obstacle réglementaire concret : le Népal ne dispose pas encore de cadre légal encadrant les expéditions robotiques sur l'Everest, et les autorités auraient demandé de nouvelles régulations avant toute autorisation.

HumanoïdesPaper
1 source
NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA
68NVIDIA Blog Robotics 

NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA

NVIDIA et LG Group ont annoncé la construction d'une infrastructure conjointe qualifiée d'"AI factory", destinée à accélérer les activités du conglomérat coréen dans quatre domaines: la robotique, la conduite autonome, les technologies de centres de données et les services cloud GPU. L'infrastructure couvrira l'intégralité du cycle, de l'entraînement à la simulation et au déploiement, en reliant génération de données, simulation robotique et jumeaux numériques dans un workflow unifié. Du côté robotique, LG Electronics intègre les frameworks NVIDIA Isaac Sim et Isaac Lab dans le développement de CLoiD, son robot domestique conçu pour les tâches d'intérieur, et explore l'adoption du modèle de fondation GR00T, un VLA (vision-language-action model) destiné à lui conférer un raisonnement de type humanoïde. LG Electronics développe également une data factory d'IA physique pour fournir des données d'entraînement aux entreprises coréennes et mondiales, en s'appuyant sur NVIDIA Cosmos pour la génération de données synthétiques. LG Innotek prépare des solutions de capteurs optiques optimisées pour les environnements GPU NVIDIA, tandis que LG CNS intègre Isaac, Cosmos et GR00T dans sa plateforme industrielle PhysicalWorks pour accélérer l'automatisation logistique et manufacturière. Sur le volet infrastructure, les deux groupes approfondissent leur collaboration autour du refroidissement des AI factories, incluant des unités de distribution de refroidissement (CDU), des plaques froides et un design modulaire préfabriqué, le tout aligné sur la plateforme NVIDIA DSX. Ce partenariat illustre la verticalisation des stacks d'IA physique, du modèle de fondation jusqu'au déploiement industriel. LG apporte des données de fabrication issues de sites mondiaux, une expertise optique via Innotek et des capacités d'intégration SI via CNS, là où NVIDIA fournit la couche logicielle et les accélérateurs. L'annonce de la data factory mérite une attention particulière: LG se positionne comme fournisseur de données d'entraînement pour l'industrie robotique, une ressource devenue critique face au défi du sim-to-real. Il convient cependant de souligner que CLoiD et l'intégration GR00T restent au stade de l'exploration déclarée, non d'un produit expédié, et qu'aucune métrique de déploiement industriel ni de volumétrie de production n'est communiquée. Ce rapprochement s'inscrit dans la stratégie NVIDIA d'expansion de l'écosystème Isaac et GR00T auprès des industriels asiatiques, après des partenariats similaires avec Foxconn et Hyundai. LG entre ainsi en compétition directe avec Samsung et SK dans la course des conglomérats coréens à intégrer l'IA physique dans leur portefeuille. Dans le segment des robots de service, CLoiD sera en concurrence indirecte avec Figure 03, Tesla Optimus Gen 3, 1X NEO et Sanctuary AI Phoenix, tous en déploiements pilotes chez des industriels. Côté infrastructure AI factory, Dell, HPE et Lenovo sont également partenaires certifiés NVIDIA DSX, ce qui relativise toute exclusivité de l'accord. Aucune date de livraison ni volume de déploiement n'est précisé dans l'annonce: il s'agit pour l'instant d'un cadre de coopération stratégique, pas d'un contrat de déploiement signé.

Chine/AsieOpinion
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
69arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif
70arXiv cs.RO 

LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif

Des chercheurs ont publié le 5 juin 2026 sur arXiv (preprint 2606.05873) un système baptisé LadderMan, conçu pour permettre à des robots humanoïdes de grimper des échelles de géométries variées et d'effectuer des tâches de manipulation en position perchée. L'architecture repose sur un pipeline d'apprentissage en deux étapes : une phase de suivi de mouvement hybride extrait plusieurs politiques d'escalade expertes à partir d'une seule motion de référence, puis une phase de distillation fusionne ces experts en une politique visuomotrice unifiée, pilotée par caméra de profondeur, via une combinaison d'imitation et de renforcement. Pour combler l'écart simulation-réel sur la perception de profondeur, l'équipe exploite des modèles de vision fondationnels. La manipulation en hauteur est gérée par une formulation dite "dual-agent" : un agent dédié à la stabilité sur l'échelle, un autre à la manipulation, avec télé-opération comme signal superviseur. Les expériences rapportent un transfert zéro-shot vers le hardware réel, sans fine-tuning supplémentaire. L'escalade d'échelle constitue l'un des tests les plus discriminants pour les humanoïdes : les points d'appui sont rares et fixes, la coordination corps entier est critique, et la moindre erreur de perception ou de contrôle peut provoquer une chute. Le transfert zéro-shot réussi de la simulation au réel est ici le résultat le plus significatif : il suggère que les modèles de vision fondationnels permettent d'atténuer suffisamment le sim-to-real gap sur des tâches perceptivo-motrices contraintes, une hypothèse longtemps débattue dans la communauté. La capacité à manipuler des objets depuis une position instable ouvre des perspectives concrètes pour l'inspection industrielle, la maintenance en hauteur et les chantiers de construction. Il convient cependant de souligner qu'il s'agit d'un preprint de recherche, non d'un produit commercialisé, et que les vidéos publiées sur ladderman-robot.github.io restent sélectionnées par les auteurs. Ce travail s'inscrit dans une vague active de recherche poussant les humanoïdes vers des environnements contraints et à risque élevé. Aucune entreprise commerciale n'est identifiée dans le preprint, ce qui suggère une origine académique. Sur le plan concurrentiel, aucun constructeur humanoïde majeur, ni Boston Dynamics (Atlas), ni Figure (Figure 03), ni Tesla (Optimus Gen 3), ni Agility Robotics (Digit), n'a à ce jour publié de démonstration d'escalade d'échelle à ce niveau de robustesse et de transfert zéro-shot. Les prochaines étapes logiques seraient un test sur une gamme plus large de robots humanoïdes commerciaux et une intégration de la manipulation autonome, sans télé-opération.

RecherchePaper
1 source
RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique
71arXiv cs.RO 

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

RealDexUMI est une interface de téléopération portable présentée en juin 2026 par des chercheurs de BeingBeyond dans un preprint arXiv (arXiv:2606.06033). Le dispositif repose sur un module d'effecteur terminal partagé combinant une main robotique légère, une caméra embarquée dans la paume et des capteurs tactiles au bout des doigts. Un gant isomorphe porté par l'opérateur humain traduit les mouvements des doigts en commandes articulaires directes sur la main robotique, sans retargeting ni conversion d'incarnation. Le système a été évalué sur huit tâches réelles couvrant des manipulations fines, riches en contacts, à longue durée et bimanuelles, obtenant un taux de succès moyen de 88,75%. Les politiques apprises se généralisent à des poses initiales non vues lors de l'entraînement et ont été transférées vers trois morphologies de robots différentes. Le verrou que RealDexUMI cherche à lever est connu dans le secteur sous le nom de "collection-to-deployment gap". Les pipelines classiques de collecte de données pour la manipulation dextre font face à un dilemme : la motion capture ou les gants souples permettent une collecte rapide mais nécessitent un retargeting qui dégrade la fidélité des contacts, tandis que la téléopération robot-spécifique préserve cette fidélité mais reste onéreuse et difficile à passer à l'échelle. RealDexUMI propose un troisième chemin via un effecteur "zéro-gap" : les observations (images embarquées, signaux tactiles, contacts, commandes articulaires) sont identiques entre collecte et déploiement, supprimant le biais d'observation qui dégrade souvent les politiques d'imitation. Un taux de 88,75% sur des tâches bimanuelles longue durée est significatif si les conditions expérimentales sont représentatives, bien que le preprint ne détaille pas encore la distribution des tentatives par tâche ni les protocoles de randomisation des scènes. La question de l'interface universelle de manipulation dextre est activement travaillée depuis plusieurs années, notamment depuis les travaux UMI de Columbia University (2023-2024), qui instrumentaient une spatule pour des robots standard. RealDexUMI étend ce paradigme aux mains multi-doigts, terrain nettement plus difficile. La démarche entre en compétition directe avec des approches comme ALOHA 2 et ACT de Carnegie Mellon, les systèmes de DexHand Research, ou les plateformes bimanuelle d'Apptronik et Agility Robotics. En Europe, des équipes de l'ISIR à Sorbonne Université et du DLR en Allemagne travaillent sur des thématiques proches de capture et transfert de manipulation dextre. BeingBeyond reste discret sur son positionnement commercial et ses partenaires industriels : la prochaine étape naturelle serait une validation dans des environnements non structurés ou une intégration sur des plateformes humanoïdes commerciales comme Figure 03, Unitree G1 ou Fourier GR-1, où la manipulation dextre demeure le principal goulot d'étranglement.

UELes équipes européennes de manipulation dextre (ISIR/Sorbonne, DLR) pourraient intégrer l'approche zéro-gap de RealDexUMI pour accélérer leurs pipelines de collecte de données sans retargeting.

RechercheOpinion
1 source
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
72arXiv cs.RO 

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme. L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire. Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

IA physiqueOpinion
1 source
IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena
73Pandaily 

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

La société chinoise Kuawei Intelligence a décroché la première place du classement mondial WorldArena Track 2 (Data Engine) pour le mois de mai 2026, devançant les concurrents internationaux WoW et BLM. Ce benchmark évalue non pas la qualité visuelle des sorties générées, mais les taux de succès réels de robots sur des tâches physiques, ce qui le rend plus pertinent pour les déploiements industriels que les métriques classiques de génération d'images. Le modèle lauréat, DSCFuncWorld, repose sur l'architecture DexWorldModel et est conçu pour produire des données d'entraînement robotique de haute qualité. Contrairement aux world models génératifs conventionnels qui opèrent au niveau du pixel, Kuawei utilise l'espace de features sémantiques DINO pour la prédiction d'état, une approche qui réduit la charge de calcul tout en améliorant la robustesse. La société a par ailleurs open-sourcé son infrastructure de données EmbodiChain. Ces résultats benchmark s'accompagnent de chiffres de déploiement concrets : Kuawei revendique plus de 1 000 projets dans plus de 50 secteurs industriels, un taux de succès de 99,99 % sur une ligne de production Hisense, une efficacité de tri trois fois supérieure à l'humain chez Midea, un chiffre d'affaires dépassant 100 millions de RMB en 2024 et plus de 100 unités de son robot humanoïde W1 Pro livrées à des clients comme BYD, GAC, Zoomlion, SANY et Panasonic. Ces chiffres sont issus de communications officielles de l'entreprise et n'ont pas fait l'objet de vérification indépendante. La performance de Kuawei sur WorldArena Track 2 est significative précisément parce que ce classement mesure le sim-to-real transfer, soit la capacité d'un modèle entraîné en simulation à fonctionner sur du matériel réel, longtemps considéré comme le principal obstacle à la robotisation à l'échelle. Si les chiffres revendiqués se confirment, ils suggèrent qu'une entreprise chinoise de taille intermédiaire a résolu, au moins partiellement, le problem de la data engine, c'est-à-dire la génération automatisée de données d'entraînement suffisamment réalistes pour produire des politiques motrices robustes. Pour les intégrateurs industriels et les décideurs B2B, l'argument le plus fort n'est pas le benchmark lui-même mais la combinaison revenus/déploiements réels, qui tranche avec le schéma habituel du secteur humanoïde, souvent long en annonces et court en traction commerciale. Kuawei Intelligence s'inscrit dans une vague d'acteurs chinois de l'IA incarnée qui ont émergé depuis 2023, parmi lesquels Unitree Robotics, Fourier Intelligence et AgileX Robotics, tous positionnés sur le segment des robots à bas coût et des plateformes open-source. Sur la scène internationale, elle affronte Physical Intelligence (Pi-0), Apptronik, Figure AI (Figure 03) et Boston Dynamics, dont les approches misent davantage sur la puissance des VLA (Vision-Language-Action models) que sur la data synthesis. La victoire de Kuawei à l'ICRA 2025 avec un robot bi-bras en manipulation fine sans intervention humaine avait déjà signalé ses ambitions. La prochaine étape pour l'entreprise sera de démontrer que ses déploiements tiennent dans des environnements non structurés, au-delà des lignes de production contrôlées où les benchmarks ont jusqu'ici été réalisés.

Chine/AsieActu
1 source
Le public américain acclame les robots dansants Unitree pendant que le Congrès cherche à les interdire
74SCMP Tech 

Le public américain acclame les robots dansants Unitree pendant que le Congrès cherche à les interdire

Les robots humanoïdes G1 du fabricant chinois Unitree Robotics ont fait une apparition remarquée dans le show télévisé américain America's Got Talent lors du lancement de sa nouvelle saison, décrochant une ovation debout du public en studio. La performance, diffusée en prime time sur une chaîne nationale américaine, a suscité une adhésion populaire immédiate selon les analystes du secteur, même si les chiffres d'audience définitifs n'ont pas encore été communiqués. Le G1 est un humanoïde bipède commercialisé par Unitree à environ 16 000 dollars, positionné comme l'une des plateformes humanoïdes les moins chères du marché mondial. Ce contraste entre l'enthousiasme du grand public et la méfiance des élus illustre une tension structurelle croissante dans le secteur robotique américain. Alors que des législateurs au Congrès examinent des projets de loi visant à restreindre ou interdire l'utilisation de robots et composants d'origine chinoise dans les infrastructures critiques, une exposition télévisée à grande échelle normalise ces mêmes machines auprès de dizaines de millions de foyers. Pour les décideurs industriels et les intégrateurs, ce clivage complique les arbitrages d'approvisionnement : les plateformes chinoises restent attractives sur le plan tarifaire mais exposent à un risque réglementaire croissant. Unitree a connu une montée en puissance rapide, passant des robots quadrupèdes bon marché (série Go) aux humanoïdes G1 et H1. La société s'impose comme le pendant grand public de Figure AI, Agility Robotics ou Boston Dynamics sur le segment entrée de gamme. Les tentatives législatives américaines de restreindre les robots chinois s'inscrivent dans la continuité des régulations visant Huawei ou DJI, et pourraient accélérer la demande pour des alternatives domestiques comme Apptronik ou Sanctuary AI si elles aboutissent.

UELes intégrateurs européens utilisant des plateformes Unitree s'exposent à un risque réglementaire croissant si l'UE s'aligne sur la trajectoire législative américaine, sur le modèle des restrictions DJI/Huawei.

Chine/AsieOpinion
1 source
BYD développe des robots humanoïdes, selon une source
75TechNode 

BYD développe des robots humanoïdes, selon une source

BYD, le géant chinois des véhicules électriques, développe des robots humanoïdes, selon une source proche du dossier citée mercredi par le média financier chinois Yicai. L'information a été confirmée la même semaine par Li Ke, vice-présidente exécutive du groupe, dans une interview où elle a déclaré explicitement : "BYD travaille également sur les robots humanoïdes." Li Ke n'a fourni ni calendrier ni spécifications techniques, et aucun prototype n'a été présenté publiquement, il s'agit donc d'une annonce de programme, pas d'un produit déployé. L'entrée de BYD dans l'humanoïde illustre une convergence industrielle qui s'accélère en Chine : les constructeurs automobiles disposant de capacités de fabrication à grande échelle, de chaînes d'approvisionnement en batteries et en électronique embarquée, et d'équipes d'IA pour les systèmes ADAS, considèrent désormais la robotique humanoïde comme une extension naturelle de leur savoir-faire. Li Ke a explicitement mentionné que les technologies d'IA automobile et robotique partagent des fondations communes, un argument similaire à celui avancé par Tesla pour justifier son programme Optimus. Si la thèse se vérifie industriellement, BYD disposerait d'un avantage structurel sur les pure-players robotiques en termes de coûts de production et d'intégration verticale. BYD rejoint ainsi un écosystème humanoïde chinois déjà dense, avec Unitree, Fourier Intelligence, Agibot et UBTECH, ainsi que les programmes étatiques liés au plan "Made in China 2025". À l'échelle internationale, la concurrence directe inclut Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit, déployé chez Amazon) et le programme Optimus de Tesla. Li Ke a évoqué la possibilité d'une plateforme robotique ouverte, développement interne couplé à des partenariats avec d'autres entreprises du secteur, et suggéré que le réseau de concessions BYD pourrait servir de canal de distribution si les humanoïdes atteignent le marché grand public. Les prochaines étapes concrètes (prototypes, pilotes industriels, partenaires) restent non communiquées à ce stade.

UEL'entrée de BYD dans la robotique humanoïde renforce la pression concurrentielle de l'écosystème chinois sur les acteurs européens, mais sans impact direct immédiat sur le marché européen à ce stade.

Chine/AsieActu
1 source
IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence
76Pandaily 

IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence

Une entreprise chinoise spécialisée en intelligence artificielle incarnée (embodied AI) a décroché la première place du classement RoboArena lors de la conférence NVIDIA GTC Taipei 2026, devançant NVIDIA et Physical Intelligence (PI). Le benchmark RoboArena est conçu pour évaluer des systèmes d'IA robotique sur des tâches physiques réelles variées : manipulation d'objets, navigation mobile et utilisation d'outils complexes. Sa méthodologie inclut des conditions environnementales aléatoires, des perturbations adversariales et des exigences strictes de reproductibilité, ce qui en fait l'un des rares benchmarks difficiles à truquer par overfitting. Fait notable : l'article source ne mentionne pas le nom de cette entreprise, ce qui affaiblit la portée de l'annonce et rend toute vérification indépendante impossible pour l'instant. La solution retenue s'appuie sur une architecture qui intègre étroitement la perception visuelle et le contrôle moteur au niveau du réseau de neurones, permettant une adaptation rapide à de nouveaux environnements avec un fine-tuning minimal. L'entrée de NVIDIA, construite sur sa plateforme Isaac et ses pipelines de simulation-to-real accélérés GPU, ainsi que celle de Physical Intelligence, connue pour ses politiques robotiques généralistes (dont le modèle Pi-0), ont toutes deux été surpassées en score agrégé. Ce résultat conteste l'hypothèse dominante selon laquelle la puissance de calcul brute est le principal levier de performance en embodied AI. Si confirmé, cela suggère que l'innovation architecturale et une utilisation efficace des données réelles peuvent compenser un désavantage de ressources significatif face à des acteurs comme NVIDIA ou PI, qui disposent de budgets compute sans commune mesure. Pour les intégrateurs et décideurs industriels, cela signifie que le marché reste ouvert à des challengers lean, et que la course à la généralisation robotique n'est pas encore jouée par les seuls hyperscalers. La validation par un benchmark tiers réputé représente un argument commercial fort, surtout dans un secteur où les démonstrations en conditions contrôlées sont légion. Il convient cependant de rester prudent : aucune métrique précise (payload, degrés de liberté, temps de cycle, taux de succès par tâche) n'est communiquée dans l'annonce, et les vidéos de démonstration n'ont pas encore été soumises à un audit indépendant. RoboArena a été lancé comme réponse directe aux critiques sur la reproductibilité des benchmarks robotiques, dans un contexte où des acteurs comme Figure AI (Figure 03), Tesla (Optimus Gen 3), Boston Dynamics, 1X Technologies et Physical Intelligence publient des résultats difficiles à comparer. La Chine construit depuis plusieurs années un écosystème embodied AI dense, porté par une base de fabrication hardware mature, un vivier de talents en vision par ordinateur issus des géants technologiques (Baidu, Alibaba, DJI), et un soutien gouvernemental actif à l'industrialisation de l'IA. La prochaine étape logique pour cette entreprise anonyme sera de se nommer publiquement, de publier ses données brutes et d'annoncer des déploiements pilotes en environnement industriel réel pour confirmer que la performance benchmark se traduit en valeur opérationnelle.

UELa compétitivité croissante de l'écosystème chinois en IA incarnée constitue un signal d'alerte indirect pour les industriels et laboratoires européens positionnés sur la robotique généraliste.

Chine/AsieOpinion
1 source
Astribot atteint la valorisation d'un milliard de dollars après la clôture rapide de sa série B
77Pandaily 

Astribot atteint la valorisation d'un milliard de dollars après la clôture rapide de sa série B

Astribot, startup d'IA incarnée basée à Shenzhen, vient d'atteindre le statut de licorne en bouclant une série B qui porte sa valorisation au-delà de 10 milliards de RMB (environ 1,4 milliard de dollars). La société a enchaîné trois tours de financement consécutifs en l'espace de trois mois, levant au total plus d'un milliard de RMB. Le 27 mai 2026, elle a dévoilé son nouveau robot humanoïde T1 : 1,55 mètre de hauteur, 66 kilogrammes, 23 degrés de liberté et un payload de 5 kilogrammes par bras. L'architecture repose sur un actionnement par câbles, à la différence des solutions à engrenages ou hydrauliques des concurrents, ce qui procure des mouvements plus fluides et des marges de sécurité plus élevées pour une cohabitation avec des opérateurs humains. Fin 2025, Astribot annonçait des livraisons à l'échelle de plusieurs milliers d'unités, un chiffre à interpréter avec prudence puisqu'aucune donnée vérifiable de production n'a été communiquée. Le tour de table mêle des récurrents comme Ant Group à de nouveaux entrants : Thundersoft, spécialiste des systèmes embarqués pour cockpits automobiles, et Kede Education, ainsi que plusieurs fonds régionaux. Ce financement intervient alors que la plupart des acteurs du marché des humanoïdes restent en phase de prototype ou de pilote limité. La revendication d'Astribot d'être le seul fabricant en série mondiale de robots à câbles relève du discours marketing, mais l'existence de livraisons plurimilliers dès fin 2025 constitue un signal industriel tangible dans un secteur où le fossé entre démonstration et déploiement réel reste la principale ligne de fracture. Le partenariat avec Thundersoft cible l'intégration dans des cockpits automobiles intelligents, ouvrant un débouché B2B au-delà des seuls environnements manufacturiers. Côté fondation technique, le modèle Lumo joue le rôle de VLA (vision-language-action model), couplé à un OS robotique propriétaire : une pile verticalement intégrée qui, si elle tient ses promesses de sim-to-real, pourrait réduire les délais de déploiement chez les intégrateurs industriels. Astribot a été fondée en décembre 2022 par Lai Jie, vétéran de dix-sept ans en robotique, premier employé du laboratoire RoboticsX de Tencent (où il a conçu le robot à roues-jambes Ollie) et ancien responsable de l'équipe Xiaodu Robot chez Baidu. La montée en valorisation en moins de trois ans reflète à la fois la maturité de la chaîne d'approvisionnement robotique chinoise et un appétit investisseur en forte accélération pour l'IA incarnée. Sur le marché mondial, Astribot se retrouve en compétition directe avec Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0) et NVIDIA (GR00T N2), ainsi qu'avec des acteurs chinois comme Unitree et Fourier Intelligence. Les prochaines étapes annoncées comprennent l'ouverture d'un centre d'IA incarnée à Yangzhou en partenariat avec les autorités municipales, et des programmes de formation professionnelle pour alimenter l'écosystème en techniciens spécialisés.

Chine/AsieOpinion
1 source
Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique
78arXiv cs.RO 

Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique

Des chercheurs ont publié début juin 2026 une étude (arXiv:2606.03556) démontrant la vulnérabilité des modèles Vision-Language-Action (VLA) à des attaques adversariales par patch dans des conditions partiellement observables. Contrairement aux travaux antérieurs qui supposaient un accès complet à l'intégralité de la trajectoire d'exécution du robot, cette équipe formule un modèle de menace plus réaliste : l'adversaire ne dispose que d'un court préfixe de trajectoire pour générer un patch visuel fixe, ensuite appliqué à toutes les trames suivantes. Leur framework en deux phases consiste d'abord à localiser la zone optimale du patch en exploitant les cartes d'attention du modèle pour identifier les régions visuellement critiques liées à l'instruction en cours, puis à optimiser ce patch pour simultanément perturber l'ancrage sémantique des objets cibles et augmenter la courbure des trajectoires d'action planifiées. Les expériences menées en simulation et en environnements robotiques réels montrent une réduction significative des taux de succès sur des tâches longues. Ce résultat est important car les VLA sont de plus en plus intégrés dans des bras manipulateurs et des robots mobiles déployés en environnements industriels et logistiques, précisément parce qu'ils promettent une généralisation robuste à partir d'instructions en langage naturel. Prouver qu'un patch physique imprimable, placé dans le champ de vision du robot, peut dégrader durablement ses performances de contrôle sans accès complet à son état interne remet en question les hypothèses de sécurité des déploiements actuels. Cela soulève un gap réel entre robustesse en démo contrôlée et résilience en production, particulièrement pour des intégrateurs qui s'appuient sur des modèles comme OpenVLA, pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind) sans auditer leur surface d'attaque perceptive. Les VLA connaissent une montée en puissance depuis 2023 avec RT-2 de Google, suivi de pi-0 de Physical Intelligence et des travaux d'Embodied Intelligence. La sécurité adversariale de ces modèles reste un angle quasi-inexploré dans la littérature par rapport à leur homologues LLM ou vision-langage purs. Cette publication s'inscrit dans un effort émergent pour caractériser les vecteurs d'attaque physiques sur les systèmes robotiques autonomes, un enjeu croissant alors que Figure AI, Agility Robotics et 1X Technologies accélèrent leurs déploiements en entrepôt. Les prochaines étapes probables incluent des défenses basées sur l'augmentation adversariale à l'entraînement et des mécanismes de détection d'anomalie sur les cartes d'attention, domaine dans lequel des équipes européennes comme celles du LAAS-CNRS et du DLR commencent également à publier.

UELes équipes du LAAS-CNRS et du DLR commencent à publier sur la défense adversariale des VLA, positionnant l'Europe comme contributrice émergente à la sécurisation des déploiements robotiques industriels.

RechercheOpinion
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
79arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
SimuScene : reconstruction compositionnelle de scènes 3D prêtes pour la simulation à partir d'une seule image
80arXiv cs.RO 

SimuScene : reconstruction compositionnelle de scènes 3D prêtes pour la simulation à partir d'une seule image

Une équipe de chercheurs a présenté SimuScene (arXiv:2606.03994, juin 2026), un pipeline de reconstruction 3D compositionnelle capable de produire, à partir d'une seule image, des scènes directement exploitables dans un simulateur physique. Le verrou technique adressé est précis : les méthodes existantes de reconstruction mono-image génèrent des géométries par objet plausibles visuellement, mais dès qu'on les compose dans une scène et qu'on lance la simulation, les objets s'interpénètrent, flottent ou s'enfoncent dans le sol, rendant la scène inutilisable pour l'entraînement robotique. SimuScene résout ce problème en intégrant le moteur physique non pas comme une étape de correction a posteriori, mais comme un outil de diagnostic pendant le processus de reconstruction lui-même. Concrètement, les objets reconstruits sont soumis à une simulation gravitationnelle ; les échecs de pénétration ou de support sont convertis en signaux de correction quantitatifs qui pilotent deux mécanismes : un étirement de la géométrie selon l'axe vertical ("gravity-axis stretching") et un rééchantillonnage de la forme amodale pour les parties non visibles. Les auteurs rapportent des résultats état de l'art sur des benchmarks de stabilité physique et d'alignement géométrique, et valident l'utilité de la pipeline sur des tâches de manipulation bras robotique et de contrôle humanoïde. Pour l'industrie robotique et la recherche en manipulation, l'enjeu est direct : l'un des goulots d'étranglement majeurs dans la génération de données simulées est la constitution d'environnements 3D physiquement cohérents. Si une seule image suffit à produire une scène immédiatement utilisable dans un simulateur comme Isaac Sim ou MuJoCo, le coût de création de données d'entraînement pour les VLA (Vision-Language-Action models) et les politiques de manipulation chute drastiquement. L'approche "physics-in-the-loop" pendant la génération, plutôt qu'en correction post-hoc, est une distinction architecturale importante : elle corrige les erreurs géométriques à la source plutôt que de les masquer par un réarrangement de layout, ce qui limite les artefacts cumulatifs. Cela dit, le papier étant un preprint, les benchmarks présentés restent à valider par la communauté, et les métriques de performance sur les tâches robotiques aval (taux de succès de saisie, généralisation hors distribution) ne sont pas détaillées dans l'abstract. SimuScene s'inscrit dans un axe de recherche actif depuis 2022 environ, alimenté par la convergence entre les reconstructeurs 3D génératifs (Zero-1-to-3, One-2-3-45, LRM) et le besoin croissant de données synthétiques pour l'entraînement de robots physiques. Les concurrents directs incluent les méthodes de layout correction physique comme PhyScene ou les pipelines de génération de scènes pour la simulation (GENESIS, RoboVerse), qui opèrent eux aussi sur ce créneau sim-to-real mais partent généralement de descriptions textuelles ou de scans multi-vues. La force revendiquée de SimuScene est la contrainte d'entrée minimale (une image) combinée à la validité physique en sortie. Les applications démontrées sur le contrôle humanoïde suggèrent un intérêt pour les labos travaillant sur des plateformes comme Figure 03, Unitree H1 ou Agility Digit, où la génération rapide d'environnements d'entraînement en simulation reste un facteur limitant. Aucun partenariat industriel ni timeline de déploiement n'est mentionné ; il s'agit pour l'instant d'un résultat de recherche académique.

RecherchePaper
1 source
SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée
81arXiv cs.RO 

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

SplitAdapter est une architecture présentée sur arXiv (identifiant 2606.03297) visant à améliorer le contrôle de robots humanoïdes en loco-manipulation, soit la combinaison simultanée de la marche bipède et de la manipulation d'objets physiques. Le système part d'une politique de manipulation de boîtes préentraînée qu'il fige, puis lui greffe deux encodeurs de contexte indépendants : l'un capture les propriétés de la charge et de l'objet saisi, l'autre modélise les dynamiques internes du robot. Ces représentations sont injectées via une modulation FiLM hiérarchique (Feature-wise Linear Modulation), combinée à des objectifs split world-model et une régularisation cross-adversariale par gradient reversal (GRL). Les expériences couvrent des objets de 2, 4 et 6 kg, à des hauteurs de prise et de dépôt de 0, 30 et 60 cm, testés en sim-to-sim puis en déploiement sur robot réel. SplitAdapter améliore le taux de succès en tâche complète face à la politique de base et aux baselines FiLM à encodeur unique, avec les gains les plus marqués sous forte charge (6 kg). L'enjeu central est le transfert sim-to-réel sous charge variable : lorsqu'un humanoïde soulève un objet lourd, ses dynamiques changent sensiblement, et les adaptateurs existants qui fusionnent tous les signaux dans une seule représentation latente tendent à perdre en robustesse précisément dans les conditions les plus critiques. La factorisation proposée, un encodeur par source de variation, maintient une séparation explicite entre les incertitudes liées à l'objet et celles liées au robot, ce qui se révèle plus stable sous conditions extrêmes. Pour un intégrateur ou un OEM industriel, cela suggère qu'une politique généraliste préentraînée peut être adaptée modulairement selon la charge sans réentraînement complet, une propriété utile pour des lignes de production où les objets manipulés varient fréquemment. La loco-manipulation sur humanoïdes concentre des investissements massifs : Figure AI déploie son Figure 03 chez BMW, Boston Dynamics pousse Atlas en partenariat avec Hyundai, et des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) misent sur des politiques généralisables de type VLA (Vision-Language-Action). SplitAdapter prend un pari différent, adapter une politique spécialisée existante plutôt que d'en entraîner une nouvelle de bout en bout, ce qui réduit les coûts de calcul mais soulève la question de la généralisabilité hors distribution. Le papier est une préimpression arXiv soumise début juin 2026, non encore évaluée par les pairs ; aucun déploiement industriel ni pilote commercial n'est annoncé à ce stade.

IA physiquePaper
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
82arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

IA physiqueOpinion
1 source
RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA
83arXiv cs.RO 

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Un article pré-publié sur arXiv (2606.02277, juin 2026) introduit RoboSemanticBench (RSB), un benchmark conçu pour tester si les modèles vision-langage-action (VLA) exploitent réellement la compréhension sémantique dans leurs prédictions de mouvement. Le protocole est délibérément simple : un robot reçoit une question à choix multiples, arithmétique ou de culture générale, observe des blocs physiques correspondant aux réponses candidates, et doit saisir le bloc associé à la bonne réponse. RSB propose deux configurations, à quatre et dix choix, couvrant l'arithmétique contrôlée, la compréhension mathématique de niveau primaire, ainsi que le raisonnement de bon sens et factuel. Les résultats obtenus sur plusieurs modèles VLA représentatifs sont sévères : si la majorité des politiques testées parviennent à saisir des blocs de manière fiable, le taux de sélection du bloc sémantiquement correct se situe, après correction du succès de préhension, à des niveaux proches du hasard, voire inférieurs. Ce résultat remet en question une hypothèse fondatrice de l'architecture VLA : l'idée que la compréhension sémantique acquise lors du pré-entraînement du backbone (modèle de langage ou vision-langage) se transfère naturellement vers la prédiction d'action. Ce que RSB révèle, c'est que le fine-tuning par imitation sur des distributions d'actions spécifiques à une tâche suffit à masquer ce transfert : les modèles apprennent des raccourcis visuels ou des associations instruction-action sans ancrer leurs gestes dans la signification réelle des instructions. Pour les intégrateurs et industriels qui déploient des systèmes VLA dans des environnements à haute variabilité sémantique (picking, tri, assemblage configurable), ce diagnostic a des implications directes : la performance en évaluation standard ne garantit pas une généralisation sémantique robuste en conditions réelles. Les modèles VLA ont connu une montée en puissance rapide depuis RT-2 (Google DeepMind, 2023), avec des successeurs comme OpenVLA, Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), tous reposant sur l'hypothèse que des backbones vision-langage pré-entraînés fournissent une compréhension du monde directement exploitable pour la manipulation robotique. RSB constitue le premier benchmark structuré autour de la dissociation entre compétence sémantique au niveau du backbone et compétence sémantique au niveau de l'action, une distinction que les évaluations classiques par taux de succès en manipulation ne capturent pas. Les auteurs ne proposent pas de correctif immédiat, mais leur protocole ouvre la voie à des méthodes de fine-tuning ou d'évaluation capables de préserver, voire de restaurer, la capacité sémantique dans la chaîne décision-action.

UELes équipes R&D et intégrateurs européens déployant des systèmes VLA en picking, tri ou assemblage configurable doivent réévaluer leurs métriques de validation : RSB démontre que le taux de succès en manipulation ne garantit pas la généralisation sémantique en conditions réelles.

RechercheActu
1 source
Raisonnement continu pour les modèles vision-langage-action (VLA)
84arXiv cs.RO 

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion
1 source
PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes
85arXiv cs.RO 

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

IA physiquePaper
1 source
Unitree dépose un dossier d'introduction en Bourse pour devenir la première action d'IA incarnée
86Pandaily 

Unitree dépose un dossier d'introduction en Bourse pour devenir la première action d'IA incarnée

Unitree Robotics, fabricant chinois de robots généraux haute performance, a soumis le 1er juin 2026 son dossier d'introduction en bourse au comité d'admission de la Bourse de Shanghai pour examen. L'entreprise vise à devenir la "première action d'intelligence incarnée" cotée sur le marché A-share chinois, plus précisément sur le STAR Market, la section dédiée aux entreprises de haute technologie. Selon son prospectus, le chiffre d'affaires de Unitree est passé de 159 millions de yuans en 2023 à 1,699 milliard de yuans en 2025, soit un taux de croissance annuel composé de 226,78 %. Sur la même période, le résultat net (hors éléments exceptionnels) a basculé d'une perte de 18 millions à un bénéfice de 591 millions de yuans. Au premier trimestre 2026, la dynamique se complique : le chiffre d'affaires progresse encore de 68,49 % en glissement annuel, mais le bénéfice net chute de 52,55 %, sous l'effet d'une hausse de 38,3 millions de yuans des dépenses de R&D et d'une augmentation sensible des coûts commerciaux. L'entreprise revendique par ailleurs le titre de premier expéditeur mondial de robots humanoïdes en 2025, avec une présence déployée du plateau du Gala du Nouvel An chinois à l'aéroport de Haneda à Tokyo. Cette introduction en bourse marque une inflexion structurelle pour le secteur robotique chinois : le marché passe d'une phase "thématique", portée par les annonces et les narratifs, à une phase de "valorisation autonome", où les fondamentaux opérationnels prennent le dessus. Pour les intégrateurs et les décideurs industriels, la trajectoire financière de Unitree (rentabilité atteinte en deux ans, malgré une compression récente des marges liée à la R&D) confirme que certains acteurs du segment humanoïde ont franchi le cap de la viabilité économique. La baisse du bénéfice net au T1 2026 mérite toutefois d'être contextualisée : elle reflète un choix délibéré d'investissement intensif, pas un retournement de tendance, ce que les observateurs du STAR Market tendent à interpréter positivement, à condition que les dépenses restent concentrées sur les technologies cœur. La levée de fonds permettra d'accélérer la R&D et d'augmenter les capacités de production, avec des effets d'entraînement attendus sur toute la chaîne d'approvisionnement : capteurs, servosystèmes, algorithmes embarqués. Fondée à Hangzhou, Unitree s'est d'abord imposée avec ses robots quadrupèdes (gamme Go et B), avant d'élargir son catalogue aux robots semi-humanoïdes à double bras et aux humanoïdes bipèdes comme le H1 et le G1. La société évolue dans un environnement concurrentiel dense : Boston Dynamics (Hyundai), Figure AI, Agility Robotics (Amazon) et Tesla Optimus sur le segment international ; Fourier Intelligence, Leju Robotics et Agibot sur le marché domestique chinois. L'IPO s'inscrit dans un contexte de soutien politique explicite de Pékin à la filière robotique, identifiée comme priorité stratégique. Les prochaines étapes observables incluront l'allocation des fonds levés entre expansion capacitaire et R&D, ainsi que l'évolution des déploiements commerciaux au-delà des applications de démonstration, critère clé pour juger si Unitree bascule réellement du statut de "robot maker" à celui d'acteur d'infrastructure industrielle.

UEL'IPO renforce la capacité de Unitree à accélérer sa R&D et ses volumes de production, intensifiant la pression concurrentielle chinoise sur les fabricants européens de robots industriels et humanoïdes.

Chine/AsieOpinion
1 source
ScheduleStream : planification temporelle avec échantillonneurs pour l'ordonnancement et la planification de tâches et mouvements multi-bras accélérée par GPU
87arXiv cs.RO 

ScheduleStream : planification temporelle avec échantillonneurs pour l'ordonnancement et la planification de tâches et mouvements multi-bras accélérée par GPU

Une équipe de chercheurs présente ScheduleStream (arXiv:2511.04758v2), un cadre généraliste de planification et d'ordonnancement pour robots bi-manuels et humanoïdes, conçu pour coordonner plusieurs bras en parallèle. Contrairement aux algorithmes TAMP (Task and Motion Planning) classiques, qui produisent des plans séquentiels où un seul bras se déplace à la fois, ScheduleStream modélise la dynamique temporelle via des hybrid durative actions, des actions pouvant démarrer de façon asynchrone et persister pendant une durée fonction de leurs paramètres. Cette architecture permet d'orchestrer des mouvements simultanés sur plusieurs membres, réduisant le temps de cycle global. Le système intègre une accélération GPU au sein même des échantillonneurs de trajectoires (samplers), et repose sur des algorithmes indépendants du domaine d'application. Les auteurs le valident en simulation ainsi que sur plusieurs tâches bi-manuelles réelles, dont les démonstrations sont accessibles sur schedulestream.github.io. Aucun chiffre précis de gain de temps ni de configuration matérielle (DOF, payload) n'est fourni dans l'abstract : des éléments à vérifier dans le papier complet. Le verrou adressé est structurel : l'espace d'action hybride discret-continu d'un robot multi-bras croît de façon combinatoire, rendant la planification computationnellement prohibitive dès qu'on autorise le parallélisme. En produisant des schedules plutôt que de simples séquences, ScheduleStream ouvre la voie à des cellules robotiques capables d'exécuter des sous-tâches simultanément, saisie d'un côté et assemblage de l'autre, ce qui est précisément le cas d'usage clé pour les intégrateurs cherchant à justifier un humanoïde bi-manuel (Figure 03, Optimus Gen 3, Atlas) en environnement industriel. L'accélération GPU dans le sampler est notable dans un domaine historiquement dominé par des planificateurs CPU-bound, et suggère une voie vers des temps de planification compatibles avec des cadences réelles. Le champ TAMP multi-bras s'est structuré autour de travaux comme PDDLStream (Garrett et al., MIT CSAIL), qui a introduit l'échantillonnage continu dans TAMP, mais sans gestion native du parallélisme temporel. ScheduleStream prolonge cette lignée en ajoutant la dimension asynchrone, un problème traité par ailleurs dans la communauté PDDL+ via des planificateurs temporels comme OPTIC ou POPF. Sur le terrain applicatif, les approches concurrentes incluent les politiques d'imitation comme ACT ou Diffusion Policy, qui contournent la planification symbolique au prix d'une moindre généralisabilité, et des frameworks comme MoveIt Task Constructor sous ROS2. La prochaine étape naturelle serait une validation sur des cellules de production réelles avec des métriques de cycle time documentées, ainsi qu'une publication du code source, non encore disponible à la date d'annonce.

RecherchePaper
1 source
Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée
88Interesting Engineering 

Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée

Astribot, startup robotique de Shenzhen également connue sous le nom Stardust Intelligence, a ouvert les commandes de son humanoïde T1 à partir de 13 000 dollars, soit environ sept fois moins cher que son propre modèle phare S1 vendu près de 100 000 dollars. Le T1 est un humanoïde à base roulante de 155 cm pour 66 kg, doté de 23 degrés de liberté hors effecteurs, avec une capacité de charge de 5 kg par bras. Son architecture motrice repose sur des câbles tendus, la même approche que le S1, conçue pour produire des mouvements plus fluides qu'un entraînement par engrenages traditionnels. Il accepte des pinces robotiques standard et des mains à cinq doigts pour la manipulation fine, et cible des applications comme la cuisine, les opérations en laboratoire, le pliage du linge, le tri de pièces automobiles et la recharge de véhicules électriques. L'IA embarquée est entraînée principalement par démonstration humaine plutôt que par téléopération, une méthode d'imitation learning qui permet au robot d'apprendre des workflows en observant un opérateur humain. Le seuil des 13 000 dollars modifie le calcul économique pour les intégrateurs et les équipes qui souhaitent piloter l'humanoïde en environnement industriel. À titre de comparaison, le Unitree G1 reste l'une des rares références sous 20 000 dollars sur le marché mondial; les offres Figure 03, Agility Digit ou Boston Dynamics Electric Atlas se négocient bien au-delà. Si le T1 tient ses performances hors laboratoire, il pourrait abaisser la barrière d'entrée pour des secteurs à marges serrées comme la logistique légère ou l'assemblage à faible volume. Il convient cependant d'être prudent: Astribot liste des tâches réussies sans publier de métriques de cadence ni de données de robustesse en conditions industrielles réelles, et les vidéos de démonstration restent sélectionnées par l'entreprise. C'est une ouverture de commandes, pas un déploiement en volume documenté. Fondée en 2022 et basée à Shenzhen, Astribot s'est fait connaître à la World Robot Conference de Pékin en août 2024 avec le S1, humanoïde bimanuel de 170 cm et 90 kg aux 23 DOF (7 par bras, 4 pour le torse, 2 pour la tête, 3 pour la base omnidirectionnelle). Une publication arXiv de juillet 2025 détaillait la suite logicielle Astribot Suite, combinant collecte de données en réalité virtuelle, politiques d'imitation learning et optimisation de trajectoire en temps réel, avec des taux de réussite annoncés entre 80 et 100% sur tâches sélectionnées. La startup a levé environ 100 millions de dollars depuis 2024. Sur le segment prix du T1, les concurrents directs incluent le Unitree G1 et, dans une moindre mesure, les robots de recherche comme le GR00T N2 de NVIDIA. Aucun acteur européen ne se positionne encore clairement sur ce créneau accessible. La démonstration de robustesse en milieu non contrôlé et l'annonce de premiers clients industriels constitueront les prochaines étapes décisives pour valider l'ambition commerciale d'Astribot.

UELa démocratisation des prix sur ce segment pourrait inciter des intégrateurs européens à évaluer un pilote humanoïde, mais aucun déploiement ni partenariat européen n'est mentionné.

HumanoïdesOpinion
1 source
Entreprise chinoise dévoile un robot humanoïde compact avec 42 degrés de liberté et 100 TOPS de puissance de calcul
89Interesting Engineering 

Entreprise chinoise dévoile un robot humanoïde compact avec 42 degrés de liberté et 100 TOPS de puissance de calcul

KEENON Robotics, entreprise shanghaïenne spécialisée dans les robots de service autonomes, a officiellement lancé le XMAN-L1, un robot humanoïde compact destiné aux environnements d'accueil et d'interaction commerciale. Mesurant 136 cm pour un gabarit délibérément contenu, l'XMAN-L1 embarque 42 degrés de liberté biomimétiques, un couple de genou de 132 Nm, une puissance supérieure à 2 000 W par jambe, et une capacité de calcul embarqué de 100 TOPS en inférence locale. Pour la couche conversationnelle, KEENON a intégré les LLMs de Doubao (ByteDance) et de Tencent, permettant un dialogue en langage naturel sans connexion cloud obligatoire. La société annonce le robot comme commercialement disponible immédiatement, avec des cas d'usage ciblés : réception de visiteurs, guidage, animation interactive et présence en espace public. Aucun prix public n'a été communiqué à ce stade. Ce lancement illustre une tendance de fond dans l'industrie robotique chinoise : intégrer des spécifications techniques auparavant réservées aux plateformes de recherche dans des formats de service compacts et déployables à grande échelle. Les 100 TOPS de computing edge sont un signal clair -- le robot est conçu pour fonctionner de manière autonome dans des environnements bruités sans dépendre d'une infrastructure cloud latente, ce qui est un prérequis réel pour l'hôtellerie et le retail. L'intégration native de deux LLMs chinois (Doubao et Tencent) plutôt qu'une API générique constitue un choix de souveraineté technologique cohérent avec le marché domestique visé. Il faut cependant noter que les métriques de mobilité annoncées -- couple et puissance -- ne sont pas accompagnées de données de cycle ou de tests en charge réelle, une réserve habituelle sur ce type d'annonce de lancement. KEENON est historiquement l'un des leaders mondiaux du robot de livraison indoor, avec des gammes bien établies : DINERBOT pour la restauration, BUTLERBOT pour l'hôtellerie, et la série T pour la logistique industrielle. L'XMAN-L1 s'inscrit dans sa série humanoïde XMAN, aux côtés de l'XMAN-R1 (recherche et collaboration homme-robot) et de l'XMAN-F1 (déploiement commercial en réception). Sur le marché humanoïde de service à format compact, KEENON se positionne face à des acteurs comme Enchanted Tools (France, robot Miroki), Unitree (H1/G1) ou encore Fourier Intelligence, tous engagés sur des niches similaires. Les plateformes à vocation industrielle lourde -- Figure 03, Optimus Gen 3, Atlas -- ne ciblent pas encore ce segment. Pour les intégrateurs B2B en hôtellerie ou retail, l'XMAN-L1 représente une option à surveiller, à condition que KEENON publie des données de fiabilité terrain dans les prochains mois de déploiement.

UELe lancement du XMAN-L1 renforce la pression concurrentielle sur Enchanted Tools (France, robot Miroki) dans le segment des humanoïdes de service compact pour l'hôtellerie et le retail.

Chine/AsieOpinion
1 source
Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire
90arXiv cs.RO 

Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire

Une étude publiée sur arXiv en mai 2026 (réf. 2605.28726) remet en question une hypothèse largement répandue dans le déploiement des politiques robotiques VLA : le contrôle de vitesse constituerait un indicateur fiable de défaillance motrice. Les chercheurs ont soumis trois architectures VLA majeures, VQ-BeT (tokens discrets), Diffusion Policy et ACT (architectures continues), à un protocole unifié de 450 épisodes sur deux plateformes : PushT et ALOHA, ce dernier couvrant la manipulation bimane à 14 degrés de liberté. Premier résultat : le taux d'inversion de direction est le seul prédicteur universel de défaillance, avec des AUROC de 0,93, 0,79 et 0,91 selon l'architecture (p < 0,001). Le monitoring des à-coups (jerk) se révèle prédictif uniquement pour les architectures à tokens discrets, avec un gradient décroissant de 0,88 à 0,41 en passant aux architectures continues. Le contrôle de vitesse, lui, affiche des AUROC entre 0,41 et 0,52 sur les architectures continues, soit un niveau proche du hasard. Ces résultats ont une portée directe pour les équipes de déploiement : le contrôle de vitesse est actuellement le mécanisme de sécurité le plus répandu dans les bases de code VLA en production, et il s'avère inefficace pour détecter une défaillance imminente sur les architectures continues (AUROC 0,52 sur ACT, 0,41 sur Diffusion Policy). L'étude établit que les familles discrètes et continues produisent des signatures de défaillance qualitativement différentes, et qu'aucun moniteur unique ne peut couvrir les deux. Pour un intégrateur ou un COO déployant un humanoïde ou un bras collaboratif en cellule de production, un indicateur de sécurité mal calibré représente un risque opérationnel concret, pas une nuance académique. La distinction discret/continu dans les VLA est connue depuis les travaux fondateurs sur ACT (Zhao et al., 2023) et Diffusion Policy (Chi et al., 2023), mais ses implications sur le monitoring n'avaient pas été quantifiées à cette échelle. L'étude repose sur SafeContract, un toolkit open source de surveillance en boîte noire sans réentraînement, avec calibration conforme, accessible sur GitHub (krishnam94/vla-edge). Les acteurs déployant aujourd'hui des architectures continues, notamment Figure AI avec Figure 03, Physical Intelligence avec son modèle π0, ou Boston Dynamics, sont directement concernés par ces résultats. La prochaine étape logique est l'intégration de moniteurs architecture-spécifiques dans les pipelines de validation sim-to-real, en amont de toute mise en production sur site.

UELes intégrateurs et équipes R&D européens déployant des architectures VLA continues (ACT, Diffusion Policy) doivent auditer leurs mécanismes de surveillance de sécurité, le contrôle de vitesse, mécanisme dominant en production, s'avérant quasi-aléatoire pour détecter les défaillances sur ces architectures.

💬 Le contrôle de vitesse comme indicateur de sécurité sur les VLA continus, c'est à peu près aussi fiable que tirer à pile ou face. Ce n'est pas une petite subtilité académique : c'est le mécanisme le plus déployé en production aujourd'hui, et il détecte les défaillances imminentes avec un AUROC de 0,41 sur Diffusion Policy. Reste à voir combien d'intégrateurs vont vraiment auditer leurs pipelines après ça, mais l'étude arrive au bon moment, avec un toolkit open source en bonus.

IA physiqueOpinion
1 source
Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences
91arXiv cs.RO 

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Des chercheurs proposent sur arXiv (2605.27919) FGO (Frequency Guidance Operator), une méthode qui s'attaque au bruit haute fréquence inhérent aux démonstrations humaines utilisées pour entraîner des politiques robotiques par imitation. Ces artefacts, saccades et micro-pauses capturés lors des démonstrations opérateur, sont amplifiés lors du débruitage itératif propre aux politiques par diffusion, produisant des trajectoires erratiques en exécution. FGO guide les échantillons bruités à travers des variétés spectrales intermédiaires à bandes progressivement élargies, forçant la génération à structurer d'abord les composantes basse fréquence avant de raffiner les détails fins. Résultat annoncé : une meilleure régularité d'action et cohérence temporelle sur 15 tâches de manipulation issues de 5 benchmarks distincts, sans dégrader le taux de succès. L'intérêt pour les déployeurs tient à deux points. D'une part, les politiques diffusion (pi-0 de Physical Intelligence, Diffusion Policy de Columbia, ACT) sont devenues le paradigme dominant pour la manipulation dextère, et les comportements saccadés en production réduisent la durée de vie des actionneurs et génèrent des arrêts de ligne. D'autre part, FGO se présente comme une correction applicable sans ré-entraînement complet, là où les correctifs habituels restent des filtres de post-traitement ad hoc (lissage temporel, filtre de Kalman sur les actions). L'absence de validation sur hardware physique dans la publication invite toutefois à la prudence avant tout transfert industriel direct. Diffusion Policy (Columbia University, 2023) a posé les bases de cette famille d'algorithmes, rapidement adoptée par Physical Intelligence, Figure AI, Apptronik, et des laboratoires comme ETH Zurich et Stanford. Le bruit haute fréquence dans les données d'imitation est un problème connu, mais rarement traité au niveau du processus de génération lui-même plutôt qu'en aval. FGO s'inscrit dans une tendance émergente de régularisation spectrale des politiques de contrôle ; les étapes suivantes attendues sont une validation sur plateformes physiques réelles et une intégration dans des frameworks open-source comme LeRobot de Hugging Face.

UEL'intégration potentielle dans HuggingFace LeRobot (entreprise française) pourrait rendre cette correction spectrale accessible à l'écosystème robotique open-source francophone sans effort de ré-entraînement.

RechercheActu
1 source
SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde
92arXiv cs.RO 

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

Des chercheurs proposent SANTS (State-Adaptive Noise Trajectory Scheduler), un scheduler léger pour les politiques de diffusion vidéo-vers-action dans les World Action Models (WAMs). Soumis sur arXiv (2605.27947) le 28 mai 2026, le travail part d'un constat empirique : dans les WAMs pixel-space, débruiter complètement la vidéo future n'optimise pas toujours la qualité de l'action produite. Au-delà d'un seuil dépendant de l'état du robot, le raffinement supplémentaire sature ou dégrade la performance. SANTS lit la représentation vidéo-état courante et le niveau de bruit, prédit un point d'arrêt adaptatif, et est entraîné par post-training avec une récompense sur la qualité finale de l'action (et non sur la fidélité de la vidéo intermédiaire). Résultats annoncés : 94,4 % de succès sur RoboTwin 2.0, 73,1 % sur sept tâches réelles, avec une réduction de latence de 81,7 % et 79,0 % respectivement par rapport au débruitage complet. L'enjeu opérationnel est la fréquence de contrôle : les WAMs souffrent d'une latence d'inférence élevée qui limite leur déploiement dans des boucles de contrôle rapides. Diviser par cinq ce coût d'inférence sans perte majeure de performance valide l'idée que la représentation future n'a pas besoin d'être parfaitement rendue pour conditionner efficacement l'action, une hypothèse implicite des architectures WAM qui n'était pas encore démontrée à cette échelle. Cela dit, le papier reste un preprint non relu par les pairs, et sept tâches réelles constituent un set de validation étroit pour prétendre à une généralisation industrielle. Les WAMs ont émergé comme alternative aux politiques VLA classiques en intégrant une prédiction vidéo du futur pour guider la génération d'actions. SANTS se positionne comme une surcouche d'optimisation compatible avec les designs existants, sans modifier la branche action du modèle de base. Dans l'écosystème actuel, Physical Intelligence (pi0), NVIDIA (GR00T N2) et Figure (Figure 03) développent des politiques de diffusion pour la manipulation, où la réduction de la latence d'inférence devient un facteur de compétitivité commerciale. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges comme DROID ou Open X-Embodiment, et la mise à disposition publique des poids et du code.

RechercheOpinion
1 source
Guide complet des événements du Robotics Summit & Expo 2026
93The Robot Report 

Guide complet des événements du Robotics Summit & Expo 2026

Le Robotics Summit & Expo 2026 ouvre ses portes le 27 mai à Boston, au Thomas M. Menino Convention & Exhibition Center. L'événement réunit plus de 5 000 experts de la robotique et 200 exposants sur deux jours, avec plus de 50 sessions réparties en cinq tracks : intelligence artificielle, design et développement, technologies habilitantes, santé et logistique. Plus de 70 intervenants représentent des acteurs comme Amazon Robotics, Universal Robots, Locus Robotics, Boston Dynamics, Agility, Tesla, le Toyota Research Institute, Harmonic Drive, maxon, PickNik Robotics et Intrinsic. La première journée s'ouvre à 9h par le panel "Building the Next Era of Robot Autonomy", avec Aaron Parness (directeur de la science appliquée chez Amazon Robotics), Anders Beck (VP produits AI robotics chez Universal Robots), Hamid Montazeri (SVP software et IA chez Locus Robotics) et John Wall (président de QNX). À 10h suivra le panel "The State of Humanoids", incluant Alberto Rodriguez (directeur du comportement robot pour Atlas chez Boston Dynamics) et Pras Velagapudi (CTO d'Agility Robotics). Le 28 mai, Brian Gerkey (board chair d'Open Robotics et CTO d'Intrinsic) livrera la keynote "An Open Foundation for the Age of AI-Powered Robots", et la conférence se clôturera par le témoignage de Noland Arbaugh, premier utilisateur d'un implant cérébral Neuralink. La concentration de sessions de haut niveau sur l'autonomie et les humanoïdes reflète le basculement du secteur d'une phase de démonstration vers une phase de commercialisation active. La présence d'Alberto Rodriguez (Boston Dynamics) et de Pras Velagapudi (Agility) sur le même panel humanoïde est révélatrice : ces deux entreprises sont actuellement les seules à pouvoir revendiquer des déploiements clients documentés à échelle industrielle, et leur coprésence sur scène illustre une compétition directe pour les contrats pilotes. Le thème porté par Gerkey (Intrinsic, filiale Alphabet) sur les fondations logicielles ouvertes pour robots IA pointe une tension structurelle du secteur : la fragmentation des stacks ROS freine l'interopérabilité, et plusieurs acteurs cherchent à imposer un middleware de référence avant que le marché ne se verrouille autour d'un standard propriétaire. Le Robotics Summit est organisé par The Robot Report et Peerless Media, et constitue l'un des deux grands rendez-vous professionnels de la robotique aux États-Unis avec RoboBusiness. L'édition 2026 se tient dans un contexte de forte pression concurrentielle sur le segment humanoïde : Figure AI, 1X, Apptronik, Unitree et Fourier Intelligence ont multiplié les annonces depuis dix-huit mois, tandis que les déploiements réels documentés restent rares. L'absence dans le programme de représentants de Figure AI ou de 1X peut indiquer un positionnement délibéré de ces acteurs en dehors des canaux de conférence traditionnels, ou simplement un agenda non finalisé. Les RBR50 Innovation Awards, remis lors du dîner du soir du 27 mai, constitueront un baromètre utile des projets jugés les plus significatifs par la communauté professionnelle cette année.

Vidéo : ce robot humanoïde chinois à 42 000 $ associe mouvement en temps réel, vision et contrôle intelligent
94Interesting Engineering 

Vidéo : ce robot humanoïde chinois à 42 000 $ associe mouvement en temps réel, vision et contrôle intelligent

LimX Dynamics, société chinoise de robotique fondée à Shenzhen, a présenté publiquement pour la première fois son humanoïde Luna lors du Taobao Influencer Festival en mars 2026, marquant selon l'entreprise la première démonstration publique mondiale de cette plateforme. Luna mesure 160 cm, dispose de 27 degrés de liberté et embarque le moteur de mouvement propriétaire Sys 0 de deuxième génération, couplé à des moteurs articulaires redessinés. L'engin est taillé pour des performances dynamiques à corps entier : danse, gymnastique, défilé. Sur le plan thermique, LimX annonce une réduction de 30 % de la température de surface des articulations en opération prolongée, et une autonomie batterie améliorée de 150 %. Le tout est proposé à 298 000 RMB, soit environ 41 000 dollars. À ce prix, Luna n'est pas positionnée comme robot industriel de manutention, mais comme plateforme d'interaction en environnement public. Elle intègre également un éditeur de tâches en langage naturel et une fonction video-to-motion permettant de répliquer des mouvements à partir de vidéos uploadées. Ce lancement illustre une tendance nette dans la robotique humanoïde chinoise : l'accent mis sur la commercialisation rapide plutôt que sur la recherche académique. Le positionnement de Luna, orienté interaction grand public et déploiement sans code, cible des intégrateurs et des opérateurs événementiels davantage que les lignes d'assemblage automobile. La démonstration synchronisée des 18 robots Oli, autre modèle de LimX (165 cm, 55 kg, bras à 7 DOF, portée de 70 cm, charge utile de 10 kg), est plus pertinente pour les décideurs industriels : elle illustre une capacité de déploiement coordonné autonome qui reste rare à cette échelle. Cela dit, les métriques annoncées méritent prudence : les améliorations thermiques et d'autonomie sont présentées sans conditions de test précises, et les vidéos publiées restent sélectionnées, ce qui rend difficile l'évaluation du gap simulation-réalité réel. LimX Dynamics opère dans un secteur sous forte pression concurrentielle. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Apptronik (Apollo) animent le segment occidental, pendant que côté chinois, Unitree, Agibot et Fourier Intelligence disputent le même territoire. LimX se distingue par son architecture logicielle COSA, présentée comme un système d'exploitation cognitif gérant le contrôle de mouvement corps entier via des modèles physiques basse latence, et par la plateforme modulaire Tron 2 qui décline en configurations bimanuelle, bipède complète et biped-sur-roues. Ces briques technologiques suggèrent une stratégie de plateforme plutôt que de produit unique. Les prochaines étapes vraisemblables incluent des pilotes en environnements retail et événementiel en Chine, avant une tentative d'internationalisation dans des marchés où le coût d'entrée à 41 000 dollars reste compétitif face aux offres occidentales souvent non tarifées publiquement.

UELe positionnement tarifaire à 41 000 $ d'un humanoïde polyvalent chinois intensifie la pression concurrentielle sur les développeurs européens de robots humanoïdes comme Enchanted Tools ou Wandercraft, dont les prix restent non publiés.

Chine/AsieOpinion
1 source
LimX Dynamics dévoile Luna, un robot humanoïde qui apprend à danser par IA
95TechNode 

LimX Dynamics dévoile Luna, un robot humanoïde qui apprend à danser par IA

LimX Dynamics a dévoilé lundi son robot humanoïde Luna, commercialisé à 298 000 RMB (environ 41 000 dollars). Mesurant 160 cm de haut, le Luna embarque 27 degrés de liberté répartis sur l'ensemble du corps et s'appuie sur le moteur de contrôle de mouvement SYS 0 de deuxième génération développé en interne. La machine reçoit également une autonomie batterie et un système de refroidissement améliorés par rapport à la génération précédente. Sur le plan logiciel, LimX intègre des capacités d'interaction multimodale et une interface sans code permettant de configurer des déclencheurs de tâches en langage naturel : l'utilisateur décrit son besoin, le robot génère automatiquement les workflows d'exécution correspondants. Les cas d'usage ciblés incluent l'assistance en centre commercial, les expériences de jeu de rôle immersif (personnages NPC humanoïdes) et les interactions en parcs à thème. La fonctionnalité la plus originale est l'apprentissage de chorégraphies par analyse de séquences vidéo : le robot reproduit des mouvements de danse à partir d'un simple clip. Ce positionnement dans le segment entertainment et commercial illustre une tendance de fond : plusieurs constructeurs d'humanoïdes cherchent à rentabiliser leurs plateformes avant d'atteindre la maturité industrielle lourde. À 41 000 dollars, le Luna se place dans une fourchette accessible pour des opérateurs de loisirs ou des intégrateurs retail, bien en dessous des plateformes à vocation industrielle comme l'Optimus de Tesla ou le Figure 03. La promesse du no-code et du langage naturel réduit théoriquement la barrière à l'intégration, un argument clé pour les décideurs B2B sans équipe robotique dédiée. Reste à évaluer la robustesse réelle du SYS 0 en conditions d'exploitation intensive et la fiabilité de l'apprentissage vidéo : la démonstration de danse est visuellement frappante, mais aucun chiffre de performance (précision, taux d'échec, temps d'apprentissage) n'est communiqué. LimX Dynamics est un constructeur chinois spécialisé en locomotion bipède et quadrupède, déjà connu pour ses plateformes de recherche CL-1 et P1. La société s'inscrit dans un écosystème chinois de la robotique humanoïde en pleine accélération, aux côtés d'Unitree (G1, H1), de Fourier Intelligence et d'Agibot. Face à eux, les acteurs occidentaux comme Boston Dynamics (Atlas), Agility Robotics (Digit) ou Physical Intelligence (Pi-0) ciblent davantage la logistique industrielle. LimX choisit une entrée par le marché grand public et l'entertainment, une stratégie qui rappelle celle d'Enchanted Tools en Europe avec son robot Miroki. Les prochaines étapes annoncées concernent des déploiements en centres commerciaux et parcs à thème en Chine, sans calendrier précis ni données de volume communiquées à ce stade.

Chine/AsieOpinion
1 source
CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage
96arXiv cs.RO 

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

Une équipe de chercheurs a publié sur arXiv (arXiv:2508.03526v2) CollaBot, un framework généraliste de manipulation collaborative simultanée par plusieurs robots. L'approche articule trois composants : un module de segmentation de scène basé sur SEEM (Segment Everything Everywhere all at once Model) pour isoler l'objet cible dans l'environnement, un framework de saisie collaborative qui décompose la tâche en génération locale de poses de préhension par chaque robot et coordination globale entre agents, et un module de planification en deux étapes pour produire des trajectoires sans collision. Testé sur des configurations variées, nombre de robots, types d'objets (dont des objets volumineux comme des tables), types de tâches, CollaBot atteint un taux de réussite de 72 %, surpassant les méthodes basées sur le behavior cloning. Des expériences en conditions réelles confirment la faisabilité de l'approche hors simulation. Ce résultat pointe un angle mort structurel de la robotique de manipulation : la quasi-totalité des frameworks existants ciblent des robots seuls opérant sur des objets de petite taille, alors que les environnements industriels et domestiques exigent fréquemment la manipulation coordonnée d'objets volumineux, tables, panneaux, charges lourdes. La décomposition explicite du problème (saisie locale + coordination globale) se révèle plus robuste que l'apprentissage bout-en-bout pur pour la généralisation multi-robot, ce qui constitue une piste d'architecture à retenir pour les intégrateurs industriels cherchant à déployer des cellules multi-bras flexibles. Le taux de 72 % mérite toutefois d'être nuancé : le papier ne détaille pas précisément la diversité des objets testés en conditions réelles ni les critères de succès retenus, ce qui limite la comparaison directe avec d'autres systèmes. La manipulation multi-robot collaborative reste un champ en structuration, sans cadre généraliste interopérable établi à ce jour. CollaBot s'inscrit dans une tendance plus large d'intégration de modèles vision-langage dans la planification robotique, dans l'esprit des architectures VLA portées par Physical Intelligence avec Pi-0, Figure AI avec Figure 03, ou Google DeepMind avec GR00T N2, mais appliqué spécifiquement à la coordination multi-agents sur objets larges, un scénario que les VLA classiques traitent mal. Les suites logiques seraient de tester le framework avec un nombre de robots plus élevé, dans des environnements encombrés, et de publier des benchmarks complets pour permettre une reproductibilité indépendante et une comparaison sérieuse avec les approches concurrentes.

RecherchePaper
1 source
LimX Intelligence lance LimX Luna : un robot humanoïde pleine taille à 298 000 RMB
97Pandaily 

LimX Intelligence lance LimX Luna : un robot humanoïde pleine taille à 298 000 RMB

LimX Intelligence, une licorne spécialisée dans l'IA incarnée basée à Shenzhen, a commercialisé le 26 mai 2026 son robot humanoïde LimX Luna à destination du marché domestique chinois, au prix de 298 000 RMB (environ 41 000 dollars). La machine mesure 160 cm, dispose de 27 degrés de liberté corporels (hors effecteurs terminaux) et intègre des capacités de perception environnementale en temps réel couplées à un système de planification de mouvement dynamique. LimX positionne Luna non pas comme un démonstrateur de laboratoire, mais comme un candidat au déploiement opérationnel dans la logistique, la fabrication et les services. La différenciation technique repose sur des modèles vision-langage-action (VLA) propriétaires permettant au robot d'interpréter des commandes en langage naturel, de reconnaître objets et environnements, et d'adapter sa stratégie de mouvement sans chorégraphie préprogrammée. L'accès au marché international est annoncé pour 2027, après obtention des certifications et mise en place de partenariats de distribution. Le lancement de Luna illustre un glissement structurel dans la compétition humanoïde : l'avantage concurrentiel ne se joue plus sur la mécanique, mais sur la couche d'intelligence embarquée. Un robot capable de généraliser ses comportements à travers des tâches variées, sans reprogrammation manuelle, représente un saut qualitatif pour les intégrateurs industriels qui peinent à justifier le coût de déploiement face à des bras robotisés fixes bien plus matures. Le tarif de 298 000 RMB place Luna dans le segment intermédiaire du marché chinois, ce qui signale une ambition commerciale sérieuse, mais le manque de données indépendantes sur les performances réelles en environnement non structuré invite à la prudence : les vidéos de lancement restent sélectionnées, et le gap entre démonstration et déploiement à l'échelle demeure le principal angle mort du secteur. LimX Intelligence évolue dans un écosystème chinois saturé depuis 18 mois : Fourier Intelligence, Unitree et Xiaomi (avec le successeur annoncé du CyberOne) occupent des segments proches, tandis qu'au niveau mondial, Figure (Figure 03), Boston Dynamics, Physical Intelligence (Pi-0) et 1X Technologies maintiennent une pression technologique constante. LimX se distingue par son accent sur les VLA propriétaires plutôt que sur le partenariat avec des fondations de modèles tierces, un pari risqué mais cohérent avec la stratégie de verticalisation observée chez d'autres acteurs chinois. La prochaine étape critique sera la validation en conditions réelles chez des clients pilotes, dont LimX n'a pas encore communiqué les noms ni les calendriers, et l'obtention des certifications CE et UL nécessaires pour l'expansion internationale prévue en 2027.

HumanoïdesOpinion
1 source
SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage
98arXiv cs.RO 

SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage

Une équipe de chercheurs a publié le 28 mai 2026 sur arXiv (2605.22894) SCRIPT, un système de contrôle de robots humanoïdes en simulation physique piloté par des instructions en langage naturel. L'architecture centrale, baptisée JAST-DiT (Joint Action-State-Text Diffusion Transformer), représente simultanément les actions du robot, ses états physiques et les commandes textuelles sous forme de flux de tokens distincts, reliés par un mécanisme d'attention conjointe. Cette conception permet une interaction directe entre la sémantique linguistique et la dynamique de contrôle, sans passer par une couche de traduction intermédiaire. Pour stabiliser le contrôle sur des horizons longs, SCRIPT intègre un conditionnement d'historique non linéaire qui conserve un contexte récent dense tout en échantillonnant des repères de plus en plus épars dans l'historique à long terme. Le pré-entraînement par imitation supervisée est ensuite renforcé par une phase RLHR (Reinforcement Learning with Hybrid Rewards), qui injecte un bruit apprenable dans le processus de diffusion pour améliorer la qualité de mouvement et le suivi d'instruction en boucle fermée. Les évaluations quantitatives montrent que SCRIPT dépasse les méthodes antérieures sur trois métriques : alignement textuel, qualité de mouvement et réalisme physique. Les études de passage à l'échelle sur le dataset MotionMillion, qui totalise 1 200 heures de données de mouvement, confirment une progression continue des performances à mesure que le modèle grossit. L'intérêt technique de SCRIPT est de s'attaquer frontalement à la tension structurelle du domaine : entre expressivité sémantique (un humanoïde qui comprend des ordres variés) et faisabilité physique (un humanoïde qui ne tombe pas). Les approches existantes sacrifient généralement l'un pour l'autre. Le fait que SCRIPT améliore simultanément les trois métriques en boucle fermée est notable, car les simulations en boucle ouverte masquent souvent les dérives accumulées. La démonstration de scalabilité sur 1 200 heures de données suggère que l'architecture n'est pas un artefact de surapprentissage sur un corpus réduit, ce qui est un signal positif pour quiconque envisage un pré-entraînement à grande échelle de fondations motrices. Pour les intégrateurs et les équipes R&D, cela valide partiellement l'hypothèse selon laquelle les politiques de diffusion à grande échelle peuvent absorber la variabilité des commandes en langage naturel sans sacrifier la stabilité physique. Ce travail s'inscrit dans la vague des VLA (Vision-Language-Action models) appliqués aux humanoïdes en simulation physique, un axe de recherche très actif depuis 2024. Il entre en concurrence directe avec des approches comme PHC, UniHSI ou les variantes récentes de contrôle par diffusion de Nvidia (GR00T N2), qui ciblent des problèmes similaires de contrôle conditionné par le langage. SCRIPT se distingue par sa composante RLHR post-entraînement et son protocole de scaling explicite, deux éléments souvent absents des publications académiques concurrentes. Il s'agit ici d'une annonce de recherche préprint, pas d'un produit déployé : le code sera rendu public mais aucun calendrier de transfert vers du matériel réel n'est mentionné. Les prochaines étapes naturelles seront le transfert sim-to-real et l'évaluation sur des plateformes physiques comme Unitree H1 ou Figure 03.

💬 Tout le monde fait du contrôle d'humanoïde en simu physique en ce moment, mais SCRIPT se distingue par quelque chose de rare en académique : une phase de renforcement post-entraînement documentée. Sur 1 200 heures de données, les perfs progressent sans s'effondrer, ce qui élimine le scénario "artefact de sur-entraînement". Maintenant faut juste que ça tienne sur un vrai robot, et là c'est une autre histoire.

IA physiqueOpinion
1 source
IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques
99arXiv cs.RO 

IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques

Des chercheurs ont publié sur arXiv (2604.07833) un cadre architectural pour la gouvernance d'exécution des agents incarnés, ces systèmes IA capables d'agir sur des robots, outils ou environnements physiques. La proposition centrale est une couche de gouvernance dédiée, externe à la boucle d'inférence de l'agent, chargée de cinq fonctions : vérification de politiques, admission de capacités, surveillance d'exécution, gestion des rollbacks et déclenchement d'override humain. Cette architecture formalise une frontière de contrôle entre l'agent incarné, des modules de capacité baptisés ECMs (Embodied Capability Modules) et la couche de gouvernance runtime. Les auteurs ont validé l'approche sur 1 000 essais de simulation randomisés couvrant trois dimensions de gouvernance : taux d'interception des actions non autorisées à 96,2 %, réduction des continuations non sécurisées de 100 % à 22,2 % en cas de dérive d'exécution, et 91,4 % de récupération avec conformité totale aux politiques, tous significativement supérieurs aux baselines testés (p<0,001). L'enjeu dépasse la robotique académique. À mesure que des agents IA obtiennent une autorité d'exécution réelle sur des bras industriels, des AMR (Autonomous Mobile Robots) ou des systèmes cyber-physiques, leur contrôlabilité devient un problème d'ingénierie système critique. L'approche dominante actuelle consiste à enfouir la logique de sécurité à l'intérieur de la boucle agent, ce qui rend l'audit difficile et la standardisation quasi impossible dans des environnements réglementés (santé, industrie critique). En externalisant la gouvernance dans une couche séparée, les auteurs proposent un modèle où la politique d'usage peut être modifiée ou vérifiée sans toucher aux poids du modèle, répondant à un besoin concret des intégrateurs industriels qui composent avec plusieurs fournisseurs et des référentiels de sécurité imposés par leurs clients. Ce papier s'inscrit dans un mouvement plus large de "safety at deployment", distinct de l'alignment par entraînement (RLHF, Constitutional AI). Il dialogue avec les architectures de contrôle comme ROS 2 et les travaux sur les systèmes multi-agents à responsabilité distribuée. Le contexte concurrentiel est direct : OpenAI, Google DeepMind, Figure AI, Physical Intelligence et Sanctuary AI développent tous des agents incarnés à capacité d'exécution croissante, mais la gouvernance runtime reste un angle mort industriel. Une telle architecture trouverait une application prioritaire dans les déploiements d'humanoïdes en environnement contrôlé, entrepôts ou lignes d'assemblage, où les opérateurs exigent des garanties d'auditabilité que les architectures end-to-end ne fournissent pas encore.

UEL'architecture de gouvernance externe proposée répond directement aux exigences d'auditabilité et de traçabilité de l'AI Act pour les systèmes d'IA à haut risque, offrant aux intégrateurs robotiques européens un cadre de référence concret pour démontrer la conformité de leurs agents incarnés sans modifier les poids des modèles.

RechercheOpinion
1 source
Pourquoi Tesla mise des milliards sur Optimus
100Robot Magazine FR 

Pourquoi Tesla mise des milliards sur Optimus

Tesla a engagé un pivot stratégique majeur vers la robotique humanoïde avec son robot Optimus, présenté pour la première fois en 2021 et progressivement monté en priorité interne. Selon des déclarations publiques répétées d'Elon Musk courant 2024-2025, le groupe recrute massivement des ingénieurs en vision par ordinateur, robotique et IA, sans que des chiffres précis d'investissement ou de volumes de production n'aient été officiellement communiqués. Musk a qualifié Optimus de "produit le plus important de Tesla", positionnant le robot comme une plateforme capable d'intervenir dans les usines, entrepôts, logistique et services grand public. À date, Tesla a publié des démonstrations vidéo d'Optimus réalisant des tâches manuelles en environnement contrôlé. Il n'existe pas encore de déploiement industriel à l'échelle documenté ni de prix catalogue annoncé pour des tiers. L'intérêt stratégique d'Optimus repose sur une hypothèse structurelle : le marché des robots humanoïdes polyvalents pourrait dépasser celui de l'automobile à long terme. Pour les décideurs industriels, la promesse est réelle, les humanoïdes pourraient théoriquement remplacer des postes de travail répétitifs sans reconfigurer entièrement les lignes de production, contrairement aux bras industriels fixes. Mais l'écart entre démonstration et déploiement opérationnel reste considérable. Le "demo-to-reality gap" n'est pas comblé : aucun constructeur, ni Tesla, ni Figure AI, ni Boston Dynamics, n'a prouvé une fiabilité suffisante en conditions réelles non supervisées à grande échelle. Ce que le pivot Tesla prouve, c'est que la narration "constructeur automobile" ne suffit plus à soutenir une valorisation boursière qui restait, début 2025, un multiple très élevé par rapport aux revenus automobiles nets. Tesla arrive sur un marché humanoïde déjà encombré. Figure AI (Figure 03, en partenariat avec BMW) a annoncé des déploiements en usine. Agility Robotics (Digit) est en production chez Amazon. Physical Intelligence (pi-0) et 1X Technologies progressent sur les modèles fondationnels robotiques. Boston Dynamics positionne Atlas sur les environnements industriels difficiles. NVIDIA soutient l'écosystème via GR00T et la plateforme Isaac. La Chine industrialise rapidement avec Unitree et Fourier Intelligence. Tesla dispose d'un avantage potentiel : l'accès à d'immenses volumes de données réelles via ses véhicules et ses usines, et une chaîne de fabrication à bas coût. Mais la pression concurrentielle sur l'automobile, notamment de BYD, Xiaomi et Xpeng, comprime les marges et renforce l'urgence de diversifier les revenus. Une éventuelle IPO de SpaceX constitue un risque de dilution d'attention capitalistique supplémentaire pour Tesla. Les prochaines étapes à surveiller : un déploiement interne dans les Gigafactories, et une éventuelle communication sur les métriques de fiabilité opérationnelle.

HumanoïdesOpinion
1 source