Aller au contenu principal

Dossier Boston Dynamics — page 3

566 articles · page 3 sur 12

Boston Dynamics, pionnier de la locomotion : Atlas électrique, Spot patrouille industrielle et inspection, partenariats Hyundai et Toyota Research Institute.

Hello Robot reconnue par le Forum économique mondial comme pionnière technologique
101The Robot Report BusinessOpinion

Hello Robot reconnue par le Forum économique mondial comme pionnière technologique

Le Forum Économique Mondial a désigné Hello Robot Inc. comme "Technology Pioneer 2026" le 10 juin 2026, intégrant l'entreprise californienne (Martinez, CA) dans la cohorte annuelle de 100 startups sélectionnées pour leur impact sur les industries et la société. Hello Robot développe le robot mobile manipulateur Stretch, un système open-source sur roues doté d'un bras télescopique conçu pour opérer en proximité directe avec des humains dans des environnements domestiques, médicaux et professionnels. Fondée en 2017 par Aaron Edsinger et Charlie Kemp, deux chercheurs cumulant plus de 50 ans d'expérience combinée en robotique (MIT, Google, Georgia Tech), la société a présenté en mai 2026 la quatrième génération de Stretch, une refonte majeure pilotée par les retours utilisateurs. Le robot est actuellement déployé dans des centaines de sites académiques, de recherche et d'entreprises, et fait l'objet de pilotes auprès de personnes atteintes de handicaps moteurs sévères, dont des cas de quadriplégie, qui le pilotent via une application mobile pour accomplir des tâches quotidiennes : aller chercher un verre d'eau, se nourrir, fermer des stores. La reconnaissance du WEF illustre un glissement de perception dans le secteur robotique : après des années dominées par les démonstrations spectaculaires de robots humanoïdes ou industriels, un intérêt croissant se porte vers les systèmes à utilité directe et déployable. Pour les intégrateurs et les décideurs du secteur de la santé ou du maintien à domicile, Stretch représente un cas d'usage concret et mesurable : augmentation de l'autonomie des patients, réduction de la charge sur les aidants, et compatibilité avec des environnements non structurés (domiciles réels, pas des labs). Là où la plupart des déploiements humanoïdes restent en phase pilote contrôlée en environnement industriel, Hello Robot documente des usages réels chez des utilisateurs à domicile, ce qui en fait un point de référence pour le "reality gap" entre démos et terrain. Hello Robot s'inscrit dans une catégorie distincte du champ robotique actuel, dominé par les humanoïdes industriels (Figure, 1X, Agility, Unitree, Tesla Optimus) et les AMR logistiques (Boston Dynamics Spot, Exotec). Stretch cible un segment sous-investi : l'assistance à la personne dans des environnements non industriels. La société avait déjà été distinguée par le RBR50 Robotics Innovation Award en 2025 pour la version Stretch 3. Avec Stretch 4 lancé en mai 2026 et cette labellisation WEF, Hello Robot consolide sa position de référence dans la robotique d'assistance personnelle. Les prochaines étapes probables incluent une expansion des pilotes cliniques et domestiques, ainsi qu'une potentielle recherche de financement adossée à cette visibilité institutionnelle, dans un contexte où les financeurs institutionnels et les systèmes de santé européens s'intéressent de plus en plus aux robots d'assistance à domicile.

UELes systèmes de santé et financeurs institutionnels européens, en recherche active de solutions de maintien à domicile, peuvent s'appuyer sur les pilotes documentés de Stretch 4 comme référence concrète pour évaluer la maturité de la robotique d'assistance personnelle.

1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
102arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
103arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
104Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
105arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes
106arXiv cs.RO 

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper
1 source
QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède
107arXiv cs.RO 

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
108arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent
109Interesting Engineering 

Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent

Huit robots humanoïdes G1 du fabricant chinois Unitree ont performé en direct sur NBC lors du premier épisode de la saison en cours d'America's Got Talent, diffusé mardi soir aux États-Unis. Aux côtés du danseur Wu Yufei, originaire du Sichuan et connu sous le pseudonyme "Flying Bug", les machines ont exécuté une chorégraphie synchronisée combinant mouvements rythmés et coordination précise avec l'interprète humain. Le numéro a reçu une ovation debout du public en studio et l'approbation unanime des quatre juges, propulsant le duo vers la prochaine étape d'une compétition dotée d'un grand prix d'un million de dollars. Yufei a présenté l'un des robots sous le surnom "Jackie", en référence au kung-fu. Le mode de pilotage des machines pendant la performance (téléopération partielle, séquences préenregistrées ou autonomie hybride) n'a pas été divulgué par l'équipe, un point que les commentateurs spécialisés n'ont pas manqué de relever. La prestation illustre un paradoxe croissant aux États-Unis: l'enthousiasme du grand public pour les humanoïdes chinois se heurte à une pression législative grandissante. Le lendemain même de la diffusion, une proposition de loi bipartisane, le Guard Act, a été déposée au Congrès pour interdire les robots d'origine chinoise jugés risques pour la sécurité nationale. En parallèle, l'American Security Robotics Act avance avec pour objectif d'empêcher les agences fédérales d'acquérir des robots produits par des entreprises chinoises, humanoïdes inclus. Pour les décideurs B2B et les intégrateurs industriels, cette double dynamique crée une incertitude réelle: adopter une technologie qui capte l'adhésion populaire tout en naviguant un risque réglementaire croissant. La visibilité télévisée d'Unitree renforce la crédibilité commerciale de ses machines auprès des acheteurs non spécialisés, un levier marketing qu'aucun salon professionnel ne peut reproduire à cette échelle. Fondée à Hangzhou, Unitree commercialise ses robots à l'international via la plateforme AliExpress d'Alibaba, ciblant les marchés d'Amérique du Nord, d'Europe et du Japon. La société a récemment annoncé un partenariat avec Nvidia pour concevoir un design de référence humanoïde baptisé H2+, dont la disponibilité est prévue pour la fin de l'année. Sur le terrain, les observateurs notent que le déploiement opérationnel des robots chinois à l'étranger se heurte à des obstacles concrets: identification des cas d'usage industriels, collecte de données opérationnelles, et construction de réseaux locaux de maintenance, d'intégration et de calibration. Face à Unitree, le marché des humanoïdes voit s'affronter Figure AI (Figure 02), Tesla (Optimus Gen 2), Boston Dynamics (Atlas électrique), Physical Intelligence (pi0) et Agility Robotics (Digit), tous positionnés sur des verticales industrielles précises. L'apparition télévisée ne règle aucun de ces défis opérationnels, mais marque une étape dans la bataille pour la normalisation culturelle des humanoïdes auprès du grand public américain.

UEUnitree ciblant explicitement les marchés européens via AliExpress, la pression réglementaire américaine sur les robots chinois (Guard Act, American Security Robotics Act) pourrait inspirer des mesures similaires en Europe sur l'acquisition de robotique d'origine chinoise par les entités publiques et industrielles.

Chine/AsieOpinion
1 source
Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains
110arXiv cs.RO 

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

Des chercheurs ont publié Meridian, une méthode de localisation globale pour robots terrestres qui exploite des images aériennes à la place du GNSS, avec une erreur de trajectoire moyenne de 2,4 mètres sur 19 kilomètres parcourus dans des environnements variés. L'algorithme met en correspondance des primitives métrique-sémantiques extraites d'images satellites ou de drones avec les données RGB-D collectées par la caméra embarquée du robot, sans nécessiter d'entraînement ni d'ajustement sur les données locales de la zone ciblée. Les expériences couvrent un dataset de conduite autonome urbaine, une zone de parc et campus, ainsi qu'un camp en milieu naturel, trois contextes distincts sur lesquels le même modèle généraliste a été appliqué sans adaptation préalable. Ce résultat est notable car la localisation sans GPS dans des terrains non structurés reste l'un des problèmes ouverts les plus persistants de la robotique mobile. Les approches existantes s'appuient généralement sur des modèles entraînés pour un environnement précis et peinent face aux géométries répétitives et aux paysages peu texturés, forêts, prairies, zones périurbaines, où les méthodes basées sur des points d'intérêt visuels classiques échouent. Meridian contourne ce problème en formalisant des métriques de cohérence pour estimer une distribution sur les poses du sous-graphe robot et rejeter les hypothèses aberrantes via une optimisation robuste du graphe de poses. L'absence de dépendance à des données d'entraînement spécifiques est le point le plus opérationnellement significatif : elle rend le système déployable sur zones inconnues sans phase de cartographie préalable. Le travail s'inscrit dans un courant actif de localisation visuelle croisée (cross-view localization) qui bénéficie de la disponibilité croissante d'imagerie aérienne haute résolution via satellites commerciaux ou drones. Des méthodes concurrentes comme OrienterNet (Meta AI, 2023) ciblent principalement les environnements urbains structurés via OpenStreetMap. Meridian se distingue en visant explicitement les terrains naturels, ce qui l'oriente vers des applications de recherche et sauvetage, de surveillance agricole ou d'opérations militaires en zone dégradée, secteurs où des plateformes comme Boston Dynamics Spot ou des robots de terrain industriels pourraient directement tirer parti de l'approche. L'article est disponible en prépublication sur arXiv (2606.06312) et n'a pas encore été soumis à révision par les pairs, ce qui invite à traiter les métriques annoncées avec prudence en attendant une validation indépendante.

RecherchePaper
1 source
Le public américain acclame les robots dansants Unitree pendant que le Congrès cherche à les interdire
111SCMP Tech 

Le public américain acclame les robots dansants Unitree pendant que le Congrès cherche à les interdire

Les robots humanoïdes G1 du fabricant chinois Unitree Robotics ont fait une apparition remarquée dans le show télévisé américain America's Got Talent lors du lancement de sa nouvelle saison, décrochant une ovation debout du public en studio. La performance, diffusée en prime time sur une chaîne nationale américaine, a suscité une adhésion populaire immédiate selon les analystes du secteur, même si les chiffres d'audience définitifs n'ont pas encore été communiqués. Le G1 est un humanoïde bipède commercialisé par Unitree à environ 16 000 dollars, positionné comme l'une des plateformes humanoïdes les moins chères du marché mondial. Ce contraste entre l'enthousiasme du grand public et la méfiance des élus illustre une tension structurelle croissante dans le secteur robotique américain. Alors que des législateurs au Congrès examinent des projets de loi visant à restreindre ou interdire l'utilisation de robots et composants d'origine chinoise dans les infrastructures critiques, une exposition télévisée à grande échelle normalise ces mêmes machines auprès de dizaines de millions de foyers. Pour les décideurs industriels et les intégrateurs, ce clivage complique les arbitrages d'approvisionnement : les plateformes chinoises restent attractives sur le plan tarifaire mais exposent à un risque réglementaire croissant. Unitree a connu une montée en puissance rapide, passant des robots quadrupèdes bon marché (série Go) aux humanoïdes G1 et H1. La société s'impose comme le pendant grand public de Figure AI, Agility Robotics ou Boston Dynamics sur le segment entrée de gamme. Les tentatives législatives américaines de restreindre les robots chinois s'inscrivent dans la continuité des régulations visant Huawei ou DJI, et pourraient accélérer la demande pour des alternatives domestiques comme Apptronik ou Sanctuary AI si elles aboutissent.

UELes intégrateurs européens utilisant des plateformes Unitree s'exposent à un risque réglementaire croissant si l'UE s'aligne sur la trajectoire législative américaine, sur le modèle des restrictions DJI/Huawei.

Chine/AsieOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
112arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
113arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes
114arXiv cs.RO 

CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes

Une équipe de chercheurs a publié CART (Context-Aware Terrain Adaptation), un contrôleur de locomotion conçu pour permettre aux robots à pattes de naviguer sur des terrains complexes non structurés. Le système fusionne deux sources d'information embarquées: la proprioception (couples articulaires, accélérations du torse, contacts au sol) et l'extéroception (vision par caméra), via une architecture de sélection de séquences temporelles. Les expériences ont été réalisées sur trois plateformes: le Unitree Go2 et l'ANYmal-C d'ANYbotics en simulation sous NVIDIA IsaacSim, et un Boston Dynamics SPOT pour les essais en conditions réelles. Les gains mesurés sont significatifs: +5 % de taux de traversée réussi par rapport aux méthodes de référence, -41 % d'oscillation de la base du robot en simulation, et -22 % en conditions réelles, sans dégradation du temps de mission. Le problème central que CART adresse est ce que les auteurs nomment le "Visual-Texture Paradox": ce que le capteur visuel détecte peut différer radicalement de ce que le robot ressent lors du contact physique (béton recouvert de sable, herbe sur substrat rocheux, revêtements peints imitant une autre texture). La majorité des systèmes d'adaptation de terrain actuels ne modélisent pas explicitement cette discordance, ce qui se traduit par des chutes ou des récupérations erratiques sur terrains difficiles. En liant l'historique des interactions proprioceptives récentes à l'apparence extéroceptive courante, CART construit une représentation contextuelle du terrain plus fiable que la vision seule. C'est une propriété directement utile pour des déploiements en extérieur: inspection d'infrastructure, logistique sur chantier, robotique minière. La locomotion adaptative pour robots à pattes a connu des avancées majeures depuis les travaux fondateurs d'ETH Zurich sur ANYmal (2016-2022), avec des méthodes d'apprentissage par renforcement en simulation démontrant un transfert sim-to-real robuste. Boston Dynamics SPOT reste la référence commerciale sur terrains difficiles, tandis que le Unitree Go2 s'impose dans la recherche académique grâce à son coût réduit. CART se positionne comme une couche de contrôle agnostique à la plateforme, sans modification matérielle requise. Il s'agit d'un preprint arXiv (identifiant 2604.14344, avril 2026), sans déploiement ni partenaire industriel annoncé à ce stade. La validation sur des conditions météorologiques adverses et des scénarios multi-terrains plus variés constitue la prochaine étape attendue.

UEImpact indirect via ANYbotics (Suisse, hors UE) et l'héritage ETH Zurich sur ANYmal, mais aucun déploiement ni partenaire européen annoncé à ce stade.

RecherchePaper
1 source
Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes
115arXiv cs.RO 

Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Un article de revue de littérature déposé sur arXiv le 2 juin 2026 (identifiant 2606.00090) pose un problème de sécurité systémique pour les systèmes d'IA physique : les modèles de fondation, modèles vision-langage-action (VLA) et modèles du monde qui pilotent des robots, véhicules, drones et machines industrielles peuvent émettre des commandes physiquement dangereuses tout en paraissant confiants, plausibles et sémantiquement corrects. Les auteurs nomment ce phénomène "silent failure" (défaillance silencieuse) : une action physiquement conséquente est déclenchée avant qu'un contrôleur matériel en aval détecte une anomalie, sous l'effet d'une dérive de capteur, d'une occlusion, d'une erreur d'estimation d'état, d'un glissement de distribution, d'affordances hallucinées ou d'hypothèses physiques invalides. Ces défaillances ne sont capturées ni par la modération de contenu classique des systèmes d'IA, ni par les normes de sécurité robotique traditionnelles. L'enjeu industriel est direct : là où les intégrateurs s'appuient sur des couches de sécurité fonctionnelle (normes ISO 10218, IEC 61508) pensées pour des automates déterministes, les VLA introduisent un générateur d'actions opaque dont les sorties ne respectent aucune enveloppe formellement vérifiable. La revue synthétise un écart récurrent : sur l'ensemble des corpus analysés, modèles de fondation incarnés, simulation robotique, benchmarks de sécurité embodied, contrôle sûr, assurance runtime, estimation d'incertitude, vérification formelle et évaluation de guardrails, aucun flux technique ne fournit à lui seul une frontière d'autorisation complète entre le modèle boîte noire et l'exécution physique. Cela signifie que les déploiements actuels de robots humanoïdes ou d'AGV pilotés par des LLM reposent sur des garde-fous fragmentés dont la couverture n'est pas évaluée de manière unifiée. Pour combler ce vide, les auteurs proposent une formalisation bornée du problème, une définition rigoureuse de la "défaillance physique silencieuse", une taxonomie des fonctions de guardrail runtime, et des critères d'évaluation permettant de comparer ces guardrails comme mécanismes d'assurance. Le papier ne décrit pas de système déployé ni de résultats expérimentaux : c'est une revue structurante, dont l'utilité principale est de fournir un cadre commun à une communauté fragmentée entre labs robotique, sécurité IA et contrôle formel. Les acteurs comme Boston Dynamics (Spot + foundation models), Figure, 1X ou Apptronik, qui poussent vers des déploiements industriels de robots à base de VLA, sont implicitement concernés, tout comme les équipes de recherche travaillant sur Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La prochaine étape naturelle serait une validation empirique de la taxonomie proposée sur des benchmarks embodied existants comme RoboSuite ou Open-X Embodiment.

UELa mise en évidence d'un vide normatif entre les standards industriels EU (ISO 10218, IEC 61508) et les systèmes VLA opaques concerne directement les intégrateurs européens déployant des robots autonomes sous le régime de l'AI Act.

RechercheOpinion
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
116arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur
117arXiv cs.RO 

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

CoMo3R-SLAM est un système de SLAM dense collaboratif monoculaire présenté en preprint sur arXiv (2605.30488) en mai 2026. Il permet à plusieurs robots de construire ensemble une carte 3D dense d'un environnement extérieur en n'utilisant que des caméras RGB monoculaires, sans capteurs de profondeur de type LiDAR ou RGB-D. Chaque agent embarque un front-end guidé par des priors de reconstruction appris pour assurer le suivi en temps réel et la fusion dense locale. Un coordinateur centralisé prend ensuite en charge la cohérence globale via correspondance de pointmaps denses, synchronisation géométrique Sim(3) en forme fermée, et ajustement de faisceaux global accéléré GPU avec optimisation de profondeur par segments. Le système ne requiert ni capteur de profondeur ni calibration d'intrinsèques paramétriques. Tournant en ligne à 8 FPS, il obtient le meilleur ATE (erreur de trajectoire absolue) sur trois des quatre scènes Tanks and Temples, et des résultats compétitifs sur les séquences Waymo, égalant ou dépassant les méthodes RGB-D état de l'art. L'impact concret pour l'industrie est d'abord matériel : supprimer les capteurs de profondeur réduit significativement le poids embarqué, le coût unitaire et la complexité de calibration des plateformes robotiques. LiDAR et caméras RGB-D représentent souvent plusieurs kilogrammes et plusieurs milliers d'euros par unité, ce qui pénalise le déploiement en flotte. Que des priors d'apprentissage profond permettent de lever l'ambiguïté d'échelle monoculaire en extérieur valide une hypothèse forte du secteur : les modèles feed-forward de reconstruction 3D sont désormais suffisamment robustes pour opérer hors conditions contrôlées. Pour les intégrateurs et décideurs B2B, cela ouvre la voie à des flottes de robots légers capables de cartographier collaborativement des environnements vastes sans infrastructure capteur lourde. Le SLAM collaboratif dense est un défi ouvert depuis une décennie. Des systèmes comme COVINS ou Kimera-Multi s'appuient encore majoritairement sur des capteurs de profondeur ou des environnements intérieurs. La montée en puissance des modèles de reconstruction 3D appris, notamment DUSt3R (2023) et MASt3R (2024), issus de Naver Labs Europe à Grenoble, a rendu accessible la reconstruction dense monoculaire sans calibration explicite. CoMo3R-SLAM est la première application de ces priors dans un cadre multi-agents outdoor. Les benchmarks Tanks and Temples et Waymo constituent une validation pertinente pour des conditions de déploiement réelles. Côté concurrents, les systèmes multi-robots embarqués de Boston Dynamics, ANYbotics ou de spécialistes SLAM comme SLAMcore restent ancrés sur des architectures multi-capteurs. Ce preprint, non encore évalué par les pairs, ouvre la voie à des pilotes sur drones d'inspection ou robots mobiles légers où le rapport poids/performance est critique.

UECoMo3R-SLAM s'appuie directement sur DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble, validant l'apport fondamental de la recherche française comme socle des futurs systèmes SLAM multi-agents légers en extérieur.

RecherchePaper
1 source
SignScene : ancrage visuel des panneaux pour la navigation sans carte
118arXiv cs.RO 

SignScene : ancrage visuel des panneaux pour la navigation sans carte

Des chercheurs ont publié SignScene (arXiv 2602.12686), un système permettant à un robot de naviguer sans carte préalable en interprétant les panneaux de signalisation présents dans l'environnement. Évalué sur un jeu de données de 114 requêtes couvrant neuf types d'environnements différents, le système atteint 88 % de précision dans ce qu'ils appellent le "sign grounding" : la capacité à associer les instructions sémantiques d'un panneau à des éléments de la scène 3D locale et à des actions de navigation concrètes. La démonstration a été réalisée sur un robot Boston Dynamics Spot naviguant en conditions réelles en s'appuyant uniquement sur les panneaux visibles, sans carte ni waypoints préprogrammés. Le défi central est la représentation spatiale : les grands modèles vision-langage (VLMs) disposent du raisonnement sémantique nécessaire pour interpréter un panneau ("Sortie à 50 m à droite"), mais ils sont sensibles à la manière dont l'information spatiale leur est présentée. SignScene introduit une représentation "sign-centric" qui extrait les éléments de scène pertinents pour la navigation et les organise autour du panneau détecté, améliorant significativement le raisonnement du VLM par rapport aux approches de référence, sans que les chiffres exacts de ces dernières soient publiés dans l'abstract disponible. Pour les intégrateurs industriels, l'enjeu est direct : un robot capable d'interpréter les panneaux existants d'un entrepôt ou d'un hôpital pourrait être déployé sans phase de cartographie SLAM préalable, réduisant les coûts et délais d'installation tout en fonctionnant dans des environnements qui évoluent. La navigation sans carte est un axe de recherche actif en robotique mobile, traditionnellement dominé par SLAM ou les cartes topologiques préprogrammées. L'essor des VLMs a ouvert la voie à une navigation guidée par le langage naturel, avec des travaux comme SayNav, VLMaps ou LM-Nav comme précédents directs. SignScene se positionne sur le créneau spécifique des panneaux physiques, signal abondant dans les environnements humains mais peu exploité en robotique autonome. Le robot Spot de Boston Dynamics sert ici de plateforme de validation standard dans la communauté académique. Les prochaines étapes logiques incluraient une extension aux environnements extérieurs urbains ou logistiques, et l'intégration dans des pipelines VLA (Vision-Language-Action) combinant interprétation de panneaux et planification de trajectoire bout-en-bout.

RecherchePaper
1 source
Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle
119MarkTechPost 

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle

Genesis AI a lancé Genesis World 1.0, une plateforme de simulation conçue pour accélérer le développement des modèles de fondation en robotique. La suite se compose de quatre éléments : un moteur physique, Nyx (un moteur de rendu par lancer de rayons en temps réel), Quadrants (un compilateur Python vers GPU), et une interface de simulation. Le problème que tente de résoudre cette plateforme est concret : évaluer une politique robotique sur une centaine de tâches avec plusieurs centaines d'épisodes chacune nécessite normalement plus de 200 heures de fonctionnement continu avec un opérateur humain et un seul robot. Genesis World 1.0 ramène cette même évaluation à moins de 30 minutes, sans intervention humaine ni matériel physique, avec une reproductibilité bit à bit des résultats. C'est un gain d'environ deux ordres de grandeur sur le temps de cycle d'évaluation. Ce bond de performance change fondamentalement la manière dont les équipes de recherche peuvent comparer des variantes de modèles. Jusqu'ici, la lenteur de l'évaluation réelle obligeait à faire des choix brutaux sur le nombre de checkpoints testés, biaisant de facto les décisions de développement. Genesis AI a délibérément choisi d'utiliser la simulation pour l'évaluation avant de l'utiliser pour la génération de données d'entraînement, et ce pour une raison méthodologique précise : si entraînement et évaluation partagent la même distribution simulée, un gain de performance peut simplement refléter une meilleure adaptation au simulateur, et non un progrès réel. L'approche retenue, baptisée "zero-shot real-to-sim", consiste à évaluer en simulation des politiques entraînées exclusivement sur des données réelles. Les résultats de corrélation sont probants : la corrélation de Pearson entre les performances en simulation et sur robot physique atteint 0,8996 (intervalle de confiance à 95 % : [0,7439 ; 0,9314]), calculée sur trois variantes de modèles (Small, Medium, Large), 14 tâches et 200 épisodes par tâche, avec un million d'itérations bootstrap. Le Mean Maximum Rank Violation (MMRV) s'établit à 0,0166, ce qui signifie que le simulateur préserve fidèlement le classement relatif des modèles entre eux. Genesis AI évolue dans un secteur en pleine structuration, où des acteurs comme Google DeepMind, Physical Intelligence ou encore Boston Dynamics investissent massivement dans les modèles de fondation pour la robotique généraliste. La qualité du simulateur est devenue un avantage compétitif direct : Genesis revendique un écart de réalité réduit de 45 % par rapport au meilleur simulateur concurrent, mesuré par le score FID sur leur jeu de données. Pour diagnostiquer précisément les sources de divergence simulation-réalité, l'équipe a construit un banc de test côte à côte permettant de faire fonctionner simultanément le simulateur et un robot physique depuis la même initialisation, en permutant les sources d'observations (caméra, proprioception) pour isoler si les écarts viennent de la physique, du rendu, des communications ou du contrôle. Nyx, le moteur de rendu intégré, vise des images 1080p sans bruit en moins de 4 millisecondes sur un GPU grand public haut de gamme, en s'appuyant sur le lancer de rayons matériel et des splats gaussiens 3D pour les zones où la reconstruction en maillage reste insuffisante.

💬 200 heures d'évaluation robotique ramenées à 30 minutes, c'est pas un gain marginal, c'est un changement de paradigme dans la façon dont on peut itérer sur les modèles. Ce qui m'intéresse surtout, c'est leur choix de séparer les distributions d'entraînement et d'évaluation : simuler les deux ensemble, c'est se mentir à soi-même, et ils l'ont compris. Bon, la corrélation à 0,89 est impressionnante sur le papier, reste à voir si ça tient sur des tâches vraiment hors distribution.

BusinessActu
1 source
BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers
120Pandaily 

BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers

Li Ke, vice-président exécutif de BYD, a détaillé dans une interview récente la stratégie robotique humanoïde du constructeur, développée en interne sous le nom de code "Yao-Shun-Yu". Le projet en est à sa septième génération d'itération, signe d'un cycle de développement soutenu. Les premiers déploiements visent les concessions automobiles 4S à l'international, les réseaux européens étant cités parmi les sites prioritaires. Les robots y assureront accueil client, démonstrations produits et support commercial standardisé en plusieurs langues simultanément, répondant à un problème opérationnel concret : recrutement difficile et coûts élevés dans les marchés étrangers. À plus long terme, BYD envisage un second débouché, le domicile, avec des fonctions de ménage, préparation des repas et compagnie sociale. Aucun chiffre de production, de spécifications techniques ou de calendrier de livraison précis n'a été communiqué ; il s'agit d'une annonce de stratégie, pas d'un produit expédié. L'entrée de BYD dans la robotique humanoïde est structurellement significative pour deux raisons. D'abord, le groupe dispose d'une chaîne d'approvisionnement verticalement intégrée : l'expertise en systèmes logiciels embarqués et en fabrication de précision acquise dans l'automobile électrique se transpose directement à la robotique, où la maîtrise mécanique et le contrôle temps réel sont aussi critiques que l'intelligence artificielle. Ensuite, Li Ke a formulé un diagnostic précis sur l'état du secteur : les humanoïdes chinois présentent généralement un hardware solide mais un "cerveau" IA insuffisant, tandis que les concurrents américains affichent l'inverse. BYD se positionne explicitement comme intégrateur des deux capacités dans une plateforme unique. Si cette convergence se concrétise à l'échelle, elle modifierait les rapports de force dans la commercialisation des humanoïdes industriels, où aucun acteur n'a encore démontré de production de masse rentable. BYD est devenu en 2023 le premier constructeur mondial de véhicules électriques par le volume, précisément sur la base de cette intégration verticale, supplantant Tesla dans plusieurs segments. Le groupe s'inscrit dans une vague plus large de groupes industriels chinois investissant la robotique humanoïde : UBTECH, Unitree et Fourier Intelligence sont déjà actifs sur ce terrain. Côté américain, les références restent Figure Robotics (Figure 02 en déploiement chez Amazon), Boston Dynamics (Atlas), Tesla (Optimus Gen 2) et 1X Technologies. BYD se distingue en se déclarant lui-même acheteur initial à grande échelle dans ses propres usines chinoises, un levier de dérisquage commercial que très peu de roboticiens peuvent activer de façon crédible. Les prochaines étapes annoncées portent sur des pilotes en concessions européennes, sans calendrier précis confirmé à ce jour.

UEBYD cible explicitement les réseaux de concessions automobiles européens comme sites de déploiement prioritaires, ce qui pourrait introduire un acteur chinois à intégration verticale sur le marché européen de la robotique de service B2B.

Chine/AsieActu
1 source
SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot
121arXiv cs.RO 

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot

Des chercheurs du MIT ont publié SOLE-R1 (Self-Observing LEarner), un modèle de raisonnement vidéo-langage conçu pour fonctionner comme signal de récompense exclusif dans l'apprentissage par renforcement (RL) en robotique, sans aucun accès à des récompenses terrain, indicateurs de succès, démonstrations ou réglages spécifiques à la tâche. Soumis sur arXiv (2503.28730v2), le système prend en entrée uniquement des observations vidéo brutes et un objectif en langage naturel, puis génère à chaque pas de temps un raisonnement spatiotemporel de type chain-of-thought (CoT) pour estimer de façon dense la progression de la tâche. Entraîné sur un pipeline de synthèse massif de trajectoires vidéo annotées temporellement, SOLE-R1 combine fine-tuning supervisé et RL depuis des récompenses vérifiables. Évalué sur quatre environnements de simulation distincts et en setting réel, il réussit 24 tâches de manipulation inédites en apprentissage zéro-shot depuis une initialisation aléatoire. L'enjeu central que résout SOLE-R1 est celui du reward hacking : aujourd'hui, utiliser un VLM généraliste comme évaluateur RL expose le système à des erreurs perceptuelles sous observabilité partielle ou changement de distribution, que la politique apprenante exploite rapidement au lieu de résoudre réellement la tâche. SOLE-R1 surpasse nettement des comparatifs forts - Robometer, RoboReward, ReWiND, mais aussi GPT-5 et Gemini-3-Pro - sur la robustesse à ce phénomène. Pour les intégrateurs et ingénieurs robotique, c'est un signal concret que le goulot d'étranglement du RL sur robot réel (définir une fonction de récompense dense et fiable) peut être délégué à un modèle de raisonnement vidéo entraîné spécifiquement, sans instrumentation matérielle supplémentaire. SOLE-R1 s'inscrit dans un courant actif qui cherche à remplacer les récompenses codées à la main par des superviseurs fondationnels (EUREKA d'NVIDIA, VLM-RM, SuSIE). La différence revendiquée ici est le raisonnement CoT temporel explicite par pas de temps, contre des évaluations épisodiques ou des scores scalaires instantanés. Le projet est encore au stade preprint sans déploiement industriel annoncé, mais les modèles, données et code sont publiés en open access sur la page anonyme du MIT. Les prochaines étapes naturelles seraient la validation sur des plateformes commerciales (Figure, Unitree, Boston Dynamics Spot) et l'extension à des tâches longue-horizon en environnement non structuré, deux gaps que l'article ne comble pas encore.

RechercheOpinion
1 source
ANYbotics : l’entreprise porte le marché en avant de la robotique autonome
122Le Big Data 

ANYbotics : l’entreprise porte le marché en avant de la robotique autonome

ANYbotics, entreprise suisse fondée en 2016 comme spin-off de l'ETH Zurich, s'impose comme l'un des acteurs de référence de la robotique quadrupède industrielle. Sa technologie phare, le robot ANYmal, est conçue pour inspecter de manière autonome des installations complexes, usines, raffineries, centrales électriques, sites chimiques, sans intervention humaine directe. La machine se déplace sur des terrains accidentés, grimpe des escaliers, traverse des couloirs étroits et des surfaces humides, et embarque des capteurs capables de détecter des anomalies thermiques ou des fuites de gaz en temps réel. ANYbotics commercialise plusieurs versions de ce robot, dont l'ANYmal X, certifié ATEX pour les zones à risque d'explosion. En décembre 2024, la société a finalisé une levée de fonds de série B de 60 millions de dollars, lui permettant d'accélérer son expansion internationale et de renforcer sa capacité de production. L'enjeu dépasse la simple prouesse mécanique : dans les environnements industriels à haut risque, les robots d'ANYbotics remplacent des rondes humaines régulières par des inspections automatisées continues. Les données collectées permettent d'anticiper les pannes avant qu'elles ne deviennent critiques, réduisant les arrêts non planifiés et les coûts de maintenance. Pour des secteurs comme la pétrochimie, l'énergie ou la chimie, où une défaillance peut avoir des conséquences graves sur la sécurité des travailleurs et la continuité de production, cette approche représente un changement opérationnel concret. L'intérêt des grands groupes industriels pour cette technologie confirme que la robotique d'inspection autonome est en train de passer du stade expérimental à celui de standard industriel. La trajectoire d'ANYbotics illustre la montée en puissance d'un écosystème européen de la robotique avancée, porté par la recherche académique suisse. Les fondateurs ont mis plusieurs années à transformer un prototype de laboratoire en produit fiable pour des environnements réels, validant progressivement leur technologie sur le terrain avant de lever des financements significatifs. L'entreprise évolue dans un marché en pleine consolidation, où elle affronte notamment Boston Dynamics et ses concurrents américains et asiatiques. La levée de 60 millions de dollars en 2024 lui donne les moyens de tenir ce rythme, d'ouvrir de nouveaux marchés géographiques et de diversifier ses certifications réglementaires. Les prochaines étapes concerneront probablement l'intégration plus poussée de l'intelligence artificielle dans l'analyse des données collectées, et l'extension vers de nouveaux secteurs comme les infrastructures d'énergie renouvelable.

UEANYbotics, spin-off suisse de l'ETH Zurich, renforce l'écosystème européen de la robotique industrielle avec des robots d'inspection certifiés ATEX, directement applicables aux installations pétrochimiques et énergétiques en Europe.

FR/EU ecosystemeOpinion
1 source
Étude de l'effet d'un retrofit à actionnement élastique en série sur des actionneurs boîte noire
123arXiv cs.RO 

Étude de l'effet d'un retrofit à actionnement élastique en série sur des actionneurs boîte noire

Des chercheurs ont publié sur arXiv (référence 2605.24127, mai 2026) les résultats d'une étude portant sur le retrofit d'un élément élastique en série (SEA, Series Elastic Actuation) sur un actionneur dit "boîte noire", c'est-à-dire un actionneur commercial dont les paramètres internes sont inaccessibles. L'élément élastique torsionnel a été dimensionné par analyse en éléments finis (FE analysis), aboutissant à une raideur de 2 155,4 Nm/rad. Le résultat principal est une amélioration de la bande passante en contrôle d'effort en boucle ouverte, passant de 10,32 Hz pour le moteur seul à 30,32 Hz avec le module SEA intégré, soit un gain de 2,93x. En boucle fermée, le module surpasse un capteur d'effort commercial de 7,63%, pour un coût matière de seulement 25 GBP. Ce résultat a une portée directe pour les intégrateurs robotiques confrontés à des actionneurs industriels standard dont ils ne maîtrisent pas la couche logicielle basse. Les actionneurs rigides à faible jeu mécanique sont omniprésents en robotique industrielle précisément parce qu'ils garantissent répétabilité et précision, mais ils sont inadaptés dès que la tâche exige du contrôle d'effort ou une compliance face à des contacts incertains. Le principe SEA, qui insère un ressort entre le moteur et la charge pour mesurer les efforts via la loi de Hooke, est connu depuis les travaux de Gill Pratt au MIT dans les années 1990, mais son application reste généralement cantonnée aux plateformes conçues pour l'accepter dès l'origine. Ce travail démontre qu'un retrofit peu coûteux peut débloquer la mesure d'effort haute fidélité sans remplacer l'actionneur existant. L'approche s'inscrit dans un courant de recherche actif autour de la compliance en actionnement, qui irrigue aussi bien les robots humanoïdes (Boston Dynamics Atlas, Agility Digit, Figure 02) que les exosquelettes et cobots collaboratifs. Les concurrents directs de cette approche incluent le quasi-direct drive (QDD), popularisé par MIT Cheetah et repris chez nombre de fabricants chinois (Unitree, Fourier Intelligence), ainsi que les capteurs d'effort six axes montés en poignet. La limite principale du SEA reste la réduction de bande passante, que ce travail atténue mais ne supprime pas entièrement. Les prochaines étapes logiques concerneraient des validations sur tâches manipulatoires réelles et une caractérisation de la durée de vie mécanique de l'élément élastique retrofit dans des cycles répétitifs.

RecherchePaper
1 source
SFG-ROS : un framework de perception multi-agents dense adaptatif aux ressources
124arXiv cs.RO 

SFG-ROS : un framework de perception multi-agents dense adaptatif aux ressources

Des chercheurs de la Hochschule Esslingen (Allemagne) ont publié en mai 2026 sur arXiv un framework logiciel nommé SFG-ROS, conçu pour déployer des flottes hétérogènes de robots en perception collaborative multi-agents. Le système cible un problème bien documenté de ROS 2 : lorsque plusieurs robots échangent simultanément des flux denses de capteurs (LiDAR, caméras stéréo de profondeur), le middleware standard génère une saturation réseau rapide, des collisions de namespaces et une charge CPU qui croît avec le nombre d'abonnés. SFG-ROS propose trois mécanismes correctifs. D'abord, un routage de trafic piloté par schéma qui isole les flux haute fréquence intra-agent du réseau global via un schéma de nommage pleinement qualifié et un routage Fast DDS ciblé. Ensuite, un pipeline de décodage centralisé à la demande qui externalise la décompression des données capteur vers un noeud dédié, supprimant le traitement redondant côté consommateurs. Enfin, un pipeline de conteneurisation agnostique au matériel qui s'adapte dynamiquement aux accélérateurs hétérogènes, du poste de développement jusqu'au déploiement terrain sans reconfiguration. Les tests menés sur une flotte mixte de robots à roues et de robots marchants montrent que SFG-ROS borne le trafic réseau en O(1) quelle que soit la taille de la flotte, et réduit la pénalité CPU par abonné de 72,3 % par rapport à ROS 2 standard, sans dégradation de latence mesurée. Ce résultat de 72,3 % de réduction CPU est significatif pour les intégrateurs industriels qui opèrent des flottes mixtes en conditions réelles : il signifie concrètement qu'ajouter un nouveau robot consommateur de données ne fait pas croître linéairement la charge de traitement sur les noeuds existants. La propriété O(1) sur le réseau est peut-être encore plus critique : elle autorise des déploiements à grande échelle sans redimensionnement de l'infrastructure réseau, ce qui change le calcul économique des entrepôts automatisés multi-AMR ou des chantiers robotisés. L'approche agnostique au matériel répond à une friction fréquente en intégration : les pipelines ROS 2 sont souvent reconfigurés manuellement à chaque changement de plateforme (Jetson, GPU server, CPU embarqué). SFG-ROS automatise ce pont, ce qui réduit le temps de mise en service. Toutefois, les résultats proviennent d'un preprint non encore évalué par les pairs, et les conditions expérimentales exactes (taille de flotte testée, volume de données par canal, latence cible) ne sont pas détaillées dans le résumé disponible, ce qui limite la transposabilité directe des chiffres à d'autres configurations. SFG-ROS est publié sous licence permissive par l'Institut für Intelligente Systeme de la Hochschule Esslingen, une école d'ingénieurs allemande active en robotique embarquée et systèmes cyber-physiques. Le projet s'inscrit dans une tendance plus large de l'écosystème ROS 2 à combler les limites de scalabilité de DDS pour les flottes denses, tendance où l'on retrouve aussi des travaux de l'Université de Bonn, d'Apex.AI ou encore des efforts de standardisation du ROS 2 TSC autour de la qualité de service DDS. Du côté des alternatives, des frameworks propriétaires comme LCM (Lightweight Communications and Marshalling) ou les middlewares internes de Boston Dynamics et ANYbotics offrent des garanties similaires mais sans interopérabilité ouverte. SFG-ROS se positionne comme une couche d'orchestration open-source au-dessus de ROS 2 existant, ce qui abaisse la barrière à l'adoption. Le code est accessible sur iis-esslingen.github.io/sfg-ros, et la prochaine étape logique serait une validation sur des flottes de taille industrielle (dizaines d'agents) avec des benchmarks de latence publiés sous charge réelle.

UEPublié sous licence permissive par une école d'ingénieurs allemande, SFG-ROS est directement exploitable par les intégrateurs européens de flottes multi-robots (entrepôts AMR, chantiers robotisés) pour scaler leurs déploiements ROS 2 sans redimensionner l'infrastructure réseau.

InfrastructureOpinion
1 source
Robot industriel : des inspections dangereuses dans une usine de gaz aux Émirats confiées à un humanoïde
125Interesting Engineering 

Robot industriel : des inspections dangereuses dans une usine de gaz aux Émirats confiées à un humanoïde

ADNOC a déployé le robot d'inspection Taurob Inspector à la centrale de compression de gaz de Taweelah, opérée par ADNOC Gas dans l'émirat d'Abou Dhabi. Ce robot terrestre, conçu par la société autrichienne Taurob, patrouille de manière autonome les zones classées à risque d'explosion pour surveiller en continu l'état des installations. Il embarque un scanner LiDAR 3D, des caméras thermiques et un système d'imagerie ultra-haute définition offrant une couverture 360 degrés. Un bras articulé à quatre joints lui permet d'accéder à des points d'inspection initialement dimensionnés pour des opérateurs humains, et le robot peut gravir des escaliers industriels inclinés jusqu'à 45 degrés pour couvrir plusieurs niveaux d'une même installation. Certifié ATEX et intrinsèquement sûr, il opère dans une plage de températures allant de -20°C à +60°C, avec des missions en continu pouvant durer jusqu'à quatre heures grâce à une station de recharge et de pressurisation certifiée ATEX. En parallèle, ADNOC a annoncé le co-développement d'un second système, décrit comme le premier robot "opérateur" lourd du secteur énergétique, capable d'interagir physiquement avec les équipements : soulever des outils lourds, manoeuvrer des vannes, relever des jauges, avec une mise en service prévue fin 2026. Ce déploiement illustre un glissement de fond dans l'industrie énergétique : les opérateurs remplacent progressivement les rondes humaines en zones ATEX par des systèmes autonomes capables de détection précoce de fuites de gaz, de signatures thermiques anormales et d'alertes avant défaillance. L'aspect significatif ici est que le déploiement est décrit comme opérationnel sur une installation en production, et non comme un pilote en conditions contrôlées, ce qui représente un seuil de maturité différent de nombreuses annonces du secteur où la frontière entre démo et réalité terrain reste floue. La prochaine étape annoncée, le robot "opérateur" à manipulation physique, marquerait un passage des systèmes d'inspection passifs vers des robots capables d'intervention directe sur les équipements, un segment encore largement émergent dont les performances réelles à l'échelle industrielle restent à démontrer. Taurob, fondée à Vienne, s'est spécialisée sur les robots terrestres pour environnements industriels dangereux, avec une gamme ciblant explicitement les certifications ATEX requises dans le pétrole, le gaz et la chimie. Sur ce segment, la concurrence la plus visible est ANYbotics, la spin-off ETH Zurich dont le quadrupède Anymal patrouille depuis début 2025 l'installation de capture de CO2 Northern Lights d'Equinor en Norvège occidentale, dans des conditions climatiques également sévères. Boston Dynamics avec Spot est aussi présent sur ce marché. Le déploiement à Taweelah s'inscrit dans la stratégie nationale d'ADNOC alignée sur l'UAE AI Strategy 2031 et l'agenda Robotics & Automation des Émirats, cadre institutionnel qui suggère que d'autres déploiements similaires seront annoncés à court terme dans la région.

UELe déploiement opérationnel de Taurob (Autriche) à Taweelah et le déploiement concurrent d'ANYbotics (ETH Zurich, Suisse) en Norvège confirment la compétitivité des acteurs européens sur le marché mondial de la robotique d'inspection ATEX en environnements énergétiques dangereux.

FR/EU ecosystemeActu
1 source
OCELOT : odométrie et estimation du contact pour robots à pattes
126arXiv cs.RO 

OCELOT : odométrie et estimation du contact pour robots à pattes

Une équipe de chercheurs a publié OCELOT (Odometry and Contact Estimation for Legged rObots), un pipeline complet d'odométrie pour robots à pattes reposant exclusivement sur des capteurs proprioceptifs embarqués : une centrale inertielle (IMU) solidaire du corps, des encodeurs articulaires et des capteurs de force. Le système s'appuie sur un filtre de Kalman à état d'erreur (ESEKF) dont l'état est corrigé par les pieds détectés en appui stationnaire. Sa contribution centrale est un module de détection de contact fusionnée et de quantification d'incertitude : deux détecteurs tournent en parallèle pour chaque pied, le premier combinant un modèle de mélange gaussien (GMM) avec une machine à états finis (FSM) à déclenchement anti-rebond sur les données de force, le second appliquant un test de rapport de vraisemblance généralisé (GLRT) sur la vélocité cinématique estimée du pied. Les scores continus issus des deux détecteurs sont fusionnés pour identifier les glissements. Pour valider l'approche, les auteurs ont constitué un dataset de 29 séquences couvrant 2,4 km sur des terrains variés (béton, herbe, graviers, rochers) et ont comparé OCELOT à des méthodes proprioceptives et extéroceptives. Le code et un package ROS2 temps réel sont publiés en open source. L'intérêt principal de OCELOT réside dans sa robustesse aux terrains glissants sans recourir à des capteurs extéroceptifs (caméra, lidar), qui restent coûteux, fragiles et sensibles aux conditions d'éclairage ou de poussière. Pour un intégrateur déployant un robot quadrupède en environnement industriel ou outdoor, disposer d'une odométrie fiable avec uniquement l'équipement embarqué de série réduit significativement la complexité système. La disponibilité d'un package ROS2 prêt à l'emploi abaisse la barrière d'adoption. Le benchmark face à des méthodes extéroceptives constitue un signal fort : il suggère que l'estimation de contact bien conçue peut rivaliser avec des approches visuelles sur des trajectoires courtes à moyennes. Les robots à pattes de type Spot (Boston Dynamics), ANYmal (ANYbotics) ou Unitree B2 sont les cibles naturelles de tels pipelines. L'odométrie proprioceptive pour quadrupèdes est un problème ouvert depuis des années, avec des travaux antérieurs comme Pronto (IIT) ou les pipelines d'ETH Zurich sur ANYmal. OCELOT se distingue par la combinaison explicite GMM+GLRT pour la détection de glissement, un point sensible dans les déploiements extérieurs. Les prochaines étapes probables incluent la validation sur des trajectoires longue distance et l'intégration dans des architectures SLAM proprioceptif complet.

UELa publication en open source d'un package ROS2 directement intégrable peut bénéficier aux intégrateurs et labos européens (ANYbotics/Suisse, IIT/Italie) déployant des quadrupèdes en environnements industriels ou extérieurs difficiles.

RecherchePaper
1 source
Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques
127arXiv cs.RO 

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

Des chercheurs ont publié sur arXiv (2605.21935, mai 2026) un système de cartographie dynamique baptisé MIF (Multi-modal Interactive Field), conçu pour permettre aux robots humanoïdes de naviguer et de manipuler des objets dans des environnements réels en constante évolution. Testé sur un Unitree G1, le système améliore le taux de relocalisation dans un bureau non-statique de 12 % à 94 %, tout en réduisant l'empreinte mémoire sémantique de 91,4 % grâce à la distillation de features. MIF repose sur trois composantes couplées : un champ d'apparence basé sur le 3D Gaussian Splatting (3DGS) conscient de l'incertitude pour atténuer le flou induit par la marche bipède, un champ spatial maintenant une mémoire topologique de la scène, et un champ géométrique qui calcule une pose d'interaction sûre (Interaction Pose Safety, IPS) avant chaque manipulation. Un score de détection de discordance distingue les fausses alarmes dues aux oscillations du robot des changements persistants réels, et ne met à jour que les zones localement incohérentes. L'enjeu pratique est direct : les systèmes de cartographie sémantique existants (semantic maps, scene graphs) supposent généralement des trajectoires caméra stables et des environnements statiques, deux hypothèses qu'un humanoïde en mouvement viole en permanence. Passer de 12 % à 94 % de succès en relocalisation sur un robot réel dans un bureau avec personnes en mouvement constitue un résultat concret, pas une démo en laboratoire contrôlé. Pour un intégrateur ou un COO industriel évaluant des humanoïdes pour des tâches de pick-and-place, la capacité à maintenir une carte cohérente sous perturbation locomotrice est un prérequis opérationnel non négociable que la plupart des démos actuelles ne valident pas. Le contexte de ce travail s'inscrit dans l'essor du 3DGS comme alternative aux NeRF pour la représentation de scènes en temps réel, une technique popularisée en 2023 et dont l'adaptation à la robotique mobile reste un sujet de recherche actif. L'Unitree G1 est l'une des plateformes humanoïdes commerciales les plus accessibles du marché (autour de 16 000 dollars), ce qui rend ce type de validation plus reproductible que sur des robots propriétaires comme l'Atlas de Boston Dynamics ou le Figure 02. Le code et la page projet sont publiés (ziya-jiang.github.io/MIF-homepage), signal d'une recherche ouverte à la reproduction. Les prochaines étapes naturelles seraient une validation à plus grande échelle et une intégration dans des pipelines de manipulation end-to-end, terrain sur lequel Physical Intelligence (Pi-0) et les équipes GR00T de NVIDIA travaillent en parallèle.

HumanoïdesPaper
1 source
Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes
128arXiv cs.RO 

Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes

Des chercheurs ont publié sur arXiv (2605.20484) une architecture de graphe de facteurs qui améliore significativement la précision verticale du SLAM LiDAR-inertiel pour robots à pattes en environnement sans GNSS. Le système augmente le framework LIO-SAM avec une voie cinématique parallèle, alimentée par l'odométrie proprioceptive des jambes, couplée à la voie LiDAR-inertielle principale via une contrainte de pose relative avec modèle de bruit sélectif. Testé sur un quadrupède Linxai D50 lors de deux boucles extérieures totalisant plus d'un kilomètre, l'approche réduit la dérive en élévation de plus de 30 mètres à moins de 30 centimètres, soit une réduction de deux ordres de grandeur. Sur un scénario où le pipeline de référence échoue complètement à converger, la méthode proposée maintient la localisation. Ce résultat est significatif parce qu'il exploite une source de données déjà disponible à bord, calculée pour le contrôle de la locomotion, sans capteur supplémentaire. Le problème de la dérive verticale du LiDAR est bien documenté dans les environnements géométriquement pauvres ou répétitifs (couloirs, forêts, parkings), où les points de correspondance sont insuffisants pour contraindre l'axe Z. Utiliser l'odométrie des pattes comme ancre verticale légère est une approche pragmatique : elle s'insère dans les pipelines existants sans reconfiguration hardware, ce qui en facilite le déploiement sur des plateformes commerciales comme Unitree, Boston Dynamics Spot, ou ANYmal. Pour les intégrateurs et les équipes déployant des robots en inspection industrielle ou en environnements souterrains, c'est une piste concrète pour améliorer la robustesse SLAM sans surcoût matériel. LIO-SAM est un framework SLAM LiDAR-inertiel développé par Ji Zhang et Sanjiv Singh (Carnegie Mellon), largement adopté dans la communauté robotique depuis 2020, notamment pour les robots terrestres et aériens. Le couplage proprioception-SLAM n'est pas nouveau en théorie, mais son intégration efficace dans un graphe de facteurs en conditions réelles reste un sujet actif. Côté concurrence, les approches actuelles s'appuient généralement sur la fusion IMU renforcée (LOAM, LEGO-LOAM) ou l'ajout de capteurs barométriques pour corriger la dérive verticale. La prochaine étape naturelle serait de tester l'approche sur des terrains avec dénivelé marqué, et d'évaluer la robustesse face aux glissements de pattes, cas limite non abordé dans cette version préliminaire.

RecherchePaper
1 source
Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble
129arXiv cs.RO 

Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble

Une équipe de chercheurs publie en mai 2026 un preprint (arXiv:2605.21242) portant sur la prédiction automatique de compétences robotiques dans les flottes hétérogènes. À partir d'une description de tâche en langage naturel, le système identifie quelles capacités physiques sont requises parmi six catégories: vol, roues, pattes, navigation en surface aquatique, navigation sous-marine et manipulation avec mains. Faute de données labellisées existantes pour ce mapping, les auteurs ont construit un dataset synthétique via génération assistée par LLM et audit ciblé des étiquettes. Un ensemble de deux encodeurs de phrases fine-tunés (mpnet + MiniLM, environ 133 millions de paramètres au total) atteint 83,5 % de précision sur un jeu de test stratifié de 200 tâches, dépassant Kimi K2 (1 000 milliards de paramètres, architecture MoE) à 72,0 %, GPT-OSS-120B à 71,5 %, et Llama-4-Scout-17B à 69,0 %, tous évalués en zero-shot avec le même prompt. Ce résultat expose une asymétrie opérationnelle significative: un modèle de 133 millions de paramètres déployable localement surclasse des LLMs un millier de fois plus volumineux sur une tâche de routage de flotte. Pour les intégrateurs gérant des flottes mixtes (humanoïdes, quadrupèdes, drones, rovers), l'assignation automatique de la bonne plateforme à la bonne tâche reste un problème non résolu en production. Une limite mérite d'être soulignée: le jeu d'évaluation de 200 tâches synthétiques a été produit par les auteurs eux-mêmes, ce qui appelle une validation indépendante sur des scénarios réels avant de tirer des conclusions définitives. La gestion de flottes robotiques hétérogènes s'est intensifiée avec la multiplication des plateformes commerciales (Boston Dynamics Spot, Unitree B2, humanoïdes Figure ou Agility Digit, drones industriels), et les approches actuelles de routage reposent encore sur des règles manuelles peu scalables. Les auteurs s'inscrivent dans la tendance de distillation de capacités LLM vers des modèles compacts (famille SetFit, sentence-transformers), appliquée ici pour la première fois à la sélection de plateforme robotique. Ce preprint ne mentionne ni déploiement terrain ni partenariat industriel, mais l'utilisation de mpnet et MiniLM, disponibles en open-source sur Hugging Face, abaisse la barrière à une validation industrielle rapide.

RecherchePaper
1 source
Tests adversariaux des filtres de sécurité du robot humanoïde SPARK
130arXiv cs.RO 

Tests adversariaux des filtres de sécurité du robot humanoïde SPARK

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.19009) une étude de robustesse portant sur les filtres de sécurité SPARK pour robots humanoïdes. Le travail consiste en une réplication du cas de référence G1SportMode\D1\WG\SO\v1 dans le simulateur MuJoCo, puis en une batterie de tests adversariaux sur six méthodes de filtrage : RSSA, RSSS, SSA, CBF (Control Barrier Function), PFM et SMA. Les auteurs ont également construit un pipeline de post-traitement pour convertir les logs bruts SPARK en trois métriques exploitables, suivi d'objectif, distance minimale aux obstacles, et nombre de pas en collision. Résultat principal : certaines méthodes optimisent le suivi de trajectoire au détriment de l'évitement, tandis que d'autres réduisent les collisions sans maintenir l'efficacité de déplacement. L'importance de ce travail tient à un angle souvent négligé dans l'évaluation des humanoïdes : les benchmarks nominaux, ceux qui servent à comparer les méthodes en conditions idéales, ne capturent pas les modes d'échec qui émergent dans des environnements contraints. Trois types de perturbations ont été testés : densification des obstacles ("obstacle crowding"), estimation bruitée des distances, et information obstacle avec délai. Dans ces conditions, le comportement de sécurité de plusieurs filtres se dégrade significativement, un résultat qui contredit implicitement l'hypothèse que les scores de référence suffisent à valider une méthode avant déploiement terrain. Pour un intégrateur ou un responsable de sécurité industrielle, c'est un signal clair : la qualification d'un filtre de sécurité humanoïde doit inclure des scénarios de stress, pas seulement les cas nominaux. Le SPARK framework s'est imposé ces dernières années comme cadre de référence pour évaluer la sécurité des humanoïdes à corps complet, face à la complexité inhérente de ces systèmes : haute dimensionnalité, contraintes de collision multiples, proximité avec des opérateurs humains. Le cas répliqué ici est lié au robot Unitree G1, l'une des plateformes humanoïdes accessibles les plus répandues en recherche. Les concurrents directs dans cet espace incluent des travaux sur MPC avec CBF (MIT, CMU), les approches RoboSafe d'ETH Zurich, et les filtres embarqués dans Boston Dynamics Atlas. La suite logique de cette recherche serait un protocole de stress testing standardisé, intégrable dans les pipelines de CI/CD robotique avant déploiement en environnement semi-contrôlé.

RechercheOpinion
1 source
DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA
131arXiv cs.RO 

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.19294) une méthode baptisée DEFLECT, Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning, pour corriger un défaut structurel des politiques VLA (Vision-Language-Action) déployées en production. Le problème ciblé est l'inférence asynchrone : pendant qu'un modèle VLA calcule le prochain chunk d'actions, le robot exécute déjà le chunk précédent, conditionné sur une observation capturée plusieurs cycles de contrôle plus tôt. Ce décalage entre prédiction et exécution est bénin à faible latence, mais catastrophique dès que l'inférence s'étire : sur le benchmark Kinetix, le taux de succès s'effondre de 89 % à moins de 1 % quand le cycle d'inférence couvre jusqu'à sept pas de contrôle. DEFLECT apporte un gain de +6,4 points de succès dans ce régime haute latence (5 à 7 pas), +4,6 points sur un VLA réel à la latence maximale testée, avec des améliorations cohérentes sur deux tâches physiques : un pick-and-place bimanuel sur convoyeur et un jeu réactif de type whack-a-mole. L'intérêt industriel de DEFLECT tient à sa nature d'affinement post-entraînement entièrement offline, conçu comme une mise à niveau quasi plug-in sur les stacks VLA asynchrones existants. La méthode construit des paires d'actions contrefactuelles (fraîche vs. périmée) à partir d'une politique de référence gelée, puis les note via un estimateur implicite de ratio de vraisemblance par flow-matching, sans étiquettes humaines, sans modèle de récompense, et sans rollouts en ligne. Ce profil d'intégration est stratégique : les équipes qui déploient aujourd'hui des VLA en environnement industriel, où la latence réseau, la charge GPU et la fréquence de contrôle sont rarement synchronisées, peuvent théoriquement appliquer DEFLECT sans refaire de collecte de données ni de fine-tuning supervisé. La robustesse au délai est un frein réel à la commercialisation des politiques généralisées, et c'est la première approche qui quantifie explicitement l'ampleur de l'effondrement avant de le corriger. Les politiques VLA ont émergé comme paradigme dominant depuis RT-2 (Google DeepMind, 2023) et sont au coeur des systèmes de Physical Intelligence (pi0), de Figure AI (Helix), et de Boston Dynamics. Le problème de l'inférence asynchrone est documenté dans plusieurs travaux depuis 2024, mais les solutions proposées jusqu'ici impliquaient généralement un entraînement en ligne coûteux ou des architectures modifiées. DEFLECT se positionne comme une couche de correction légère, applicable à posteriori, ce qui facilite son adoption dans des pipelines déjà stabilisés. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat commercial dans cette version arXiv, il s'agit d'un résultat de recherche, pas d'un produit shipped. Les prochaines étapes probables incluent des évaluations sur des benchmarks standardisés comme LIBERO ou Open-X Embodiment, et potentiellement une intégration dans des frameworks VLA open-source.

IA physiqueOpinion
1 source
LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes
132arXiv cs.RO 

LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes

Une équipe de chercheurs présente sur arXiv (réf. 2605.20072) une étude empirique sur le comportement des LLM incarnés en robotique. Pour sonder l'effet de la fidélité perceptuelle sur les agents cognitifs, ils ont conçu une série d'expériences autour du "Lockbox", un puzzle mécanique séquentiel aux interdépendances cachées, déployé sur un robot physique. Trois modes d'observation ont été testés : RGB brut, RGB-D (avec profondeur), et observations symboliques ground-truth (état parfaitement connu de l'environnement). Le résultat est contre-intuitif : les agents obtiennent leurs meilleures performances avec le RGB brut et leurs pires avec les observations parfaites. En simulation, les chercheurs ont consolidé ce constat en injectant du bruit artificiel, en inversant aléatoirement les résultats des actions perçues par l'agent. La performance culmine à un taux d'inversion de 40%, avec une multiplication du taux de réussite par 2,85 par rapport à la baseline sans bruit. Ce résultat interroge directement un postulat central de la robotique cognitive : l'idée qu'une perception plus précise améliore mécaniquement la prise de décision. L'analyse des trajectoires d'actions révèle que le gain provient d'une réduction des boucles répétitives : un agent qui perçoit l'état du monde avec précision peut se bloquer dans un raisonnement circulaire, faute de signal lui indiquant de changer de stratégie. Un bruit perceptuel modéré brise ces boucles en forçant l'agent à reconsidérer ses hypothèses. Cette observation soulève une question sérieuse pour les pipelines VLA (Vision-Language-Action) actuels, où la précision des capteurs et la richesse des représentations symboliques sont présentées comme des leviers d'amélioration inconditionnels. Les auteurs tirent une conclusion méthodologique forte : les taux de réussite seuls sont insuffisants pour évaluer les LLM dans des tâches incarnées, car une performance mesurée peut refléter une interaction fortuite entre erreurs perceptuelles et défauts de raisonnement, plutôt qu'une résolution robuste. Cette mise en garde arrive à un moment où Figure, 1X, Agility Robotics et Boston Dynamics intègrent des LLM comme planificateurs de haut niveau dans leurs humanoïdes, souvent évalués sur des benchmarks de tâches simples en environnement contrôlé. L'approche "empirical AI" adoptée ici, qui consiste à varier systématiquement les entrées et mesurer les effets comportementaux, offre un cadre d'évaluation plus rigoureux que les métriques agrégées habituelles.

RecherchePaper
1 source
Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse
133Le Big Data 

Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse

Le robot humanoïde G1 du fabricant chinois Unitree Robotics vient de franchir une nouvelle étape lors d'une démonstration publiée le 19 mai 2026 : l'engin réagit désormais à des commandes vocales en temps réel, générant ses mouvements de manière autonome grâce à une intelligence artificielle embarquée directement sur la machine. La vidéo, tournée en une seule prise avec l'audio capté sur place, montre le G1 interpréter des instructions orales et produire les actions correspondantes presque instantanément, sans animations préprogrammées. Une légère latence reste perceptible, mais l'absence de montage agressif ou de coupures suspectes rend la démonstration particulièrement crédible dans un secteur où les mises en scène trompeuses sont monnaie courante. Le G1 est commercialisé à partir de 13 500 dollars, et Unitree prévoit de produire entre 10 000 et 20 000 unités en 2026. Cette capacité à interpréter le langage naturel pour générer des actions physiques en temps réel représente un saut qualitatif majeur pour les robots humanoïdes. Jusqu'ici, la plupart des démonstrations grand public reposaient sur des séquences précodées déclenchées par des mots-clés précis, loin d'une véritable interaction spontanée. Le fait que le G1 adapte ses mouvements selon des instructions variables rapproche l'expérience d'un usage réel dans un environnement domestique ou professionnel. Pour les industries ciblant l'assistance à la personne, la logistique ou les environnements non structurés, ce type de contrôle vocal fluide change concrètement l'équation de déploiement. Quant au prix, 13 500 dollars tranche radicalement avec des concurrents comme Boston Dynamics ou Figure AI, dont les modèles dépassent facilement plusieurs dizaines ou centaines de milliers de dollars. Unitree Robotics s'est imposé ces dernières années comme l'un des acteurs les plus agressifs du marché de la robotique humanoïde, multipliant les démonstrations de capacités physiques remarquables à des prix délibérément bas. La stratégie semble claire : occuper le terrain avant que les géants de la tech, notamment Tesla avec Optimus ou les startups bien financées de la Silicon Valley, ne dominent un marché encore ouvert. L'annonce d'une production de masse entre 10 000 et 20 000 unités cette année signale un passage du stade de prototype à celui de produit industriel. L'intégration de la voix comme interface principale d'interaction, combinée à une IA embarquée capable de générer des mouvements à la volée, ouvre la voie à des robots utilisables sans formation technique. La prochaine bataille se jouera probablement sur la fiabilité en conditions réelles et sur la richesse du vocabulaire d'actions disponibles, deux fronts sur lesquels aucun acteur ne peut encore revendiquer une victoire définitive.

HumanoïdesOpinion
1 source
Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable
134arXiv cs.RO 

Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable

Des chercheurs du Norwegian University of Science and Technology (NTNU), au sein de leur Autonomous Robots Lab (ARL), ont publié et mis en open source un framework d'autonomie modulaire baptisé Unified Autonomy Stack (arXiv:2605.12735, mai 2025). L'architecture repose sur trois modules interdépendants : perception multimodale (LiDAR, radar, vision, centrale inertielle), planification multi-comportements, et navigation sécurisée multicouche. La fusion sensorielle s'appuie sur un graphe de facteurs pour la localisation et la cartographie simultanées (SLAM), complétée par une compréhension sémantique de la scène. La planification utilise des techniques d'échantillonnage adaptatif à différentes échelles spatiales, tandis que la sécurité de navigation combine reconstruction de carte en ligne, politiques exoceptives par deep learning et filtres de dernier recours via des fonctions de barrière de contrôle (Control Barrier Functions, CBF). Le système a été validé sur le terrain avec deux classes de robots : aériens (rotorcraft multirotors) et terrestres à pattes, dans des environnements GNSS-dégradés, enfumés, géométriquement complexes et à forte densité d'obstacles. La contribution principale n'est pas un algorithme isolé mais une architecture système complète, validée dans des conditions réellement dégradées, ce qui reste rare dans la littérature académique. La capacité à opérer sans GPS dans des espaces à textures auto-similaires (couloirs industriels, tunnels) ou sous visibilité réduite répond directement aux besoins de l'inspection robotisée en milieux contraints : sites miniers, infrastructures énergétiques, espaces confinés. L'ouverture totale du code source, modules perception, planification et sécurité inclus, abaisse la barrière d'entrée pour les intégrateurs qui ne souhaitent pas reconstruire cette couche d'autonomie de zéro. La portabilité cross-morphologies, le même stack pour un drone et un quadrupède, est une proposition de valeur forte pour les plateformes hybrides. L'NTNU ARL dispose d'un historique solide en navigation autonome en milieux dégradés, notamment à travers sa participation à la DARPA Subterranean Challenge. Ce projet positionne le laboratoire norvégien comme acteur open source dans un espace jusqu'ici dominé par des solutions propriétaires américaines telles que le Nav SDK de Boston Dynamics, la suite Clearpath, ou le système ANYmal d'ANYbotics. Les datasets de validation sont également mis à disposition, signal d'une ambition d'adoption communautaire active. Les extensions naturelles concerneraient l'intégration avec des couches de commande haute performance (MPC, whole-body control) et les flottes multi-robots hétérogènes.

UELe framework open source de l'NTNU offre aux intégrateurs robotiques européens une alternative concrète aux suites propriétaires américaines (Nav SDK Boston Dynamics, ANYbotics) pour déployer de l'autonomie en milieux GNSS-dégradés ou contraints.

RecherchePaper
1 source
SAP et Cyberwave déploient des robots autonomes à base d'IA dans un entrepôt logistique SAP
135Robotics & Automation News 

SAP et Cyberwave déploient des robots autonomes à base d'IA dans un entrepôt logistique SAP

SAP, premier éditeur mondial de logiciels ERP avec plus de 300 000 clients dans 180 pays, et Cyberwave, startup spécialisée en logiciels IA pour la robotique, ont annoncé le déploiement de robots autonomes alimentés par intelligence artificielle dans un entrepôt logistique SAP en activité. Le communiqué ne précise pas les caractéristiques techniques des robots (payload, degrés de liberté, temps de cycle), ni les volumes traités, ni la localisation géographique du site. Cette initiative s'inscrit dans la stratégie "Physical AI" que SAP a formellement annoncée en 2025. Ce déploiement est notable parce qu'il marque un glissement de rôle pour SAP : l'éditeur ne se contente plus de fournir les logiciels WMS (Warehouse Management System) qui orchestrent la logistique, il opère désormais directement des robots autonomes dans ses propres installations. Pour les intégrateurs et les DSI industriels, cela pose une question concrète : SAP cherche-t-il à absorber la couche middleware robotique dans sa suite, réduisant la marge de manoeuvre des spécialistes tiers ? La distinction entre annonce de déploiement et mise en production pérenne reste à confirmer, le communiqué ne donnant pas de métriques opérationnelles vérifiables. Cyberwave, fondée pour développer des couches logicielles d'autonomie pour robots industriels, s'appuie ici sur l'intégration native avec l'écosystème SAP comme argument commercial différenciant. Dans l'espace AMR pour entrepôts, la concurrence est dense : Exotec (France, déjà déployé chez Decathlon et Fnac-Darty), Locus Robotics, Körber et Boston Dynamics se disputent les grands comptes. L'absence de chiffres concrets dans cette annonce invite à attendre une communication plus étoffée avant d'évaluer l'impact réel du partenariat.

UESAP, éditeur ERP allemand au cœur des systèmes logistiques européens, amorce une intégration verticale vers la couche robotique physique qui pourrait réduire la marge de manœuvre des intégrateurs tiers et forcer les DSI industriels européens à reconsidérer leur architecture middleware.

FR/EU ecosystemeOpinion
1 source
Muninn : un modèle de diffusion de trajectoires, désormais plus rapide
136arXiv cs.RO 

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

Une équipe de chercheurs a publié Muninn (arXiv:2605.09999), un module d'accélération sans réentraînement pour les planificateurs de trajectoires basés sur la diffusion. Le système atteint jusqu'à 4,6x de gain en vitesse d'exécution sur plusieurs architectures de diffusion en espace d'état, sans dégradation mesurée des performances ni des métriques de sécurité. Muninn fonctionne comme un wrapper de cache : à chaque étape du débruitage itératif, il choisit en temps réel de recalculer la sortie du denoiser ou de réutiliser le résultat mis en cache. Cette décision repose sur deux signaux analytiques calibrés hors-ligne, une sonde légère de l'évolution de la représentation interne de la trajectoire et des coefficients de propagation d'erreur du denoiser, qui produisent ensemble un budget d'incertitude par étape. Ce budget borne formellement l'écart maximal entre la trajectoire mise en cache et celle qui aurait été calculée à pleine puissance de calcul. Les gains ont été validés sur matériel réel, en navigation en boucle fermée et en manipulation. La lenteur des modèles de diffusion en planification de trajectoires est un verrou bien identifié pour la robotique temps-réel. Les accélérations existantes imposaient jusqu'ici un compromis inévitable : modifier le sampler dégradait la qualité de trajectoire, tandis que la compression du réseau nécessitait un réentraînement coûteux. Muninn contourne ce dilemme en opérant strictement sans modifier les poids du modèle, ce qui le rend applicable immédiatement à n'importe quel planificateur diffusion déjà entraîné. Pour un intégrateur ou une équipe robotique industrielle, cela rend concrètement viables des architectures comme Diffusion Policy dans des boucles de contrôle haute fréquence. La certification analytique des bornes de déviation constitue un argument de poids pour les déploiements où la sécurité est une contrainte réglementaire. Les politiques par diffusion appliquées à la robotique ont émergé vers 2022-2023, portées notamment par Diffusion Policy (Chi et al., Columbia University), et se sont depuis déployées dans des architectures VLA et des planificateurs en espace d'état. Les méthodes d'accélération antérieures, DDIM et distillation par connaissance en tête, ne proposaient pas de cache adaptatif avec bornes certifiées, ce qui positionne Muninn comme une surcouche orthogonale et rétrocompatible avec l'existant. En tant que preprint arXiv, les résultats n'ont pas encore été soumis à revue par les pairs. Les prochaines étapes logiques concernent les stacks robotiques humanoïdes et industriels (Figure, Unitree, Boston Dynamics) qui expérimentent des politiques diffusion et cherchent à réduire la latence de planification en production. Le code est publié publiquement sur GitHub (gokulp01/Muninn).

RecherchePaper
1 source
REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?
137arXiv cs.RO 

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Des chercheurs ont publié REI-Bench (arXiv:2505.10872), le premier benchmark dédié à évaluer comment les planificateurs de tâches robotiques basés sur des grands modèles de langage (LLM) gèrent les instructions humaines vagues. L'étude porte spécifiquement sur les expressions référentielles (ER), formulations dont le sens dépend du contexte dialogique et de l'environnement immédiat, comme "prends ça" ou "mets-le là-bas". Les expériences montrent que cette ambiguïté fait chuter le taux de succès des planificateurs jusqu'à 36,9 points de pourcentage. L'analyse des cas d'échec révèle que la majorité provient d'objets manquants dans les plans générés : le modèle ne résout pas correctement la référence et omet l'objet cible de la séquence d'actions. Ce résultat est significatif pour les intégrateurs et les équipes qui déploient des robots en environnement non contrôlé. La quasi-totalité des benchmarks existants, et donc des pipelines de planification actuels, supposent des instructions claires et structurées, ce qui correspond à un utilisateur expert. Or, les populations prioritaires pour la robotique de service (personnes âgées, enfants, opérateurs non formés) sont précisément celles qui formulent des instructions les plus ambiguës. La dégradation mesurée n'est pas marginale : un écart de 37 points sur le taux de succès représente un planificateur fonctionnel en labo qui devient inutilisable en conditions réelles. Le papier souligne également que les approches classiques d'atténuation, prompts enrichis, chaînes de pensée (chain-of-thought), apprentissage en contexte (in-context learning), ne suffisent pas à combler cet écart. Pour y répondre, les auteurs proposent une méthode appelée "task-oriented context cognition" : avant de générer le plan d'action, le système produit explicitement une instruction reformulée et désambiguïsée à partir du contexte environnemental et dialogique. Cette approche atteint l'état de l'art sur REI-Bench en surpassant les baselines précitées. Le benchmark s'inscrit dans un effort plus large de la communauté pour combler le fossé entre performances en simulation et déploiement réel, un problème central pour des acteurs comme Boston Dynamics, Agility Robotics ou les startups européennes telles qu'Enchanted Tools, dont les robots humanoïdes devront interagir avec des utilisateurs non techniques. Les prochaines étapes naturelles seraient d'intégrer REI-Bench dans les pipelines d'évaluation de modèles VLA (vision-language-action) comme pi0 ou OpenVLA, où la résolution de références visuelles et linguistiques est un point de friction connu.

UEL'approche de désambiguïsation proposée (task-oriented context cognition) est directement applicable aux équipes européennes développant des robots de service pour utilisateurs non techniques, notamment les startups comme Enchanted Tools dont les humanoïdes devront gérer des instructions vagues d'opérateurs non formés.

RecherchePaper
1 source
IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel
138arXiv cs.RO 

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

Lors du SAE World Congress 2026, un panel intitulé "Embodied AI in Action" a réuni des experts issus de l'automobile, de la robotique, de l'intelligence artificielle et de l'ingénierie de la sécurité pour faire le point sur le déploiement réel des systèmes d'IA incarnée. Le compte rendu de cette session, publié sous forme de livre blanc (arXiv:2605.10653), couvre trois grandes familles de systèmes : les véhicules autonomes, les robots mobiles et les machines industrielles autonomes. Contrairement à une annonce produit, ce document n'avance pas de métriques de performance spécifiques, payload, cycle time, taux de déploiement, mais synthétise le consensus d'experts sur les conditions nécessaires à un déploiement industriel fiable. Le message central est explicite : l'IA incarnée quitte les labos et entre dans des environnements opérationnels réels, avec toutes les contraintes que cela implique. Ce changement de statut, du prototype au système déployé, est précisément ce qui rend ce document pertinent pour les intégrateurs et les décideurs B2B. Le panel souligne que l'IA incarnée doit être traitée comme un défi systémique complet : rigueur d'ingénierie, gouvernance du cycle de vie, conception centrée utilisateur, et standards réglementaires encore en construction. Ce n'est pas une position nouvelle, mais le fait qu'elle émerge d'un consensus d'acteurs industriels, et non d'un seul laboratoire de recherche, signale que le secteur commence à s'aligner sur un cadre commun. La question de la confiance (trust) et de la sûreté opérationnelle est présentée comme aussi déterminante pour le succès long terme que les avancées techniques en elles-mêmes, ce qui tranche avec les discours purement axés sur les capacités des modèles. Le SAE (Society of Automotive Engineers) est l'organisation qui a défini les niveaux d'autonomie (L0 à L5) devenus la référence industrielle mondiale, son implication dans le cadrage de l'IA incarnée n'est donc pas anodine. Ce livre blanc s'inscrit dans une série d'initiatives de standardisation qui se multiplient depuis 2024, portées aussi par l'ISO, l'IEEE et l'UE dans le cadre de l'AI Act. Sur le plan concurrentiel, les géants du secteur, Boston Dynamics (Spot, Atlas), Figure AI (Figure 03), Tesla (Optimus), Agility Robotics (Digit), avancent chacun leur propre cadre de certification. Des acteurs européens comme Enchanted Tools ou Wandercraft sont concernés par ces évolutions réglementaires. Les prochaines étapes probables : la formalisation de standards sectoriels et des exigences de validation formelle pour les systèmes déployés en environnement humain partagé.

UELes acteurs européens comme Enchanted Tools et Wandercraft seront directement soumis aux standards de sécurité et de validation formelle qui émergent de ces initiatives SAE/ISO/IEEE, en convergence avec les exigences de l'AI Act pour les systèmes d'IA incarnée déployés en environnement humain partagé.

RegulationReglementation
1 source
Comment enseigner la même compétence à différents robots
139Robohub 

Comment enseigner la même compétence à différents robots

Des chercheurs de l'EPFL ont publié en 2026 dans la revue Science Robotics un nouveau cadre de contrôle robotique baptisé "Kinematic Intelligence", développé au sein du laboratoire LASA (Learning Algorithms and Systems Laboratory) sous la direction d'Aude Billard. Le principe repose sur trois étapes : une tâche démontrée une seule fois par un opérateur humain est capturée via motion-capture, convertie mathématiquement en une stratégie de mouvement générique, puis automatiquement adaptée aux contraintes cinématiques de chaque robot cible (amplitudes articulaires, positions d'équilibre, limites mécaniques). Dans une expérience conduite sur une ligne d'assemblage, un humain démontre trois actions successives - pousser un bloc de bois d'un convoyeur vers un établi, le déposer sur une table, puis le lancer dans un panier - et trois robots commerciaux de morphologies différentes reproduisent fidèlement cette séquence, y compris lorsque la répartition des étapes entre machines est modifiée en cours d'exécution. L'enjeu industriel est direct : reprogrammer une flotte de robots lors d'un changement de génération matérielle représente aujourd'hui un coût significatif en temps et en expertise, même quand les nouvelles machines remplissent des fonctions identiques. Kinematic Intelligence propose une alternative concrète : démontrer une fois, déployer sur plusieurs plateformes sans réécriture. Pour les intégrateurs et les décideurs industriels, cela ouvre la voie à une réduction du temps de mise en service et à une meilleure résilience face à l'évolution rapide du hardware robotique. La publication valide également une hypothèse structurante : un transfert de compétences cross-robot peut garantir formellement un comportement sûr et prédictible, sans recourir à de l'apprentissage par renforcement spécifique à chaque plateforme. Sthithpragya Gupta (doctorant LASA, co-premier auteur) et Durgesh Haribhau Salunkhe (chercheur LASA, co-premier auteur) soulignent que "chaque robot interprète la même compétence à sa façon, mais toujours dans des limites sûres et faisables". À noter : aucune métrique de taux de succès agrégé ni de temps de cycle n'est communiquée publiquement, ce qui limite l'évaluation quantitative de la robustesse à grande échelle. Le LASA est un laboratoire de référence en apprentissage par démonstration (Learning from Demonstration), avec une trajectoire longue sur l'imitation du mouvement humain. La recherche s'inscrit dans un paysage concurrentiel dense : les approches VLA (Vision-Language-Action) de Google DeepMind, pi-0 de Physical Intelligence ou les frameworks sim-to-real de Figure AI et Boston Dynamics visent eux aussi à réduire le coût de déploiement cross-plateforme, mais s'appuient sur de grands volumes de données et du fine-tuning. Kinematic Intelligence se distingue par son approche analytique et sa garantie formelle de sécurité, deux propriétés potentiellement attractives dans des environnements réglementés comme l'industrie pharmaceutique, automobile ou agroalimentaire. Les prochaines étapes annoncées incluent la collaboration humain-robot et l'interaction en langage naturel, avec l'ambition de rendre le système opérable sans expertise en programmation robotique.

UELa recherche de l'EPFL-LASA ouvre une piste concrète pour les intégrateurs industriels européens souhaitant réduire les coûts de reprogrammation lors des renouvellements de flottes robotiques, notamment dans les secteurs pharmaceutique, automobile et agroalimentaire.

RecherchePaper
1 source
Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls
140Interesting Engineering 

Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls

Figure AI a publié en mai 2026 une vidéo montrant deux robots humanoïdes Helix-02 réinitialiser une chambre à coucher de façon autonome en moins de deux minutes. Les robots ouvrent une porte, accrochent un manteau, ferment un ordinateur portable, rangent un casque, repositionnent des meubles, gèrent une poubelle, et confectionnent ensemble le lit en lissant la couette. L'ensemble de la séquence repose sur un unique modèle Vision-Language-Action (VLA) partagé, le système Helix développé en interne. Aucun planificateur central, aucun contrôleur partagé, aucune communication directe entre les deux unités : chaque robot n'utilise que ses caméras embarquées et sa politique apprise pour inférer les intentions de son partenaire via le mouvement observé. En parallèle, Figure a annoncé que son usine BotQ en Californie produit désormais un robot Figure 03 par heure, contre un par jour quatre mois plus tôt, une cadence de production qui change la discussion sur la scalabilité industrielle des humanoïdes. Ce que cette démonstration prouve, avec les réserves habituelles sur les vidéos sélectionnées, c'est que la coordination multi-robot sans communication explicite devient opérationnelle dans des environnements non structurés. Le défi de la couette est illustratif : un objet déformable sans géométrie stable ni point de préhension prédéfini, tenu simultanément par deux agents qui doivent anticiper les mouvements l'un de l'autre en temps réel. C'est précisément le type de tâche que les approches par script ou par planification centralisée échouent à généraliser. L'intégration du whole-body control, locomotion dynamique sur un seul appui, utilisation de pédales, manipulation d'objets articulés, dans le même modèle VLA suggère que le gap sim-to-real se réduit concrètement : Figure affirme que les comportements entraînés en simulation par reinforcement learning se transfèrent sans calibration supplémentaire sur le robot physique, une affirmation qui mérite confirmation sur des volumes de déploiement plus larges. Figure AI, fondée en 2022 et ayant levé plus d'un milliard de dollars auprès d'investisseurs dont OpenAI, Microsoft et NVIDIA, positionne Helix comme une alternative aux approches modulaires de Boston Dynamics (Atlas), Tesla (Optimus Gen 3) et Physical Intelligence (Pi-0). Agility Robotics (Digit) et Apptronik (Apollo) ciblent davantage la logistique en entrepôt, tandis que Figure et 1X Technologies visent explicitement le domicile et les environnements non structurés. La mise à jour récente de Helix ajoute des caméras stéréo RGB pour une compréhension 3D temps réel via le modèle S0, combinant perception visuelle et proprioception là où les versions précédentes ne s'appuyaient que sur cette dernière. Aucun déploiement commercial en milieu résidentiel n'a encore été annoncé, mais le rythme de production de BotQ et les jalons techniques publiés positionnent un pilote industriel en environnement semi-contrôlé comme horizon réaliste à 12-18 mois.

UELa montée en cadence industrielle de Figure AI (1 robot/heure chez BotQ) et la coordination multi-robot sans communication explicite fixent un étalon technique que les acteurs européens de l'humanoïde comme Enchanted Tools devront intégrer dans leurs feuilles de route concurrentielles.

HumanoïdesOpinion
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
141arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

IA physiqueOpinion
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
142Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $
143Interesting Engineering 

Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $

Unitree, la firme de robotique fondée à Hangzhou en Chine, a dévoilé un nouveau robot humanoïde à bras duaux baptisé G1 (version upper-body), commercialisé à partir de 26 900 yuans, soit environ 4 290 dollars. Le robot abandonne la structure corps entier traditionnelle au profit d'une architecture modulaire : base fixe ou châssis mobile selon le cas d'usage. Chaque bras est disponible en configuration 5-DOF ou 7-DOF, pour un total de 15 à 31 degrés de liberté selon la variante choisie. Le poignet offre une rotation de la taille à ±150°, la tête supporte ±115° en lacet et ±36° en tangage, et le préhenseur atteint une répétabilité de ±0,1 mm. La charge utile est de 2 kg par bras. Le système embarque une vision binoculaire stéréo, un tableau de quatre microphones et une interaction vocale, le tout animé par deux CPU 8 cœurs haute performance, complétés par un module de vision en tête délivrant 10 TOPS de calcul IA. Le robot supporte alimentation externe ou embarquée, et pèse entre 11 et 32 kg selon configuration. La même semaine, Unitree publiait une démonstration de son G1 bipède intégral effectuant des pirouettes et des rotations sur patins à roulettes via un contrôle roue-jambe coordonné, un exercice spectaculaire mais sans lien direct avec les capacités industrielles annoncées ici. Ce tarif de 4 290 dollars positionne Unitree comme l'entrée de gamme la plus accessible du segment manipulation humanoïde, un marché encore dominé par des plateformes à cinq ou six chiffres. Si la stratégie reproduit le succès de la série Go (robots quadrupèdes qui ont conquis la communauté académique et dev en cassant les prix), elle pourrait accélérer significativement l'écosystème autour de la robotique de manipulation. L'accès à du matériel capable à faible coût réduit la dépendance à la simulation, raccourcit les cycles d'itération et permet des tests en conditions réelles, ce qui est critique pour les travaux en embodied AI, notamment sur les VLA (Vision-Language-Action models). Reste que les interfaces de bas niveau exposées pour le développement secondaire sont un vrai signal positif : elles indiquent un positionnement outillage de recherche autant que produit commercial. Unitree avait déjà introduit en 2025 le R1, un humanoïde complet à 26 articulations vendu 39 999 yuans (environ 5 900 dollars), confirmant une ligne directrice claire : prix d'entrée agressif, itération rapide, capture de l'écosystème développeur avant de monter en gamme. Le paysage concurrentiel reste dense : Boston Dynamics dispose d'une profondeur technique éprouvée et de relations entreprise établies ; Figure AI (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Agility Robotics positionnent leurs systèmes sur la fiabilité industrielle et les déploiements à grande échelle, segments où la réputation et le support comptent autant que le prix. La vraie mesure du succès de cette plateforme se lira dans six à douze mois, au travers des projets open-source, travaux académiques et startups early-stage qui choisiront, ou non, de construire dessus.

UEL'offre à prix cassé de Unitree pourrait abaisser les barrières matérielles pour les laboratoires académiques et startups européens travaillant sur les modèles VLA, sans déploiement ni partenariat européen annoncé à ce stade.

Chine/AsieOpinion
1 source
Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
144arXiv cs.RO 

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret. L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer. Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

UELes intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

IA physiquePaper
1 source
Vidéo : ce robot chinois a battu le record du semi-marathon détenu par un humain
145Le Big Data 

Vidéo : ce robot chinois a battu le record du semi-marathon détenu par un humain

Un robot humanoïde du fabricant chinois Honor a bouclé un semi-marathon à Pékin en 50 minutes et 26 secondes, surpassant le record humain de la discipline détenu par l'athlète ougandais Jacob Kiplimo. Surnommé "Lightning", ce robot aux jambes de 95 centimètres a reproduit une foulée longue et efficace, proche de celle des athlètes professionnels. Honor n'a pas engagé un seul robot dans cette course, mais trois, signalant une stratégie industrielle assumée plutôt qu'un simple coup de communication. Parmi les plus de 100 robots humanoïdes présents sur la ligne de départ, près de la moitié ont franchi l'arrivée sans aucune assistance humaine directe, analysant leur environnement en temps réel et ajustant leur trajectoire de manière autonome. Ce résultat marque un saut qualitatif net par rapport à l'édition précédente, où beaucoup de robots abandonnaient en chemin, perdaient l'équilibre ou s'immobilisaient en plein effort. En 2026, les machines tiennent la distance, accélèrent, et certaines dépassent des coureurs professionnels sur plusieurs segments. Le chiffre le plus révélateur n'est pas le chrono, mais la croissance du nombre de participants : d'une vingtaine de robots l'an dernier à plus de 100 cette année. Ce que démontre Honor, c'est la capacité à faire sortir des technologies grand public, développées à l'origine pour les smartphones, vers des machines capables de performances physiques comparables à celles d'un humain entraîné. Pour l'industrie robotique mondiale, c'est la preuve que l'endurance et l'autonomie de déplacement en milieu réel ne sont plus des obstacles théoriques. La Chine investit massivement dans la robotique humanoïde depuis plusieurs années, portée par une volonté politique de dominer ce secteur jugé stratégique, au même titre que les semi-conducteurs ou l'intelligence artificielle. Des entreprises comme Unitree, Fourier Intelligence ou désormais Honor s'imposent dans un marché mondial où Boston Dynamics et Tesla (avec Optimus) font figure de références. Le semi-marathon de Pékin fonctionne comme un banc d'essai public : les robots y affrontent des conditions réelles, imprévisibles, face à des milliers de coureurs humains. Chaque édition sert à mesurer les progrès effectifs, loin des démonstrations contrôlées en laboratoire. La prochaine étape logique sera de voir ces systèmes opérer dans des environnements industriels ou de service, où la robustesse et l'autonomie comptent autant que la vitesse. La course au semi-marathon n'est qu'un indicateur parmi d'autres d'une compétition technologique beaucoup plus large qui ne fait que commencer.

UELa montée en puissance de la Chine dans la robotique humanoïde, illustrée par Honor, Unitree et Fourier, représente un défi stratégique direct pour l'industrie européenne, qui accuse un retard croissant face à des acteurs soutenus par une volonté politique nationale forte.

MODEX 2026 : retour sur le salon
146Robotics Business Review 

MODEX 2026 : retour sur le salon

MODEX 2026 s'est tenu à Atlanta avec plus de 1 000 exposants et environ 50 000 participants, confirmant sa place de principal salon supply chain en Amérique du Nord. Les éditeurs Eugene Demaitre (The Robot Report / Automated Warehouse) et Sarah Wynn (Packaging OEM) y ont recensé plusieurs dynamiques : montée en puissance des ASRS (systèmes automatisés de stockage et récupération) avec AutoStore et Attabotics dans une concurrence accrue, démonstrateurs de déchargement de camions signés Boston Dynamics, Pickle Robot et Slip Robotics, et manipulateurs mobiles Omron sur le segment intralogistique. FANUC présentait ses "rainbow pallets" développés avec Angelini Technologies, aux côtés de capteurs SICK et des solutions picking de Brightpick, Locus Robotics et Ocado. En marge du salon, deux annonces ont concentré l'attention. Skild AI a acquis la division robotique de Zebra Technologies, héritière de Fetch Robotics : selon Deepak Pathak, co-fondateur et CEO, "la Fetch Team est la principale raison de l'acquisition", pour ses années d'expérience de déploiement terrain. Skild prévoit de combiner son IA hardware-agnostic avec la plateforme d'orchestration Symmetry de Zebra, maintenir le support de la base installée Fetch, et développer de nouveaux produits entrepôt. Boston Dynamics a également annoncé l'intégration de Gemini Robotics ER 1.6 de Google DeepMind dans sa plateforme Orbit AIVI-Learning, promettant à Spot une capacité de raisonnement visuo-spatial, de planification de tâches et de détection de succès. L'acquisition Fetch-Skild est la pièce la plus structurante : elle permet à Skild de court-circuiter des années de déploiement terrain en récupérant directement l'équipe et la base client. Pour les intégrateurs, cela signifie un interlocuteur unifié sur l'IA embarquée, l'orchestration fleet-level et le support opérationnel, ce qui simplifie l'intégration mais réduit mécaniquement la concurrence entre briques logicielles. L'annonce Boston Dynamics-Google reste, elle, au stade partenarial : aucune métrique de performance industrielle n'a été publiée sur des cycles réels, et les capacités annoncées pour Gemini Robotics ER 1.6 (raisonnement spatial, task planning, success detection) sont pour l'instant documentées en conditions contrôlées. Fetch Robotics avait été racheté par Zebra Technologies en 2021 pour environ 290 millions de dollars ; cette cession à Skild marque une sortie discrète de Zebra du marché robotique autonome, trois ans après une intégration qui n'a pas tenu ses promesses de synergies. Skild AI, fondé par les anciens chercheurs de CMU Deepak Pathak et Abhinav Gupta, avait levé 300 millions de dollars en 2024 pour déployer son modèle de fondation multi-embodiment à travers différentes plateformes matérielles. Le partenariat Boston Dynamics-Google DeepMind s'inscrit dans la stratégie Gemini Robotics annoncée début 2025, qui consiste à diffuser les modèles VLA (Vision-Language-Action) dans des robots commerciaux via des OEM partenaires. Locus Robotics, concurrent direct sur le segment AMR picking, traverse des difficultés financières depuis 2023, ce qui redistribue les cartes sur ce segment précisément.

UELes opérateurs européens équipés de robots Fetch devront désormais s'adresser à Skild AI pour le support et les évolutions de leur parc installé, suite à l'acquisition de la division robotique de Zebra Technologies.

AutreActu
1 source
Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini
147Ars Technica AI 

Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini

Les chiens robots de Boston Dynamics, comme le quadrupède Spot, sont désormais capables de lire avec précision des thermomètres analogiques et des manomètres lors de leurs rondes dans les usines et entrepôts. Cette avancée repose sur le nouveau modèle d'IA robotique de Google DeepMind, baptisé Gemini Robotics-ER 1.6, annoncé le 14 avril 2026. Ce modèle agit comme un "moteur de raisonnement de haut niveau pour robot", capable de planifier et d'exécuter des tâches complexes impliquant une compréhension fine de l'environnement physique. Il permet notamment de déchiffrer des instruments de mesure comprenant plusieurs aiguilles, des niveaux de liquide, des graduations et du texte, ainsi que d'effectuer des inspections visuelles via des hublots transparents donnant accès à l'intérieur de cuves et de tuyauteries. Cette capacité de "raisonnement incarné" représente un saut qualitatif important pour l'automatisation industrielle. Jusqu'ici, lire un manomètre analogique ou interpréter un niveau dans un réservoir exigeait une intervention humaine ou des capteurs dédiés. Avec Gemini Robotics-ER 1.6, un robot comme Spot peut désormais effectuer des rondes d'inspection autonomes dans des environnements industriels complexes sans infrastructure supplémentaire, réduisant potentiellement les coûts de maintenance et les risques pour les opérateurs humains dans des zones dangereuses. Ce développement s'inscrit dans la collaboration continue entre Google DeepMind et Boston Dynamics, entreprise détenue par le constructeur automobile coréen Hyundai Motor Group. Hyundai teste activement des robots bipèdes et quadrupèdes dans ses usines d'assemblage automobile, faisant de ces environnements un terrain d'expérimentation privilégié. La course à l'IA robotique s'intensifie entre les grands acteurs technologiques, et l'intégration de modèles de vision multimodaux puissants comme Gemini dans des robots physiques ouvre la voie à des inspecteurs autonomes capables d'opérer dans n'importe quelle installation industrielle existante, sans modification matérielle.

UELes industriels européens pourraient adopter cette technologie pour automatiser les rondes d'inspection sans modifier leur infrastructure existante, mais aucune entreprise ou institution française/européenne n'est directement impliquée.

IA physiqueActu
1 source
Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
148MarkTechPost 

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques. L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique. Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

UELes capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

HumanoïdesOpinion
1 source
Agibot livre son 10 000e robot humanoïde produit en série
149The Information AI 

Agibot livre son 10 000e robot humanoïde produit en série

Agibot, startup chinoise spécialisée dans les robots humanoïdes et basée à Shanghai, a annoncé ce lundi avoir produit sa 10 000e unité en série. Cette étape symbolique intervient seulement trois mois après que l'entreprise avait annoncé la sortie de son 5 000e robot — ce qui signifie qu'Agibot a doublé son volume de production en moins d'un trimestre, un rythme industriel sans précédent dans ce secteur. Cette cadence illustre la montée en puissance de la robotique humanoïde à grande échelle, jusqu'ici considérée comme un horizon lointain. Atteindre 10 000 unités en production de masse positionne Agibot comme un acteur capable de livrer des robots à des clients industriels à des volumes réellement opérationnels — ce que ni Boston Dynamics ni Figure n'ont encore atteint publiquement. Cela crée une pression directe sur les concurrents occidentaux. Cette accélération s'inscrit dans une course technologique et industrielle que Pékin soutient activement, avec des subventions ciblées sur la robotique humanoïde identifiée comme secteur stratégique. Agibot, fondée en 2023, bénéficie de cette dynamique aux côtés d'autres acteurs chinois comme Unitree ou Fourier Intelligence. La question qui se pose désormais est celle du déploiement réel : dans quelles usines, à quels coûts, et avec quelle fiabilité ces 10 000 robots seront-ils mis au travail.

UELa montée en puissance industrielle de la robotique humanoïde chinoise, soutenue par Pékin, accentue le retard des industriels européens et crée une pression concurrentielle directe sur les filières d'automatisation en France et en UE.

HumanoïdesActu
1 source
Amazon rachète une start-up de robots humanoïdes
150Siècle Digital 

Amazon rachète une start-up de robots humanoïdes

Amazon a finalisé l'acquisition de Fauna Robotics, une jeune entreprise américaine spécialisée dans les robots humanoïdes, selon des informations révélées par Bloomberg. Le montant de la transaction n'a pas été divulgué. Cette opération s'inscrit dans une stratégie d'expansion robotique accélérée du géant de Seattle, qui avait déjà alimenté les rumeurs en juin dernier autour de robots livreurs autonomes. L'annonce intervient quelques jours seulement après une autre initiative dans ce secteur, confirmant un rythme d'investissement soutenu. Pour Amazon, l'enjeu est considérable : ses entrepôts emploient plus d'un million de personnes dans le monde, et l'automatisation des tâches manuelles complexes — picking, tri, manutention — représente un levier de productivité et de réduction des coûts massif. Les robots humanoïdes, capables de manipuler des objets dans des environnements conçus pour les humains, ouvrent des possibilités que les bras robotisés traditionnels ne permettent pas. Pour les travailleurs de la logistique, cette trajectoire soulève des questions directes sur l'évolution de leurs métiers. La course aux robots humanoïdes s'est considérablement intensifiée ces deux dernières années. Figure 02 de Figure AI, Optimus de Tesla, Atlas de Boston Dynamics ou encore les robots de 1X Technologies attirent des milliards de dollars d'investissement. Amazon, qui possède déjà Boston Dynamics via Hyundai et opère des dizaines de milliers de robots dans ses entrepôts, se positionne pour ne pas laisser à des tiers le contrôle de cette technologie stratégique. L'intégration de Fauna Robotics devrait accélérer ses capacités de développement en interne.

UELes entrepôts Amazon en France et en Europe, qui emploient des centaines de milliers de salariés de la logistique, sont directement concernés par cette accélération vers l'automatisation humanoïde.

HumanoïdesActu
1 source