Aller au contenu principal

Dossier Figure — page 4

624 articles · page 4 sur 13

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

MANGO : génération automatisée d'oracles de test multi-agents pour les modèles vision-langage-action
151arXiv cs.RO RechercheOpinion

MANGO : génération automatisée d'oracles de test multi-agents pour les modèles vision-langage-action

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.24815) un framework nommé MANGO, pour Multi-Agent test oracle GENeration for Vision-Language-Action models. Les modèles VLA constituent la nouvelle génération de systèmes de contrôle robotique : ils intègrent dans une architecture unifiée la perception visuelle, la compréhension du langage naturel et la génération d'actions motrices. L'approche dominante pour les tester repose sur des oracles symboliques écrits manuellement, des fonctions qui évaluent si un robot a accompli sa tâche à partir de l'état final de l'environnement. MANGO automatise cette étape via un pipeline de trois agents LLM collaboratifs : un Generator qui produit une bibliothèque d'actions atomiques réutilisables, un Assessor qui ancre ces définitions dans le simulateur, et un Judge qui arbitre et affine les artefacts par feedback itératif. Le système a été évalué sur les benchmarks LIBERO_10 et RoboCasa Humanoid Tabletop. L'intérêt principal est de supprimer le goulot d'étranglement humain dans la qualification des robots VLA. Les oracles symboliques actuels exigent une expertise domaine significative et restent couplés à une tâche précise, ce qui limite fortement leur réutilisation dès qu'on change de scénario ou de cellule de travail. MANGO génère des oracles à grain fin capables d'évaluer des étapes intermédiaires, pas seulement l'état final, ce qui améliore la localisation des pannes : au lieu de constater qu'un robot a échoué, on identifie quelle action atomique a dévié. Les résultats montrent une détection de défauts comparable aux oracles symboliques manuels avec une couverture diagnostique plus riche, un levier direct pour les équipes QA qui valident des flottes de robots VLA en production. Les modèles VLA ont connu une accélération marquée depuis 2024 avec Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure AI et plusieurs variantes issues des laboratoires académiques. Tous partagent le même point faible : leur validation reste artisanale, peu reproductible, et difficile à passer à l'échelle. MANGO s'inscrit dans un effort croissant pour combler le fossé entre démos en laboratoire et déploiement industriel, en dotant les pipelines CI/CD robotiques d'outils d'évaluation automatisés. L'article demeure un preprint non relu par les pairs et le code n'est pas encore publié, ce qui invite à nuancer les résultats avant toute adoption. La prochaine étape naturelle serait une validation sur environnements physiques réels, au-delà des scénarios de manipulation sur table couverts par les benchmarks actuels.

1 source
Des robots humanoïdes chinois relèvent le défi du penalty alors que Messi et Ronaldo illuminent la Coupe du Monde FIFA
152Interesting Engineering 

Des robots humanoïdes chinois relèvent le défi du penalty alors que Messi et Ronaldo illuminent la Coupe du Monde FIFA

Le 24 juin 2026, à l'ouverture du MWC Shanghai 2026, la Mobile AI Innovation Frontiers Zone du Shanghai New International Expo Centre a accueilli le Humanoid Robot Football Penalties Challenge, une compétition de tirs au but mettant en scène des robots humanoïdes en conditions semi-autonomes. D'après les images diffusées en ligne, des modèles de Booster Robotics et Unitree Robotics participent à l'épreuve. Le format est structuré : chaque robot doit interpréter indépendamment la position du ballon et les déplacements du gardien, puis déclencher le tir en effectuant des corrections en temps réel sur la base de ses capteurs, sans séquences pré-programmées ni intervention humaine externe. Les demi-finales et la finale sont prévues le 25 juin, avec des contraintes progressivement durcies pour simuler la pression compétitive. En parallèle, Hyundai Motor, maison mère de Boston Dynamics, a publié une vidéo de son robot Atlas réalisant des exercices de football dans le cadre d'une initiative baptisée "School of Football" : le robot observe des séquences vidéo de matchs, puis reproduit immédiatement dans un espace d'entraînement les gestes observés, passes incluses, imitation de célébration de but et simulation de blessure au genou compris. Hyundai évoque une possible présence d'Atlas et du quadrupède Spot à la Coupe du monde 2026, sans préciser leurs rôles. L'intérêt technique de l'exercice réside dans ce qu'un tir au but exige : perception en temps réel, équilibre dynamique lors du transfert de poids et de l'extension de jambe, et planification motrice adaptative dans un environnement non contrôlé. En faisant d'un moment sportif universellement compris un banc d'essai robotique, l'événement sert de point de comparaison public entre plateformes. Pour les intégrateurs et décideurs industriels, il convient cependant de distinguer soigneusement une démonstration scénarisée d'un déploiement opérationnel : les conditions restent contrôlées, les métriques publiées sont limitées, et les vidéos disponibles proviennent de flux non officiels. La valeur réelle réside moins dans la performance sportive que dans la capacité à enchaîner perception, décision et exécution physique sans intervention humaine, un sous-problème direct du sim-to-real transfer et de la robustesse des VLA (Vision-Language-Action models) en environnement ouvert. Unitree Robotics et Booster Robotics s'inscrivent dans la vague de constructeurs chinois d'humanoïdes qui ont considérablement accéléré depuis 2024, aux côtés de Zhiyuan Robotics et Fourier Intelligence, dans un contexte de forte pression concurrentielle avec les Américains Figure AI, Agility Robotics et Tesla Optimus. Du côté de Boston Dynamics, la campagne football intervient après une série de démonstrations industrielles d'Atlas Gen 2 en environnement d'usine automobile, et sert manifestement à repositionner le robot sur le terrain de la dextérité et de l'apprentissage par imitation plutôt que sur la seule force brute. La Coupe du monde 2026, dont les matchs se tiennent aux États-Unis, au Canada et au Mexique à partir du 11 juin, fournit un calendrier marketing opportun, mais aucune intégration fonctionnelle concrète n'a été annoncée pour l'instant.

UELa progression rapide des humanoïdes chinois accentue la pression compétitive sur les constructeurs et intégrateurs robotiques européens, sans déploiement ni annonce ciblant directement le marché européen.

Chine/AsieOpinion
1 source
Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique
153arXiv cs.RO 

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

Des chercheurs du RPM Lab de l'Université du Minnesota présentent dans un preprint arXiv (2512.11173v3) un framework d'imitation learning pour la navigation au "dernier mètre" d'un robot manipulateur mobile quadrupède. L'enjeu : positionner la base du robot à quelques centimètres de l'objet cible avant toute action de manipulation, une phase où les systèmes RGB existants échouent, ne garantissant qu'une précision métrique insuffisante. Le système n'utilise que des caméras RGB embarquées et fonctionne avec trois entrées : des images objectif, des observations RGB multi-vues, et un prompt texte nommant l'objet cible. Un module de segmentation guidé par le langage et un décodeur de matrice de score spatial gèrent l'ancrage de l'objet et le raisonnement en pose relative. Entraîné sur une seule instance physique par catégorie, le système atteint 74,58 % de succès en edge-alignment (évaluation sur l'orientation réelle) et 89,42 % en object-alignment sur des instances et environnements inédits, y compris avec des conditions d'éclairage et de fond difficiles. Ce résultat comble un angle mort structurel de la manipulation mobile : les politiques de manipulation sont entraînées sur des configurations précises, et un positionnement approximatif suffit à les faire sortir de leur distribution d'entraînement, causant des échecs en chaîne à l'exécution. Supprimer LiDAR, capteurs de profondeur et cartes préalables tout en conservant une précision centimétrique rend le pipeline nettement plus déployable sur des plateformes sans capteurs premium. La généralisation catégorielle (une seule démonstration réelle, des dizaines d'instances inconnues) réduit massivement le coût de collecte de données, un verrou majeur pour la manipulation hors environnement contrôlé. Ce travail s'inscrit dans la dynamique des VLA (Vision-Language-Action) qui cherchent à unifier perception, langage et action dans des politiques généralisables. Les acteurs dominants sur la manipulation mobile incluent Physical Intelligence (Pi-0), Figure AI et les équipes académiques de Stanford et CMU, qui investissent massivement dans la collecte de données téléopérées à grande échelle. L'approche ici contraste délibérément : une seule démonstration par catégorie plutôt que des milliers d'épisodes. Ce résultat reste un démonstrateur académique sans déploiement industriel annoncé ni partenaire B2B identifié, mais une page projet avec des démonstrations visuelles est disponible en ligne.

IA physiqueActu
1 source
Le robot Codey, adapté aux enfants, illustre l'avenir de l'AGI incarnée dans l'éducation et la santé
154Interesting Engineering 

Le robot Codey, adapté aux enfants, illustre l'avenir de l'AGI incarnée dans l'éducation et la santé

Mind Children, une startup de Seattle, a présenté Codey, un robot humanoïde d'environ 90 centimètres de hauteur conçu pour les environnements publics comme les musées, hôtels et galeries d'art. Le robot embarque le framework Hyperon de SingularityNET, une plateforme d'intelligence artificielle générale (AGI) décentralisée, censée lui permettre de naviguer de façon autonome, de tenir des conversations et de prendre des décisions basiques sans téléopération humaine. Ses yeux lumineux hazel et ses animations faciales expressives visent à le rendre accessible, particulièrement aux enfants. Mind Children prévoit de conduire des études pilotes dans ces trois types de lieux dès 2026, avec une deuxième génération du robot annoncée pour 2027. La société a lancé une campagne de financement participatif et a levé à ce jour plus de 600 000 dollars sur un objectif d'un million. À court terme, l'équipe cible une capacité simple : permettre à Codey d'appuyer sur des boutons physiques, une étape significative dans le contexte de la manipulation. L'intérêt de Codey pour les décideurs B2B n'est pas tant dans ses capacités physiques actuelles, encore très limitées, que dans la démonstration d'une navigation autonome et d'une interaction conversationnelle sans supervision humaine temps réel dans des espaces ouverts et imprévisibles. C'est précisément le "demo-to-reality gap" que beaucoup de plateformes humanoïdes peinent encore à combler dans des contextes non structurés. Si les pilots 2026 confirment une robustesse opérationnelle réelle, cela ouvrirait un segment de marché distinct de la robotique industrielle: les environnements d'accueil, de soin et d'éducation, où la sécurité perçue et l'interaction naturelle priment sur le débit ou la précision de manipulation. Il convient néanmoins de nuancer: les vidéos publiées restent des démonstrations contrôlées, et aucune métrique de fiabilité opérationnelle sur durée longue n'a été communiquée. Mind Children s'appuie sur Hyperon, le framework AGI décentralisé de SingularityNET, l'organisation fondée par Ben Goertzel, figure historique de la recherche en AGI et co-créateur de Sophia, le robot humanoïde de Hanson Robotics. L'architecture décentralisée de Hyperon distribue les capacités de raisonnement, représentation de connaissance et calcul sur un réseau d'agents IA, à l'opposé des systèmes centralisés dominants. Dans le paysage concurrentiel, Codey se positionne loin des humanoïdes industriels comme Figure 03, Optimus Gen 3 d'Tesla ou Apollo d'Apptronik, et plus près de robots de service sociaux comme Pepper (SoftBank) ou ARI (PAL Robotics), avec une promesse de cognition plus adaptative. Aucun acteur français ou européen n'est directement impliqué dans ce projet. Les prochaines étapes dépendront des résultats des pilots 2026 et de l'atteinte du seuil de financement d'un million de dollars, conditions sine qua non pour enclencher la pré-série.

HumanoïdesOpinion
1 source
Une société américaine dévoile des humanoïdes et robots avec un nouvel écosystème pour l'intelligence incarnée
155Interesting Engineering 

Une société américaine dévoile des humanoïdes et robots avec un nouvel écosystème pour l'intelligence incarnée

Faraday Future (FF), entreprise californienne principalement connue comme constructeur de véhicules électriques en difficulté, a présenté le 18 juin 2026 à son nouveau siège d'El Segundo (Californie) une gamme robotique baptisée "EAI Robot World", articulée autour de six séries de produits. La pièce maîtresse est le robot humanoïde Futurist, redessiné : 54 kg (14 % plus léger que son prédécesseur), 31 degrés de liberté (DOF), un couple au niveau du genou de 320 Nm et une vitesse de pointe annoncée à 17,7 km/h, alimenté par un double pack batterie promettant 6 heures d'autonomie. L'architecture logicielle repose sur un modèle Vision-Language-Action (VLA) couplé à un "World Model" pour la perception et la prise de décision autonome. Aucun tarif ni client n'ont été dévoilés pour le Futurist : FF a renvoyé au salon Automate 2026 à Chicago, le 22 juin. En revanche, le quadrupède FX Navi, 8 kg, 12 articulations motorisées, utilisant un smartphone (iOS ou Android) glissé dans un module tête comme unité de calcul, est disponible immédiatement à 1 990 dollars, ciblant la salle de classe et l'usage domestique. Deux formats supplémentaires ont été esquissés : Master Mini (~1 m, compétitions de robotique éducative) et Nova (~50 cm, robot compagnon enfant), sans date ni prix communiqués. La stratégie "one brain, multiple forms" de FF, qui consiste à partager une même couche d'intelligence VLA+World Model sur plusieurs facteurs de forme, est cohérente avec ce que font NVIDIA (GR00T N2) ou Physical Intelligence (pi-0) côté logiciel, et mérite d'être distinguée des approches produit unique. Toutefois, la prudence s'impose : les performances du Futurist (320 Nm, 17,7 km/h) sont comparables aux annonces récentes d'Unitree ou Figure AI, mais sans démonstration publique indépendante ni données de cycle réel, elles restent des chiffres de fiche technique. L'usage d'un smartphone comme cerveau du FX Navi réduit les coûts mais impose des contraintes de puissance de calcul qui limiteront les cas d'usage autonomes avancés. À ce stade, le Futurist est une annonce de produit, pas un déploiement ; le FX Navi, lui, est un produit livrable. Faraday Future porte un passif lourd : introduction en bourse via SPAC en 2021, multiples alertes de continuité d'exploitation, enquête de la SEC, et départ de son fondateur Jia Yueting dans le chaos. Ce pivot vers la robotique s'inscrit dans un mouvement plus large d'entreprises tech/EV cherchant un second souffle dans l'IA incarnée. Sur le segment humanoïde commercial, FF affronte Figure AI (Figure 03, déployé chez BMW), Tesla (Optimus Gen 3, production interne), Agility Robotics (Digit, partenariat Amazon), et en Europe Wandercraft ou Enchanted Tools, acteurs qui cumulent davantage de déploiements terrain. La prochaine échéance concrète est Automate 2026 le 22 juin, où FF devra fournir prix, volumes et clients réels pour le Futurist, faute de quoi l'annonce restera dans la catégorie teaser.

HumanoïdesOpinion
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
156arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
157arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
158arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
159arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
160arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
161arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
162arXiv cs.RO 

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
163Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
164arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
165arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
166arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
167arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest
168Interesting Engineering 

Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest

Un robot humanoïde Unitree G1 modifié, baptisé "Pemba", a atteint le sommet du Chimborazo en Équateur le 7 juin 2026, soit 6 200 mètres d'altitude. L'expédition, conduite par l'ingénieur Pablo Berlanga Boemare et son entreprise Geologic Dome, s'est déroulée sur 16 heures. Pemba est une première étape d'un programme baptisé "Triple Crown" qui vise à terme l'ascension de l'Everest. À noter : le robot n'a pas grimpé en autonomie totale. Il a marché de manière indépendante sur les sections présentant une inclinaison inférieure à 30 degrés, mais a été porté par les membres de l'expédition sur les passages plus techniques. Les modifications matérielles incluent des systèmes de gestion thermique sur mesure et des équipements de ventilation intégrés aux vêtements protecteurs du robot, s'appuyant sur des tests antérieurs conduits dans la région chinoise d'Altay à des températures descendant jusqu'à -47,4°C. Ce projet répond à une question que les benchmarks en laboratoire ne peuvent pas trancher : un humanoïde peut-il opérer de manière utile dans des environnements extrêmes, là où les capteurs fixes sont coûteux à déployer et où les conditions mettent en danger les opérateurs humains ? Berlanga Boemare, ancien collaborateur du WWF dans le bassin du Congo et en Amazonie, articule le cas d'usage autour de la surveillance environnementale mobile : remplacer ou compléter des réseaux de caméras stationnaires par des plateformes autonomes capables de patrouiller de grandes surfaces, équipées de caméras, capteurs et connectivité satellite (Starlink est mentionné). Pour les décideurs B2B et les intégrateurs industriels, l'intérêt est ailleurs : il s'agit d'un premier jeu de données réel sur la résilience des batteries, la cinématique articulaire et le comportement thermique de l'électronique embarquée au-delà de 6 000 mètres, dans des conditions que les simulations ne modélisent pas fidèlement. Unitree Robotics, fabricant chinois du G1, s'est imposé ces deux dernières années comme un acteur de référence sur le segment des humanoïdes accessibles, face à Boston Dynamics, Figure AI et Agility Robotics qui ciblent davantage le marché industriel avec des machines nettement plus coûteuses. Geologic Dome ne s'inscrit pas dans cette course à la productivité d'entrepôt, mais ouvre un segment distinct : la robotique d'exploration et de surveillance environnementale en terrain hostile. La prochaine étape annoncée est l'Everest, en partenariat avec l'opérateur népalais Fourteen Peaks Expedition, avec un programme de test prévu entre le camp de base et le Camp IV (environ 8 000 mètres), couvrant performance des batteries, stress articulaire et collecte de données environnementales. Le projet bute cependant sur un obstacle réglementaire concret : le Népal ne dispose pas encore de cadre légal encadrant les expéditions robotiques sur l'Everest, et les autorités auraient demandé de nouvelles régulations avant toute autorisation.

HumanoïdesPaper
1 source
Video Friday : ce robot court dans les escaliers sans tomber
169IEEE Spectrum Robotics 

Video Friday : ce robot court dans les escaliers sans tomber

La sélection vidéo hebdomadaire d'IEEE Spectrum de début juin 2026 réunit plusieurs démonstrations robotiques aux profils contrastés. DEEP Robotics publie une vidéo d'un humanoïde récupérant son équilibre sur un escalier dans une séquence que les éditeurs du magazine jugent eux-mêmes impressionnante, tout en soulignant l'incertitude sur sa reproductibilité. La startup Generative Bionics annonce que GENE01, sa première plateforme humanoïde, est passée de la conception au lancement en production en série en seulement trois mois, avec deux configurations interchangeables de membres inférieurs et une couche baptisée "Physical AI" couvrant le contrôle moteur et la modélisation monde-action, sans qu'aucune métrique de charge utile, de degrés de liberté ni de temps de cycle n'accompagne l'annonce. IHMC Robotics présente Alex, son premier humanoïde entièrement développé en interne, qui a effectué ses premiers pas en extérieur sans attache lors d'une démonstration dans le Maryland. Flexiv Robotics dévoile le MICO, un système bimanuel compact sur la plateforme Enlight, orienté collaboration en espace de travail industriel partagé. À l'occasion de l'ICRA 2026, des chercheurs publient CCRobot-S dans IEEE Transactions on Robotics : une équipe de robots grimpeurs câbles reconfigurables capables d'inspecter et d'entretenir en opération parallèle les haubans de ponts à grande portée. Boston Dynamics contribue avec deux vidéos, l'une sur des pieds interchangeables pour Atlas, l'autre montrant le robot apprendre à jouer au football. La revendication la plus saillante de cette sélection est le délai de trois mois de Generative Bionics entre conception et production en série. Si elle se confirme, elle signalerait une compression radicale des cycles de développement matériel dans la robotique humanoïde, un secteur qui exige habituellement plusieurs années d'itération. L'absence de spécifications techniques rend l'évaluation indépendante impossible à ce stade : l'annonce ressemble davantage à une opération de visibilité qu'à une divulgation produit. Les essais en extérieur d'IHMC avec Alex sont une contribution plus modeste mais techniquement crédible : sortir du laboratoire vers un environnement non structuré reste l'un des tests les plus rigoureux de la robustesse locomotrice, et l'un des plus rares à être documentés publiquement, adressant directement le demo-to-reality gap qui frappe de nombreuses démonstrations du secteur. CCRobot-S illustre une autre dynamique, celle des applications robotiques collaboratives à vocation industrielle précise, portées par des contraintes de sécurité et de régulation réelles dans le domaine des infrastructures. Le paysage concurrentiel des humanoïdes reste dense. Figure AI a livré le Figure 03, Tesla teste l'Optimus Gen 3 en production, le modèle VLA pi0 de Physical Intelligence structure plusieurs pilotes commerciaux, et le Digit d'Agility Robotics est déployé dans des entrepôts Amazon. L'Atlas de Boston Dynamics, malgré ses qualités mécaniques, n'a pas encore établi de trajectoire commerciale clairement définie, et les vidéos football semblent davantage viser la notoriété grand public que l'intégration industrielle. IHMC Robotics, laboratoire affilié à Florida International University, a historiquement alimenté l'écosystème en infrastructures et en talents plutôt qu'en produits commerciaux directs. Generative Bionics est un nom nouveau dans le secteur et mérite un suivi si de prochaines publications techniques viennent étayer la revendication des trois mois. Aucun acteur européen n'apparaît directement dans cette sélection, bien qu'Enchanted Tools, Wandercraft et Pollen Robotics restent actifs sur leurs segments respectifs.

HumanoïdesActu
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
170arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

IA physiqueOpinion
1 source
VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA
171arXiv cs.RO 

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Une équipe de chercheurs publie VISTA (Vision-grounded and Physics-Validated Adaptation), un framework visant à entraîner des modèles Vision-Language-Action (VLA) à partir de données collectées via l'Universal Manipulation Interface (UMI). L'UMI permet une collecte robotique à grande échelle sans téléopération hardware-spécifique, mais son exploitation pour les VLA bute sur deux incompatibilités identifiées par les auteurs : les caméras fisheye montées au poignet génèrent une distorsion radiale sévère, hors distribution pour les modèles de vision pré-entraînés ; et les trajectoires humaines enregistrées violent fréquemment les limites cinématiques du robot ou dépassent la bande passante du contrôleur, enseignant ainsi des actions physiquement irréalisables. VISTA répond avec trois composants : UMI-VQA, un premier dataset VQA à grande échelle conçu spécifiquement pour les vues fisheye au poignet ; un pipeline de validation physique scorant chaque trajectoire sur la continuité, le risque d'auto-collision et la fidélité d'exécution ; et une recette d'entraînement en deux étapes combinant ancrage vision-langage et prédiction d'actions. Le modèle, les données et le pipeline sont publiés en open source sous forme de preprint arXiv. L'enjeu est directement opérationnel : les VLA actuels souffrent d'un écart persistant entre démonstration et déploiement réel. VISTA apporte une réponse méthodologique en filtrant les trajectoires défectueuses avant l'entraînement, plutôt qu'en espérant que le modèle les absorbe. Les auteurs montrent que les scores de validation physique sont fortement prédictifs du succès en déploiement, ce qui plaide pour une approche data-quality-first plutôt que data-volume-first, un argument qui contredit la logique dominante du secteur. En simulation et sur des tâches réelles de manipulation, VISTA surpasse des baselines solides incluant π0.5 (Physical Intelligence), LingBot-VLA et Wall-X. Pour un intégrateur ou un décideur industriel, cela valide une voie vers des pipelines de collecte scalables via UMI, compatibles avec les VLA modernes, sans recourir à un hardware propriétaire coûteux. L'UMI avait été conçu initialement pour découpler la collecte de données du hardware robotique spécifique, mais son intégration aux VLA restait largement non documentée à grande échelle. Physical Intelligence a popularisé l'approche VLA avec π0 et π0.5 ; Figure AI, 1X et Apptronik misent sur des architectures concurrentes. VISTA s'attaque à un goulot d'étranglement rarement traité en publication : la qualité intrinsèque des données d'entraînement avant qu'elles n'entrent dans le pipeline. En libérant pipeline de validation, dataset UMI-VQA et modèle pré-entraîné, les auteurs positionnent VISTA comme un outil d'infrastructure pour la communauté robotique cherchant à industrialiser la collecte et le filtrage de données manipulation, en amont des choix d'architecture VLA.

IA physiqueOpinion
1 source
Un fabricant shanghaïen dévoile un robot humanoïde de 1,2 m à double cerveau et design compact
172Interesting Engineering 

Un fabricant shanghaïen dévoile un robot humanoïde de 1,2 m à double cerveau et design compact

JAKA Robotics, société shanghaïenne fondée en 2015 et jusqu'ici connue pour ses cobots industriels, a dévoilé le Pi, un robot humanoïde compact mesurant 1,22 mètre pour 42 kilogrammes. La plateforme intègre 27 degrés de liberté grâce à des modules articulaires intégrés de nouvelle génération, annoncés 15 à 27 % plus compacts que la génération précédente. Les genoux développent jusqu'à 120 Nm de couple pour la locomotion, et chaque bras supporte une charge utile de 3 kilogrammes. L'architecture de contrôle repose sur une plateforme Intel hétérogène à double domaine : un "cerveau" chargé du raisonnement IA, de la perception visuelle, des grands modèles de langage et de la logique applicative, et un "cervelet" dédié au contrôle moteur temps réel via un réseau EtherCAT à latence milliseconde. JAKA présente le Pi comme une plateforme de R&D pour l'intelligence incarnée et l'interaction homme-robot, sans annoncer de déploiement commercial ni de calendrier de production. La principale valeur technique du Pi réside dans son architecture duale, qui sépare explicitement l'inférence IA du contrôle déterministe -- une approche que l'on retrouve chez plusieurs concurrents mais que JAKA documente ici avec des métriques d'intégration concrètes. Pour un intégrateur ou un décideur industriel, la compacité (42 kg, 1,22 m) et le payload de 3 kg par bras positionnent le Pi sur un segment intermédiaire entre les humanoïdes de taille adulte comme Figure 03 ou Tesla Optimus Gen 3 et les plateformes de table. En revanche, les performances annoncées restent à ce stade des spécifications constructeur: aucune vidéo de tâche en conditions réelles n'a été publiée, et la notion de "polyvalence applicative" n'est étayée par aucun benchmark reproductible ni site pilote identifié. JAKA s'est construit sur dix ans une gamme cobot industrielle étendue -- séries Zu (3 à 30 kg), Pro (IP68, milieux hostiles), S Series (contrôle en force), AL/A Series (vision intégrée) -- avant d'amorcer un pivot vers l'intelligence incarnée avec ses humanoïdes K1, K1L et K1W. Le Pi s'inscrit dans cette trajectoire de montée en gamme vers des systèmes IA embarqués. Sur le plan concurrentiel, le marché humanoïde compact est déjà occupé par Unitree (G1, 1,27 m, 35 kg), Agility Robotics (Digit), et côté recherche par des plateformes comme le PR2 ou l'Atlas de Boston Dynamics. En Chine, des acteurs comme Fourier Intelligence ou UBTech développent également des humanoïdes à vocation industrielle. La Chine déploie par ailleurs des robots humanoïdes dans la logistique postale, notamment à Guangzhou, signal d'un marché domestique qui commence à absorber ces systèmes. JAKA n'a pas communiqué de prix, ni de partenaires industriels, ni de calendrier pour des pilotes commerciaux du Pi.

HumanoïdesOpinion
1 source
Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable
173arXiv cs.RO 

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

Des chercheurs ont soumis sur arXiv (arXiv:2606.03385) le framework GTP-FA, acronyme de Grasp-Then-Plan with Failure Attribution, une architecture en deux étapes pour la manipulation robotique de précision. L'approche découple explicitement la phase de saisie d'objets du planning de trajectoire: le système génère d'abord des candidats de prise en main, sélectionne le plus adapté à la tâche, puis conditionne la planification aval sur ce choix. Quand une séquence de manipulation échoue, un modèle d'attribution des échecs analyse la trajectoire défaillante pour isoler la source du problème, grasping ou planning, et se généralise à des prises non vues lors de l'entraînement. Sur cette base diagnostique, chaque module est optimisé: côté grasping, des priors orientés tâche et des pénalités de risque filtrent les prises instables ou incompatibles avec la tâche; côté planning, une collecte de données ciblée sur les états initiaux à haut risque affine le module de trajectoire. Les résultats sont validés en simulation et sur robot réel, bien que l'abstract ne détaille pas les chiffres précis de taux de succès obtenus. Ce que GTP-FA résout est un angle mort persistant: dans les pipelines grasping-planning couplés, l'origine d'un échec reste opaque, ce qui transforme l'optimisation en tâtonnement coûteux et peu reproductible. Le framework s'applique indifféremment aux paradigmes d'apprentissage par renforcement (RL), par imitation (IL), par diffusion policy, et aux architectures VLA (Vision-Language-Action), et améliore les taux de succès globaux dans chacun selon les auteurs. C'est une contribution méthodologique transversale: elle ne remplace pas les architectures VLA émergentes mais s'y superpose, ce qui la rend potentiellement intégrable dans des systèmes existants sans refonte architecturale. La manipulation robotique de précision est aujourd'hui l'un des principaux fossés entre les démonstrations en laboratoire et le déploiement industriel. Des acteurs comme Physical Intelligence (modèle pi-0), Google DeepMind (GR00T N2) ou Figure AI investissent massivement dans des architectures VLA généralisables, mais la fiabilité de la prise en main dans des conditions non contrôlées reste un verrou documenté. GTP-FA adresse ce verrou depuis la recherche académique, sans affiliation commerciale identifiée dans ce préprint. Les suites naturelles incluront la validation sur objets déformables ou transparents, catégories où le grasping échoue le plus fréquemment, et l'intégration dans des tâches à horizon long en environnements peu structurés.

UEContribution méthodologique académique publiquement accessible aux équipes de recherche robotique européennes, sans impact institutionnel ou industriel direct identifié en France/UE.

RecherchePaper
1 source
Locomotion naturelle : principe et méthode
174arXiv cs.RO 

Locomotion naturelle : principe et méthode

Un préprint déposé sur arXiv (identifiant 2605.28254) propose un cadre théorique formalisé pour ce que les auteurs appellent la "locomotion naturelle", une famille de mouvements robotiques fondée non pas sur le suivi de trajectoires prescrites, mais sur l'exploitation des dynamiques passives, de la compliance mécanique et des phénomènes de résonance. Le cœur du papier est un principe d'échange : un mouvement est dit "naturel" lorsqu'un oscillateur interne revient périodiquement, que la pose globale du corps dérive de façon nette, et que la puissance moyenne d'échange propulsion-oscillateur (POE power) est nulle sur un cycle complet. L'ensemble des cycles satisfaisant ces conditions forme ce que les auteurs appellent une Natural Locomotion Manifold (NLM). La méthode repose sur une construction fermée puis ouverte : le canal propulsif est d'abord isolé pour révéler un oscillateur effectif interne, structuré par une action-angle scalaire ou par des secteurs modaux non linéaires à plusieurs degrés de liberté, avant d'être rouvert pour reconstruire la pose et vérifier la cohérence du cycle. La démonstration s'appuie sur deux systèmes non holonomes sans glissement : le "Chaplygin-sleigh" avec pendule moteur et une extension à trois corps. Ce travail répond à une question de conception plutôt qu'à un problème de contrôle : quelles architectures passives permettent l'existence de familles NLM certifiées, et combien ? C'est un renversement de perspective par rapport à la robotique locomotrice dominante, où le contrôle actif compense en permanence les imperfections du modèle. Une locomotion ancrée dans les dynamiques passives implique une consommation énergétique structurellement moindre, non par optimisation du contrôleur, mais par design mécanique. Pour les équipes travaillant sur des robots marcheurs ou nageurs à batterie embarquée, ce type de cadre formel peut guider le choix d'architectures mécaniques avant même d'écrire une ligne de code de contrôle. Le domaine de la locomotion passive a pour ancêtre les travaux de Tad McGeer (1990) sur les marcheurs passifs en descente, prolongés par les laboratoires de Cornell, MIT et Delft dans les années 2000. Depuis, la plupart des robots humanoïdes commerciaux, Boston Dynamics Atlas, Figure 03, Unitree H1, ont opté pour un contrôle actif intensif, au prix d'une consommation électrique élevée. Ce préprint, purement théorique et sans validation expérimentale annoncée, ne propose pas encore de robot ni de plateforme de test ; il fournit un outil mathématique. La prochaine étape naturelle serait une validation sur un prototype physique ou en simulation, et une extension à des architectures de robots à pattes à plus de deux degrés de liberté effectifs.

RecherchePaper
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
175arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

IA physiqueOpinion
1 source
IntBot et Certis Group s'associent pour déployer l'IA physique en entreprise à Singapour
176Robotics Business Review 

IntBot et Certis Group s'associent pour déployer l'IA physique en entreprise à Singapour

IntBot, startup californienne fondée à San Jose, et Certis, opérateur de sécurité et de services aux entreprises coté à la Bourse de Singapour, ont annoncé en mai 2026 un partenariat stratégique visant à développer des applications robotiques dites "socialement intelligentes" pour des environnements à forte affluence publique à Singapour. L'accord prévoit d'intégrer la technologie General Social Intelligence d'IntBot, un système de perception multimodale en temps réel couplé à une boucle d'interaction fermée, aux capacités opérationnelles de Certis dans la gestion de missions critiques. Les cas d'usage ciblés sont les robots concierges et assistants dans des environnements comme les hôtels, les centres de conférence et les campus. IntBot avait présenté son humanoïde de service Nylo au CES 2026, et affirme être déjà déployé dans le secteur de l'hôtellerie, sans fournir de chiffres précis sur l'échelle de ces déploiements ni de spécifications techniques (charge utile, degrés de liberté, temps de cycle). L'annonce reste à ce stade un accord d'exploration : aucun calendrier de déploiement ni volume contractuel n'est communiqué. Ce partenariat illustre un glissement progressif dans la robotique humanoïde commerciale : la manipulation physique des tâches cède progressivement sa place à l'interaction humaine comme principal verrou technologique. Lei Yang, cofondateur et PDG d'IntBot, l'articule explicitement : selon lui, avec la maturité des modèles multimodaux, le bottleneck décisif pour l'IA incarnée se déplace de la manipulation vers l'interaction sociale. Pour les intégrateurs et les décideurs B2B, l'enjeu est concret : un robot humanoïde en espace public doit interpréter les intentions des usagers, gérer un contexte social dynamique et maintenir une fiabilité opérationnelle compatible avec des environnements en exploitation réelle, sans cage de sécurité. L'approche de Certis, qui conçoit la sécurité, la gestion des installations et des effectifs comme un modèle opérationnel unifié, vise à fournir ce que la plupart des startups robotiques peinent à livrer seules : des workflows structurés et une intégration dans des opérations existantes à contraintes élevées. IntBot s'inscrit dans un champ concurrentiel dense, dominé par des acteurs disposant de ressources bien supérieures : Figure AI avec le Figure 03, Tesla avec l'Optimus Gen 3, Boston Dynamics avec l'Atlas, Physical Intelligence avec Pi-0, et Agility Robotics avec Digit, ainsi que Sanctuary AI et 1X pour le volet interaction sociale. Le choix de Singapour comme marché d'entrée est stratégique : la cité-État dispose d'une infrastructure smart-city avancée et d'un cadre réglementaire favorable à l'expérimentation robotique en milieu public. Certis, ancré institutionnellement en Asie-Pacifique, apporte une crédibilité opérationnelle que les startups ne peuvent pas construire seules. La prochaine étape attendue sera la définition concrète des cas d'usage par Certis avant tout déploiement à l'échelle, une phase qui, dans le secteur, prend historiquement bien plus longtemps que les communiqués de presse ne le laissent entendre.

HumanoïdesOpinion
1 source
SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions
177arXiv cs.RO 

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

SpecPrune-VLA est une méthode d'élagage (pruning) des modèles Vision-Langage-Action (VLA) publiée sur arXiv (arXiv:2509.05614v3, version révisée). Les VLA sont les architectures neuronales qui transforment images et instructions en langage naturel en commandes motrices pour robots manipulateurs. Sans réentraînement requis, la méthode opère à deux niveaux : un élagage statique par action, combinant historique global et attention locale pour réduire les tokens visuels traités à chaque étape, et un élagage dynamique couche par couche selon l'importance estimée de chaque couche du réseau. Un troisième composant, un contrôleur léger, classifie chaque action en "grossière" ou "fine" selon la vitesse de l'effecteur terminal, et ajuste l'agressivité du pruning en conséquence. Résultats annoncés : facteur d'accélération de 1,57x en simulation LIBERO et 1,70x sur tâches réelles, avec dégradation négligeable du taux de succès. L'enjeu est directement industriel. Les modèles VLA tels que pi-0 et pi-0.5 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA sont progressivement déployés dans des cellules de manipulation robotique, mais leur latence d'inférence reste un verrou pour l'embarqué temps réel. Les méthodes d'accélération existantes, focalisées sur la seule information locale à chaque step, provoquent des chutes de taux de succès supérieures à 20%, ce qui est rédhibitoire pour des environnements de production. SpecPrune-VLA exploite la cohérence spatiale et temporelle inhérente aux tâches robotiques : des frames consécutives se ressemblant fortement, des tokens visuels redondants peuvent être supprimés sans sacrifier la précision motrice. L'absence de réentraînement abaisse significativement la barrière d'adoption pour les intégrateurs. Le gain de 1,70x sur tâches réelles est un résultat solide, même si les conditions expérimentales précises (type de robot, nature des tâches, payload) ne sont pas détaillées dans le résumé publié. Le pruning de tokens dans les transformers est une technique mature côté LLMs (SnapKV, DuoAttention), mais son application aux VLA soulève des défis spécifiques liés à la nature temporelle et multimodale des entrées, et au fait que les erreurs motrices se cumulent sur des horizons longs. Les principaux acteurs qui investissent dans la réduction de la latence d'inférence VLA sont NVIDIA avec Isaac GR00T, Physical Intelligence avec ses modèles pi, et Figure AI avec son architecture Helix. Aucun acteur français ou européen n'est mentionné dans ces travaux. La publication en version v3 sur arXiv signale des révisions substantielles depuis la soumission initiale, mais l'acceptation dans une conférence ou un journal n'est pas encore confirmée, ce qui invite à nuancer la portée des résultats annoncés en attendant une évaluation par les pairs.

💬 1,70x sur du matériel réel sans réentraîner, c'est le genre de résultat qui va donner des idées aux intégrateurs qui bloquent sur la latence depuis des mois. La distinction grossière/fine selon la vitesse de l'effecteur, c'est malin : ça montre qu'ils ont pensé à la dynamique réelle du robot, pas juste au benchmark simulé. Bon, c'est encore v3 sur arXiv, pas de validation en conférence pour l'instant, faut garder ça en tête.

IA physiqueOpinion
1 source
Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent
178arXiv cs.RO 

Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent

Des chercheurs de TARS Robotics ont publié sur arXiv (2605.24931) une méthode de contrôle robotique haute fréquence baptisée RTR (Reuse-then-Refine), visant à résoudre un problème identifié dans les politiques d'action chunking actuelles. À 60 Hz, les systèmes qui exécutent des séquences pré-calculées de commandes motrices génèrent des mouvements saccadés et spatialement incohérents, ce que les politiques standard ne parviennent pas à corriger. L'approche RTR déplace l'apprentissage depuis l'espace d'action direct vers un espace latent encodé par un auto-encodeur variationnel (VAE), ce qui améliore significativement la consistance temporelle et spatiale. Elle intègre également une stratégie de raffinement par chunk permettant une transition fluide entre séquences adjacentes lors d'une inférence asynchrone. Les auteurs valident la méthode sur trois tâches réelles à contact riche, avec une exécution continue et moins de pauses involontaires. Le code et les données sont publiés en open source sur GitHub (tars-robotics/RTR). Le passage de 10-30 Hz à 60 Hz représente une frontière critique pour la manipulation robotique : à basse fréquence, le robot doit compenser sa lenteur par des pauses de recalcul, limitant son utilité en production industrielle. Les politiques de type VLA (Vision-Language-Action) ou diffusion policy, actuellement dominantes en imitation learning, fonctionnent généralement en dessous de 30 Hz. En montrant qu'un encodage latent peut absorber la variance temporelle sans sacrifier la précision spatiale, RTR apporte une réponse concrète au problème de "jerkiness" qui freine le déploiement des robots manipulateurs en conditions réelles. Pour un intégrateur ou un décideur B2B, c'est une voie vers des systèmes capables d'assurer une cadence de travail continue sans interruption de flux de production. L'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023) et les travaux sur Diffusion Policy, tous deux conçus pour des fréquences modérées. TARS Robotics se positionne dans un espace concurrentiel qui inclut Physical Intelligence avec pi0-FAST (ciblant 50-200 Hz via flow-matching) et les efforts de Figure AI, Agility Robotics et Boston Dynamics sur le contrôle haute cadence. RTR se distingue de pi0-FAST en proposant un raffinement incrémental du chunk existant plutôt qu'une régénération complète, ce qui réduit la charge computationnelle par inférence. Il s'agit pour l'instant d'une contribution de recherche validée en laboratoire sur robot réel, sans timeline de déploiement industriel ni partenariat annoncé.

RechercheOpinion
1 source
La Chine attribue un identifiant numérique à chaque robot humanoïde pour renforcer les standards industriels
179SCMP Tech 

La Chine attribue un identifiant numérique à chaque robot humanoïde pour renforcer les standards industriels

La Chine a lancé vendredi le "Humanoid Full Lifecycle Management Service Platform", une initiative nationale visant à attribuer un identifiant numérique unique à chaque robot humanoïde fabriqué sur son territoire. Ces codes serviront à tracer les robots bipèdes dotés d'IA tout au long de leur cycle de vie, de la production jusqu'au déploiement opérationnel et à la maintenance. L'initiative s'inscrit dans un effort plus large de Pékin pour structurer un secteur en croissance rapide, en posant des bases réglementaires et des standards industriels communs. La décision est significative pour les intégrateurs et les acheteurs B2B : un système de traçabilité obligatoire implique une meilleure auditabilité des incidents, une gestion facilitée des responsabilités en cas de défaillance, et un registre centralisé permettant de surveiller les flottes déployées à l'échelle industrielle. Pour les décideurs, c'est un signal que la Chine passe d'une phase de course à la démo vers une maturité réglementaire, condition souvent nécessaire à l'adoption en environnement de production réel. C'est aussi un levier de différenciation compétitif : les fabricants chinois opérant dans un cadre normalisé auront plus facilement accès aux marchés industriels exigeants. La Chine compte aujourd'hui plusieurs acteurs humanoïdes de premier plan, dont Unitree Robotics (H1, G1), UBTECH (Walker S), Agibot et Fourier Intelligence, qui rivalisent avec des entreprises occidentales comme Figure AI (Figure 02), Physical Intelligence (pi0), et Tesla (Optimus Gen 2). L'instauration d'un registre national positionne Pékin comme précurseur en matière de gouvernance robotique, une dimension que ni l'Union Européenne ni les États-Unis n'ont encore formalisée à ce niveau de granularité. Les prochaines étapes pourraient inclure l'extension du dispositif aux robots mobiles industriels (AMR) et une interconnexion avec les systèmes de certification de sécurité fonctionnelle.

UELa Chine devance l'UE en instaurant un registre national obligatoire pour les robots humanoïdes, ce qui pourrait accélérer une réflexion réglementaire européenne dans le cadre de l'AI Act ou des initiatives France 2030 dédiées à la robotique.

Chine/AsieReglementation
1 source
Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes
180Interesting Engineering 

Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes

Brain Corp, spécialiste américain des systèmes d'autonomie pour robots commerciaux, annonce un partenariat de recherche avec l'Université de Californie San Diego (UC San Diego) pour développer des technologies de cartographie sémantique et d'intelligence contextuelle. L'accord implique notamment le professeur Nikolay Atanasov du département d'Electrical and Computer Engineering de la Jacobs School. L'objectif déclaré : doter les robots autonomes d'une couche de compréhension spatiale plus fine que ce que permettent les solutions de localisation et cartographie simultanées (SLAM) actuelles. Brain Corp s'appuie sur un parc opérationnel de plus de 50 000 robots autonomes déployés dans des environnements commerciaux à l'échelle mondiale, totalisant plus de 25 millions d'heures d'opérations autonomes, corpus de données réelles qui constitue le socle expérimental de la collaboration. L'enjeu dépasse la simple navigation : les approches basées sur la vision directe (end-to-end visual) peinent à maintenir une robustesse satisfaisante dans des environnements dynamiques à grande échelle. Le tandem Brain Corp/UC San Diego parie que des cartes 3D sémantiques enrichies, intégrant la nature fonctionnelle des objets et des espaces et pas seulement leur géométrie, permettront aux flottes de robots de s'adapter à des conditions changeantes sans intervention humaine. Pour les intégrateurs et les opérateurs industriels, cela se traduit par une résilience opérationnelle accrue et une coordination multi-agents fiable à l'échelle d'un site entier, qu'il s'agisse d'entrepôts, d'hôpitaux ou d'espaces commerciaux. John Black, CTO de Brain Corp, résume l'enjeu : "le défi n'est plus le mouvement ou la perception, mais la compréhension." Il convient de noter que l'annonce ne détaille aucune métrique de performance ni résultat expérimental publié à ce stade. Brain Corp, fondée en 2009 à San Diego, s'est imposée dans le segment des robots de nettoyage autonomes (AMR floor care) en grande distribution et facilities management, avec des clients comme Walmart, en déployant sa plateforme BrainOS comme système d'exploitation mutualisé pour l'ensemble de sa flotte. Face à l'émergence de modèles vision-langage-action (VLA) portés par des acteurs comme Physical Intelligence avec pi-0, Nvidia avec GR00T N2, ou Figure AI avec Figure 03, Brain Corp repositionne BrainOS comme infrastructure d'orchestration d'agents autonomes hétérogènes plutôt que comme simple pile de navigation. Le partenariat avec UC San Diego vise à intégrer directement ces avancées en cartographie sémantique dans BrainOS. Aucun calendrier de livraison n'est précisé : il s'agit pour l'heure d'un accord de collaboration recherche, non d'un produit commercialisé ni d'un déploiement en cours.

IndustrielActu
1 source
Robotics Summit : le discours d'ouverture présente une fondation ouverte pour les robots à base d'IA
181Robotics Business Review 

Robotics Summit : le discours d'ouverture présente une fondation ouverte pour les robots à base d'IA

Brian Gerkey, co-fondateur d'Open Robotics et actuel directeur technique d'Intrinsic, filiale d'Alphabet dédiée aux logiciels robotiques, prendra la parole le mercredi 28 mai 2026 à 9h00 ET lors du Robotics Summit & Expo de Boston, au Thomas M. Menino Convention & Exhibition Center (salle 253 ABC). Sa conférence, intitulée "An Open Foundation for the Age of AI-Powered Robots", présentera la stratégie de l'Open Source Robotics Alliance (OSRA) en matière d'accessibilité, d'outillage moderne et de sécurité fonctionnelle. Open Robotics, organisation qui maintient le Robot Operating System (ROS) et le simulateur Gazebo, y défendra la thèse que l'open source devient une infrastructure critique à mesure que l'IA physique accélère. La session remplace une conférence initialement prévue avec Russ Tedrake, professeur au MIT et ex-vice-président senior pour les large behavior models au Toyota Research Institute. L'événement rassemble cette année plus de 70 intervenants confirmés issus d'Amazon Robotics, AWS, Tesla, Universal Robots, Brain Corp, PickNik Robotics et Robust AI, avec plus de 50 sessions réparties sur des tracks IA, design, healthcare et logistique. Le signal est moins technique qu'institutionnel. L'émergence des architectures Vision-Language-Action (VLA), des pipelines sim-to-real et des foundation models pour la robotique physique rend la standardisation des middlewares plus stratégique que jamais. ROS 2, qui reste la référence pour la communication inter-processus sur les plateformes industrielles et humanoïdes, est maintenu collectivement via l'OSRA. Pour les intégrateurs et les équipes R&D, le fait que Gerkey articule une roadmap publique au principal salon technique commercial américain de robotique signale que l'OSRA entend jouer un rôle normatif, pas seulement communautaire. La question non résolue est celle de la performance : les pipelines d'inférence GPU modernes imposent des contraintes de latence que les architectures ROS classiques gèrent mal, et c'est précisément là que se jouera la crédibilité du discours. Open Robotics a été fondée en 2012 autour de ROS, né à Willow Garage, l'un des premiers labs à industrialiser la recherche robotique aux États-Unis. Gerkey y a travaillé avant de co-fonder l'organisation, et son rattachement actuel à Intrinsic place cette prise de parole à l'intersection de la stratégie Google/Alphabet et de la gouvernance open source. Sur le plan concurrentiel, l'écosystème ROS fait face à des alternatives propriétaires croissantes : Isaac ROS de NVIDIA, les middlewares maison de Boston Dynamics ou de Figure AI, et des frameworks applicatifs comme LeRobot de HuggingFace. La prochaine étape pour l'OSRA sera de démontrer comment ROS 2 s'intègre nativement avec des architectures de foundation models en production, un point que Gerkey devrait adresser lors de sa session du 28 mai.

UEROS 2 étant la référence middleware adoptée par la majorité des équipes robotiques européennes, la roadmap OSRA articulée par Gerkey influencera les choix d'architecture pour les intégrateurs et startups FR/EU développant des robots à base de foundation models.

InfrastructureOpinion
1 source
Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions
182arXiv cs.RO 

Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions

Déposée sur arXiv le 22 mai 2026 (arXiv:2605.22493), une étude analyse les mécanismes d'échec du behavioral cloning (apprentissage par imitation) lorsqu'une même observation admet plusieurs actions valides, un cas fréquent en manipulation robotique. Les auteurs se concentrent sur les politiques à action-chunking, qui prédisent des séquences d'actions futures plutôt qu'une action isolée, et distinguent deux familles d'architectures : les politiques à variable latente de type VAE (dont ACT, Action Chunking with Transformers) et les politiques génératives en espace d'action (dont les politiques de diffusion comme Diffusion Policy). Pour les premières, la régularisation posterior-prior (terme KL dans un VAE) crée un compromis difficile : une régularisation forte stabilise l'échantillonnage au déploiement mais efface l'information permettant de distinguer les modes démontrés ; une régularisation faible préserve cette information mais expose à une couverture insuffisante par le prior. Pour les politiques génératives, les auteurs montrent que la multimodalité est bornée par la constante de Lipschitz du transport entre espace de base et espace d'action : une carte lisse ne peut pas distribuer de probabilité substantielle sur plusieurs modes bien séparés sans introduire des transitions brutales dans l'espace de base ou des régions de pont hors support en espace d'action. Ces mécanismes sont validés sur des tâches synthétiques multimodales et des benchmarks de simulation robotique. Ces résultats donnent aux équipes déployant des politiques d'imitation une grille de diagnostic concrète. En manipulation industrielle, où un préhenseur peut légitimement atteindre un objet depuis plusieurs angles, comprendre pourquoi un modèle s'effondre sur certains modes est directement actionnable : le coefficient bêta d'un VAE de type ACT, souvent ajusté empiriquement par tâtonnement, dispose maintenant d'une interprétation formelle. Pour les politiques de diffusion, la contrainte de Lipschitz suggère que la capacité à couvrir plusieurs modes dépend de l'expressivité du réseau de transport, avec un compromis explicite entre lissage et richesse modale. C'est un verrou théorique central pour le déploiement en production, où les observations ambiguës sont la règle plutôt que l'exception. L'apprentissage par imitation connaît un regain d'intérêt majeur depuis 2023, porté par ACT et Diffusion Policy, puis par des architectures plus récentes comme pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), aujourd'hui au coeur des pipelines d'entraînement des robots humanoïdes chez Figure AI, 1X et Agility Robotics. Malgré leurs succès en démonstration, la multimodalité reste l'un des verrous majeurs du sim-to-real et du passage en production à grande échelle. Cette étude, de nature purement théorique, ne propose pas d'architecture clé en main, mais son cadre analytique devrait orienter les prochains choix de conception et les stratégies de collecte de données pour les tâches à haute ambiguïté gestuelle.

RecherchePaper
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
183Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

IA physiqueOpinion
1 source
La robotique connaîtra-t-elle son moment ChatGPT ?
184IEEE Spectrum Robotics 

La robotique connaîtra-t-elle son moment ChatGPT ?

En 2025, les investissements dans les entreprises de robotique ont atteint un record de 40,7 milliards de dollars, soit 9 % de l'ensemble du capital-risque mondial. C'est dans ce contexte que Jonathan Hurst, professeur en robotique à l'Oregon State University et cofondateur d'Agility Robotics, et Wendy Tan White, ancienne CEO du projet Everyday Robots chez Google X, publient une analyse à contre-courant. Leur thèse : la robotique ne connaîtra pas de "moment ChatGPT" unique, mais progressera grâce à l'application coordonnée de plusieurs systèmes d'IA complémentaires. Ils articulent leur démonstration autour de cinq vérités difficiles, dont la première est le "YouTube-to-Reality Gap". La prestation des robots humanoïdes Unitree au gala du Nouvel An chinois 2026, où des machines exécutaient des figures d'arts martiaux avec des enfants, illustre parfaitement ce fossé : techniquement impressionnante, la séquence était entièrement chorégraphiée, relevant du même niveau d'autonomie qu'un bras industriel en usine automobile, et non d'un système capable de s'adapter à l'imprévu. L'enjeu est décisif pour les intégrateurs et décideurs industriels. Si les robots maîtrisent le backflip et le kung-fu, pourquoi sont-ils absents des chaînes de production généralistes et des cuisines domestiques ? L'IA mobilisée dans ces démonstrations ne sert que le contrôle moteur de bas niveau, sans capacité de raisonnement ni d'adaptation à des environnements non structurés. La rupture introduite par l'IA est réelle : les robots apprennent désormais au lieu d'être programmés, et peuvent, avec suffisamment de données, percevoir, raisonner et agir de façon fiable. Mais ce saut exige des systèmes d'IA coordonnés et rigoureusement intégrés, et non un modèle fondateur unique. La promesse de robots polyvalents vivant aux côtés des humains alimente la science-fiction depuis des décennies, et les déceptions accumulées ont rendu le secteur prudent face aux annonces. Agility Robotics déploie son humanoïde Digit dans des entrepôts Amazon depuis 2023, l'une des rares preuves de déploiement industriel réel à l'échelle. La concurrence s'est toutefois densifiée : Figure AI, Tesla Optimus, 1X et Apptronik côté produits, Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) côté recherche. Hurst et White, forts d'une décennie de terrain, ne disqualifient pas l'optimisme ambiant, mais rappellent l'obligation de distinguer ce qui est opérationnel de ce qui reste un prototype filmé sous son meilleur angle.

HumanoïdesOpinion
1 source
DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA
185arXiv cs.RO 

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.19294) une méthode baptisée DEFLECT, Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning, pour corriger un défaut structurel des politiques VLA (Vision-Language-Action) déployées en production. Le problème ciblé est l'inférence asynchrone : pendant qu'un modèle VLA calcule le prochain chunk d'actions, le robot exécute déjà le chunk précédent, conditionné sur une observation capturée plusieurs cycles de contrôle plus tôt. Ce décalage entre prédiction et exécution est bénin à faible latence, mais catastrophique dès que l'inférence s'étire : sur le benchmark Kinetix, le taux de succès s'effondre de 89 % à moins de 1 % quand le cycle d'inférence couvre jusqu'à sept pas de contrôle. DEFLECT apporte un gain de +6,4 points de succès dans ce régime haute latence (5 à 7 pas), +4,6 points sur un VLA réel à la latence maximale testée, avec des améliorations cohérentes sur deux tâches physiques : un pick-and-place bimanuel sur convoyeur et un jeu réactif de type whack-a-mole. L'intérêt industriel de DEFLECT tient à sa nature d'affinement post-entraînement entièrement offline, conçu comme une mise à niveau quasi plug-in sur les stacks VLA asynchrones existants. La méthode construit des paires d'actions contrefactuelles (fraîche vs. périmée) à partir d'une politique de référence gelée, puis les note via un estimateur implicite de ratio de vraisemblance par flow-matching, sans étiquettes humaines, sans modèle de récompense, et sans rollouts en ligne. Ce profil d'intégration est stratégique : les équipes qui déploient aujourd'hui des VLA en environnement industriel, où la latence réseau, la charge GPU et la fréquence de contrôle sont rarement synchronisées, peuvent théoriquement appliquer DEFLECT sans refaire de collecte de données ni de fine-tuning supervisé. La robustesse au délai est un frein réel à la commercialisation des politiques généralisées, et c'est la première approche qui quantifie explicitement l'ampleur de l'effondrement avant de le corriger. Les politiques VLA ont émergé comme paradigme dominant depuis RT-2 (Google DeepMind, 2023) et sont au coeur des systèmes de Physical Intelligence (pi0), de Figure AI (Helix), et de Boston Dynamics. Le problème de l'inférence asynchrone est documenté dans plusieurs travaux depuis 2024, mais les solutions proposées jusqu'ici impliquaient généralement un entraînement en ligne coûteux ou des architectures modifiées. DEFLECT se positionne comme une couche de correction légère, applicable à posteriori, ce qui facilite son adoption dans des pipelines déjà stabilisés. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat commercial dans cette version arXiv, il s'agit d'un résultat de recherche, pas d'un produit shipped. Les prochaines étapes probables incluent des évaluations sur des benchmarks standardisés comme LIBERO ou Open-X Embodiment, et potentiellement une intégration dans des frameworks VLA open-source.

IA physiqueOpinion
1 source
Xynova dévoile une main dextérique hybride de deuxième génération pour robots humanoïdes
186Pandaily 

Xynova dévoile une main dextérique hybride de deuxième génération pour robots humanoïdes

La startup Xynova a présenté sa main dextère hybride de deuxième génération (Gen-2), destinée aux plateformes de robots humanoïdes. L'architecture combine des actionneurs rigides, qui garantissent précision et force, avec des éléments à compliance douce inspirés de la soft robotics, capables de s'adapter à des objets de formes, textures et rigidités variables. L'ensemble constitue un système d'actionnement hybride qui vise à dépasser les limites des préhenseurs industriels standards, inaptes à la manipulation fine. À noter : Xynova n'a divulgué aucun chiffre technique concret, ni nombre de degrés de liberté (DOF), ni charge utile nominale, ni temps de cycle, ni tarification. Ce dévoilement s'apparente davantage à un teaser produit qu'à un lancement commercial. La qualité des effecteurs terminaux constitue aujourd'hui l'un des principaux goulots d'étranglement dans la commercialisation des robots humanoïdes. La transition entre démonstrations en laboratoire et déploiements industriels réels exige une manipulation adaptative que les mains rigides actuelles ne permettent pas encore. L'approche hybride de Xynova, si elle tient ses promesses en conditions réelles, pourrait résoudre partiellement le "manipulation gap" qui freine l'adoption par les intégrateurs et les industriels. Pour un COO de logistique ou un intégrateur AMR, la capacité à traiter des articles non standardisés sans reprogrammation est un prérequis commercial. C'est précisément ce marché que cible Xynova, même si l'absence de benchmarks indépendants et de vidéos de manipulation complexe limite toute évaluation objective à ce stade. L'annonce s'inscrit dans une accélération visible du marché des mains dextères pour humanoïdes. Tesla (Optimus Gen 3), Figure (Figure 03) et un nombre croissant d'acteurs chinois investissent massivement dans la fermeture du gap de manipulation, reconnu comme le principal verrou technique avant une industrialisation à grande échelle. Des acteurs comme Sanctuary AI, Shadow Robot ou le projet open-source LEAP Hand ont déjà proposé des architectures concurrentes sur ce segment. Xynova se positionne comme fournisseur de composants pour écosystème humanoïde plutôt que comme constructeur de plateforme complète, un modèle qui pourrait séduire les intégrateurs cherchant à upgrader des plateformes existantes. Aucune date de disponibilité commerciale ni partenariat de déploiement n'ont été annoncés.

HumanoïdesOpinion
1 source
PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes
187arXiv cs.RO 

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Une équipe de chercheurs a présenté PRIME (Physically-consistent Robotic Inertial and Motion Estimation), une méthode d'estimation de mouvement pour robots à pattes et humanoïdes publiée sur arXiv en mai 2026 (arXiv:2605.17681). Là où les pipelines conventionnels basés sur des filtres de Kalman étendus (EKF) ou la capture de mouvement externe ne reconstruisent que la cinématique, PRIME formule le problème comme une estimation MAP (Maximum A Posteriori) qui raffine simultanément les données proprioceptives brutes et les commandes des actionneurs pour produire une trajectoire dynamiquement cohérente. L'algorithme estime conjointement les forces de contact frictionnelles et les paramètres inertiels du robot (masses, centres de masse, moments d'inertie), via une modélisation différentiable de la dynamique de contact avec contraintes de complémentarité lissées et un modèle de friction d'Anitescu. Les validations ont été conduites sur des robots quadrupèdes et sur l'humanoïde Unitree G1, lors de séquences de locomotion à contacts multiples en déploiement réel. Le problème abordé est structurel : les pipelines de perception robotique actuels ignorent les forces de contact et les paramètres inertiels effectifs du système, ce qui entraîne des reconstructions qui violent régulièrement la dynamique des corps rigides, en particulier lors des phases de contact. Cette incohérence dégrade la qualité des données d'entraînement et limite la robustesse des contrôleurs en boucle fermée. PRIME produit des reconstructions de mouvement annotées en forces et contacts directement depuis des robots en déploiement terrain, sans infrastructure de laboratoire. Pour les équipes qui développent des modèles de fondation robotiques ou des architectures Visual-Language-Action (VLA), cette capacité représente une source de données haute qualité exploitable à grande échelle, là où la rareté d'annotations dynamiques fiables reste un goulot d'étranglement reconnu. L'estimation d'état pour robots à pattes est un problème ancien, historiquement traité par EKF couplés à la proprioception, la capture de mouvement restant cantonnée aux laboratoires. PRIME se distingue en proposant une solution embarquée et déployable en conditions réelles, sans dépendance à une infrastructure externe. L'humanoïde Unitree G1, commercialisé autour de 16 000 dollars et très présent dans la recherche académique mondiale, sert de banc de validation représentatif. Dans un contexte où Boston Dynamics, Figure AI, Agility Robotics, 1X et Unitree accumulent des données de déploiement pour alimenter leurs pipelines d'apprentissage, PRIME propose une brique méthodologique transversale pour enrichir ces corpus avec des annotations dynamiques fiables. Les applications naturelles incluent l'imitation learning, le transfert sim-to-real et l'entraînement de modèles de fondation à partir de données terrain.

UELes équipes de recherche européennes en locomotion robotique (INRIA, LAAS-CNRS) pourraient exploiter PRIME pour enrichir leurs pipelines d'entraînement sans infrastructure de laboratoire, mais aucun acteur ou institution européen n'est directement impliqué.

RecherchePaper
1 source
Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?
188arXiv cs.RO 

Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?

Des chercheurs ont déposé sur arXiv (2605.18045) une étude systématique sur l'autonomie à seuil de confiance, mécanisme par lequel un robot décide d'agir de façon autonome ou de déléguer à une politique de repli selon son niveau d'incertitude prédictive. L'équipe a comparé trois familles de méthodes d'estimation de l'incertitude (heuristiques softmax, MC Dropout, ensembles de modèles) sur trois benchmarks de reconnaissance d'activité temporelle, avant de valider les résultats dans une simulation embarquée multi-seed mesurant taux de collision et coût opérationnel. Les auteurs critiquent les métriques standard comme l'ECE (erreur de calibration attendue) et l'AUROC : ces indicateurs ne testent pas directement si l'incertitude modifie la décision agir/déléguer. Ils proposent en remplacement une évaluation par corrélation de rang de Spearman, tests d'équivalence par bootstrap, et accord act/defer. Le résultat central contredit une hypothèse fréquente dans la robotique de déploiement : une fois un seuil de compétence minimal atteint par le modèle de base, les trois méthodes produisent des comportements de gating quasi-identiques. C'est le choix du seuil de décision qui pèse le plus sur les résultats d'exécution, bien davantage que la sophistication de la méthode d'incertitude choisie. En pratique, un proxy simple (softmax) suffit pour le gating sélectif dès lors que le modèle est compétent. Revers de la médaille : la détection sémantique hors-distribution fine-grained reste proche du hasard même avec des ensembles de modèles. Les systèmes actuels ne savent pas identifier une situation véritablement inédite, ce qui représente un angle mort critique pour les robots opérant en environnements non contrôlés. Ce travail s'inscrit dans le champ de l'autonomie partagée (shared autonomy), question centrale pour les robots collaboratifs et les AMR industriels. Les méthodes comparées (MC Dropout, Gal et Ghahramani 2016 ; ensembles, Lakshminarayanan 2017) font figure de références établies dans le domaine. Les résultats relativisent les arguments commerciaux en faveur des estimateurs bayésiens avancés pour le déploiement terrain, un sujet directement pertinent pour des acteurs comme Boston Dynamics, Figure AI, Apptronik ou Intrinsic (Alphabet), dont les systèmes doivent décider en temps réel quand solliciter un opérateur humain. Les auteurs annoncent comme prochaines étapes l'extension à des modalités sensorielles plus riches et à des scénarios de décalage de covariable plus agressifs, pour tester la robustesse des conclusions hors du cadre benchmarké.

RecherchePaper
1 source
Amélioration des capacités des robots manipulateurs collaboratifs par algorithme de tâches
189arXiv cs.RO 

Amélioration des capacités des robots manipulateurs collaboratifs par algorithme de tâches

Des chercheurs ont soumis le 22 mai 2026 sur arXiv (réf. 2605.17293) un algorithme baptisé Task Capability Improvement Algorithm (TCIA), conçu pour les systèmes de manipulation collaborative multi-bras. Le principe central repose sur l'exploitation de moments résiduels, des couples non désirés qui émergent naturellement lorsque des bras robotiques appliquent des forces en un point de préhension différent du centre de gravité de l'objet. Plutôt que de les compenser (l'approche classique), l'algorithme les redirige comme levier d'amélioration de capacité. Les simulations présentées montrent un gain de 5,86 % sur la capacité de tâche globale du groupe de manipulateurs, comparé à une configuration sans exploitation de ces moments. Aucune validation expérimentale sur matériel réel n'est encore présentée à ce stade. Ce résultat, modeste en valeur absolue, est néanmoins pertinent pour les applications industrielles de manipulation lourde ou de transport d'objets en configuration multi-bras. L'algorithme permet simultanément d'optimiser la capacité globale du groupe, l'allocation des ressources entre les bras (distribution de charge, couple disponible par actionneur) et la tolérance aux pannes, soit la capacité du système à maintenir une tâche malgré la défaillance d'un bras. Pour un intégrateur travaillant sur des cellules collaboratives, cette triple optimisation via un seul mécanisme représente un avantage de conception concret. L'approche inverse la logique habituelle : ce qui était traité comme une perturbation physique devient une ressource exploitable. La manipulation coopérative multi-bras est un domaine actif depuis les années 1990, mais l'intérêt s'est intensifié avec la montée des cobots deux bras (Universal Robots, FANUC CRX, KUKA iiwa en configuration duale) et des humanoïdes comme Figure 03, Apptronik Apollo ou Agility Digit, qui doivent manipuler des objets volumineux sans gabarit dédié. L'approche TCIA s'inscrit dans une tendance plus large d'exploitation des contraintes physiques comme ressources plutôt que comme nuisances. Les suites naturelles seraient une validation sur banc physique et une extension aux configurations à géométrie variable, notamment les systèmes mobiles où le point de préhension évolue dynamiquement pendant la tâche.

RecherchePaper
1 source
Qu'est-ce qui rend un métier ennuyeux, sale ou dangereux ?
190IEEE Spectrum Robotics 

Qu'est-ce qui rend un métier ennuyeux, sale ou dangereux ?

Une équipe de chercheurs a mené une analyse systématique de la littérature robotique publiée entre 1980 et 2024 pour examiner comment la discipline utilise le cadre dit "DDD", dull, dirty, dangerous (répétitif, sale, dangereux), pour justifier le déploiement de robots dans certains secteurs. Le résultat est frappant : sur des milliers de publications mentionnant ce triptyque, seulement 2,7 % en proposent une définition explicite et seulement 8,7 % citent des exemples concrets de tâches ou de métiers visés. Les chercheurs ont ensuite croisé ces données avec la littérature en sciences sociales, anthropologie, économie, psychologie, sociologie, pour proposer un cadre analytique plus rigoureux des trois catégories. Cette imprécision n'est pas sans conséquences pour les décideurs et les ingénieurs qui orientent les feuilles de route robotiques. Sur le volet "dangereux", les données administratives sur les accidents du travail souffrent d'une sous-déclaration estimée à 70 % dans certaines études, et les statistiques sont rarement désagrégées par genre, statut migratoire ou type d'activité informelle. Exemple concret : la plupart des équipements de protection individuelle, masques, gilets, gants, sont dimensionnés pour des morphologies masculines, exposant les femmes à des risques accrus dans les environnements industriels. Sur le volet "sale", la dimension physique (déchets, substances toxiques, entretien) ne représente qu'une partie du concept : la stigmatisation sociale joue un rôle central. Les métiers "socialement dégradants" (agents de recouvrement, agents pénitentiaires) ou "moralement ambigus" selon les normes culturelles entrent dans cette catégorie, et la frontière varie selon les époques et les pays. Les chercheurs soulignent également un paradoxe important pour la conception des systèmes robotiques : un emploi classé "bas prestige" dans les enquêtes quantitatives sur le prestige professionnel peut être vécu avec fierté et sens par ceux qui l'exercent, ce que les roboticiens oublient souvent de mesurer avant d'intervenir. Le cadre DDD est apparu dans les années 1980 comme raccourci rhétorique pour légitimer la robotisation industrielle, notamment dans l'automobile et la manutention lourde. Il s'est imposé sans véritable formalisation, héritage d'une époque où la robotique se déployait quasi exclusivement en milieu manufacturier contrôlé. Aujourd'hui, avec l'essor des robots humanoïdes (Figure AI, Apptronik, Agility Robotics) et des systèmes mobiles en environnements non structurés, la cible s'étend à des secteurs comme les soins à domicile, la logistique urbaine ou l'agriculture. L'enjeu soulevé par cette recherche est de forcer la discipline à définir précisément quel problème humain elle cherche à résoudre, pour quels travailleurs, dans quel contexte culturel, avant de concevoir le robot, pas après.

UELes conclusions de cette recherche pourraient alimenter les discussions réglementaires européennes (AI Act, directive machines révisée) sur les critères d'acceptabilité sociale et les conditions de déploiement des robots dans des secteurs non structurés comme les soins ou la logistique urbaine.

RecherchePaper
1 source
OneRobotics déploie des robots domestiques dans des scénarios réels à l'échelle mondiale : le rival chinois de Figure AI
191Pandaily 

OneRobotics déploie des robots domestiques dans des scénarios réels à l'échelle mondiale : le rival chinois de Figure AI

OneRobotics (卧安机器人), startup chinoise spécialisée dans la robotique domestique, a fait l'objet d'un reportage spécial de la chaîne publique japonaise NHK, peu après que Figure AI a publié une vidéo mettant en scène deux robots humanoïdes Figure 03 réalisant des tâches de rangement dans une chambre (protocole Helix-02 Bedroom Tidy : suspendre des vêtements, organiser des tiroirs, faire le lit). Lors de l'interview NHK, le robot onero H1 de OneRobotics a exécuté en environnement domestique réel la séquence complète suivante : identification visuelle de vêtements, préhension et introduction dans un lave-linge. La démonstration a eu lieu dans un appartement, et non sur un plateau d'exposition. La société structure son offre autour d'une architecture "un cerveau, multiple formes" : trois plateformes partagent le même système de perception et de décision, déclinées en Kata Friends (compagnie et interaction sociale), Acemate (santé et activité physique) et onero H1 (service domestique). Aucun chiffre de payload, de DOF ou de cadence de cycle n'a été communiqué lors de l'interview. L'importance de cet événement tient moins à la démonstration technique en elle-même qu'à ce qu'elle signale sur la maturité du marché. Les deux scènes, Figure AI d'un côté et OneRobotics de l'autre, convergent vers le même constat : la maison s'impose comme le terrain d'atterrissage commercial prioritaire pour les humanoïdes, après des années de démonstrations en entrepôt ou en usine. Pour les intégrateurs et les décideurs B2B, cela déplace le critère de sélection : ce n'est plus la performance en environnement contrôlé qui compte, mais la capacité à accumuler des données de terrain réelles, à itérer rapidement sur des scénarios non structurés, et à construire un service continu dans un logement habité. L'architecture "un cerveau" partagée entre plusieurs formes physiques est une réponse industrielle directe à ce besoin : elle permet de mutualiser les données d'apprentissage entre des contextes d'usage distincts (soin, sport, tâches ménagères), accélérant potentiellement la convergence sim-to-real sans multiplier les pipelines d'entraînement. OneRobotics opère dans un secteur chinois en forte densité concurrentielle, aux côtés d'Unitree, d'UBTECH et de Fourier Intelligence, tandis qu'à l'international Figure AI, Boston Dynamics (Atlas), Agility Robotics (Digit) et Physical Intelligence (pi-0) occupent l'espace médiatique. La stratégie de OneRobotics se distingue par une orientation marché B2C et overseas affichée dès le démarrage, avec le Japon comme tête de pont, marché particulièrement réceptif au vieillissement démographique et aux robots d'assistance. Le reportage NHK constitue une validation de visibilité, mais la société n'a pas communiqué de chiffres de déploiement, de volumes de commandes ni de prix public pour le onero H1. La prochaine étape observable sera de savoir si ces démonstrations en habitat réel débouchent sur des pilotes commerciaux documentés, ou restent dans la catégorie des "annonces de traction" sans métriques vérifiables.

Chine/AsieOpinion
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
192Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

IA physiqueOpinion
1 source
Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés
193arXiv cs.RO 

Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés

Les modèles VLA (Vision-Language-Action) qui pilotent aujourd'hui les robots manipulateurs reposent quasi-exclusivement sur des images 2D comme entrée visuelle. Une équipe de chercheurs publie sur arXiv (arXiv:2506.00807v2) Any3D-VLA, une architecture d'entraînement qui intègre explicitement des nuages de points 3D pour améliorer la robustesse spatiale de ces modèles. L'approche fusionne trois sources de nuages de points hétérogènes, données de simulation, capteurs de profondeur réels (LiDAR, RGB-D), et estimation par modèle monoculaire, avec les représentations 2D existantes, dans un pipeline d'entraînement unifié. Les expériences couvrent à la fois des environnements simulés et des déploiements réels, et montrent des gains de performance mesurables sur des tâches de manipulation. L'intérêt technique est double. D'abord, le papier démontre empiriquement que "lever" l'entrée visuelle en nuage de points produit des représentations complémentaires aux features 2D, plutôt que redondantes, ce qui valide une hypothèse souvent discutée dans la communauté VLA. Ensuite, Any3D-VLA s'attaque directement aux deux verrous pratiques qui ont jusqu'ici freiné l'adoption du 3D dans ce domaine : la rareté des données 3D annotées et le domain gap lié aux différences de calibration entre environnements et aux biais d'échelle de profondeur. En traitant ces deux obstacles dans un seul framework, le travail suggère une voie vers des VLA plus robustes au sim-to-real transfer, un problème central pour le déploiement en conditions industrielles réelles. Les VLA sont au cœur d'une course intense depuis la publication de RT-2 (Google DeepMind, 2023) et l'essor de modèles comme Pi-0 (Physical Intelligence), OpenVLA, ou RoboVLMs. La plupart restent limités par leur dépendance aux caméras RGB standard, ce qui crée des angles morts en cas d'occlusion ou de scènes encombrées. Any3D-VLA ne propose pas encore un produit déployé : il s'agit d'une contribution de recherche avec code et page projet publics. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning utilisés par des acteurs comme Physical Intelligence ou les équipes robotique de Figure AI, qui cherchent précisément à réduire le nombre de démonstrations réelles nécessaires grâce à un meilleur transfert depuis la simulation.

RechercheOpinion
1 source
Quels sont les facteurs limitants de la navigation vision-langage ?
194arXiv cs.RO 

Quels sont les facteurs limitants de la navigation vision-langage ?

Une équipe de chercheurs publie StereoNav (arXiv:2605.13328, mai 2026), un framework Vision-Language-Action (VLA) conçu pour la navigation robotique guidée par instructions en langage naturel, domaine désigné sous le terme Vision-and-Language Navigation (VLN). Sur les benchmarks standards R2R-CE et RxR-CE, le système atteint des taux de succès (SR) de 81,1 % et 67,5 %, avec des scores SPL (Success weighted by Path Length) de 68,3 % et 52,0 % respectivement, positionnant StereoNav en état-de-l'art sur RGB égocentrique. Ces performances sont obtenues avec nettement moins de paramètres et de données d'entraînement que les approches concurrentes fondées sur la mise à l'échelle. Des déploiements physiques sur robot dans des environnements non structurés réels confirment une amélioration substantielle de la fiabilité de navigation. La contribution centrale de StereoNav est de remettre en cause le paradigme dominant du scaling: les auteurs soutiennent que le vrai goulot d'étranglement pour combler le sim-to-real gap ne réside pas dans la taille des modèles ou le volume de données d'entraînement, mais dans l'absence d'un ancrage spatial robuste (spatial grounding) et de représentations cross-domaines stables. Ils introduisent en réponse des Target-Location Priors, représentations visuelles persistantes invariantes entre simulation et déploiement réel, qui stabilisent la navigation même lorsque les instructions verbales sont vagues ou incomplètes. La vision stéréo complète le dispositif en construisant une représentation unifiée sémantique et géométrique, résistante aux perturbations visuelles fréquentes en environnement industriel: flou de mouvement, variations d'éclairage, changements de perspective. Pour un intégrateur ou un COO industriel, le signal est clair: atteindre ces performances sans modèles XXL réduit significativement les coûts de déploiement et d'inférence. La VLN s'appuie historiquement sur le benchmark Room-to-Room (R2R) introduit en 2018, mais le passage du simulateur Matterport3D au monde physique restait un défi largement ouvert. StereoNav entre en compétition directe avec des VLA généralistes misent sur l'échelle paramétrique: pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI. L'architecture proposée choisit une voie opposée, fondée sur l'efficience et les priors géométriques explicites plutôt que la capacité brute. Il s'agit à ce stade d'un résultat académique sans déploiement commercial annoncé, mais les expériences physiques documentées dépassent le registre de la démonstration en laboratoire et constituent une base sérieuse pour des pilotes industriels à venir.

UEL'approche architecture légère de StereoNav pourrait réduire les coûts de déploiement VLA pour les intégrateurs industriels européens, sans nécessiter d'infrastructure de calcul massive.

💬 Le vrai goulot d'étranglement de la navigation robot, c'est pas la taille du modèle. StereoNav le démontre proprement : meilleures perfs sur les benchmarks standards, moins de paramètres, et des déploiements physiques qui tiennent en dehors du labo. Reste à voir si ça tient à l'échelle industrielle, mais l'argument contre le scaling aveugle a enfin des chiffres derrière.

IA physiqueOpinion
1 source
CUBic : cadre unifié et coordonné de perception et contrôle bimanuels
195arXiv cs.RO 

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

Des chercheurs ont publié CUBic (Coordinated and Unified framework for Bimanual perception and control), un cadre d'apprentissage visuomoteur pour robots à deux bras, déposé sur arXiv en mai 2025 (arXiv:2605.13452). L'objectif : résoudre un verrou classique de la manipulation bimanuelle, où chaque bras doit agir à la fois de façon indépendante et coordonnée avec l'autre. CUBic reformule ce problème comme un défi de modélisation perceptuelle unifiée, en apprenant une représentation tokenisée partagée à travers trois composants : une agrégation perceptuelle unidirectionnelle, une coordination bidirectionnelle via deux codebooks à mapping commun, et une politique de diffusion perception-vers-contrôle. Les expériences sur le benchmark RoboTwin montrent des améliorations nettes sur les métriques de précision de coordination et de taux de succès par rapport aux baselines de référence, sans que les chiffres précis soient disponibles dans l'abstract publié. Le verrou que CUBic adresse est structurel : les approches existantes forçaient un choix binaire, soit déconnecter les deux bras (chacun avec sa propre politique, au détriment de la coordination globale), soit imposer un couplage fort entre eux (risque d'interférences, manque de souplesse). CUBic démontre qu'une représentation partagée apprise de façon émergente, sans couplage codé à la main, suffit à générer simultanément indépendance et coordination. Pour un intégrateur ou un COO industriel, c'est un signal encourageant pour les tâches d'assemblage bimanuel complexes comme le vissage, le pliage ou le conditionnement, qui restent aujourd'hui difficiles à automatiser sans sur-ingénierie du système de contrôle. La manipulation bimanuelle est l'un des fronts les plus actifs de la recherche en robotique apprise. Des cadres comme ACT (Action Chunking with Transformers), Diffusion Policy ou Pi-0 de Physical Intelligence ont progressivement amélioré les performances à un seul bras ; l'extension bimanuelle reste un défi ouvert, notamment pour les robots humanoïdes tels que le Figure 03, l'Optimus Gen 3 ou l'Unitree G1, qui en ont besoin pour les tâches industrielles réelles. CUBic est pour l'instant une contribution fondationnelle validée uniquement en simulation sur RoboTwin, sans déploiement physique annoncé. La prochaine étape logique serait un transfert sim-to-real sur robot physique, qui constitue encore le principal goulot d'étranglement entre publications académiques et applications industrielles concrètes.

RecherchePaper
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
196arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

IA physiqueActu
1 source
Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0
197Pandaily 

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Pro Universe Robotics a présenté son "Product Matrix 2.0", comprenant deux nouvelles offres : AcCI, une solution d'acquisition de données multimodale à précision sub-millimétrique, et le module Dabai, dédié au chargement et déchargement intelligent par robot. AcCI intègre des technologies de contrôle maître-esclave, de téléopération VR et de manette, et capture des données de force, couple, pose, retour tactile et vision, avec une boucle fermée end-to-end. La société lance simultanément une stratégie d'écosystème baptisée "1+N+infinity" et recrute des partenaires mondiaux pour cibler ce qu'elle décrit comme un marché d'intelligence incarnée industrielle à "trillion de yuans" (environ 138 milliards de dollars). Fondée il y a 16 mois seulement, l'entreprise n'a communiqué ni client ni déploiement terrain confirmé. La collecte de données haute qualité reste l'un des principaux goulots d'étranglement pour le déploiement à grande échelle de robots industriels physiquement intelligents. Une solution d'acquisition multimodale en boucle fermée - force, couple, tactile, visuel, pose - répond directement à ce besoin, notamment pour entraîner des VLA (Vision-Language-Action models) sur des tâches de manipulation complexe comme le chargement et déchargement de pièces. Si la précision sub-millimétrique annoncée se confirme en conditions réelles, ce serait un atout concret pour constituer des datasets d'entraînement denses. Cependant, le communiqué ne fournit ni benchmark indépendant, ni volume de données collectées, ni résultats mesurables sur le terrain. Pro Universe Robotics s'inscrit dans un secteur très compétitif : Physical Intelligence avec Pi-0, Figure AI avec le Figure 03, Apptronik, mais aussi des acteurs spécialisés dans la téléopération et la capture de données comme Embodied Intelligence ou Scale AI. La revendication "global-first" sur l'acquisition fusionnée haute précision est difficile à vérifier sans étude comparative indépendante. L'ambition affichée d'un marché au trillion de yuans est une projection courante dans les annonces robotiques chinoises, où l'écart entre ambition déclarée et réalité commerciale reste souvent important. La prochaine étape déterminante sera la signature de partenaires industriels concrets au sein de l'écosystème annoncé.

Chine/AsieActu
1 source
Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental
198arXiv cs.RO 

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

Une équipe de chercheurs a publié sur arXiv (référence 2604.14484) une analyse théorique des politiques de clonage comportemental (behavior cloning, BC) sur robots à commande en position. L'étude démontre que les erreurs d'action, modélisées comme variables sous-gaussiennes indépendantes, se propagent via la dynamique en boucle fermée d'un contrôleur PD pour produire des erreurs de position gouvernées par une matrice proxy X∞(K). La probabilité d'échec sur l'horizon T se factorise en un indice d'amplification Γ_T(K) dépendant des gains et en la perte de validation augmentée d'un terme de généralisation. Pour le système PD scalaire du second ordre, la variance stationnaire admet la forme fermée X∞(α,β) = σ²α/(2β), strictement monotone en rigidité (α) et en amortissement (β) sur l'ensemble de l'orthant stable. Quatre régimes canoniques sont classés : le mode conforme-suramorti (CO) minimise les erreurs ; le mode rigide-sous-amorti (SU) les maximise ; les deux cas intermédiaires restent dépendants de la dynamique propre du système. L'implication opérationnelle est directe : la perte d'entraînement ou de validation ne prédit pas la fiabilité en boucle fermée. Un modèle bien calibré peut échouer en déploiement si les gains du contrôleur PD amplifient les erreurs résiduelles de la politique apprise. Ce cadre analytique fournit aux intégrateurs robotiques un outil de dimensionnement concret : choisir des gains conformes-suramortis réduit statistiquement le risque d'échec de tâche, indépendamment de la qualité des démonstrations. Ce résultat remet en question une hypothèse largement répandue dans la communauté du robot learning, selon laquelle améliorer les données ou l'architecture du modèle suffit à améliorer les performances en conditions réelles. Ce travail prolonge les recherches de Bronars et al. sur l'atténuation d'erreurs dépendante des gains en offrant une extension non-asymptotique à horizon fini, qui manquait dans la littérature. Si les propriétés asymptotiques de stabilité des contrôleurs PD sont bien établies, leur traduction en bornes probabilistes finies sur l'échec de tâche restait ouverte. La contribution est directement applicable aux architectures BC modernes, notamment les VLA (Vision-Language-Action models) déployés sur des manipulateurs et des humanoïdes chez des acteurs comme 1X Technologies, Figure AI, Boston Dynamics ou Sanctuary AI. La discrétisation ZOH (Zero-Order Hold) est traitée explicitement, ancrant les résultats dans les implémentations numériques réelles plutôt que dans la seule analyse en temps continu.

UELes laboratoires et équipes R&D européens (INRIA, CEA-List, start-ups BC/VLA) déployant des politiques apprises sur manipulateurs ou humanoïdes peuvent appliquer directement ce cadre analytique pour calibrer leurs gains PD et réduire statistiquement les échecs en déploiement réel.

RecherchePaper
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
199arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
200arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

IA physiqueOpinion
1 source