Aller au contenu principal

Dossier Figure — page 4

604 articles · page 4 sur 13

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique
151arXiv cs.RO IA physiqueActu

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

Des chercheurs du RPM Lab de l'Université du Minnesota présentent dans un preprint arXiv (2512.11173v3) un framework d'imitation learning pour la navigation au "dernier mètre" d'un robot manipulateur mobile quadrupède. L'enjeu : positionner la base du robot à quelques centimètres de l'objet cible avant toute action de manipulation, une phase où les systèmes RGB existants échouent, ne garantissant qu'une précision métrique insuffisante. Le système n'utilise que des caméras RGB embarquées et fonctionne avec trois entrées : des images objectif, des observations RGB multi-vues, et un prompt texte nommant l'objet cible. Un module de segmentation guidé par le langage et un décodeur de matrice de score spatial gèrent l'ancrage de l'objet et le raisonnement en pose relative. Entraîné sur une seule instance physique par catégorie, le système atteint 74,58 % de succès en edge-alignment (évaluation sur l'orientation réelle) et 89,42 % en object-alignment sur des instances et environnements inédits, y compris avec des conditions d'éclairage et de fond difficiles. Ce résultat comble un angle mort structurel de la manipulation mobile : les politiques de manipulation sont entraînées sur des configurations précises, et un positionnement approximatif suffit à les faire sortir de leur distribution d'entraînement, causant des échecs en chaîne à l'exécution. Supprimer LiDAR, capteurs de profondeur et cartes préalables tout en conservant une précision centimétrique rend le pipeline nettement plus déployable sur des plateformes sans capteurs premium. La généralisation catégorielle (une seule démonstration réelle, des dizaines d'instances inconnues) réduit massivement le coût de collecte de données, un verrou majeur pour la manipulation hors environnement contrôlé. Ce travail s'inscrit dans la dynamique des VLA (Vision-Language-Action) qui cherchent à unifier perception, langage et action dans des politiques généralisables. Les acteurs dominants sur la manipulation mobile incluent Physical Intelligence (Pi-0), Figure AI et les équipes académiques de Stanford et CMU, qui investissent massivement dans la collecte de données téléopérées à grande échelle. L'approche ici contraste délibérément : une seule démonstration par catégorie plutôt que des milliers d'épisodes. Ce résultat reste un démonstrateur académique sans déploiement industriel annoncé ni partenaire B2B identifié, mais une page projet avec des démonstrations visuelles est disponible en ligne.

1 source
Le robot Codey, adapté aux enfants, illustre l'avenir de l'AGI incarnée dans l'éducation et la santé
152Interesting Engineering 

Le robot Codey, adapté aux enfants, illustre l'avenir de l'AGI incarnée dans l'éducation et la santé

Mind Children, une startup de Seattle, a présenté Codey, un robot humanoïde d'environ 90 centimètres de hauteur conçu pour les environnements publics comme les musées, hôtels et galeries d'art. Le robot embarque le framework Hyperon de SingularityNET, une plateforme d'intelligence artificielle générale (AGI) décentralisée, censée lui permettre de naviguer de façon autonome, de tenir des conversations et de prendre des décisions basiques sans téléopération humaine. Ses yeux lumineux hazel et ses animations faciales expressives visent à le rendre accessible, particulièrement aux enfants. Mind Children prévoit de conduire des études pilotes dans ces trois types de lieux dès 2026, avec une deuxième génération du robot annoncée pour 2027. La société a lancé une campagne de financement participatif et a levé à ce jour plus de 600 000 dollars sur un objectif d'un million. À court terme, l'équipe cible une capacité simple : permettre à Codey d'appuyer sur des boutons physiques, une étape significative dans le contexte de la manipulation. L'intérêt de Codey pour les décideurs B2B n'est pas tant dans ses capacités physiques actuelles, encore très limitées, que dans la démonstration d'une navigation autonome et d'une interaction conversationnelle sans supervision humaine temps réel dans des espaces ouverts et imprévisibles. C'est précisément le "demo-to-reality gap" que beaucoup de plateformes humanoïdes peinent encore à combler dans des contextes non structurés. Si les pilots 2026 confirment une robustesse opérationnelle réelle, cela ouvrirait un segment de marché distinct de la robotique industrielle: les environnements d'accueil, de soin et d'éducation, où la sécurité perçue et l'interaction naturelle priment sur le débit ou la précision de manipulation. Il convient néanmoins de nuancer: les vidéos publiées restent des démonstrations contrôlées, et aucune métrique de fiabilité opérationnelle sur durée longue n'a été communiquée. Mind Children s'appuie sur Hyperon, le framework AGI décentralisé de SingularityNET, l'organisation fondée par Ben Goertzel, figure historique de la recherche en AGI et co-créateur de Sophia, le robot humanoïde de Hanson Robotics. L'architecture décentralisée de Hyperon distribue les capacités de raisonnement, représentation de connaissance et calcul sur un réseau d'agents IA, à l'opposé des systèmes centralisés dominants. Dans le paysage concurrentiel, Codey se positionne loin des humanoïdes industriels comme Figure 03, Optimus Gen 3 d'Tesla ou Apollo d'Apptronik, et plus près de robots de service sociaux comme Pepper (SoftBank) ou ARI (PAL Robotics), avec une promesse de cognition plus adaptative. Aucun acteur français ou européen n'est directement impliqué dans ce projet. Les prochaines étapes dépendront des résultats des pilots 2026 et de l'atteinte du seuil de financement d'un million de dollars, conditions sine qua non pour enclencher la pré-série.

HumanoïdesOpinion
1 source
Une société américaine dévoile des humanoïdes et robots avec un nouvel écosystème pour l'intelligence incarnée
153Interesting Engineering 

Une société américaine dévoile des humanoïdes et robots avec un nouvel écosystème pour l'intelligence incarnée

Faraday Future (FF), entreprise californienne principalement connue comme constructeur de véhicules électriques en difficulté, a présenté le 18 juin 2026 à son nouveau siège d'El Segundo (Californie) une gamme robotique baptisée "EAI Robot World", articulée autour de six séries de produits. La pièce maîtresse est le robot humanoïde Futurist, redessiné : 54 kg (14 % plus léger que son prédécesseur), 31 degrés de liberté (DOF), un couple au niveau du genou de 320 Nm et une vitesse de pointe annoncée à 17,7 km/h, alimenté par un double pack batterie promettant 6 heures d'autonomie. L'architecture logicielle repose sur un modèle Vision-Language-Action (VLA) couplé à un "World Model" pour la perception et la prise de décision autonome. Aucun tarif ni client n'ont été dévoilés pour le Futurist : FF a renvoyé au salon Automate 2026 à Chicago, le 22 juin. En revanche, le quadrupède FX Navi, 8 kg, 12 articulations motorisées, utilisant un smartphone (iOS ou Android) glissé dans un module tête comme unité de calcul, est disponible immédiatement à 1 990 dollars, ciblant la salle de classe et l'usage domestique. Deux formats supplémentaires ont été esquissés : Master Mini (~1 m, compétitions de robotique éducative) et Nova (~50 cm, robot compagnon enfant), sans date ni prix communiqués. La stratégie "one brain, multiple forms" de FF, qui consiste à partager une même couche d'intelligence VLA+World Model sur plusieurs facteurs de forme, est cohérente avec ce que font NVIDIA (GR00T N2) ou Physical Intelligence (pi-0) côté logiciel, et mérite d'être distinguée des approches produit unique. Toutefois, la prudence s'impose : les performances du Futurist (320 Nm, 17,7 km/h) sont comparables aux annonces récentes d'Unitree ou Figure AI, mais sans démonstration publique indépendante ni données de cycle réel, elles restent des chiffres de fiche technique. L'usage d'un smartphone comme cerveau du FX Navi réduit les coûts mais impose des contraintes de puissance de calcul qui limiteront les cas d'usage autonomes avancés. À ce stade, le Futurist est une annonce de produit, pas un déploiement ; le FX Navi, lui, est un produit livrable. Faraday Future porte un passif lourd : introduction en bourse via SPAC en 2021, multiples alertes de continuité d'exploitation, enquête de la SEC, et départ de son fondateur Jia Yueting dans le chaos. Ce pivot vers la robotique s'inscrit dans un mouvement plus large d'entreprises tech/EV cherchant un second souffle dans l'IA incarnée. Sur le segment humanoïde commercial, FF affronte Figure AI (Figure 03, déployé chez BMW), Tesla (Optimus Gen 3, production interne), Agility Robotics (Digit, partenariat Amazon), et en Europe Wandercraft ou Enchanted Tools, acteurs qui cumulent davantage de déploiements terrain. La prochaine échéance concrète est Automate 2026 le 22 juin, où FF devra fournir prix, volumes et clients réels pour le Futurist, faute de quoi l'annonce restera dans la catégorie teaser.

HumanoïdesOpinion
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
154arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
155arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
156arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
157arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
158arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
159arXiv cs.RO 

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
160arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
161arXiv cs.RO 

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

RecherchePaper
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
162Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
163arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
164arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
165arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
166arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
167arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes
168arXiv cs.RO 

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
169arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest
170Interesting Engineering 

Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest

Un robot humanoïde Unitree G1 modifié, baptisé "Pemba", a atteint le sommet du Chimborazo en Équateur le 7 juin 2026, soit 6 200 mètres d'altitude. L'expédition, conduite par l'ingénieur Pablo Berlanga Boemare et son entreprise Geologic Dome, s'est déroulée sur 16 heures. Pemba est une première étape d'un programme baptisé "Triple Crown" qui vise à terme l'ascension de l'Everest. À noter : le robot n'a pas grimpé en autonomie totale. Il a marché de manière indépendante sur les sections présentant une inclinaison inférieure à 30 degrés, mais a été porté par les membres de l'expédition sur les passages plus techniques. Les modifications matérielles incluent des systèmes de gestion thermique sur mesure et des équipements de ventilation intégrés aux vêtements protecteurs du robot, s'appuyant sur des tests antérieurs conduits dans la région chinoise d'Altay à des températures descendant jusqu'à -47,4°C. Ce projet répond à une question que les benchmarks en laboratoire ne peuvent pas trancher : un humanoïde peut-il opérer de manière utile dans des environnements extrêmes, là où les capteurs fixes sont coûteux à déployer et où les conditions mettent en danger les opérateurs humains ? Berlanga Boemare, ancien collaborateur du WWF dans le bassin du Congo et en Amazonie, articule le cas d'usage autour de la surveillance environnementale mobile : remplacer ou compléter des réseaux de caméras stationnaires par des plateformes autonomes capables de patrouiller de grandes surfaces, équipées de caméras, capteurs et connectivité satellite (Starlink est mentionné). Pour les décideurs B2B et les intégrateurs industriels, l'intérêt est ailleurs : il s'agit d'un premier jeu de données réel sur la résilience des batteries, la cinématique articulaire et le comportement thermique de l'électronique embarquée au-delà de 6 000 mètres, dans des conditions que les simulations ne modélisent pas fidèlement. Unitree Robotics, fabricant chinois du G1, s'est imposé ces deux dernières années comme un acteur de référence sur le segment des humanoïdes accessibles, face à Boston Dynamics, Figure AI et Agility Robotics qui ciblent davantage le marché industriel avec des machines nettement plus coûteuses. Geologic Dome ne s'inscrit pas dans cette course à la productivité d'entrepôt, mais ouvre un segment distinct : la robotique d'exploration et de surveillance environnementale en terrain hostile. La prochaine étape annoncée est l'Everest, en partenariat avec l'opérateur népalais Fourteen Peaks Expedition, avec un programme de test prévu entre le camp de base et le Camp IV (environ 8 000 mètres), couvrant performance des batteries, stress articulaire et collecte de données environnementales. Le projet bute cependant sur un obstacle réglementaire concret : le Népal ne dispose pas encore de cadre légal encadrant les expéditions robotiques sur l'Everest, et les autorités auraient demandé de nouvelles régulations avant toute autorisation.

HumanoïdesPaper
1 source
CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé
171Pandaily 

CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé

En mai 2026, la banque d'investissement chinoise CSC Financial a publié un rapport sectoriel couvrant cinq industries, dont deux dominent l'analyse: la robotique humanoïde et les engins de chantier. Sur ce dernier segment, les ventes d'excavateurs ont atteint 24 794 unités en Chine le mois dernier, en hausse de 36,2% sur un an. Les ventes domestiques ont progressé de 38,6% à 11 628 unités, tandis que les exportations ont crû de 34,2% pour atteindre 13 166 unités. Trois grands fabricants ont simultanément relevé leurs prix: SANY Heavy Industry a appliqué une hausse de 5% au 15 mai, Liugong une augmentation identique au 20 mai, et XCMG une revalorisation de 3 à 5% au 1er juin. Sur le front de la robotique, Unitree - constructeur chinois de robots humanoïdes connu pour ses modèles H1 et G1 - a franchi l'examen de l'autorité boursière pour son introduction en bourse, étape préliminaire à une cotation effective. Le rapport note par ailleurs que le programme Optimus de Tesla approche de la production de masse, le lancement du modèle V3 et les objectifs de volume pour la chaîne d'approvisionnement devenant progressivement plus précis. La validation du dossier d'IPO d'Unitree constitue un signal de maturité pour le secteur du Physical AI: les marchés financiers commencent à traiter la robotique humanoïde comme une industrie à trajectoire commerciale crédible, et non comme une promesse spéculative. Pour les décideurs industriels et les intégrateurs, cela annonce potentiellement une revalorisation en cascade des acteurs du secteur, à mesure que d'autres entreprises chinoises avancent vers leur propre cotation dans les prochains trimestres. Du côté des engins de chantier, la convergence des hausses tarifaires chez SANY, Liugong et XCMG - officiellement justifiées par la hausse des matières premières - est lue par les analystes comme le signe que la guerre des prix destructrice pesant sur les marges du secteur commence enfin à se résorber. Unitree s'est imposé ces dernières années parmi les acteurs les plus actifs de la scène robotique chinoise, aux côtés d'entreprises comme UBTECH et Fourier Intelligence. Son accession à une cotation publique intervient dans un contexte de compétition mondiale intense sur le segment humanoïde, où s'affrontent Tesla (Optimus), Figure AI, Boston Dynamics et leurs homologues chinois. Le rapport de CSC Financial ne détaille pas les métriques opérationnelles d'Unitree en conditions industrielles réelles - ce qui rend difficile l'évaluation du fossé entre les démonstrations publiées et les capacités effectives en production. Les introductions en bourse attendues d'autres acteurs du secteur dans les prochains trimestres permettront de mieux cerner les valorisations que le marché est prêt à accorder à cette nouvelle génération de robotique physique.

UELa validation de l'IPO d'Unitree et la trajectoire vers la production de masse d'Optimus accélèrent la maturité commerciale du secteur humanoïde chinois, renforçant indirectement la pression concurrentielle sur les acteurs européens qui n'ont pas encore atteint ce stade de crédibilité financière.

Chine/AsieOpinion
1 source
AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles
172The Robot Report 

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

AGIBOT Innovation Technology, également connue sous le nom de Zhiyuan Robotics, a organisé la AGIBOT World Challenge 2026 en marge de l'ICRA 2026 à Vienne, réunissant 526 équipes de recherche et d'entreprises issues de 27 pays autour de deux pistes compétitives en IA incarnée : "Reasoning to Action" (R2A) et "World Model" (WM). La finale hors ligne s'est déroulée sur le robot humanoïde AGIBOT G2, avec des évaluations standardisées via les benchmarks EWMBench et Genie Sim 3.0. Dans la piste R2A, qui élargit l'évaluation de la simple exécution motrice à la compréhension d'environnement et à la planification de tâches, c'est l'équipe PrismBot de vivo qui a remporté le championnat avec 43,47 points, devant RP-VLA de Shanghai RoboParty (35,66 points) et GreenVLA de la Russie (33,19 points). Dans la piste WM, NeoVerse-ABot, équipe conjointe de l'Institut d'Automatisation de l'Académie des Sciences de Chine et du laboratoire Amap CV, a décroché la première place. Plus de 100 équipes ont dépassé le score de référence officiel, avec des participants issus de la Tsinghua University, de l'USTC, de l'UC San Diego, d'Alibaba et du Sber Robotics Center russe. La signification industrielle de cet événement tient moins aux classements qu'au format d'évaluation lui-même : l'abandon progressif des scores de simulation au profit de tests en boucle fermée sur robots réels, avec des métriques reproductibles et standardisées. Pour les intégrateurs et les décideurs B2B, c'est un signal que le secteur commence à construire des référentiels comparables entre systèmes -- un prérequis pour toute contractualisation sérieuse. La piste "World Model", centrée sur la prédiction de changements physiques et la modélisation d'interactions à partir d'entrées sensorielles, teste directement la capacité des VLA (Vision-Language-Action models) à généraliser hors distribution, y compris le transfert zéro-shot et l'adaptation aux perturbations. Le benchmark supermarché co-développé avec Dexmal va plus loin en intégrant des interactions physiques non idéales -- chutes d'objets, échecs de préhension -- et impose la navigation autonome, le picking et le placement sous contraintes réelles (hauteurs de rayonnage variables, placement aléatoire des articles), contrôlés via API distante. C'est une démarche de validation orientée déploiement, pas de démonstration. AGIBOT, fondée à Shanghai, s'est imposée comme l'un des acteurs centraux de l'écosystème robotique humanoïde chinois, aux côtés d'Unitree, de Fourier Intelligence et de l'initiative GR00T de NVIDIA. Son dataset open-source AGIBOT WORLD, utilisé pour entraîner les modèles de la piste WM, constitue un levier de standardisation communautaire similaire à ce qu'Open X-Embodiment représente côté américain. La compétition s'appuie sur Genie Sim 3.0 pour l'évaluation de capacités couvrant la compréhension du langage, le raisonnement spatial et les compétences atomiques de manipulation. Dans la course mondiale à la robotique humanoïde commerciale -- où Boston Dynamics, Figure AI, Agility Robotics et 1X Technologies avancent leurs propres plateformes -- AGIBOT positionne le G2 comme un banc d'essai de référence pour la communauté académique et industrielle, avec une stratégie d'écosystème ouverte qui rappelle davantage un hub de recherche qu'une pure offre produit.

Chine/AsieOpinion
1 source
Video Friday : ce robot court dans les escaliers sans tomber
173IEEE Spectrum Robotics 

Video Friday : ce robot court dans les escaliers sans tomber

La sélection vidéo hebdomadaire d'IEEE Spectrum de début juin 2026 réunit plusieurs démonstrations robotiques aux profils contrastés. DEEP Robotics publie une vidéo d'un humanoïde récupérant son équilibre sur un escalier dans une séquence que les éditeurs du magazine jugent eux-mêmes impressionnante, tout en soulignant l'incertitude sur sa reproductibilité. La startup Generative Bionics annonce que GENE01, sa première plateforme humanoïde, est passée de la conception au lancement en production en série en seulement trois mois, avec deux configurations interchangeables de membres inférieurs et une couche baptisée "Physical AI" couvrant le contrôle moteur et la modélisation monde-action, sans qu'aucune métrique de charge utile, de degrés de liberté ni de temps de cycle n'accompagne l'annonce. IHMC Robotics présente Alex, son premier humanoïde entièrement développé en interne, qui a effectué ses premiers pas en extérieur sans attache lors d'une démonstration dans le Maryland. Flexiv Robotics dévoile le MICO, un système bimanuel compact sur la plateforme Enlight, orienté collaboration en espace de travail industriel partagé. À l'occasion de l'ICRA 2026, des chercheurs publient CCRobot-S dans IEEE Transactions on Robotics : une équipe de robots grimpeurs câbles reconfigurables capables d'inspecter et d'entretenir en opération parallèle les haubans de ponts à grande portée. Boston Dynamics contribue avec deux vidéos, l'une sur des pieds interchangeables pour Atlas, l'autre montrant le robot apprendre à jouer au football. La revendication la plus saillante de cette sélection est le délai de trois mois de Generative Bionics entre conception et production en série. Si elle se confirme, elle signalerait une compression radicale des cycles de développement matériel dans la robotique humanoïde, un secteur qui exige habituellement plusieurs années d'itération. L'absence de spécifications techniques rend l'évaluation indépendante impossible à ce stade : l'annonce ressemble davantage à une opération de visibilité qu'à une divulgation produit. Les essais en extérieur d'IHMC avec Alex sont une contribution plus modeste mais techniquement crédible : sortir du laboratoire vers un environnement non structuré reste l'un des tests les plus rigoureux de la robustesse locomotrice, et l'un des plus rares à être documentés publiquement, adressant directement le demo-to-reality gap qui frappe de nombreuses démonstrations du secteur. CCRobot-S illustre une autre dynamique, celle des applications robotiques collaboratives à vocation industrielle précise, portées par des contraintes de sécurité et de régulation réelles dans le domaine des infrastructures. Le paysage concurrentiel des humanoïdes reste dense. Figure AI a livré le Figure 03, Tesla teste l'Optimus Gen 3 en production, le modèle VLA pi0 de Physical Intelligence structure plusieurs pilotes commerciaux, et le Digit d'Agility Robotics est déployé dans des entrepôts Amazon. L'Atlas de Boston Dynamics, malgré ses qualités mécaniques, n'a pas encore établi de trajectoire commerciale clairement définie, et les vidéos football semblent davantage viser la notoriété grand public que l'intégration industrielle. IHMC Robotics, laboratoire affilié à Florida International University, a historiquement alimenté l'écosystème en infrastructures et en talents plutôt qu'en produits commerciaux directs. Generative Bionics est un nom nouveau dans le secteur et mérite un suivi si de prochaines publications techniques viennent étayer la revendication des trois mois. Aucun acteur européen n'apparaît directement dans cette sélection, bien qu'Enchanted Tools, Wandercraft et Pollen Robotics restent actifs sur leurs segments respectifs.

HumanoïdesActu
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
174arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
BYD développe secrètement un robot humanoïde sous le nom de code "Yao-Shun-Yu" alors que les géants de l'automobile s'élancent vers l'IA incarnée
175Pandaily 

BYD développe secrètement un robot humanoïde sous le nom de code "Yao-Shun-Yu" alors que les géants de l'automobile s'élancent vers l'IA incarnée

BYD, premier constructeur automobile électrique chinois, confirme le développement discret d'un robot humanoïde sous le nom de code "Yao-Shun-Yu". C'est Li Ke, vice-président exécutif du groupe, qui a levé le voile dans une interview récente. Le projet a été lancé en 2022 et est piloté par la 15e unité opérationnelle de BYD, dédiée à l'intégration électronique et à l'intelligence embarquée. L'entreprise dispose d'une équipe de plus de 4 000 ingénieurs spécialisés en conduite autonome et a annoncé un investissement de 100 milliards de yuans dans l'IA et l'intelligence automobile. Tesla, de son côté, a déjà déployé 50 unités de son Optimus Gen 3 dans son usine de Shanghai en production de série. XPeng prévoit de lancer la production de masse de son humanoïde IRON d'ici fin 2026, et Li Auto pilote un projet interne baptisé Nexus. Ce développement illustre un changement structurel dans la course aux humanoïdes : les grands constructeurs automobiles ne se positionnent plus comme observateurs mais comme acteurs à part entière de la robotique généraliste. BYD s'appuie sur des atouts industriels concrets, motorisation, batteries, électronique de puissance, fabrication de précision et semiconducteurs, que peu de pure players robotiques peuvent revendiquer. L'entreprise prévoit d'être son propre premier client, avec des déploiements envisagés dans ses showrooms comme agents d'accueil et sur ses lignes de production comme opérateurs d'atelier. Ce débouché captif résout un problème que la majorité des startups humanoïdes n'ont pas encore résolu : la validation à l'échelle dans un environnement contrôlé et à faible coût de sortie. La stratégie dite du "technology fish pond", qui consiste à préparer en amont un portefeuille technologique large et à l'activer au moment opportun, laisse également envisager une approche plateforme ouverte, avec intégration de composants tiers plutôt qu'une verticalité totale. BYD n'est pas venu à la robotique par hasard. La maîtrise des actionneurs électriques, des systèmes de gestion d'énergie et des architectures de calcul embarqué, accumulée sur des millions de véhicules électriques, constitue une base technologique directement transférable. Li Ke a formulé le diagnostic sectoriel en ces termes : "les robots chinois manquent de cerveau, les robots américains manquent de muscles", BYD visant explicitement l'excellence sur les deux axes. Face à Boston Dynamics (propriété de Hyundai), Agility Robotics (Amazon), Figure AI ou Physical Intelligence côté occidental, et à Unitree, Fourier Intelligence ou UBTECH côté chinois, BYD arrive avec une surface financière et une base industrielle hors norme. Aucune date de présentation publique ni de feuille de route commerciale n'a été communiquée : le projet reste pour l'instant au stade de l'annonce interne, sans prototype démontré publiquement ni métrique de performance vérifiable.

Chine/AsieOpinion
1 source
BYD développe des robots humanoïdes, selon une source
176TechNode 

BYD développe des robots humanoïdes, selon une source

BYD, le géant chinois des véhicules électriques, développe des robots humanoïdes, selon une source proche du dossier citée mercredi par le média financier chinois Yicai. L'information a été confirmée la même semaine par Li Ke, vice-présidente exécutive du groupe, dans une interview où elle a déclaré explicitement : "BYD travaille également sur les robots humanoïdes." Li Ke n'a fourni ni calendrier ni spécifications techniques, et aucun prototype n'a été présenté publiquement, il s'agit donc d'une annonce de programme, pas d'un produit déployé. L'entrée de BYD dans l'humanoïde illustre une convergence industrielle qui s'accélère en Chine : les constructeurs automobiles disposant de capacités de fabrication à grande échelle, de chaînes d'approvisionnement en batteries et en électronique embarquée, et d'équipes d'IA pour les systèmes ADAS, considèrent désormais la robotique humanoïde comme une extension naturelle de leur savoir-faire. Li Ke a explicitement mentionné que les technologies d'IA automobile et robotique partagent des fondations communes, un argument similaire à celui avancé par Tesla pour justifier son programme Optimus. Si la thèse se vérifie industriellement, BYD disposerait d'un avantage structurel sur les pure-players robotiques en termes de coûts de production et d'intégration verticale. BYD rejoint ainsi un écosystème humanoïde chinois déjà dense, avec Unitree, Fourier Intelligence, Agibot et UBTECH, ainsi que les programmes étatiques liés au plan "Made in China 2025". À l'échelle internationale, la concurrence directe inclut Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit, déployé chez Amazon) et le programme Optimus de Tesla. Li Ke a évoqué la possibilité d'une plateforme robotique ouverte, développement interne couplé à des partenariats avec d'autres entreprises du secteur, et suggéré que le réseau de concessions BYD pourrait servir de canal de distribution si les humanoïdes atteignent le marché grand public. Les prochaines étapes concrètes (prototypes, pilotes industriels, partenaires) restent non communiquées à ce stade.

UEL'entrée de BYD dans la robotique humanoïde renforce la pression concurrentielle de l'écosystème chinois sur les acteurs européens, mais sans impact direct immédiat sur le marché européen à ce stade.

Chine/AsieActu
1 source
IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence
177Pandaily 

IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence

Une entreprise chinoise spécialisée en intelligence artificielle incarnée (embodied AI) a décroché la première place du classement RoboArena lors de la conférence NVIDIA GTC Taipei 2026, devançant NVIDIA et Physical Intelligence (PI). Le benchmark RoboArena est conçu pour évaluer des systèmes d'IA robotique sur des tâches physiques réelles variées : manipulation d'objets, navigation mobile et utilisation d'outils complexes. Sa méthodologie inclut des conditions environnementales aléatoires, des perturbations adversariales et des exigences strictes de reproductibilité, ce qui en fait l'un des rares benchmarks difficiles à truquer par overfitting. Fait notable : l'article source ne mentionne pas le nom de cette entreprise, ce qui affaiblit la portée de l'annonce et rend toute vérification indépendante impossible pour l'instant. La solution retenue s'appuie sur une architecture qui intègre étroitement la perception visuelle et le contrôle moteur au niveau du réseau de neurones, permettant une adaptation rapide à de nouveaux environnements avec un fine-tuning minimal. L'entrée de NVIDIA, construite sur sa plateforme Isaac et ses pipelines de simulation-to-real accélérés GPU, ainsi que celle de Physical Intelligence, connue pour ses politiques robotiques généralistes (dont le modèle Pi-0), ont toutes deux été surpassées en score agrégé. Ce résultat conteste l'hypothèse dominante selon laquelle la puissance de calcul brute est le principal levier de performance en embodied AI. Si confirmé, cela suggère que l'innovation architecturale et une utilisation efficace des données réelles peuvent compenser un désavantage de ressources significatif face à des acteurs comme NVIDIA ou PI, qui disposent de budgets compute sans commune mesure. Pour les intégrateurs et décideurs industriels, cela signifie que le marché reste ouvert à des challengers lean, et que la course à la généralisation robotique n'est pas encore jouée par les seuls hyperscalers. La validation par un benchmark tiers réputé représente un argument commercial fort, surtout dans un secteur où les démonstrations en conditions contrôlées sont légion. Il convient cependant de rester prudent : aucune métrique précise (payload, degrés de liberté, temps de cycle, taux de succès par tâche) n'est communiquée dans l'annonce, et les vidéos de démonstration n'ont pas encore été soumises à un audit indépendant. RoboArena a été lancé comme réponse directe aux critiques sur la reproductibilité des benchmarks robotiques, dans un contexte où des acteurs comme Figure AI (Figure 03), Tesla (Optimus Gen 3), Boston Dynamics, 1X Technologies et Physical Intelligence publient des résultats difficiles à comparer. La Chine construit depuis plusieurs années un écosystème embodied AI dense, porté par une base de fabrication hardware mature, un vivier de talents en vision par ordinateur issus des géants technologiques (Baidu, Alibaba, DJI), et un soutien gouvernemental actif à l'industrialisation de l'IA. La prochaine étape logique pour cette entreprise anonyme sera de se nommer publiquement, de publier ses données brutes et d'annoncer des déploiements pilotes en environnement industriel réel pour confirmer que la performance benchmark se traduit en valeur opérationnelle.

UELa compétitivité croissante de l'écosystème chinois en IA incarnée constitue un signal d'alerte indirect pour les industriels et laboratoires européens positionnés sur la robotique généraliste.

Chine/AsieOpinion
1 source
Un fabricant shanghaïen dévoile un robot humanoïde de 1,2 m à double cerveau et design compact
178Interesting Engineering 

Un fabricant shanghaïen dévoile un robot humanoïde de 1,2 m à double cerveau et design compact

JAKA Robotics, société shanghaïenne fondée en 2015 et jusqu'ici connue pour ses cobots industriels, a dévoilé le Pi, un robot humanoïde compact mesurant 1,22 mètre pour 42 kilogrammes. La plateforme intègre 27 degrés de liberté grâce à des modules articulaires intégrés de nouvelle génération, annoncés 15 à 27 % plus compacts que la génération précédente. Les genoux développent jusqu'à 120 Nm de couple pour la locomotion, et chaque bras supporte une charge utile de 3 kilogrammes. L'architecture de contrôle repose sur une plateforme Intel hétérogène à double domaine : un "cerveau" chargé du raisonnement IA, de la perception visuelle, des grands modèles de langage et de la logique applicative, et un "cervelet" dédié au contrôle moteur temps réel via un réseau EtherCAT à latence milliseconde. JAKA présente le Pi comme une plateforme de R&D pour l'intelligence incarnée et l'interaction homme-robot, sans annoncer de déploiement commercial ni de calendrier de production. La principale valeur technique du Pi réside dans son architecture duale, qui sépare explicitement l'inférence IA du contrôle déterministe -- une approche que l'on retrouve chez plusieurs concurrents mais que JAKA documente ici avec des métriques d'intégration concrètes. Pour un intégrateur ou un décideur industriel, la compacité (42 kg, 1,22 m) et le payload de 3 kg par bras positionnent le Pi sur un segment intermédiaire entre les humanoïdes de taille adulte comme Figure 03 ou Tesla Optimus Gen 3 et les plateformes de table. En revanche, les performances annoncées restent à ce stade des spécifications constructeur: aucune vidéo de tâche en conditions réelles n'a été publiée, et la notion de "polyvalence applicative" n'est étayée par aucun benchmark reproductible ni site pilote identifié. JAKA s'est construit sur dix ans une gamme cobot industrielle étendue -- séries Zu (3 à 30 kg), Pro (IP68, milieux hostiles), S Series (contrôle en force), AL/A Series (vision intégrée) -- avant d'amorcer un pivot vers l'intelligence incarnée avec ses humanoïdes K1, K1L et K1W. Le Pi s'inscrit dans cette trajectoire de montée en gamme vers des systèmes IA embarqués. Sur le plan concurrentiel, le marché humanoïde compact est déjà occupé par Unitree (G1, 1,27 m, 35 kg), Agility Robotics (Digit), et côté recherche par des plateformes comme le PR2 ou l'Atlas de Boston Dynamics. En Chine, des acteurs comme Fourier Intelligence ou UBTech développent également des humanoïdes à vocation industrielle. La Chine déploie par ailleurs des robots humanoïdes dans la logistique postale, notamment à Guangzhou, signal d'un marché domestique qui commence à absorber ces systèmes. JAKA n'a pas communiqué de prix, ni de partenaires industriels, ni de calendrier pour des pilotes commerciaux du Pi.

HumanoïdesOpinion
1 source
Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable
179arXiv cs.RO 

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

Des chercheurs ont soumis sur arXiv (arXiv:2606.03385) le framework GTP-FA, acronyme de Grasp-Then-Plan with Failure Attribution, une architecture en deux étapes pour la manipulation robotique de précision. L'approche découple explicitement la phase de saisie d'objets du planning de trajectoire: le système génère d'abord des candidats de prise en main, sélectionne le plus adapté à la tâche, puis conditionne la planification aval sur ce choix. Quand une séquence de manipulation échoue, un modèle d'attribution des échecs analyse la trajectoire défaillante pour isoler la source du problème, grasping ou planning, et se généralise à des prises non vues lors de l'entraînement. Sur cette base diagnostique, chaque module est optimisé: côté grasping, des priors orientés tâche et des pénalités de risque filtrent les prises instables ou incompatibles avec la tâche; côté planning, une collecte de données ciblée sur les états initiaux à haut risque affine le module de trajectoire. Les résultats sont validés en simulation et sur robot réel, bien que l'abstract ne détaille pas les chiffres précis de taux de succès obtenus. Ce que GTP-FA résout est un angle mort persistant: dans les pipelines grasping-planning couplés, l'origine d'un échec reste opaque, ce qui transforme l'optimisation en tâtonnement coûteux et peu reproductible. Le framework s'applique indifféremment aux paradigmes d'apprentissage par renforcement (RL), par imitation (IL), par diffusion policy, et aux architectures VLA (Vision-Language-Action), et améliore les taux de succès globaux dans chacun selon les auteurs. C'est une contribution méthodologique transversale: elle ne remplace pas les architectures VLA émergentes mais s'y superpose, ce qui la rend potentiellement intégrable dans des systèmes existants sans refonte architecturale. La manipulation robotique de précision est aujourd'hui l'un des principaux fossés entre les démonstrations en laboratoire et le déploiement industriel. Des acteurs comme Physical Intelligence (modèle pi-0), Google DeepMind (GR00T N2) ou Figure AI investissent massivement dans des architectures VLA généralisables, mais la fiabilité de la prise en main dans des conditions non contrôlées reste un verrou documenté. GTP-FA adresse ce verrou depuis la recherche académique, sans affiliation commerciale identifiée dans ce préprint. Les suites naturelles incluront la validation sur objets déformables ou transparents, catégories où le grasping échoue le plus fréquemment, et l'intégration dans des tâches à horizon long en environnements peu structurés.

UEContribution méthodologique académique publiquement accessible aux équipes de recherche robotique européennes, sans impact institutionnel ou industriel direct identifié en France/UE.

RecherchePaper
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
180arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
Raisonnement continu pour les modèles vision-langage-action (VLA)
181arXiv cs.RO 

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion
1 source
Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel
182arXiv cs.RO 

Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel

Un article de recherche déposé sur arXiv le 2 juin 2026 (identifiant 2606.01098) introduit l'Implicit Drifting Policy (IDP), une méthode d'apprentissage par imitation en une seule étape pour le contrôle robotique à haute fréquence. Les politiques génératives basées sur la diffusion ou le flow matching excellent en clonage de comportement, mais leur échantillonnage itératif génère une latence incompatible avec un contrôle à 50 Hz ou plus. Les approches one-step existantes réduisent cette latence au prix de la correction dynamique de trajectoire. IDP contourne ce compromis en extrayant une géométrie d'expert conditionnelle depuis les variations locales d'actions d'experts observationnellement proches, en la comparant à une géométrie de référence globale, et en pondérant un objectif de potentiel scalaire via cette structure, sans estimer explicitement un champ de vecteurs de dérive, approche directe mathématiquement mal posée en raison de la très faible densité des démonstrations conditionnelles. Les évaluations sur des tâches de manipulation en 2D, 3D et en conditions réelles montrent qu'IDP surpasse les méthodes de dérive explicite et reste compétitif face aux meilleures baselines one-step, tout en maintenant une meilleure adhérence aux variétés d'action valides (action manifolds). Pour un intégrateur ou un COO industriel, le bénéfice est concret : une seule passe d'inférence réduit les exigences en calcul embarqué, un verrou réel pour les déploiements à grande échelle de robots apprenants. Ce résultat valide aussi l'idée que la supervision géométrique implicite peut se substituer à des formulations itératives plus coûteuses sans sacrifier la robustesse. La recherche sur les politiques de diffusion en robotique s'est intensifiée depuis Diffusion Policy (Chi et al., Columbia, 2023) et ses dérivés, notamment π₀ de Physical Intelligence (2024) et les VLA de Google DeepMind. IDP s'inscrit dans la lignée des méthodes de distillation one-step (consistency models, DDIM) mais adopte une formulation géométrique implicite plutôt que la distillation directe d'un champ de dérive. Il s'agit d'un preprint non encore évalué par les pairs, testé uniquement en environnements de laboratoire ; sa transférabilité à des déploiements industriels à grande échelle reste à démontrer. Physical Intelligence, Figure AI, CMU et Google DeepMind poursuivent des travaux comparables sur la latence et la robustesse de leurs modèles VLA.

RechercheOpinion
1 source
Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes
183arXiv cs.RO 

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

Des chercheurs ont soumis fin mai 2026 sur arXiv (référence 2606.00637) une méthode baptisée GLAD (Global-Local Attention Decomposition) pour améliorer la locomotion perceptive des robots humanoïdes sur terrain irrégulier. L'approche repose sur un encodeur coarse-to-fine appliqué à une carte d'élévation centrée sur le robot, qui sépare deux branches d'attention : une branche globale utilisant l'attention pooling pour synthétiser le contexte environnemental, et une branche locale conditionnée à l'état du robot pour encoder avec précision la géométrie des surfaces d'appui. La méthode a été validée sur un humanoïde Unitree G1 équipé d'un LiDAR embarqué, sur des terrains à appuis discontinus (gaps, pierres de gué, escaliers) et dans des environnements confinés, avec un transfert sim-to-real zéro-shot sans réentraînement sur données réelles. La décomposition explicite de l'attention perceptive comble un manque identifié dans la littérature : les encodeurs conventionnels tendent à mélanger la perception macroscopique du terrain, utile pour la navigation globale, et la détection fine des surfaces d'appui, utile pour le placement des pieds, ce qui dégrade les performances dans les deux registres. En séparant ces fonctions, GLAD réduit la dilution des signaux spatiaux fins et allège la charge d'entraînement. Plus notable encore : la politique apprise fait émerger des comportements adaptatifs non explicitement supervisés, comme le suivi de chemins étroits et le contournement d'obstacles sous de simples commandes de vitesse, sans planificateur de navigation dédié. Ce résultat suggère que la structuration de l'encodeur perceptif peut induire une forme de navigation implicite, angle qui intéresse directement les intégrateurs cherchant à alléger la pile logicielle des humanoïdes déployés. La locomotion perceptive des humanoïdes a progressé rapidement depuis les travaux fondateurs en apprentissage par renforcement sur terrain accidenté (ANYmal d'ETH Zurich, CMU Locomotion Group), mais le sim-to-real sur appuis discontinus reste un verrou difficile, notamment à cause du bruit des capteurs de profondeur. L'utilisation du LiDAR embarqué du Unitree G1, commercialisé autour de 16 000 dollars et devenu banc d'essai courant dans la communauté académique, offre une robustesse capteur supérieure aux caméras RGB-D. Sur ce segment, plusieurs équipes sont en compétition directe : Berkeley Humanoid Locomotion Group, MIT CSAIL, et les équipes internes de Figure AI (modèle Helix) et d'Agility Robotics (Digit). Le papier ne publie pas de métriques quantitatives précises (taux de succès, nombre d'essais), ce qui limite la comparaison directe avec d'autres systèmes ; il s'agit d'un résultat académique, pas d'un produit déployé.

RecherchePaper
1 source
Locomotion naturelle : principe et méthode
184arXiv cs.RO 

Locomotion naturelle : principe et méthode

Un préprint déposé sur arXiv (identifiant 2605.28254) propose un cadre théorique formalisé pour ce que les auteurs appellent la "locomotion naturelle", une famille de mouvements robotiques fondée non pas sur le suivi de trajectoires prescrites, mais sur l'exploitation des dynamiques passives, de la compliance mécanique et des phénomènes de résonance. Le cœur du papier est un principe d'échange : un mouvement est dit "naturel" lorsqu'un oscillateur interne revient périodiquement, que la pose globale du corps dérive de façon nette, et que la puissance moyenne d'échange propulsion-oscillateur (POE power) est nulle sur un cycle complet. L'ensemble des cycles satisfaisant ces conditions forme ce que les auteurs appellent une Natural Locomotion Manifold (NLM). La méthode repose sur une construction fermée puis ouverte : le canal propulsif est d'abord isolé pour révéler un oscillateur effectif interne, structuré par une action-angle scalaire ou par des secteurs modaux non linéaires à plusieurs degrés de liberté, avant d'être rouvert pour reconstruire la pose et vérifier la cohérence du cycle. La démonstration s'appuie sur deux systèmes non holonomes sans glissement : le "Chaplygin-sleigh" avec pendule moteur et une extension à trois corps. Ce travail répond à une question de conception plutôt qu'à un problème de contrôle : quelles architectures passives permettent l'existence de familles NLM certifiées, et combien ? C'est un renversement de perspective par rapport à la robotique locomotrice dominante, où le contrôle actif compense en permanence les imperfections du modèle. Une locomotion ancrée dans les dynamiques passives implique une consommation énergétique structurellement moindre, non par optimisation du contrôleur, mais par design mécanique. Pour les équipes travaillant sur des robots marcheurs ou nageurs à batterie embarquée, ce type de cadre formel peut guider le choix d'architectures mécaniques avant même d'écrire une ligne de code de contrôle. Le domaine de la locomotion passive a pour ancêtre les travaux de Tad McGeer (1990) sur les marcheurs passifs en descente, prolongés par les laboratoires de Cornell, MIT et Delft dans les années 2000. Depuis, la plupart des robots humanoïdes commerciaux, Boston Dynamics Atlas, Figure 03, Unitree H1, ont opté pour un contrôle actif intensif, au prix d'une consommation électrique élevée. Ce préprint, purement théorique et sans validation expérimentale annoncée, ne propose pas encore de robot ni de plateforme de test ; il fournit un outil mathématique. La prochaine étape naturelle serait une validation sur un prototype physique ou en simulation, et une extension à des architectures de robots à pattes à plus de deux degrés de liberté effectifs.

RecherchePaper
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
185arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

IA physiqueOpinion
1 source
Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent
186arXiv cs.RO 

Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent

Des chercheurs de TARS Robotics ont publié sur arXiv (2605.24931) une méthode de contrôle robotique haute fréquence baptisée RTR (Reuse-then-Refine), visant à résoudre un problème identifié dans les politiques d'action chunking actuelles. À 60 Hz, les systèmes qui exécutent des séquences pré-calculées de commandes motrices génèrent des mouvements saccadés et spatialement incohérents, ce que les politiques standard ne parviennent pas à corriger. L'approche RTR déplace l'apprentissage depuis l'espace d'action direct vers un espace latent encodé par un auto-encodeur variationnel (VAE), ce qui améliore significativement la consistance temporelle et spatiale. Elle intègre également une stratégie de raffinement par chunk permettant une transition fluide entre séquences adjacentes lors d'une inférence asynchrone. Les auteurs valident la méthode sur trois tâches réelles à contact riche, avec une exécution continue et moins de pauses involontaires. Le code et les données sont publiés en open source sur GitHub (tars-robotics/RTR). Le passage de 10-30 Hz à 60 Hz représente une frontière critique pour la manipulation robotique : à basse fréquence, le robot doit compenser sa lenteur par des pauses de recalcul, limitant son utilité en production industrielle. Les politiques de type VLA (Vision-Language-Action) ou diffusion policy, actuellement dominantes en imitation learning, fonctionnent généralement en dessous de 30 Hz. En montrant qu'un encodage latent peut absorber la variance temporelle sans sacrifier la précision spatiale, RTR apporte une réponse concrète au problème de "jerkiness" qui freine le déploiement des robots manipulateurs en conditions réelles. Pour un intégrateur ou un décideur B2B, c'est une voie vers des systèmes capables d'assurer une cadence de travail continue sans interruption de flux de production. L'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023) et les travaux sur Diffusion Policy, tous deux conçus pour des fréquences modérées. TARS Robotics se positionne dans un espace concurrentiel qui inclut Physical Intelligence avec pi0-FAST (ciblant 50-200 Hz via flow-matching) et les efforts de Figure AI, Agility Robotics et Boston Dynamics sur le contrôle haute cadence. RTR se distingue de pi0-FAST en proposant un raffinement incrémental du chunk existant plutôt qu'une régénération complète, ce qui réduit la charge computationnelle par inférence. Il s'agit pour l'instant d'une contribution de recherche validée en laboratoire sur robot réel, sans timeline de déploiement industriel ni partenariat annoncé.

RechercheOpinion
1 source
La Chine attribue un identifiant numérique à chaque robot humanoïde pour renforcer les standards industriels
187SCMP Tech 

La Chine attribue un identifiant numérique à chaque robot humanoïde pour renforcer les standards industriels

La Chine a lancé vendredi le "Humanoid Full Lifecycle Management Service Platform", une initiative nationale visant à attribuer un identifiant numérique unique à chaque robot humanoïde fabriqué sur son territoire. Ces codes serviront à tracer les robots bipèdes dotés d'IA tout au long de leur cycle de vie, de la production jusqu'au déploiement opérationnel et à la maintenance. L'initiative s'inscrit dans un effort plus large de Pékin pour structurer un secteur en croissance rapide, en posant des bases réglementaires et des standards industriels communs. La décision est significative pour les intégrateurs et les acheteurs B2B : un système de traçabilité obligatoire implique une meilleure auditabilité des incidents, une gestion facilitée des responsabilités en cas de défaillance, et un registre centralisé permettant de surveiller les flottes déployées à l'échelle industrielle. Pour les décideurs, c'est un signal que la Chine passe d'une phase de course à la démo vers une maturité réglementaire, condition souvent nécessaire à l'adoption en environnement de production réel. C'est aussi un levier de différenciation compétitif : les fabricants chinois opérant dans un cadre normalisé auront plus facilement accès aux marchés industriels exigeants. La Chine compte aujourd'hui plusieurs acteurs humanoïdes de premier plan, dont Unitree Robotics (H1, G1), UBTECH (Walker S), Agibot et Fourier Intelligence, qui rivalisent avec des entreprises occidentales comme Figure AI (Figure 02), Physical Intelligence (pi0), et Tesla (Optimus Gen 2). L'instauration d'un registre national positionne Pékin comme précurseur en matière de gouvernance robotique, une dimension que ni l'Union Européenne ni les États-Unis n'ont encore formalisée à ce niveau de granularité. Les prochaines étapes pourraient inclure l'extension du dispositif aux robots mobiles industriels (AMR) et une interconnexion avec les systèmes de certification de sécurité fonctionnelle.

UELa Chine devance l'UE en instaurant un registre national obligatoire pour les robots humanoïdes, ce qui pourrait accélérer une réflexion réglementaire européenne dans le cadre de l'AI Act ou des initiatives France 2030 dédiées à la robotique.

Chine/AsieReglementation
1 source
Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes
188Interesting Engineering 

Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes

Brain Corp, spécialiste américain des systèmes d'autonomie pour robots commerciaux, annonce un partenariat de recherche avec l'Université de Californie San Diego (UC San Diego) pour développer des technologies de cartographie sémantique et d'intelligence contextuelle. L'accord implique notamment le professeur Nikolay Atanasov du département d'Electrical and Computer Engineering de la Jacobs School. L'objectif déclaré : doter les robots autonomes d'une couche de compréhension spatiale plus fine que ce que permettent les solutions de localisation et cartographie simultanées (SLAM) actuelles. Brain Corp s'appuie sur un parc opérationnel de plus de 50 000 robots autonomes déployés dans des environnements commerciaux à l'échelle mondiale, totalisant plus de 25 millions d'heures d'opérations autonomes, corpus de données réelles qui constitue le socle expérimental de la collaboration. L'enjeu dépasse la simple navigation : les approches basées sur la vision directe (end-to-end visual) peinent à maintenir une robustesse satisfaisante dans des environnements dynamiques à grande échelle. Le tandem Brain Corp/UC San Diego parie que des cartes 3D sémantiques enrichies, intégrant la nature fonctionnelle des objets et des espaces et pas seulement leur géométrie, permettront aux flottes de robots de s'adapter à des conditions changeantes sans intervention humaine. Pour les intégrateurs et les opérateurs industriels, cela se traduit par une résilience opérationnelle accrue et une coordination multi-agents fiable à l'échelle d'un site entier, qu'il s'agisse d'entrepôts, d'hôpitaux ou d'espaces commerciaux. John Black, CTO de Brain Corp, résume l'enjeu : "le défi n'est plus le mouvement ou la perception, mais la compréhension." Il convient de noter que l'annonce ne détaille aucune métrique de performance ni résultat expérimental publié à ce stade. Brain Corp, fondée en 2009 à San Diego, s'est imposée dans le segment des robots de nettoyage autonomes (AMR floor care) en grande distribution et facilities management, avec des clients comme Walmart, en déployant sa plateforme BrainOS comme système d'exploitation mutualisé pour l'ensemble de sa flotte. Face à l'émergence de modèles vision-langage-action (VLA) portés par des acteurs comme Physical Intelligence avec pi-0, Nvidia avec GR00T N2, ou Figure AI avec Figure 03, Brain Corp repositionne BrainOS comme infrastructure d'orchestration d'agents autonomes hétérogènes plutôt que comme simple pile de navigation. Le partenariat avec UC San Diego vise à intégrer directement ces avancées en cartographie sémantique dans BrainOS. Aucun calendrier de livraison n'est précisé : il s'agit pour l'heure d'un accord de collaboration recherche, non d'un produit commercialisé ni d'un déploiement en cours.

IndustrielActu
1 source
Robotics Summit : le discours d'ouverture présente une fondation ouverte pour les robots à base d'IA
189Robotics Business Review 

Robotics Summit : le discours d'ouverture présente une fondation ouverte pour les robots à base d'IA

Brian Gerkey, co-fondateur d'Open Robotics et actuel directeur technique d'Intrinsic, filiale d'Alphabet dédiée aux logiciels robotiques, prendra la parole le mercredi 28 mai 2026 à 9h00 ET lors du Robotics Summit & Expo de Boston, au Thomas M. Menino Convention & Exhibition Center (salle 253 ABC). Sa conférence, intitulée "An Open Foundation for the Age of AI-Powered Robots", présentera la stratégie de l'Open Source Robotics Alliance (OSRA) en matière d'accessibilité, d'outillage moderne et de sécurité fonctionnelle. Open Robotics, organisation qui maintient le Robot Operating System (ROS) et le simulateur Gazebo, y défendra la thèse que l'open source devient une infrastructure critique à mesure que l'IA physique accélère. La session remplace une conférence initialement prévue avec Russ Tedrake, professeur au MIT et ex-vice-président senior pour les large behavior models au Toyota Research Institute. L'événement rassemble cette année plus de 70 intervenants confirmés issus d'Amazon Robotics, AWS, Tesla, Universal Robots, Brain Corp, PickNik Robotics et Robust AI, avec plus de 50 sessions réparties sur des tracks IA, design, healthcare et logistique. Le signal est moins technique qu'institutionnel. L'émergence des architectures Vision-Language-Action (VLA), des pipelines sim-to-real et des foundation models pour la robotique physique rend la standardisation des middlewares plus stratégique que jamais. ROS 2, qui reste la référence pour la communication inter-processus sur les plateformes industrielles et humanoïdes, est maintenu collectivement via l'OSRA. Pour les intégrateurs et les équipes R&D, le fait que Gerkey articule une roadmap publique au principal salon technique commercial américain de robotique signale que l'OSRA entend jouer un rôle normatif, pas seulement communautaire. La question non résolue est celle de la performance : les pipelines d'inférence GPU modernes imposent des contraintes de latence que les architectures ROS classiques gèrent mal, et c'est précisément là que se jouera la crédibilité du discours. Open Robotics a été fondée en 2012 autour de ROS, né à Willow Garage, l'un des premiers labs à industrialiser la recherche robotique aux États-Unis. Gerkey y a travaillé avant de co-fonder l'organisation, et son rattachement actuel à Intrinsic place cette prise de parole à l'intersection de la stratégie Google/Alphabet et de la gouvernance open source. Sur le plan concurrentiel, l'écosystème ROS fait face à des alternatives propriétaires croissantes : Isaac ROS de NVIDIA, les middlewares maison de Boston Dynamics ou de Figure AI, et des frameworks applicatifs comme LeRobot de HuggingFace. La prochaine étape pour l'OSRA sera de démontrer comment ROS 2 s'intègre nativement avec des architectures de foundation models en production, un point que Gerkey devrait adresser lors de sa session du 28 mai.

UEROS 2 étant la référence middleware adoptée par la majorité des équipes robotiques européennes, la roadmap OSRA articulée par Gerkey influencera les choix d'architecture pour les intégrateurs et startups FR/EU développant des robots à base de foundation models.

InfrastructureOpinion
1 source
Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions
190arXiv cs.RO 

Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions

Déposée sur arXiv le 22 mai 2026 (arXiv:2605.22493), une étude analyse les mécanismes d'échec du behavioral cloning (apprentissage par imitation) lorsqu'une même observation admet plusieurs actions valides, un cas fréquent en manipulation robotique. Les auteurs se concentrent sur les politiques à action-chunking, qui prédisent des séquences d'actions futures plutôt qu'une action isolée, et distinguent deux familles d'architectures : les politiques à variable latente de type VAE (dont ACT, Action Chunking with Transformers) et les politiques génératives en espace d'action (dont les politiques de diffusion comme Diffusion Policy). Pour les premières, la régularisation posterior-prior (terme KL dans un VAE) crée un compromis difficile : une régularisation forte stabilise l'échantillonnage au déploiement mais efface l'information permettant de distinguer les modes démontrés ; une régularisation faible préserve cette information mais expose à une couverture insuffisante par le prior. Pour les politiques génératives, les auteurs montrent que la multimodalité est bornée par la constante de Lipschitz du transport entre espace de base et espace d'action : une carte lisse ne peut pas distribuer de probabilité substantielle sur plusieurs modes bien séparés sans introduire des transitions brutales dans l'espace de base ou des régions de pont hors support en espace d'action. Ces mécanismes sont validés sur des tâches synthétiques multimodales et des benchmarks de simulation robotique. Ces résultats donnent aux équipes déployant des politiques d'imitation une grille de diagnostic concrète. En manipulation industrielle, où un préhenseur peut légitimement atteindre un objet depuis plusieurs angles, comprendre pourquoi un modèle s'effondre sur certains modes est directement actionnable : le coefficient bêta d'un VAE de type ACT, souvent ajusté empiriquement par tâtonnement, dispose maintenant d'une interprétation formelle. Pour les politiques de diffusion, la contrainte de Lipschitz suggère que la capacité à couvrir plusieurs modes dépend de l'expressivité du réseau de transport, avec un compromis explicite entre lissage et richesse modale. C'est un verrou théorique central pour le déploiement en production, où les observations ambiguës sont la règle plutôt que l'exception. L'apprentissage par imitation connaît un regain d'intérêt majeur depuis 2023, porté par ACT et Diffusion Policy, puis par des architectures plus récentes comme pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), aujourd'hui au coeur des pipelines d'entraînement des robots humanoïdes chez Figure AI, 1X et Agility Robotics. Malgré leurs succès en démonstration, la multimodalité reste l'un des verrous majeurs du sim-to-real et du passage en production à grande échelle. Cette étude, de nature purement théorique, ne propose pas d'architecture clé en main, mais son cadre analytique devrait orienter les prochains choix de conception et les stratégies de collecte de données pour les tâches à haute ambiguïté gestuelle.

RecherchePaper
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
191Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

IA physiqueOpinion
1 source
La robotique connaîtra-t-elle son moment ChatGPT ?
192IEEE Spectrum Robotics 

La robotique connaîtra-t-elle son moment ChatGPT ?

En 2025, les investissements dans les entreprises de robotique ont atteint un record de 40,7 milliards de dollars, soit 9 % de l'ensemble du capital-risque mondial. C'est dans ce contexte que Jonathan Hurst, professeur en robotique à l'Oregon State University et cofondateur d'Agility Robotics, et Wendy Tan White, ancienne CEO du projet Everyday Robots chez Google X, publient une analyse à contre-courant. Leur thèse : la robotique ne connaîtra pas de "moment ChatGPT" unique, mais progressera grâce à l'application coordonnée de plusieurs systèmes d'IA complémentaires. Ils articulent leur démonstration autour de cinq vérités difficiles, dont la première est le "YouTube-to-Reality Gap". La prestation des robots humanoïdes Unitree au gala du Nouvel An chinois 2026, où des machines exécutaient des figures d'arts martiaux avec des enfants, illustre parfaitement ce fossé : techniquement impressionnante, la séquence était entièrement chorégraphiée, relevant du même niveau d'autonomie qu'un bras industriel en usine automobile, et non d'un système capable de s'adapter à l'imprévu. L'enjeu est décisif pour les intégrateurs et décideurs industriels. Si les robots maîtrisent le backflip et le kung-fu, pourquoi sont-ils absents des chaînes de production généralistes et des cuisines domestiques ? L'IA mobilisée dans ces démonstrations ne sert que le contrôle moteur de bas niveau, sans capacité de raisonnement ni d'adaptation à des environnements non structurés. La rupture introduite par l'IA est réelle : les robots apprennent désormais au lieu d'être programmés, et peuvent, avec suffisamment de données, percevoir, raisonner et agir de façon fiable. Mais ce saut exige des systèmes d'IA coordonnés et rigoureusement intégrés, et non un modèle fondateur unique. La promesse de robots polyvalents vivant aux côtés des humains alimente la science-fiction depuis des décennies, et les déceptions accumulées ont rendu le secteur prudent face aux annonces. Agility Robotics déploie son humanoïde Digit dans des entrepôts Amazon depuis 2023, l'une des rares preuves de déploiement industriel réel à l'échelle. La concurrence s'est toutefois densifiée : Figure AI, Tesla Optimus, 1X et Apptronik côté produits, Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) côté recherche. Hurst et White, forts d'une décennie de terrain, ne disqualifient pas l'optimisme ambiant, mais rappellent l'obligation de distinguer ce qui est opérationnel de ce qui reste un prototype filmé sous son meilleur angle.

HumanoïdesOpinion
1 source
Xynova dévoile une main dextérique hybride de deuxième génération pour robots humanoïdes
193Pandaily 

Xynova dévoile une main dextérique hybride de deuxième génération pour robots humanoïdes

La startup Xynova a présenté sa main dextère hybride de deuxième génération (Gen-2), destinée aux plateformes de robots humanoïdes. L'architecture combine des actionneurs rigides, qui garantissent précision et force, avec des éléments à compliance douce inspirés de la soft robotics, capables de s'adapter à des objets de formes, textures et rigidités variables. L'ensemble constitue un système d'actionnement hybride qui vise à dépasser les limites des préhenseurs industriels standards, inaptes à la manipulation fine. À noter : Xynova n'a divulgué aucun chiffre technique concret, ni nombre de degrés de liberté (DOF), ni charge utile nominale, ni temps de cycle, ni tarification. Ce dévoilement s'apparente davantage à un teaser produit qu'à un lancement commercial. La qualité des effecteurs terminaux constitue aujourd'hui l'un des principaux goulots d'étranglement dans la commercialisation des robots humanoïdes. La transition entre démonstrations en laboratoire et déploiements industriels réels exige une manipulation adaptative que les mains rigides actuelles ne permettent pas encore. L'approche hybride de Xynova, si elle tient ses promesses en conditions réelles, pourrait résoudre partiellement le "manipulation gap" qui freine l'adoption par les intégrateurs et les industriels. Pour un COO de logistique ou un intégrateur AMR, la capacité à traiter des articles non standardisés sans reprogrammation est un prérequis commercial. C'est précisément ce marché que cible Xynova, même si l'absence de benchmarks indépendants et de vidéos de manipulation complexe limite toute évaluation objective à ce stade. L'annonce s'inscrit dans une accélération visible du marché des mains dextères pour humanoïdes. Tesla (Optimus Gen 3), Figure (Figure 03) et un nombre croissant d'acteurs chinois investissent massivement dans la fermeture du gap de manipulation, reconnu comme le principal verrou technique avant une industrialisation à grande échelle. Des acteurs comme Sanctuary AI, Shadow Robot ou le projet open-source LEAP Hand ont déjà proposé des architectures concurrentes sur ce segment. Xynova se positionne comme fournisseur de composants pour écosystème humanoïde plutôt que comme constructeur de plateforme complète, un modèle qui pourrait séduire les intégrateurs cherchant à upgrader des plateformes existantes. Aucune date de disponibilité commerciale ni partenariat de déploiement n'ont été annoncés.

HumanoïdesOpinion
1 source
Amélioration des capacités des robots manipulateurs collaboratifs par algorithme de tâches
194arXiv cs.RO 

Amélioration des capacités des robots manipulateurs collaboratifs par algorithme de tâches

Des chercheurs ont soumis le 22 mai 2026 sur arXiv (réf. 2605.17293) un algorithme baptisé Task Capability Improvement Algorithm (TCIA), conçu pour les systèmes de manipulation collaborative multi-bras. Le principe central repose sur l'exploitation de moments résiduels, des couples non désirés qui émergent naturellement lorsque des bras robotiques appliquent des forces en un point de préhension différent du centre de gravité de l'objet. Plutôt que de les compenser (l'approche classique), l'algorithme les redirige comme levier d'amélioration de capacité. Les simulations présentées montrent un gain de 5,86 % sur la capacité de tâche globale du groupe de manipulateurs, comparé à une configuration sans exploitation de ces moments. Aucune validation expérimentale sur matériel réel n'est encore présentée à ce stade. Ce résultat, modeste en valeur absolue, est néanmoins pertinent pour les applications industrielles de manipulation lourde ou de transport d'objets en configuration multi-bras. L'algorithme permet simultanément d'optimiser la capacité globale du groupe, l'allocation des ressources entre les bras (distribution de charge, couple disponible par actionneur) et la tolérance aux pannes, soit la capacité du système à maintenir une tâche malgré la défaillance d'un bras. Pour un intégrateur travaillant sur des cellules collaboratives, cette triple optimisation via un seul mécanisme représente un avantage de conception concret. L'approche inverse la logique habituelle : ce qui était traité comme une perturbation physique devient une ressource exploitable. La manipulation coopérative multi-bras est un domaine actif depuis les années 1990, mais l'intérêt s'est intensifié avec la montée des cobots deux bras (Universal Robots, FANUC CRX, KUKA iiwa en configuration duale) et des humanoïdes comme Figure 03, Apptronik Apollo ou Agility Digit, qui doivent manipuler des objets volumineux sans gabarit dédié. L'approche TCIA s'inscrit dans une tendance plus large d'exploitation des contraintes physiques comme ressources plutôt que comme nuisances. Les suites naturelles seraient une validation sur banc physique et une extension aux configurations à géométrie variable, notamment les systèmes mobiles où le point de préhension évolue dynamiquement pendant la tâche.

RecherchePaper
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
195Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

IA physiqueOpinion
1 source
CUBic : cadre unifié et coordonné de perception et contrôle bimanuels
196arXiv cs.RO 

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

Des chercheurs ont publié CUBic (Coordinated and Unified framework for Bimanual perception and control), un cadre d'apprentissage visuomoteur pour robots à deux bras, déposé sur arXiv en mai 2025 (arXiv:2605.13452). L'objectif : résoudre un verrou classique de la manipulation bimanuelle, où chaque bras doit agir à la fois de façon indépendante et coordonnée avec l'autre. CUBic reformule ce problème comme un défi de modélisation perceptuelle unifiée, en apprenant une représentation tokenisée partagée à travers trois composants : une agrégation perceptuelle unidirectionnelle, une coordination bidirectionnelle via deux codebooks à mapping commun, et une politique de diffusion perception-vers-contrôle. Les expériences sur le benchmark RoboTwin montrent des améliorations nettes sur les métriques de précision de coordination et de taux de succès par rapport aux baselines de référence, sans que les chiffres précis soient disponibles dans l'abstract publié. Le verrou que CUBic adresse est structurel : les approches existantes forçaient un choix binaire, soit déconnecter les deux bras (chacun avec sa propre politique, au détriment de la coordination globale), soit imposer un couplage fort entre eux (risque d'interférences, manque de souplesse). CUBic démontre qu'une représentation partagée apprise de façon émergente, sans couplage codé à la main, suffit à générer simultanément indépendance et coordination. Pour un intégrateur ou un COO industriel, c'est un signal encourageant pour les tâches d'assemblage bimanuel complexes comme le vissage, le pliage ou le conditionnement, qui restent aujourd'hui difficiles à automatiser sans sur-ingénierie du système de contrôle. La manipulation bimanuelle est l'un des fronts les plus actifs de la recherche en robotique apprise. Des cadres comme ACT (Action Chunking with Transformers), Diffusion Policy ou Pi-0 de Physical Intelligence ont progressivement amélioré les performances à un seul bras ; l'extension bimanuelle reste un défi ouvert, notamment pour les robots humanoïdes tels que le Figure 03, l'Optimus Gen 3 ou l'Unitree G1, qui en ont besoin pour les tâches industrielles réelles. CUBic est pour l'instant une contribution fondationnelle validée uniquement en simulation sur RoboTwin, sans déploiement physique annoncé. La prochaine étape logique serait un transfert sim-to-real sur robot physique, qui constitue encore le principal goulot d'étranglement entre publications académiques et applications industrielles concrètes.

RecherchePaper
1 source
Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0
197Pandaily 

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Pro Universe Robotics a présenté son "Product Matrix 2.0", comprenant deux nouvelles offres : AcCI, une solution d'acquisition de données multimodale à précision sub-millimétrique, et le module Dabai, dédié au chargement et déchargement intelligent par robot. AcCI intègre des technologies de contrôle maître-esclave, de téléopération VR et de manette, et capture des données de force, couple, pose, retour tactile et vision, avec une boucle fermée end-to-end. La société lance simultanément une stratégie d'écosystème baptisée "1+N+infinity" et recrute des partenaires mondiaux pour cibler ce qu'elle décrit comme un marché d'intelligence incarnée industrielle à "trillion de yuans" (environ 138 milliards de dollars). Fondée il y a 16 mois seulement, l'entreprise n'a communiqué ni client ni déploiement terrain confirmé. La collecte de données haute qualité reste l'un des principaux goulots d'étranglement pour le déploiement à grande échelle de robots industriels physiquement intelligents. Une solution d'acquisition multimodale en boucle fermée - force, couple, tactile, visuel, pose - répond directement à ce besoin, notamment pour entraîner des VLA (Vision-Language-Action models) sur des tâches de manipulation complexe comme le chargement et déchargement de pièces. Si la précision sub-millimétrique annoncée se confirme en conditions réelles, ce serait un atout concret pour constituer des datasets d'entraînement denses. Cependant, le communiqué ne fournit ni benchmark indépendant, ni volume de données collectées, ni résultats mesurables sur le terrain. Pro Universe Robotics s'inscrit dans un secteur très compétitif : Physical Intelligence avec Pi-0, Figure AI avec le Figure 03, Apptronik, mais aussi des acteurs spécialisés dans la téléopération et la capture de données comme Embodied Intelligence ou Scale AI. La revendication "global-first" sur l'acquisition fusionnée haute précision est difficile à vérifier sans étude comparative indépendante. L'ambition affichée d'un marché au trillion de yuans est une projection courante dans les annonces robotiques chinoises, où l'écart entre ambition déclarée et réalité commerciale reste souvent important. La prochaine étape déterminante sera la signature de partenaires industriels concrets au sein de l'écosystème annoncé.

Chine/AsieActu
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
198arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
199arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source
Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
200arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source