Aller au contenu principal

Dossier Figure — page 3

184 articles · page 3 sur 4

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

Unitree Robotics fait son entrée en Corée du Sud avec une cérémonie d'ordination au plus grand temple bouddhiste de Séoul
101Pandaily Chine/AsieOpinion

Unitree Robotics fait son entrée en Corée du Sud avec une cérémonie d'ordination au plus grand temple bouddhiste de Séoul

Le G1 d'Unitree Robotics, humanoïde de 130 cm développé par le fabricant chinois Unitree Technology, a participé à une cérémonie d'ordination bouddhiste au temple Cheonggye, dans le centre de Séoul, quelques jours avant les festivités de la naissance de Bouddha. Organisée par l'ordre Jogye, la plus grande confrérie bouddhiste de Corée du Sud, la cérémonie a conféré au robot le nom dharma "Gabi" (가비). Vêtu de robes monastiques gris-brunes, tête lissée en référence au crâne rasé, Gabi a suivi le protocole intégral réservé aux croyants : prosternations, mains jointes, défilé autour de la pagode aux côtés des moines, réception d'un chapelet de 108 perles. Interrogé par le moine officiant sur sa volonté de prendre refuge dans le bouddhisme, le robot a répondu vocalement : "Oui, je voue de prendre refuge." La brûlure symbolique des bras près d'un bâton d'encens, étape traditionnelle du rituel, a été remplacée par l'apposition d'un autocollant. Cet événement dépasse l'anecdote culturelle : il constitue une opération de validation internationale soigneusement orchestrée par Unitree, à un moment où la commercialisation des humanoïdes chinois s'accélère tandis que les restrictions d'accès au marché américain se durcissent. Pour les décideurs industriels, l'intérêt est moins théologique que technique : Unitree démontre que son G1 peut exécuter des séquences de mouvements coordonnés (marche, inclinaison, gestuelle précise) dans un environnement public non contrôlé, devant une audience particulièrement sensible à l'exactitude rituelle. La valeur probatoire reste limitée faute de métriques publiées, mais la démonstration d'acceptabilité sociale sur un marché coréen stratégique est, au minimum, réussie sur le plan médiatique. Unitree Robotics, connu pour ses robots quadrupèdes Go1 et Go2 avant de lancer le G1 en 2024, cherche à s'imposer hors de Chine dans une course humanoïde qui s'intensifie à l'échelle mondiale. Ses concurrents directs incluent Boston Dynamics (Atlas), Figure AI (Figure 03), Tesla (Optimus Gen 3) et Agility Robotics (Digit) côté américain, ainsi que Fourier Intelligence et UBTECH côté chinois. Aucun acteur français n'est impliqué dans cet épisode, bien que Wandercraft progresse en parallèle sur le segment médical. La prochaine étape logique pour Unitree serait d'annoncer des pilotes commerciaux en Corée du Sud, marché industriel prioritaire pour les intégrateurs robotiques cherchant une alternative aux plateformes occidentales.

1 source
AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele
102arXiv cs.RO 

AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele

Une équipe de chercheurs a publié sur arXiv (référence 2507.12768) AnyPos, un pipeline d'apprentissage automatisé conçu pour la manipulation bimane généraliste. Le système repose sur un principe de modélisation dite "task-agnostic" : au lieu d'entraîner le robot sur des trajectoires liées à des tâches précises, AnyPos génère à grande échelle des paires image-action indépendantes couvrant l'ensemble de l'espace de travail atteignable. Ces données alimentent un apprentissage par dynamique inverse, combinant un décodeur directionnel et une séparation explicite entre les mouvements du bras et de l'effecteur terminal, pour stabiliser les prédictions en dehors de la distribution d'entraînement. Testée sur cinq tâches domestiques (actionner un micro-ondes, griller du pain, plier des vêtements, arroser des plantes, frotter des assiettes), l'approche améliore les taux de réussite de 30 à 40% par rapport aux baselines de référence, avec un gain de 51% en précision sur les évaluations test. Ce résultat pointe un problème structurel du secteur : la rareté des données de manipulation robotique et leur entanglement avec une plateforme ou une tâche spécifique. La plupart des politiques visuomotrices actuelles, qu'il s'agisse de VLA (vision-language-action models) ou de diffusion policies, nécessitent des données séquentielles coûteuses à collecter et quasiment non transférables entre robots. En découplant la modélisation de l'embodiment de l'apprentissage de politique de haut niveau, AnyPos propose une réutilisation des données d'action cross-tâches et cross-plateformes, sans modèle physique explicite ni simulation intensive. L'argument est directement dirigé contre le "sim-to-real gap" : les représentations sont ici apprises depuis des données réelles générées automatiquement à grande échelle, contournant les biais de simulation. L'approche rejoint une tendance récente consistant à séparer embodiment modeling et politique de haut niveau, visible chez Physical Intelligence (modèle pi0), Figure AI ou 1X Technologies. Elle se distingue par son refus de la télé-opération intensive ou de la simulation massive, préférant une exploration automatisée du workspace réel. Le pipeline est conçu pour se coupler à des modèles de politique existants, le positionnant potentiellement comme une couche de préentraînement réutilisable et échangeable. L'article ne mentionne ni déploiement industriel, ni partenariat commercial : AnyPos reste à ce stade une contribution de recherche académique, sans timeline de mise en production annoncée.

RechercheOpinion
1 source
Gabi, le moine robot sud-coréen, participe à une cérémonie bouddhiste et prononce ses vœux
103Interesting Engineering 

Gabi, le moine robot sud-coréen, participe à une cérémonie bouddhiste et prononce ses vœux

Le 6 mai 2026, un robot humanoïde de 130 centimètres a participé pour la première fois en Corée du Sud à une cérémonie d'initiation bouddhiste au temple Jogyesa de Séoul, à quelques jours du festival de l'anniversaire de Bouddha. Nommé Gabi, le robot porte le nom dharma signifiant "miséricorde" en coréen, un nom choisi selon le vénérable Seong Won, responsable des affaires culturelles de l'ordre Jogye, pour "diffuser la miséricorde de Bouddha dans le monde entier". Développé par la société chinoise Unitree Robotics, Gabi était vêtu de robes bouddhistes brunes traditionnelles lors du rituel "sugye", une cérémonie formelle au cours de laquelle les participants s'engagent à se vouer à Bouddha, à ses enseignements et à la communauté monastique. Dans la cour du temple, le robot a joint ses paumes en signe de prière et s'est incliné aux côtés des moines et des nonnes. Interrogé oralement par un moine sur son engagement envers les enseignements du Bouddha, Gabi a répondu à voix haute : "Oui, je me dévouerai." Un chapelet de 108 perles lui a été passé au cou, tandis qu'un autocollant a été appliqué sur son bras en remplacement de la pratique traditionnelle "yeonbi", qui consiste à appliquer de petites brûlures d'encens sur la peau des novices. Les cinq préceptes bouddhistes ont par ailleurs été réécrits spécifiquement pour l'entité non humaine, avec une contribution d'outils d'IA dont Gemini et ChatGPT, incluant notamment des règles telles que "respecter la vie et ne pas la nuire" et "obéir aux humains sans répliquer". L'événement constitue un précédent notable dans l'intégration des robots humanoïdes à des espaces culturels et spirituels institutionnalisés. Si l'acte reste symbolique, il illustre la capacité des institutions religieuses à adapter des rituels séculaires à des entités non biologiques, ouvrant un champ d'interrogation inédit sur la définition même du participant à un rite. Contrairement aux démonstrations industrielles ou aux déploiements en entrepôts logistiques, ce cas de figure montre une adoption dans un contexte à forte charge symbolique et communautaire. La réécriture des préceptes, assistée par des LLM grand public, souligne également que ces adaptations ne relèvent pas encore d'une réflexion théologique approfondie, mais d'une expérimentation exploratoire. L'ordre Jogye, qui administre les temples bouddhistes zen coréens, a commencé à envisager l'intégration de robots au festival de la Lanterne de Lotus (Yeondeunghoe) dès l'apparition des humanoïdes commerciaux, il y a environ trois ans selon Ven. Seong Won. Trois autres robots à thématique bouddhiste, baptisés Seokja, Mohee et Nissa, doivent rejoindre Gabi lors du prochain festival, prévu le 24 mai 2026. Unitree Robotics, concepteur du châssis de Gabi, est un acteur chinois du marché des humanoïdes en forte croissance, en compétition directe avec des entreprises comme Boston Dynamics, Agility Robotics ou Figure AI sur le segment des robots bipèdes à usage polyvalent. Ce déploiement dans un contexte non industriel s'éloigne du positionnement habituel d'Unitree, orienté vers la recherche et les usages professionnels, et signale une stratégie de visibilité dans des marchés culturels émergents.

Societe/EthiqueActu
1 source
Le robot humanoïde Agibot A2 partage le tapis rouge du Met Gala avec des célébrités
104Interesting Engineering 

Le robot humanoïde Agibot A2 partage le tapis rouge du Met Gala avec des célébrités

Le 5 mai 2026, la société chinoise AGIBOT a déployé son robot humanoïde pleine taille A2 devant The Mark Hotel à New York, en marge de l'avant-soirée du Met Gala, en partenariat avec le designer Alexander Wang. L'opération marque la première présence d'un robot humanoïde à cet événement. Sur place, l'A2 a posé face aux photographes, ajusté sa posture sur demande, porté des objets et servi des boissons à des invités. Le robot a connu un accroc mineur en restant brièvement bloqué dans un ascenseur, nécessitant l'intervention du personnel, avant de reprendre ses activités. Aucune spécification technique précise (nombre de degrés de liberté, charge utile, vitesse de cycle) n'a été communiquée à cette occasion, ce qui place cet événement davantage du côté de la démonstration marketing que du déploiement opérationnel documenté. L'intérêt industriel de la séquence tient moins à la prouesse technique qu'au contexte d'exécution : naviguer dans un environnement non structuré, dense en personnes, en lumières variables et en imprévus, reste l'un des défis centraux de la robotique humanoïde. Le fait que l'A2 ait maintenu une interaction cohérente avec le public pendant plusieurs heures - même dans un cadre scénarisé - suggère des avancées réelles dans la perception et la planification de mouvement en milieu ouvert. Cela dit, les vidéos diffusées sur les réseaux sociaux montrent des scènes sélectionnées : l'accroc à l'ascenseur a été filmé et largement partagé, rappelant que la fiabilité en autonomie complète reste à démontrer dans des conditions non contrôlées. Pour les décideurs B2B et les intégrateurs, cet événement confirme surtout qu'AGIBOT vise un positionnement grand public et culturel, en complément de ses ambitions industrielles. AGIBOT, fondée en 2023 à Shanghai, fait partie d'une vague de startups chinoises de robotique humanoïde qui ont levé des centaines de millions de dollars ces deux dernières années, aux côtés d'Unitree, Leju Robotics et Fourier Intelligence. À l'international, ses concurrents directs incluent Figure AI (A2 annoncé en 2025, déployé chez BMW), Physical Intelligence (modèle Pi-0), Agility Robotics (Digit, déployé chez Amazon) et Boston Dynamics (Atlas électrique). La collaboration avec Alexander Wang et le choix du Met Gala s'inscrivent dans une stratégie de visibilité mondiale qui rappelle l'approche de Tesla avec Optimus : associer le robot à des événements culturels pour normaliser sa présence avant le déploiement à grande échelle. AGIBOT n'a pas annoncé de pilotes industriels spécifiques ni de timeline commerciale à l'issue de cet événement.

Chine/AsieOpinion
1 source
Améliorer la généralisabilité de l'apprentissage par renforcement en robotique via l'analyse SHAP des algorithmes et hyperparamètres
105arXiv cs.RO 

Améliorer la généralisabilité de l'apprentissage par renforcement en robotique via l'analyse SHAP des algorithmes et hyperparamètres

Une équipe de chercheurs a publié le 5 mai 2026 sur arXiv (preprint 2605.02867) un cadre explicable pour identifier quels paramètres algorithmiques d'apprentissage par renforcement (RL) pèsent le plus sur la capacité d'un modèle à généraliser d'un environnement simulé à un autre, puis à des conditions réelles. La méthode repose sur les valeurs SHAP (SHapley Additive exPlanations), un outil issu du machine learning interprétable, appliqué ici à l'évaluation systématique de combinaisons d'algorithmes RL (PPO, SAC et équivalents) et d'hyperparamètres (learning rate, discount factor, taille de batch, etc.) sur plusieurs environnements robotiques. Le papier établit une fondation théorique reliant les valeurs de Shapley à la mesure de généralisabilité, puis démontre empiriquement que certaines configurations présentent des impacts stables et prévisibles quelle que soit la tâche testée. La contribution centrale est pratique : le "generalization gap" en RL robotique, l'écart entre performance en simulation et performance réelle, constitue l'un des principaux freins au déploiement industriel. Jusqu'ici, le choix des hyperparamètres relevait en grande partie de l'expérimentation empirique coûteuse ou de règles empiriques non justifiées. En quantifiant la contribution individuelle de chaque paramètre à cet écart, les auteurs proposent un protocole de sélection guidé par SHAP qui réduit cette variance inter-environnements sans ajout de données supplémentaires. Pour un intégrateur qui doit certifier le comportement d'un bras manipulateur ou d'un robot mobile dans des conditions variables, disposer d'une hiérarchie explicite des paramètres critiques réduit significativement le temps de fine-tuning et le risque de régression lors du passage sim-to-real. Le contexte est celui d'une pression croissante sur la robustesse du RL en robotique : des laboratoires comme DeepMind, Berkeley (avec les travaux sur RLPD et Cal-QL) et des acteurs industriels comme Boston Dynamics ou Figure AI investissent massivement dans des politiques RL transférables sans retraining. L'approche SHAP s'inscrit dans un courant plus large d'XAI (explainable AI) appliqué aux politiques motrices, encore peu exploité par rapport à la vision ou au NLP. Le papier est un preprint non évalué par les pairs, sans code ni benchmark public annoncé à ce stade, ce qui limite son adoption immédiate. Les prochaines étapes naturelles seraient une validation sur hardware physique et la mise à disposition d'un outil open-source de sélection de configuration.

RecherchePaper
1 source
MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence
106arXiv cs.RO 

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.00475) MSACT, une architecture de contrôle pour la manipulation fine bimanuale à faible latence. Construit sur ACT (Action Chunking with Transformers), le système ajoute un module d'attention spatiale multistage qui extrait des points d'attention 2D stables depuis un encodeur visuel ResNet pré-entraîné, utilisés comme modalité spatiale locale pour la prédiction d'actions. Un objectif d'alignement temporel auto-supervisé compare les séquences d'attention prédites aux caractéristiques visuelles des images futures, réduisant la dérive de localisation sans annotations de points clés. Les expériences ont été conduites sur la plateforme bimanuale ALOHA, en conditions simulées et réelles, en évaluant le taux de succès, la dérive d'attention, la latence d'inférence et la robustesse aux perturbations visuelles. MSACT s'attaque à un trilemme récurrent en robotique d'apprentissage : latence d'inférence basse, stabilité de localisation et efficacité en données sont rarement optimisées simultanément. Les politiques à diffusion (Diffusion Policy) gagnent en expressivité mais pâtissent d'une latence élevée due à l'échantillonnage itératif, incompatible avec le contrôle fin en temps réel. Les approches vision-langage-action (VLA) ou voxel offrent une meilleure généralisation géométrique mais exigent une puissance de calcul et une complexité système nettement supérieures. En greffant une supervision spatiale légère sur ACT, MSACT vise à rester déployable sur systèmes embarqués à ressources limitées. Les résultats annoncés montrent des améliorations en stabilité de localisation et en performance de tâche "dans les conditions testées", formulation prudente signalant que la généralisation reste à démontrer sur une gamme plus large de scénarios. ALOHA, banc de test bimanual développé initialement à Stanford et popularisé par les travaux ACT de Zhao et al. (2023), est devenu une référence académique pour la manipulation fine apprise par imitation. La dérive de localisation sous données limitées reste un obstacle concret au déploiement industriel de bras robotiques appris par démonstration, notamment en assemblage ou conditionnement de précision. Côté compétitif, Physical Intelligence (pi0), Figure AI et 1X Technologies misent sur des architectures VLA plus lourdes visant une généralisabilité plus large ; MSACT propose une voie complémentaire, plus légère, pour les contextes où la latence est critique. Ce preprint n'a pas encore été soumis à revue par les pairs, et aucun déploiement ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
Modélisation du monde centrée sur les événements avec récupération augmentée par mémoire pour la prise de décision en IA incarnée
107arXiv cs.RO 

Modélisation du monde centrée sur les événements avec récupération augmentée par mémoire pour la prise de décision en IA incarnée

Des chercheurs ont publié sur arXiv (identifiant 2604.07392v2) un cadre de modélisation du monde centré sur les événements, couplé à une mémoire augmentée par récupération, pour la prise de décision d'agents autonomes embarqués. Baptisé event-centric world modeling with memory-augmented retrieval, le système représente l'environnement comme un ensemble structuré d'événements sémantiques, encodés dans une représentation latente invariante aux permutations. La décision ne résulte pas d'une inférence neurale directe, mais d'une récupération dans une banque d'expériences antérieures, chaque entrée associant une représentation d'événement à une manœuvre candidate. L'action finale est calculée comme une combinaison pondérée des solutions récupérées. Les expériences ont été conduites sur des scénarios de vol de drones (UAV), où le framework a opéré dans les contraintes temps réel tout en maintenant un comportement interprétable et cohérent. L'intérêt de cette approche tient à sa rupture explicite avec l'apprentissage bout-en-bout (end-to-end), qui domine aujourd'hui la robotique embarquée mais souffre d'un manque d'interprétabilité et d'absence de garanties physiques formelles. En adoptant un raisonnement par cas (case-based reasoning), le système offre une traçabilité directe entre chaque décision et les expériences stockées qui l'ont motivée, propriété essentielle pour les environnements à criticité de sécurité tels que les drones autonomes ou la manipulation industrielle. L'intégration de connaissances physiques dans le processus de récupération réduit également le risque de comportements hors domaine, un défaut récurrent des modèles VLA (Vision-Language-Action) lors du passage en déploiement réel. Cette publication s'inscrit dans le débat actif entre architectures neurales end-to-end telles que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, et les méthodes hybrides structurées qui conservent une représentation explicite du monde. Le fossé demo-to-reality reste le principal frein aux VLA à grande échelle, et les approches à mémoire structurée visent précisément à combler cet écart en rendant le raisonnement auditable. Le travail demeure à ce stade un résultat de recherche, évalué sur UAV en conditions contrôlées, sans déploiement industriel ni partenariat applicatif annoncés. Les extensions naturelles concerneraient la manipulation physique ou la locomotion humanoïde, ainsi que la validation sur matériel réel en environnements non contrôlés.

RecherchePaper
1 source
Optimisation paramétrique co-conception de mains dextériques par approche fonctionnelle
108arXiv cs.RO 

Optimisation paramétrique co-conception de mains dextériques par approche fonctionnelle

Une équipe de chercheurs a publié fin avril 2025 sur arXiv (arXiv:2504.27557) un cadre paramétrique unifié pour la co-optimisation de mains robotiques dextères. L'approche couvre simultanément la structure de la paume, la cinématique des doigts, la géométrie des bouts de doigts et les courbures de surface à fine échelle, l'ensemble étant intégré dans un espace de conception unique. Les caractéristiques géométriques fines sont introduites via des noyaux de déformation de surface paramétriques qui agissent directement sur les interactions de contact. Le framework génère des modèles prêts pour la simulation et pour la fabrication physique, et sera publié en open-source. Les auteurs l'ont validé sur des tâches d'optimisation de la stabilité de préhension en simulation et dans des scénarios dynamiques réels, sans toutefois préciser les configurations exactes de tests ni le nombre de cycles d'évaluation dans le preprint. L'intérêt principal pour les équipes de R&D en robotique est de sortir du paradigme dominant où la conception mécanique de la main et la politique de contrôle sont développées en silos. En co-optimisant la morphologie et le comportement de préhension dans un même espace de paramètres, le framework permet d'explorer systématiquement des compromis que les approches découplées ratent structurellement, notamment l'influence directe de la courbure de surface sur la qualité du contact. L'ouverture en open-source vise à accélérer l'itération rapide pour les intégrateurs et les laboratoires travaillant sur le transfert sim-to-real et l'entraînement de politiques cross-embodiment, un problème central pour les VLA (Vision-Language-Action models) déployés sur des morphologies variées. La co-conception robotique (co-design) est un champ en plein essor, notamment depuis les travaux de MIT et Stanford sur les robots morphologiquement adaptatifs et les approches de differentiable simulation. Ce preprint s'inscrit dans une tendance plus large visant à rendre la conception mécanique différentiable et optimisable par gradient, aux côtés d'acteurs comme Dexterous Robotics, Shadow Robot ou les équipes internes de Figure AI et 1X Technologies qui développent leurs propres mains multi-doigts. Aucun partenariat industriel ni timeline de déploiement n'est mentionné ; il s'agit à ce stade d'une contribution académique avec promesse d'open-source, dont la valeur pratique dépendra de la qualité de l'outillage livré avec le code.

RecherchePaper
1 source
Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain
109arXiv cs.RO 

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite. L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire. Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

RechercheOpinion
1 source
Melody : un robot humanoïde maîtrise 39 degrés de liberté pour une présence quasi humaine
110Interesting Engineering 

Melody : un robot humanoïde maîtrise 39 degrés de liberté pour une présence quasi humaine

Realbotix, entreprise canadienne spécialisée dans la robotique humanoïde, déploie son robot Melody dans un rôle d'accueil lors de la conférence Bitcoin 2026 au Venetian Resort de Las Vegas, du 27 au 29 avril 2026. Melody appartient à la gamme M-Series, une plateforme modulaire à corps entier dotée de 39 degrés de liberté concentrés dans la partie supérieure du corps, la partie inférieure restant fixe. Le robot est disponible en configurations masculine, féminine ou sur-mesure, et peut être installé en position assise, debout ou de bureau. Alimenté par prise électrique standard sans contrainte de batterie, il tourne en continu sur une journée complète. Sur site, Melody accueille les participants, les aide à localiser les stands et répond aux questions générales grâce à un système d'IA conversationnelle propriétaire développé par Realbotix. La plateforme est proposée à partir de 95 000 dollars, ce qui la positionne clairement dans le segment haut de gamme des interfaces physiques d'accueil. Ce qui est notable ici n'est pas tant la prouesse technique brute que le positionnement commercial : Realbotix cible explicitement les environnements à fort trafic humain où les bornes interactives classiques montrent leurs limites en termes d'engagement. Avec 39 DDL en partie supérieure, Melody peut produire des expressions faciales, des gestes et un contact visuel suffisamment fluides pour réduire l'effet "vallée dérangeante" qui a longtemps freiné l'adoption des robots humanoïdes en contexte public. La modularité des visages et panneaux de carrosserie ouvre la voie à des déploiements multi-marques ou multi-contextes sans changer de plateforme matérielle. Pour un intégrateur ou un décideur B2B, le modèle économique est celui d'un remplacement de kiosque à ROI mesurable sur la qualité d'interaction, non sur la productivité opérationnelle. Il faut cependant noter que cette présentation à Las Vegas reste une démonstration publique contrôlée, pas un déploiement commercial à grande échelle, et qu'aucune donnée de performance terrain n'a été publiée à ce stade. Realbotix opère dans un segment en pleine ébullition, celui des humanoïdes orientés "présence" plutôt que manipulation industrielle. La startup chinoise AheadForm pousse des concepts similaires avec ses séries Origin F1 et Elf, combinant IA auto-supervisée et mouvements bioniques avec synchronisation labiale précise. Ces acteurs se distinguent des approches Boston Dynamics ou Figure AI, qui visent la manutention et la logistique. Andrew Kiguel, PDG de Realbotix, positionne explicitement la M-Series comme une "interface physique pour l'IA" dans les secteurs de service, une thèse que plusieurs grandes chaînes hôtelières et aéroports testent discrètement depuis 2024. La suite logique serait des pilotes dans des environnements comme les hôtels, les banques ou les aéroports, mais Realbotix n'a pas annoncé de partenariats commerciaux formels au-delà de cette démonstration.

HumanoïdesOpinion
1 source
XYZ Embodied AI lance le sac à dos de calcul embarqué BotPack B Series
111Pandaily 

XYZ Embodied AI lance le sac à dos de calcul embarqué BotPack B Series

XYZ Embodied AI (星源智机器人) a présenté le 23 avril 2026 au salon Hannover Messe en Allemagne sa gamme BotPack B Series, un sac à dos de calcul embarqué destiné aux robots quadrupèdes et humanoïdes. La gamme comprend deux modèles, le B5 et le B4, tous deux propulsés par des puces NVIDIA. L'ensemble pèse moins de 2,5 kg et embarque des interfaces réseau haut débit (Ethernet 10G, 5G et Wi-Fi 7) ainsi que des modules de positionnement pour la navigation autonome. La compatibilité a été confirmée avec le robot humanoïde Unitree G1 de Unitree Robotics. L'objectif affiché est de permettre aux robots d'exécuter des modèles d'IA localement, en réduisant la dépendance au cloud et la latence de traitement associée. La mise en production de capacités de calcul edge directement sur le châssis d'un robot répond à un verrou opérationnel fréquemment cité par les intégrateurs : la dépendance à une connectivité cloud stable nuit aux déploiements en environnements industriels contraints, ateliers, entrepôts ou zones à couverture réseau limitée. Un backpack standardisé compatible avec plusieurs plateformes ouvre la voie à une séparation entre matériel robot et compute stack, une logique analogue à celle des AMR modulaires. La connectivité Wi-Fi 7 et 5G, couplée à un Ethernet 10G, cible clairement les cas d'usage en inférence temps réel de modèles VLA (Vision-Language-Action), où la latence est critique. Il reste à valider en conditions réelles quelle charge de modèle les configurations B4 et B5 peuvent effectivement supporter, XYZ n'ayant publié ni benchmarks ni données terrain. XYZ Embodied AI avait précédemment développé la plateforme T5, une unité de calcul embarqué positionnée sur le même segment ; la BotPack B Series constitue une évolution vers des formats plus compacts et universels. Hannover Messe 2026 concentre plusieurs annonces dans le domaine du edge computing pour la robotique, un marché en structuration où NVIDIA pousse son stack Isaac/Jetson et où des startups spécialisées compute-on-robot émergent. La compatibilité affichée avec le Unitree G1 positionne le produit face aux solutions de compute intégrées des fabricants humanoïdes comme Agility Robotics ou Figure AI. Aucun prix ni volume de déploiement n'a été communiqué, ce qui classe cette annonce comme lancement commercial sans validation industrielle publique à ce stade.

UELes intégrateurs robotiques européens présents à Hannover Messe peuvent découvrir une solution de compute embarqué potentiellement compatible avec leurs plateformes humanoïdes ou quadrupèdes, mais l'absence de prix, de benchmarks et de déploiements validés rend toute décision d'achat prématurée.

InfrastructureOpinion
1 source
Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde
112arXiv cs.RO 

Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde

Une équipe de chercheurs propose dans un preprint arXiv (référence 2604.21351, avril 2026) une méthode baptisée Weightlessness Mechanism (WM), conçue pour permettre aux robots humanoïdes d'exécuter des mouvements dits non-autostabilisants (NSS, Non-Self-Stabilizing). Ces mouvements englobent des actions aussi banales que s'asseoir sur une chaise, s'allonger sur un lit ou s'appuyer contre un mur : contrairement à la locomotion bipède classique, le robot ne peut maintenir sa stabilité sans interagir physiquement avec l'environnement. Les expériences ont été menées en simulation et sur le robot humanoïde Unitree G1, sur trois tâches représentatives : s'asseoir sur des chaises de hauteurs variables, s'allonger sur des lits à différentes inclinaisons, et s'appuyer contre des murs via l'épaule ou le coude. La méthode est entraînée sur des démonstrations en action unique, sans fine-tuning spécifique à chaque tâche. L'apport technique central s'appuie sur une observation biomécanique : lors de mouvements NSS, les humains relâchent sélectivement certaines articulations pour laisser le contact passif avec l'environnement assurer la stabilité, un état que les auteurs qualifient de "weightless". Le WM formalise ce mécanisme en déterminant dynamiquement quelles articulations relâcher et dans quelle mesure, complété par une stratégie d'auto-étiquetage automatique de ces états dans les données d'entraînement. Pour les intégrateurs industriels qui déploient des humanoïdes dans des environnements réels, ce verrou est significatif : les pipelines actuels d'imitation learning combiné au reinforcement learning imposent généralement un suivi rigide de trajectoire sans modéliser les interactions physiques avec les surfaces, ce qui les rend inopérants dès que le robot doit s'appuyer sur quelque chose. Le contexte est celui d'un secteur en pleine accélération : Figure AI avec le Figure 03, Agility Robotics avec Digit, Boston Dynamics avec Atlas et 1X Technologies poussent tous leurs humanoïdes vers des déploiements en entrepôt ou en usine, mais les scénarios de contact-riche restent largement non résolus. Le Unitree G1, plateforme commerciale accessible, s'impose progressivement comme banc de test académique standard, ce qui accélère la reproductibilité des résultats. Il faut néanmoins souligner que ce travail est au stade de preprint non évalué par les pairs, et que les séquences vidéo accompagnant ce type de publication sont souvent sélectionnées favorablement : la robustesse réelle en conditions non supervisées reste à démontrer. Les suites naturelles seraient une intégration dans des politiques généralisées comme GR00T N2 de NVIDIA ou pi0 de Physical Intelligence, et une évaluation sur des scènes hors distribution.

IA physiquePaper
1 source
Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise
113arXiv cs.RO 

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise

Une équipe de chercheurs a conçu et testé une méthode de sensibilisation à la robotique en milieu industriel réel, en déployant un robot humanoïde contrôlé par un grand modèle de langage (LLM) lors d'un événement interne organisé par AD Ports Group aux Émirats arabes unis. Les employés du groupe portuaire, sans formation préalable en robotique, ont interagi avec le robot via des commandes vocales dans un environnement d'exercice inspiré de la logistique, structuré en équipes avec des rôles attribués. Au terme de l'activité, un questionnaire resté ouvert 16 jours a recueilli 102 réponses. La satisfaction globale atteint 8,46/10, l'intérêt déclaré pour la robotique et l'IA 4,47/5, et la compréhension des nouvelles formes de collaboration homme-robot 4,45/5. Les participants ayant interagi directement avec le robot ont évalué la naturalité de l'échange à 4,37/5 et la progression de la facilité d'interaction à 4,74/5. Les scores concernant la fiabilité et la prédictibilité du robot restent en revanche sensiblement plus bas, ce que les auteurs identifient comme un défi technique à adresser. Ce travail fournit l'une des rares mesures quantitatives issues d'un déploiement en organisation réelle, hors contexte laboratoire, sur l'efficacité des LLM comme interface d'entrée en robotique pour des non-spécialistes. Pour les décideurs industriels et les intégrateurs, il valide un format concret d'onboarding technique : une activité compétitive courte peut suffire à modifier la perception et l'appétence pour la robotique collaborative. La méthode est présentée comme réplicable, ce qui est significatif pour des groupes industriels cherchant à préparer leurs effectifs à des déploiements d'IA incarnée sans passer par une formation longue. L'exploration des LLM comme couche de contrôle en langage naturel pour les robots s'intensifie depuis 2023, portée notamment par des architectures comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), mais les preuves d'usage en conditions industrielles non contrôlées restent rares. AD Ports Group, opérateur de ports et de zones logistiques parmi les plus importants du Moyen-Orient, constitue un terrain d'expérimentation pertinent. L'étude ne précise pas le modèle de robot humanoïde utilisé ni l'architecture LLM sous-jacente, une limite notable pour qui voudrait reproduire l'approche. Les prochaines étapes annoncées portent sur l'amélioration de la fiabilité perçue et la réplication de la méthode dans d'autres contextes opérationnels industriels.

UELa méthodologie réplicable d'onboarding robotique par interaction LLM peut être directement adoptée par des groupes industriels français et européens pour préparer leurs effectifs aux déploiements de robots collaboratifs sans formation longue.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
114arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
Vidéo : SamuRoid, le robot humanoïde chinois compact aux interactions plus intelligentes
115Interesting Engineering 

Vidéo : SamuRoid, le robot humanoïde chinois compact aux interactions plus intelligentes

SamuRoid, un robot humanoïde compact développé par la société chinoise XiaoR Geek Technology basée à Shenzhen, vient d'être présenté comme une nouvelle plateforme d'IA embarquée accessible aux chercheurs et développeurs. Mesurant 390 mm de hauteur pour 2,3 kg, il embarque 22 servomoteurs haute-couple de la série XRS couvrant l'intégralité du corps, une caméra 1080p grand angle sur une nacelle 2 axes, un microphone USB intégré, ainsi qu'une connectivité Wi-Fi 5 double bande et Bluetooth 5.0. Son cerveau est un Raspberry Pi 4 Model B disponible en 4 ou 8 Go de RAM. La batterie 12V 3000 mAh lui offre environ une heure d'autonomie. La version Professional Edition est proposée à environ 1 565 dollars, tandis que des éditions Developer et Flagship plus complètes sont actuellement en rupture de stock. Ce qui distingue SamuRoid de ses prédécesseurs, c'est son niveau d'intégration logicielle et ses capacités multimodales. Le robot fonctionne sous ROS (Robot Operating System), avec un code source ouvert compatible C++ et Python, et intègre OpenCV pour la reconnaissance faciale, le suivi de couleurs et la détection de QR codes. Surtout, il se connecte à des grands modèles de langage comme DeepSeek et Doubao, ce qui lui permet de comprendre des instructions en langage naturel plutôt que des commandes rigides. Si un utilisateur dit qu'il est fatigué et veut s'amuser, le système interprète l'intention et déclenche une action appropriée, comme une chorégraphie, tout en fournissant un retour vocal. Ce saut qualitatif positionne SamuRoid comme un outil de recherche crédible pour explorer l'interaction homme-machine de nouvelle génération, à un prix bien en dessous des plateformes industrielles. L'essor de robots humanoïdes compacts et ouverts reflète une tendance de fond dans l'industrie robotique mondiale : rendre l'IA incarnée accessible hors des grands laboratoires. Jusqu'ici, ce segment était dominé par des plateformes coûteuses ou des jouets aux capacités limitées. XiaoR Geek tente de combler cet écart en proposant une architecture ouverte compatible avec les workflows ROS standard, adoptés par la grande majorité des chercheurs en robotique. La Chine multiplie ces initiatives, portée par un écosystème de fabrication performant et des modèles de langage locaux comme DeepSeek qui rivalisent désormais avec les offres occidentales. SamuRoid arrive dans un contexte où plusieurs acteurs, d'Agility Robotics à Figure AI en passant par Boston Dynamics, cherchent à démocratiser l'humanoïde. La question ouverte reste celle de la durée d'autonomie, une heure restant un frein réel pour des usages continus, et de la robustesse en dehors des environnements contrôlés.

HumanoïdesActu
1 source
Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels
116arXiv cs.RO 

Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels

Des chercheurs en robotique ont publié sur arXiv une avancée notable dans le contrôle des robots humanoïdes, présentant le Masked Humanoid Controller (MHC), un système d'apprentissage automatique capable de piloter l'ensemble du corps d'un robot à partir d'une interface unifiée. Concrètement, le MHC reçoit des commandes sous forme de trajectoires partiellement spécifiées, seules certaines parties du corps sont ciblées à la fois, et les exécute en maintenant l'équilibre général de la machine. Le système a été validé sur le robot humanoïde réel Digit V3 du fabricant Agility Robotics, démontrant que les comportements appris en simulation se transfèrent effectivement au monde physique. Ce qui distingue le MHC, c'est sa capacité à traiter des entrées radicalement différentes avec un seul contrôleur : séquences de pas planifiées par un algorithme d'optimisation, clips de capture de mouvement humain, vidéos retransposées sur le robot, ou signaux de téléopération en temps réel via joystick. Jusqu'ici, chacun de ces modes nécessitait généralement un pipeline dédié. Cette unification simplifie considérablement l'architecture des systèmes robotiques et ouvre la voie à des robots capables de recevoir des instructions hybrides, par exemple suivre une trajectoire planifiée tout en imitant simultanément des gestes captés sur une vidéo. Le problème du contrôle corps entier est l'un des verrous majeurs de la robotique humanoïde commerciale, alors que des acteurs comme Boston Dynamics, Figure AI ou Tesla Optimus investissent massivement dans ce secteur. La tendance actuelle consiste à entraîner des contrôleurs en simulation, moins coûteux et plus sûr, puis à les transférer sur du matériel réel, une approche que le MHC illustre avec le Digit V3. L'utilisation d'un curriculum d'entraînement couvrant l'ensemble des modalités d'entrée est la clé qui permet cette polyvalence sans sacrifier la robustesse. Les prochaines étapes logiques concerneront l'intégration de modèles de langage comme interface de haut niveau, permettant à terme de donner des instructions verbales à un humanoïde qui les traduirait en commandes motrices complexes.

HumanoïdesActu
1 source
X Square Robot lance WALL-B, un modèle d'IA embarquée pour usage domestique
117Pandaily 

X Square Robot lance WALL-B, un modèle d'IA embarquée pour usage domestique

La startup chinoise X Square Robot a présenté le 21 avril 2026 WALL-B, qu'elle décrit comme le premier modèle fondamental d'IA incarnée au monde basé sur une architecture World Unified Model (WUM). Contrairement aux approches traditionnelles de type Vision-Language-Action (VLA), WALL-B fusionne nativement la vision, le langage, le mouvement et la prédiction physique dans un entraînement conjoint. Le modèle repose sur trois capacités clés : la multimodalité native, la compréhension de la dynamique du monde physique, et la capacité d'auto-amélioration après un échec. Pour construire ce modèle, X Square Robot a utilisé une combinaison de données expérimentales et de scénarios réels, incluant des données collectées dans des centaines de foyers. La société a annoncé qu'en l'espace de 35 jours, des robots équipés de WALL-B et d'un hardware amélioré seront déployés dans de vraies maisons, avec un recrutement d'utilisateurs déjà lancé. Des détails techniques supplémentaires seront dévoilés le 27 avril lors de la première conférence sur les applications de l'IA du Guangdong. Ce lancement marque une rupture significative dans la robotique domestique. Les architectures VLA classiques souffrent de pertes d'information entre leurs modules et peinent à modéliser la physique du monde réel, deux limitations directement adressées par WALL-B. La capacité d'auto-évolution après l'échec est particulièrement notable : elle permettrait à un robot de s'adapter aux imprévus du quotidien sans intervention humaine, ce qui est le principal obstacle à la commercialisation grand public de robots domestiques. Pour les utilisateurs, cela ouvre la voie à des assistants capables de naviguer dans l'environnement complexe et imprévisible d'un foyer réel. La Chine investit massivement dans la robotique humanoïde et incarnée, avec une concurrence intense entre startups locales et géants comme Huawei ou Xiaomi. X Square Robot s'inscrit dans cette dynamique en ciblant explicitement le marché résidentiel, là où des acteurs comme Figure AI ou Boston Dynamics se concentrent davantage sur l'industrie. Pour lever les freins liés à la vie privée, la société a intégré une anonymisation visuelle locale, une autorisation explicite des utilisateurs et des restrictions d'usage strictes. La prochaine étape sera le déploiement en conditions réelles dans des foyers, un test grandeur nature qui déterminera si l'approche WUM tient ses promesses face aux exigences du monde domestique.

HumanoïdesActu
1 source
Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne
118arXiv cs.RO 

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper
1 source
UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde
119arXiv cs.RO 

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

UniT (Unified Latent Action Tokenizer via Visual Anchoring) est un framework de recherche présenté début avril 2026 sur arXiv (2604.19734), conçu pour transférer les politiques de mouvement humain directement vers des robots humanoïdes. Le problème adressé est bien documenté : l'entraînement de modèles fondation pour humanoïdes bute sur la rareté des données robotiques. UniT propose d'exploiter les vastes corpus de données égocentrées humaines existants en construisant un espace latent discret partagé entre les deux types de corps. Le mécanisme central, dit tri-branch cross-reconstruction, fonctionne en trois voies : les actions prédisent la vision pour ancrer les cinématiques aux conséquences physiques, la vision reconstruit les actions pour éliminer les biais visuels non pertinents, et une branche de fusion unifie ces modalités purifiées en tokens d'intention physique indépendants de l'embodiment. Le framework est validé sur deux usages : VLA-UniT pour l'apprentissage de politique (Vision-Language-Action), et WM-UniT pour la modélisation du monde, qui permet la génération de vidéos humanoïdes contrôlées par des données de mouvement humain brutes. Les auteurs revendiquent un transfert zero-shot de tâches et une efficacité données state-of-the-art sur benchmark de simulation et sur des déploiements réels, sans toutefois publier de métriques de déploiement chiffrées. L'enjeu central est le "cross-embodiment gap" : un humain et un robot humanoïde partagent une structure morphologique proche mais des cinématiques incompatibles (nombre de degrés de liberté, ratios de membres, actionneurs). Jusqu'ici, combler cet écart nécessitait du retargeting cinématique manuel, de la téléopération coûteuse ou de la simulation synthétique. Si UniT tient ses promesses, il ouvrirait un pipeline d'entraînement hautement scalable à coût marginal faible, puisque les données égocentrées humaines se comptent en millions d'heures. Le claim de zero-shot transfer est le plus fort de l'article, mais il convient de le nuancer : il s'appuie sur des visualisations t-SNE montrant une convergence des représentations humaine et humanoïde dans un espace partagé, ce qui est indicatif mais pas une preuve de généralisation robuste en conditions industrielles réelles. Ce travail s'inscrit dans une vague de recherche sur les modèles fondation pour humanoïdes qui mobilise simultanément Figure AI avec son modèle Helix, Physical Intelligence avec Pi-0 et Pi-0.5, et NVIDIA avec GR00T N2, tous confrontés au même goulot d'étranglement des données. L'approche par ancrage visuel de UniT se distingue des méthodes purement cinématiques comme les retargeters basés sur des squelettes (SMPLify, HumanMimic) en postulant que les conséquences visuelles du mouvement sont universelles indépendamment du corps. Le preprint ne mentionne pas d'affiliation industrielle explicite ni de calendrier de déploiement commercial, et aucun robot cible (Unitree G1, Fourier GR-1, ou autre) n'est nommé dans le résumé disponible. La prochaine étape logique serait une validation sur des benchmarks standardisés comme LIBERO ou RoboMimic, et une comparaison directe avec GR00T N2 sur des tâches dextres en environnement non contrôlé.

IA physiqueOpinion
1 source
Zibian Robotics lance WALL-B, un modèle d'IA incarnée destiné au déploiement à domicile
120Pandaily 

Zibian Robotics lance WALL-B, un modèle d'IA incarnée destiné au déploiement à domicile

Le 21 avril 2026, Zibian Robotics a annoncé WALL-B, un modèle d'IA incarnée reposant sur une architecture qu'elle nomme World Unified Model (WUM), en marge d'une initiative "robots pour la maison". Contrairement aux systèmes Vision-Language-Action (VLA) classiques, qui traitent séquentiellement perception visuelle, raisonnement et contrôle moteur, WALL-B est entraîné en fusion native sur quatre modalités (vision, langage, mouvement, prédiction physique) et revendique trois propriétés clés : multimodalité native, modélisation de la dynamique physique du monde, et auto-amélioration après échec. Le corpus d'entraînement intègre des données issues de centaines de foyers réels, et Zibian annonce un déploiement dans de vrais domiciles d'ici 35 jours, avec recrutement d'utilisateurs déjà en cours. Des précisions techniques et les plans d'écosystème seront révélés le 27 avril à la première conférence sur les applications IA du Guangdong. L'intérêt architectural de l'approche WUM est réel : les VLA souffrent d'une perte d'information à chaque interface entre modules, et leur incapacité à modéliser la physique reste un obstacle documenté au sim-to-real. Un entraînement unifié sur ces quatre flux pourrait réduire ce fossé, notamment pour la manipulation en environnement non structuré, défi central du déploiement résidentiel. Les affirmations de "premier modèle au monde" de ce type restent invérifiables à ce stade, et l'annonce d'un déploiement en 35 jours demeure un engagement commercial non confirmé ; la robustesse à grande échelle dans des foyers variés, avec leurs contraintes de lumière, d'encombrement et de comportements imprévisibles, constitue une barre difficile à franchir. Zibian s'inscrit dans un segment où la concurrence s'intensifie rapidement : Figure AI (Figure 03), Agility Robotics (Digit), Unitree et Agibot développent tous des plateformes polyvalentes pour environnements non structurés. En Chine, l'écosystème robotique bénéficie d'un fort soutien institutionnel, et le choix du Guangdong comme vitrine situe Zibian dans l'orbite de Shenzhen. L'intégration de l'anonymisation visuelle embarquée et d'une gestion explicite du consentement utilisateur répond aux exigences réglementaires croissantes, mais aussi à l'enjeu d'acceptabilité sociale des robots dans l'espace privé. Les prochaines semaines seront décisives pour évaluer si WALL-B franchit la frontière entre annonce et produit déployé en conditions réelles.

Rewind-IL : détection des échecs en temps réel et réinitialisation d'état pour l'apprentissage par imitation
121arXiv cs.RO 

Rewind-IL : détection des échecs en temps réel et réinitialisation d'état pour l'apprentissage par imitation

Une équipe de chercheurs a publié Rewind-IL, un framework de surveillance en ligne conçu pour détecter les échecs d'exécution dans les politiques d'imitation learning à découpage d'actions (action-chunked policies) et y remédier sans nécessiter de données d'échec préalables. Le système repose sur deux mécanismes complémentaires : un détecteur d'anomalies baptisé TIDE (Temporal Inter-chunk Discrepancy Estimate), qui mesure l'incohérence temporelle entre segments d'actions successifs, et un mécanisme de "respawning" qui ramène le robot à un état intermédiaire sûr vérifié sémantiquement. En amont du déploiement, un modèle vision-langage (VLM) identifie des points de reprise dans les démonstrations d'entraînement, et l'encodeur de la politique gelée génère une base de données compacte d'empreintes de ces checkpoints. En ligne, Rewind-IL surveille la cohérence interne des chunks d'actions superposés et, dès détection d'une dérive, revient au dernier état validé avant de relancer l'inférence depuis un état propre. Les expériences couvrent des tâches de manipulation longue portée en environnement réel et simulé, avec transfert vers des politiques basées sur le flow matching. L'intérêt principal de Rewind-IL est qu'il est training-free : aucune donnée d'échec n'est nécessaire pour entraîner le détecteur, ce qui le distingue des moniteurs existants qui requièrent soit des exemples négatifs étiquetés, soit tolèrent mal les dérives bénignes de features. Le problème qu'il adresse est structurel dans les politiques action-chunked : une fois que l'exécution sort du manifold de démonstration, la politique continue de générer des actions localement plausibles mais globalement incohérentes, sans jamais récupérer. Rewind-IL casse ce cycle en combinant détection statistique (calibration par split conformal prediction pour contrôler le taux de fausses alarmes) et récupération sémantiquement ancrée plutôt que géométrique. C'est une approche pragmatique pour améliorer la fiabilité des robots en déploiement industriel, sans retraining ni ingénierie de données d'échec. L'imitation learning a connu un regain d'intérêt majeur avec l'émergence des politiques visuomotrices génératives, notamment ACT et Diffusion Policy, largement adoptées dans les labos académiques et par des acteurs comme Physical Intelligence (pi0) ou Figure AI. Ces politiques se heurtent toutefois à un "deployment gap" : les performances en démo ne se transposent pas toujours en conditions réelles sur des tâches longues. Rewind-IL s'inscrit dans une tendance croissante de travaux sur la robustesse runtime (aux côtés de méthodes comme DART ou les moniteurs basés sur l'incertitude), mais se distingue par son absence totale de supervision sur les échecs. Les auteurs indiquent que le code et les matériaux supplémentaires sont disponibles en ligne, mais aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution de recherche académique, pas d'un produit shipé.

RechercheOpinion
1 source
RBR50 Gala fait son retour au Robotics Summit & Expo 2026
122Robotics Business Review 

RBR50 Gala fait son retour au Robotics Summit & Expo 2026

Le Robotics Summit & Expo 2026 accueillera le 27 mai prochain, de 18h à 20h, la cérémonie des RBR50 Robotics Innovation Awards au Thomas M. Menino Boston Convention and Exhibition Center. L'événement, organisé par The Robot Report et WTWH Media, clôture le premier jour du salon en réunissant les principaux acteurs de l'industrie robotique autour d'un dîner de remise de prix. Parmi les lauréats déjà annoncés figurent Amazon Vulcan, distingué Robot de l'Année pour son système de préhension tactile appliqué au picking et au rangement en entrepôt, et Physical Intelligence, désignée Startup de l'Année pour ses modèles PI qui modifient l'approche de l'apprentissage robotique. Le prix Application de l'Année revient à Harvard University pour son exosquelette souple porté au bras, destiné aux patients victimes d'AVC ou atteints de SLA. Tatum Robotics remporte la catégorie Robots for Good avec Tatum1, une main robotique conçue pour la communication tactile en langue des signes. En marge des prix, Aaron Parness, directeur des sciences appliquées chez Amazon Robotics, s'entretiendra avec Steve Crowe, rédacteur en chef de The Robot Report, dans une conversation centrée sur le robot Vulcan. La sélection de ces lauréats illustre les axes de développement qui structurent aujourd'hui le marché : la manipulation tactile en environnement industriel non structuré avec Vulcan, l'apprentissage par démonstration à grande échelle avec Physical Intelligence, et des applications médicales portables qui sortent le robot du sol d'usine. Pour un intégrateur ou un décideur industriel, ces distinctions signalent moins des ruptures technologiques que des vecteurs de maturité commerciale. Vulcan notamment incarne la convergence entre robotique de service, perception haptique et déploiement à l'échelle opérationnelle chez un acteur e-commerce majeur, ce qui constitue une référence de validation terrain difficile à ignorer. La présence de Physical Intelligence dans les lauréats confirme aussi l'intérêt croissant du secteur pour les approches génératives de contrôle moteur, un positionnement que se disputent également Figure AI, 1X Technologies et Agility Robotics. Le Robotics Summit & Expo est devenu en quelques éditions l'un des rendez-vous techniques de référence pour les développeurs de robotique commerciale, avec plus de 50 sessions programmées cette année sur l'IA, le design, les technologies habilitantes, la santé et la logistique. Plus de 70 intervenants confirmés représentent AWS, Brain Corp, Tesla, Toyota Research Institute, PickNik Robotics ou encore le Robotics and AI Institute. Le salon est co-localisé avec DeviceTalks Boston, dédié aux dispositifs médicaux, ce qui renforce la dimension santé de l'édition 2026. La liste complète des lauréats RBR50 n'est pas encore publiée; The Robot Report annonce une mise en ligne prochaine, accompagnée du détail de l'exposition RBR50 Showcase sur le floor du salon. Les inscriptions sont ouvertes.

AutreActu
1 source
Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris
123The Decoder 

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris

La start-up américaine Physical Intelligence a présenté π0.7, un nouveau modèle de fondation pour robots capable de recombiner des compétences acquises lors de l'entraînement pour accomplir des tâches inédites. Le principe rappelle directement le fonctionnement des grands modèles de langage, qui assemblent des fragments de leur corpus d'entraînement pour générer du texte nouveau. Les chercheurs qualifient ce phénomène de premières traces de "généralisation compositionnelle" en robotique, une capacité jusqu'ici considérée comme l'un des grands verrous du domaine. L'enjeu est considérable : un robot capable de composer librement ses compétences peut théoriquement s'adapter à des environnements non prévus lors de l'entraînement, sans reprogrammation manuelle. C'est précisément ce qui distingue l'intelligence artificielle générale de la robotique traditionnelle, figée dans des séquences prédéfinies. Physical Intelligence reconnaît toutefois que le modèle présente encore des défauts notables, signe que cette généralisation reste fragile et partielle à ce stade. Physical Intelligence, fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Berkeley, s'est imposée comme l'un des acteurs les plus ambitieux de la robotique dite "généraliste". La société avait déjà publié π0 en 2024, un premier modèle de fondation polyvalent entraîné sur une large variété de tâches physiques. L'annonce de π0.7 s'inscrit dans une course plus large impliquant Figure AI, Agility Robotics et Tesla, tous en quête du même Graal : un robot capable d'apprendre une fois et de s'adapter partout.

HumanoïdesOpinion
1 source
Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI
124Pandaily 

Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI

Maniformer, startup chinoise spécialisée dans l'infrastructure de données pour l'IA physique, a officiellement lancé sa plateforme de services de données en un seul guichet, accompagnée de la gamme matérielle MEgo et du système de gouvernance MEgo Engine. La gamme MEgo comprend trois composants : le MEgo Gripper pour la capture de données de manipulation robotique, le MEgo View, un dispositif de collecte portable à tête montée, et le MEgo Engine pour le traitement et la gouvernance des données. Ces outils affichent une précision millimétrique, une synchronisation sub-milliseconde et une perception panoramique supérieure à 300 degrés. Le système est nativement compatible avec le robot G2 Air, garantissant la cohérence entre environnements simulés et réels. Selon Yao Maoqing, président-directeur général, l'entreprise vise une capacité de production de dizaines de millions d'heures de données d'ici 2026, puis des dizaines de milliards d'heures d'ici 2030. Le problème que Maniformer cherche à résoudre est structurel : les données d'interaction physique réelle disponibles pour l'IA incarnée représentent moins de 1/20 000 de ce qui existe pour les grands modèles de langage. Ce déficit, combiné à l'absence de standards, à des problèmes de qualité hétérogène et à des inadéquations entre offre et demande, freine concrètement la commercialisation des robots autonomes. En proposant une infrastructure full-stack couvrant la télé-opération réelle, la collecte sans robot dédié et la génération synthétique par simulation, Maniformer cherche à décorréler la production de données de la disponibilité des plateformes robotiques elles-mêmes, une approche qui, si elle tient ses promesses, pourrait accélérer significativement le cycle sim-to-real pour les intégrateurs et les équipes R&D. L'analogie revendiquée avec l'électricité ou l'eau comme utilities est ambitieuse ; elle reste à valider à l'échelle industrielle. L'entreprise s'inscrit dans un contexte de course mondiale aux données d'entraînement pour robots humanoïdes et manipulateurs, où des acteurs comme Physical Intelligence (Pi-0), Boston Dynamics, Figure AI ou Unitree investissent massivement dans leurs propres pipelines de données propriétaires. La stratégie de Maniformer est différente : se positionner en fournisseur tiers d'infrastructure, à la manière d'un AWS pour la donnée physique. L'initiative "Hive" annoncée vise à fédérer des partenaires mondiaux pour co-construire des standards sectoriels, une démarche de standardisation qui, si elle aboutit, pourrait bénéficier à l'ensemble de l'écosystème, y compris aux acteurs européens comme Enchanted Tools ou Wandercraft qui peinent à constituer des datasets suffisants. La prochaine étape annoncée est le déploiement d'un réseau global de collecte de données, sans calendrier précis communiqué au-delà de l'horizon 2026.

UESi l'initiative 'Hive' de standardisation aboutit, les acteurs européens comme Enchanted Tools ou Wandercraft pourraient bénéficier d'une infrastructure de données partagée pour accélérer leurs pipelines sim-to-real.

Chine/AsieActu
1 source
Vidéo : ce robot humanoïde sprinte à une vitesse jamais vue
125Le Big Data 

Vidéo : ce robot humanoïde sprinte à une vitesse jamais vue

Le robot humanoïde H1 de la start-up chinoise Unitree Robotics a atteint une vitesse de 10,1 mètres par seconde lors d'un test de sprint filmé et publié le 11 avril 2026. La vidéo, diffusée sur le compte officiel d'Unitree, montre la machine traverser une piste d'athlétisme à pleine allure, maintenant une foulée stable et régulière sans rupture d'équilibre visible. Le H1 pèse environ 62 kg pour une longueur de jambe de 80 cm, des proportions proches d'un coureur humain de gabarit moyen. Unitree précise que le dispositif de mesure comporte une légère marge d'erreur, mais la démonstration reste spectaculaire et a largement dépassé les cercles spécialisés de la robotique. Cette performance place le H1 dans une catégorie inédite pour un robot à pattes bipèdes. À titre de comparaison, le record du monde du 100 mètres détenu par Usain Bolt depuis 2009 correspond à une vitesse de pointe d'environ 12,4 m/s. L'écart se resserre, ce qui alimente un débat sérieux sur la trajectoire d'amélioration de ces systèmes. Pour l'industrie, cela signifie que les robots humanoïdes ne sont plus cantonnés à des tâches lentes et contrôlées : la mobilité rapide ouvre des perspectives concrètes en logistique d'urgence, intervention en environnement hostile, ou assistance physique dans des contextes où la réactivité compte. Pour les ingénieurs et compétiteurs du secteur, c'est aussi un signal fort sur l'état de l'art accessible avec du matériel grand public, le H1 n'est pas un prototype de laboratoire confidentiel. Unitree s'est imposé ces dernières années comme l'un des acteurs les plus actifs de la robotique humanoïde abordable, face à des concurrents comme Boston Dynamics, Figure AI ou Agility Robotics. L'approche biomécanique du H1, qui s'inspire directement de l'anatomie humaine pour synchroniser articulations et moteurs, est au coeur de sa stratégie différenciante. La prochaine étape se profile déjà : le 19 avril 2026 se tient la deuxième édition du semi-marathon de robots humanoïdes, un événement qui devrait réunir plusieurs machines en compétition directe sur la même ligne de départ. Les analystes anticipent un niveau de concurrence nettement supérieur à la première édition, ce qui pourrait à nouveau repousser les limites connues de vitesse et d'endurance pour ce type de système. La question n'est plus de savoir si les robots peuvent courir vite, mais jusqu'où cette courbe de progression va s'accélérer.

HumanoïdesActu
1 source
Semaine nationale de la robotique : dernières avancées en IA physique et ressources
126NVIDIA AI Blog 

Semaine nationale de la robotique : dernières avancées en IA physique et ressources

À l'occasion de la Semaine nationale de la robotique aux États-Unis, NVIDIA met en avant ses avancées dans le domaine de l'intelligence artificielle physique, c'est-à-dire l'IA appliquée à des robots capables d'agir dans le monde réel. L'entreprise présente cette semaine une série de technologies couvrant la simulation, la génération de données synthétiques et l'apprentissage automatique pour robots, destinées aux développeurs qui souhaitent concevoir des machines autonomes opérationnelles dans des environnements complexes. L'enjeu est considérable : ces outils permettent de réduire drastiquement le temps nécessaire pour passer de l'entraînement en environnement virtuel au déploiement sur le terrain. Concrètement, un robot peut aujourd'hui apprendre à naviguer, saisir des objets ou réagir à des imprévus dans un simulateur NVIDIA avant d'être testé dans une usine, une serre agricole ou une centrale énergétique. Ce raccourci entre simulation et réalité est l'un des verrous techniques les plus critiques de la robotique industrielle. NVIDIA se positionne comme la colonne vertébrale de cette transition, en proposant des plateformes intégrées qui couvrent l'ensemble de la chaîne de développement robotique. La compétition dans ce secteur s'intensifie, avec des acteurs comme Boston Dynamics, Figure AI ou Agility Robotics qui cherchent eux aussi à industrialiser leurs solutions. La Semaine de la robotique sert ici de vitrine stratégique pour NVIDIA, qui entend s'imposer comme fournisseur incontournable d'infrastructure IA pour la prochaine génération de robots autonomes dans l'industrie, l'agriculture et l'énergie.

UELes plateformes de simulation et d'entraînement robotique de NVIDIA sont accessibles aux développeurs et industriels européens, mais cet événement est centré sur le marché américain sans impact direct sur la France/UE.

💬 Le vrai sujet ici, c'est pas la Semaine de la robotique, c'est NVIDIA qui s'impose discrètement comme le AWS de la robotique industrielle. La réduction du gap sim-to-real, c'est le verrou qui bloquait tout depuis des années, et là ils ont une vraie réponse technique. Reste à voir si les industriels européens vont jouer le jeu ou rester dépendants d'une stack américaine de plus.

HumanoïdesActu
1 source
Amazon rachète Fauna Robotics pour lancer son premier robot humanoïde domestique
127Frandroid 

Amazon rachète Fauna Robotics pour lancer son premier robot humanoïde domestique

Amazon a annoncé le rachat de Fauna Robotics, une startup spécialisée dans la robotique humanoïde, marquant une nouvelle étape dans la stratégie de l'entreprise pour conquérir le marché domestique. Cette acquisition permet à Amazon de disposer pour la première fois d'un robot capable d'effectuer des tâches physiques à domicile, comme ramasser des objets au sol — des jouets, par exemple. Les détails financiers de la transaction n'ont pas été divulgués, mais l'opération témoigne d'un investissement stratégique majeur dans la robotique grand public. Ce pivot représente une rupture nette avec Astro, le précédent robot d'Amazon lancé en 2021 : un simple écran monté sur roues, utile pour la surveillance ou les appels vidéo, mais incapable d'interagir physiquement avec son environnement. Un robot humanoïde domestique fonctionnel ouvrirait un marché considérable — des millions de foyers en quête d'assistance pour des tâches quotidiennes répétitives. Pour Amazon, c'est aussi une extension naturelle de l'écosystème Alexa vers la couche physique du foyer, transformant une enceinte connectée en assistant incarné. La course au robot domestique s'intensifie depuis plusieurs années. Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus investissent massivement ce segment. Amazon, fort de son expérience en robotique d'entrepôt avec ses milliers d'unités déployées dans ses centres logistiques, dispose d'une base technologique solide pour accélérer. L'acquisition de Fauna Robotics lui offre vraisemblablement une équipe spécialisée et des brevets ciblant spécifiquement les usages résidentiels, là où la manipulation d'objets dans des espaces non structurés reste le défi technique central.

HumanoïdesActu
1 source