Aller au contenu principal

Dossier Apptronik Apollo — page 2

125 articles · page 2 sur 3

Apptronik et Apollo : humanoïde américain pour la logistique, partenariat Mercedes-Benz et GXO, soutien NASA Johnson Space Center.

Distribution de fret lunaire par plusieurs robots via apprentissage par renforcement décomposé en phases
51arXiv cs.RO RecherchePaper

Distribution de fret lunaire par plusieurs robots via apprentissage par renforcement décomposé en phases

Ce système ne vient pas d'une entreprise mais d'un laboratoire de recherche : des chercheurs ont mis au point une méthode d'apprentissage par renforcement pour coordonner plusieurs robots modulaires reconfigurables afin de transporter du fret en coopération sur la surface lunaire. Plutôt que d'entraîner une politique unique pour toute la tâche, l'équipe découpe l'opération en trois phases distinctes, soulèvement, déplacement et dépose, chacune pilotée par sa propre politique conjointe capturant le couplage mécanique entre les unités qui portent ensemble la charge. L'entraînement se fait de façon centralisée pour stabiliser la convergence, tandis que le déploiement repose sur la proprioception embarquée de chaque robot pour le contrôle en temps réel, complétée par un système de capture de mouvement OptiTrack utilisé comme vérité terrain pour évaluer les résultats. Un contrôleur de phase déterministe, formalisé sous forme de représentation markovienne, gère les transitions entre étapes, et un mécanisme de synchronisation sensible aux défaillances permet d'arrêter l'opération en cas de désynchronisation dangereuse entre robots. Le dispositif a été validé en simulation puis lors d'essais en conditions réelles dans une installation d'essai de la JAXA, l'agence spatiale japonaise. L'article ne communique toutefois aucun chiffre précis de charge utile, de degrés de liberté ou de temps de cycle, ce qui limite pour l'instant l'évaluation de la performance réelle du système face à des solutions concurrentes. Ce travail s'attaque à un problème central pour toute future base lunaire habitée ou robotisée : comment déplacer du matériel lourd sur un sol accidenté et en gravité réduite sans dépendre d'un seul gros robot polyvalent, coûteux à faire atterrir et à réparer en cas de panne. L'approche multi-robot modulaire promet une redondance utile, si une unité tombe en panne, les autres peuvent en théorie compenser, et une topologie reconfigurable selon la forme de la charge à transporter. Elle illustre aussi la bascule progressive de la robotique spatiale vers des politiques apprises plutôt que des trajectoires programmées à la main, un pari qui reste risqué tant que la fiabilité en environnement réel non contrôlé n'est pas démontrée à grande échelle plutôt que sur un banc d'essai instrumenté. Ce projet s'inscrit dans la vague plus large de recherche sur la robotique modulaire et coopérative destinée aux missions lunaires du programme Artemis et à ses équivalents asiatiques, où la logistique de surface reste un goulot d'étranglement mal résolu. Contrairement aux approches de type humanoïde unique porté par des acteurs comme Figure ou Apptronik, cette voie mise sur des essaims de robots plus simples travaillant de concert. L'installation d'essai de la JAXA suggère une collaboration ou un intérêt institutionnel japonais pour cette technologie, mais aucun calendrier de vol ni de partenaire industriel n'est mentionné à ce stade, le travail reste au niveau de la démonstration en laboratoire.

1 source
Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes
52Interesting Engineering 

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Flexion Robotics a dévoilé Reflect v1.0, une plateforme d'intelligence robotique destinée aux humanoïdes, capable d'exécuter des missions longues et multi-étapes sans intervention humaine pendant l'exécution. Pour illustrer les capacités du système, la société a présenté une démonstration en environnement de bureau : un robot humanoïde reçoit une instruction en langage naturel, récupère un colis de snacks livré au bâtiment, emprunte escaliers et ascenseur, déballe le carton à l'aide d'outils, puis range les articles dans un tiroir désigné. Selon Flexion, l'intégration du reinforcement learning sur plusieurs couches du système a fait passer le taux de complétion end-to-end d'une mission interne à 16 étapes de 38 % à 90 %, contre un modèle supervisé seul. La plateforme gère des charges comprises entre 100 grammes et 3,5 kilogrammes, et le robot est capable de repositionner un colis via des mouvements coordonnés du corps entier, d'opérer un ascenseur, de traverser des escaliers répétés et de contourner des obstacles dynamiques tout en portant des objets. Ce résultat est significatif parce qu'il s'attaque directement au problème de l'autonomie longue durée, considéré comme l'un des verrous majeurs de la robotique humanoïde commerciale. Dans une séquence de tâches, l'accumulation d'erreurs de navigation, de manipulation ou de perception finit statistiquement par faire échouer le système : c'est le "long-horizon failure mode" que les industriels connaissent bien. Reflect v1.0 le traite via un modèle vision-langage (VLM) personnalisé qui fait office de contrôleur de mission, surveille en continu l'avancement, raisonne sur l'environnement et re-planifie à la demande. La couche de mouvement combine des vision-language-action models (VLA) entraînés sur données réelles et des primitives issues du reinforcement learning, tandis qu'un contrôleur corps-entier temps réel assure équilibre et précision des gestes. Pour un COO industriel ou un intégrateur, le signal concret est le suivant : on passe de 38 % à 90 % de succès sur une mission à 16 étapes grâce au RL seul, ce qui suggère que le sim-to-real gap et la fiabilité multi-tâche sont partiellement solubles sans refonte matérielle. Flexion Robotics est une startup relativement récente dans l'écosystème humanoïde, qui se positionne comme fournisseur de couche logicielle agnostique au hardware, à l'image de ce que Apptronik ou 1X cherchent à faire sur leurs propres plateformes. L'article mentionne également ShengShu Technology et son modèle Motubrain, un "cerveau général" combinant perception, raisonnement et action, qui vise le même marché. La concurrence directe inclut Figure (Helix), Physical Intelligence (pi0), Boston Dynamics (Atlas Gen 2) et Tesla (Optimus Gen 3), tous engagés dans une course à l'autonomie longue horizon. Flexion reconnaît que Reflect v1.0 reste limité à des environnements définis, ce qui tempère le chiffre de 90 % : il s'agit d'une évaluation interne sur mission contrôlée, pas d'un déploiement industriel validé en conditions réelles. Les prochaines étapes annoncées concernent l'extension à des environnements moins structurés et la capacité à recevoir des instructions modifiées en cours de mission, deux marqueurs qui, s'ils sont confirmés en production, rapprocheraient Reflect d'une utilisabilité opérationnelle sérieuse.

IA physiqueOpinion
1 source
Un robot humanoïde actif 24h/24 permet à quiconque de lui parler en ligne
53Interesting Engineering 

Un robot humanoïde actif 24h/24 permet à quiconque de lui parler en ligne

Richtech Robotics, société basée au Nevada, a lancé un dispositif de livestream interactif fonctionnant 24h/24 et 7j/7 autour de son robot humanoïde ADAM, permettant à tout utilisateur connecté dans le monde de lui adresser des questions en temps réel et d'observer ses réponses. Développé sur la plateforme NVIDIA Isaac et équipé du module de calcul embarqué NVIDIA Jetson Thor, ADAM exécute localement les tâches de perception, de raisonnement et de planification sans dépendre d'une infrastructure cloud externe. La même semaine, Richtech confirmait l'acquisition fin mai d'un entrepôt de 79 325 m² à Las Vegas pour environ 21,2 millions de dollars, destiné à héberger des serveurs GPU, à collecter des données issues de ses déploiements commerciaux et à entraîner son modèle propriétaire baptisé World Action Model. Le démarrage des premières opérations de data center est prévu pour l'automne 2026. Ce double mouvement, diffusion publique et infrastructure d'entraînement, illustre une logique de flywheel de données que plusieurs acteurs du secteur humanoïde cherchent à mettre en place : chaque interaction utilisateur alimente directement les futurs cycles d'entraînement du modèle, réduisant la dépendance aux données simulées. Pour les intégrateurs et décideurs industriels, c'est un signal que la frontière entre démo marketing et collecte de données opérationnelles s'efface progressivement. Cela dit, le format "robot influencer" revendiqué par Richtech reste une annonce positionnelle : aucune métrique sur la qualité des échanges, le taux d'engagement ou la robustesse conversationnelle n'a été publiée, et le livestream lui-même est davantage un outil de visibilité qu'une validation de performance industrielle. Richtech Robotics a construit sa réputation sur des robots de service commerciaux, notamment des systèmes capables de préparer cocktails et boissons, de livrer des repas ou de nettoyer des espaces hôteliers, secteurs où ADAM a déjà été déployé en conditions réelles. La société élargit désormais son positionnement avec Dex, un humanoïde industriel mobile également construit sur l'écosystème NVIDIA. Dans une course aux humanoïdes dominée par Figure (Figure 03 en déploiement chez BMW), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Apptronik ou Agility Robotics (Digit chez Amazon), Richtech occupe un segment intermédiaire, entre robot de service éprouvé et plateforme d'IA incarnée en construction. La prochaine étape crédible sera de montrer si l'infrastructure de Las Vegas produit effectivement des améliorations mesurables sur les modèles déployés, et non simplement une présence médiatique accrue.

HumanoïdesOpinion
1 source
TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)
54arXiv cs.RO 

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2606.29089) une méthode appelée TAP-VLA (Tactile Annotation Prompting for Vision-Language-Action models) visant à doter les modèles vision-langage-action du sens du toucher sans modifier leur architecture. Sur quatre tâches de manipulation à contacts complexes (vissage, insertion, assemblage de précision), TAP-VLA atteint un taux de succès de 78 %, contre moins de 50 % pour un fine-tuning purement visuel et pour les approches alternatives de fusion tactile, certaines de ces baselines ne faisant pas mieux qu'un résultat aléatoire. Le principe repose sur des capteurs visuo-tactiles capables de mesurer les champs de cisaillement (shear fields) à la surface de contact ; ces champs sont ensuite superposés sous forme de vecteurs spatialement alignés directement sur les images RGB multi-vues que le modèle consomme déjà, sans ajouter de modalité d'entrée distincte. L'enjeu est réel : les VLAs de génération actuelle, comme π0 de Physical Intelligence, OpenVLA ou RT-2 de Google DeepMind, offrent un raisonnement robuste sur les variations visuelles, sémantiques et spatiales grâce à leur pré-entraînement à grande échelle, mais restent aveugles aux forces de contact, pourtant centrales dans toute manipulation industrielle sérieuse (emboîtement de précision, vissage, gestion d'objets déformables). Intégrer le toucher comme nouvelle modalité d'entrée détériore précisément ce pré-entraînement, car les données tactiles sont absentes des corpus à grande échelle sur lesquels ces modèles sont construits, un problème de distribution shift bien documenté dans la littérature. TAP-VLA contourne l'obstacle en restant dans l'espace d'observation natif du modèle : pas de modification architecturale, pas de pré-entraînement tactile spécifique, surcoût computationnel négligeable. Ce travail s'inscrit dans une course active autour de l'embodied AI pour la manipulation de précision, où Physical Intelligence (π0, π0-FAST), Figure AI ou Apptronik cherchent à étendre les capacités de leurs humanoïdes et bras industriels au-delà du pick-and-place visuel. La question du sim-to-real pour les contacts reste l'un des derniers verrous majeurs avant un déploiement industriel à l'échelle. En évitant la refonte architecturale, TAP-VLA propose une voie d'intégration compatible avec les VLAs existants, ce qui simplifie son adoption par des équipes qui travaillent à partir de modèles déjà entraînés. La publication sur arXiv sans conférence associée indique que ce travail est encore en cours d'évaluation par les pairs ; aucun déploiement réel ou pilote industriel n'est annoncé à ce stade.

IA physiqueOpinion
1 source
RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras
55arXiv cs.RO 

RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras

Des chercheurs ont publié sur arXiv (réf. 2510.00814v2) une méthode robotique pour aplatir automatiquement un tissu froissé et le repositionner dans une pose cible arbitraire définie par l'utilisateur, à l'aide d'un manipulateur bi-bras. La tâche, baptisée RTFF (Random-to-Target Fabric Flattening), va au-delà du simple froissage-défroissage : le système doit simultanément éliminer les faux plis et aligner le tissu sur une configuration précise, deux objectifs structurellement antagonistes puisque tout aplatissement déplace la pose, et tout réalignement tend à réintroduire des plis. L'approche repose sur l'ancrage de l'état courant et de l'état cible du tissu à un même maillage de référence (template mesh), ce qui permet une évaluation directe au niveau des sommets (vertex-level) sans recalage préalable. Sur cette représentation, les auteurs ont développé une politique hybride combinant imitation learning et visual servoing (IL-VS), avec un composant clé baptisé MACT (Mesh Action Chunking Transformer) : ce transformeur exploite la structure du maillage pour réaliser un alignement grossier conditionné par l'objectif à partir d'un petit nombre de démonstrations, avant qu'un étage de visual servoing assure la convergence précise vers la cible. Les expériences sont menées sur un vrai système bi-bras à téléopération, avec généralisation à des poses cibles, des types de tissus et des échelles non vus pendant l'entraînement. Ce résultat est notable pour la manipulation d'objets déformables (DOM), un sous-domaine où le sim-to-real gap reste structurellement élevé en raison de la variabilité infinie des états du tissu et des occlusions causées par les plis. L'architecture MACT est intéressante car elle extrait de l'information structurée (maillage) plutôt que des images brutes, ce qui réduit l'ambiguïté de représentation typique des approches vision-seule. Le fait que la politique généralise à des tissus non vus à partir d'un ensemble compact de démonstrations suggère une efficacité de données supérieure aux pipelines RL purs, souvent gourmands en interactions simulées. Pour les intégrateurs industriels ciblant la manipulation textile (confection, logistique, blanchisserie), c'est un signal que les approches hybrides IL+VS méritent attention ; la limite reste la validation sur un seul système de téléopération en laboratoire, sans métriques de cycle time ni de robustesse sur longue durée. La manipulation de textiles en robotique est un problème ouvert depuis plusieurs décennies, historiquement traité par des méthodes analytiques, de la vision par ordinateur classique, ou plus récemment par du reinforcement learning en simulation. Des travaux récents comme pi0 de Physical Intelligence et les approches VLA (Vision-Language-Action) ont renouvelé l'intérêt pour les politiques généralisables sur objets déformables, mais sans cibler spécifiquement le repositionnement joint. Du côté des acteurs industriels, des startups comme Apptronik, 1X ou Kepler explorent la manipulation de tissus dans des contextes de logistique ou d'assistance, mais restent sur des tâches de saisie-dépose. Aucun acteur européen ou français n'est mentionné dans ce travail académique. La prochaine étape naturelle serait l'intégration dans un pipeline plus autonome avec perception RGB-D sans marqueurs, et des tests de robustesse sur des cycles répétés en environnement non contrôlé.

RecherchePaper
1 source
One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras
56arXiv cs.RO 

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

Des chercheurs ont publié le 24 juin 2026 sur arXiv (2606.19897) ExS2D, un framework hiérarchique permettant à un robot bras unique d'exécuter des tâches bimanuelle sans aucune démonstration en configuration deux bras. Le système décompose d'abord des instructions textuelles en sous-tâches structurées, en capturant explicitement les dépendances temporelles entre elles. Un module de grounding traduit ensuite chaque sous-tâche en actions exécutables via une cartographie guidée par l'observation. Enfin, un coordinateur basé sur un grand modèle de langage multimodal (MLLM) orchestre l'allocation des actions entre les deux bras et planifie les trajectoires sans collision. En simulation, ExS2D réduit le nombre moyen d'étapes d'exécution de 54,4 % tout en maintenant un taux de succès comparable au baseline mono-bras. Des expériences sur robot réel portant sur quatre tâches distinctes confirment la fiabilité du système, entraîné uniquement sur quelques échantillons mono-bras en régime few-shot. L'enjeu principal ici est le coût de collecte des données bimanuelles, qui constitue l'un des principaux freins à la manipulation duale en robotique industrielle et service. Les systèmes comme ALOHA ou les plateformes de télé-opération bimanuelle nécessitent des configurations spécialisées et des opérateurs formés, rendant le passage à l'échelle difficile. ExS2D contourne ce goulot d'étranglement en réutilisant des démonstrations mono-bras existantes, potentiellement déjà disponibles dans les parcs robotiques en production. La réduction de 54,4 % des étapes d'exécution représente un gain de débit concret pour des lignes d'assemblage ou de tri, bien que les conditions expérimentales exactes (vitesse, complexité des objets, variabilité de la scène) ne soient pas détaillées dans l'abstract, ce qui invite à nuancer cette métrique avant toute extrapolation industrielle. La manipulation bimanuelle attire des investissements croissants de la part d'acteurs comme Figure AI (Figure 03), Physical Intelligence (pi0) ou Apptronik, tous confrontés au même problème de données. La tendance actuelle est d'utiliser des VLA (Vision-Language-Action models) entraînés sur de vastes corpus de démonstrations humaines, mais la collecte bimanuelle reste coûteuse même pour ces acteurs. ExS2D s'inscrit dans une direction complémentaire, celle du transfer learning structural depuis des données mono-bras, une approche qui pourrait intéresser les intégrateurs travaillant sur des cellules robotiques existantes en mono-bras. Il s'agit pour l'instant d'un travail académique sans déploiement commercial annoncé ; la prochaine étape logique serait une validation sur des tâches industrielles plus complexes et avec une plus grande variabilité d'objets.

RecherchePaper
1 source
Pourquoi automatiser ? Corrélations entre désir d'automatisation robotique, temps consacré et bien-être
57arXiv cs.RO 

Pourquoi automatiser ? Corrélations entre désir d'automatisation robotique, temps consacré et bien-être

Une étude publiée sur arXiv (référence 2501.06348v4) par le laboratoire ROBIN de l'Université du Texas à Austin interroge les ressorts psychologiques qui poussent les individus à vouloir déléguer des tâches domestiques à des robots. Les chercheurs ont croisé trois sources de données : le dataset BEHAVIOR-1K, qui répertorie environ un millier d'activités domestiques types, l'American Time-Use Survey (ATUS), qui mesure le temps consacré à chaque activité, et le module Well-Being de ce même sondage, qui capture six états émotionnels associés (bonheur, sens, tristesse, douleur, stress, fatigue). L'objectif central était de déterminer si c'est la durée d'une tâche ou son ressenti émotionnel qui prédit le mieux le désir d'automatisation, en différenciant les résultats selon le genre et le niveau de revenu des répondants. Le résultat principal contredit une hypothèse structurante du secteur : le temps consacré à une activité n'est pas un bon prédicteur du souhait de l'automatiser. Ce sont l'absence de bonheur et la douleur physique ressentie qui constituent les indicateurs les plus forts. Pour les concepteurs de robots et les décideurs industriels, cela signifie que prioriser la vitesse d'exécution ou les gains de temps risque de manquer les priorités réelles des utilisateurs finaux. L'étude révèle par ailleurs des écarts démographiques nets : les femmes souhaitent en priorité automatiser les activités stressantes, tandis que les hommes ciblent celles qui les rendent malheureux. Les individus à revenus intermédiaires visent les tâches jugées ni agréables ni significatives, alors que les tranches basses et hautes de revenu ne présentent aucune corrélation statistiquement significative. Ce travail s'appuie sur BEHAVIOR-1K, un benchmark développé à UT Austin pour évaluer les capacités des robots domestiques sur un spectre large d'activités quotidiennes. Il arrive alors que plusieurs acteurs du marché des robots humanoïdes, dont Figure, 1X Technologies, Apptronik ou Enchanted Tools côté français, intensifient leurs efforts vers des déploiements en environnement résidentiel. L'étude souligne que le secteur conçoit trop souvent ses produits autour de métriques d'efficacité qui ne reflètent pas la psychologie des utilisateurs. Les données complètes et un outil de visualisation interactif sont disponibles publiquement, mais les résultats restent ancrés dans le contexte américain, une réserve importante avant toute transposition à d'autres marchés culturels.

UEEnchanted Tools (FR) est cité parmi les acteurs ciblés par les conclusions, mais les données reposent exclusivement sur le contexte américain (ATUS), les concepteurs européens de robots domestiques devront mener des études équivalentes sur leurs marchés avant de revoir leurs priorités de conception.

RecherchePaper
1 source
Advanced Humanoid Forum 2027 en Allemagne
58Robot Magazine FR 

Advanced Humanoid Forum 2027 en Allemagne

Le forum Advanced Humanoid Forum 2027 se tiendra les 20 et 21 janvier 2027 à Munich, en Allemagne. Fondé par Ulrich Moeller, expert de l'industrie robotique, l'événement vise à réunir fabricants de robots humanoïdes, développeurs d'intelligence artificielle, industriels utilisateurs, centres de recherche, investisseurs et intégrateurs en un même lieu. L'objectif déclaré est d'accélérer le passage de la simulation à des déploiements industriels réels. Parmi les acteurs du secteur cités figurent Tesla, Figure AI, Agility Robotics, Apptronik, Sanctuary AI et Unitree, dont les démonstrations publiques restent pour l'instant peu converties en exploitations intensives. Les marchés prioritaires identifiés sont l'industrie manufacturière, la logistique, la santé et la construction, secteurs confrontés à une pénurie croissante de main-d'œuvre. À noter : l'article source est incomplet et ne fournit pas de données précises sur les conférenciers confirmés, le nombre d'exposants attendus ni les tarifs d'inscription. Ce forum pointe un verrou réel : le secteur a accumulé des capacités en laboratoire (marche bipède, préhension, navigation) sans les convertir massivement en valeur industrielle. Le défi n'est plus uniquement moteur, il est systémique, fiabilité en environnement dégradé, certification sécurité, temps de cycle garantis, retour sur investissement démontrable. L'intégration de plusieurs briques technologiques est en jeu : modèles vision-langage-action (VLA) pour l'interprétation d'instructions complexes, jumeaux numériques pour l'apprentissage en simulation avant déploiement terrain, architectures cloud et edge pour la gestion de flottes à grande échelle. Munich est un choix cohérent : l'Allemagne est la première puissance industrielle européenne, avec un tissu dense d'OEM automobiles, d'équipementiers et d'intégrateurs capables d'absorber des pilotes à l'échelle. Plusieurs années de progrès conjoints en IA, vision par ordinateur, actionneurs et capteurs ont permis l'émergence de cette nouvelle génération d'humanoïdes, sans qu'aucun acteur n'ait encore atteint de déploiement de masse documenté avec métriques vérifiables. Tesla Optimus, Figure AI, Agility Robotics (racheté par Amazon), Apptronik, Sanctuary AI et Unitree multiplient les annonces et les vidéos soigneusement choisies, mais les données de production restent rares. Aucun acteur français ou européen n'est mentionné dans l'article source, ce qui constitue un angle manquant : des entreprises comme Enchanted Tools ou Wandercraft sont pourtant actives sur le segment humanoïde en Europe. Le forum reste à ce stade une annonce, pas un événement tenu. Ses prochaines étapes naturelles, publication du programme détaillé et liste des conférenciers industriels confirmés, seront les indicateurs les plus solides de sa capacité réelle à fédérer l'écosystème.

UELe forum à Munich cible directement l'industrie manufacturière et logistique européenne comme premier marché d'adoption des humanoïdes, mais l'absence de constructeurs ou laboratoires européens parmi les participants annoncés en réduit l'impact concret pour l'écosystème FR/EU.

FR/EU ecosystemeOpinion
1 source
Le secret des robots humanoïdes victorieux en marathon
59IEEE Spectrum Robotics 

Le secret des robots humanoïdes victorieux en marathon

Le 19 avril 2026, le robot humanoïde Honor Lightning a complété un semi-marathon en 50 minutes et 26 secondes, battant le record mondial humain de 7 minutes et le meilleur temps robotique enregistré en 2025 de près de deux heures. Cette performance a été réalisée à une vitesse moyenne de 7 m/s, avec une consommation énergétique totale estimée à environ 400 W pour les membres inférieurs. L'élément distinctif du Lightning n'est ni une architecture de contrôle radicalement nouvelle ni une puissance moteur exceptionnelle : c'est un système de refroidissement liquide intégré directement dans chacun des quatre moteurs d'entraînement des membres inférieurs. Selon Honor, ces circuits liquides pénètrent les moteurs comme des capillaires, avec un débit d'échange thermique supérieur à 4 litres par minute et un circuit indépendant par moteur. Les actionneurs de hanche et de genou affichent un diamètre extérieur d'environ 110 à 150 mm, avec un rapport de réduction estimé à 45:1, optimisé pour la vitesse de course cible. La contrainte que cette architecture résout est strictement thermique. Faire courir un humanoïde de gabarit humain à 7 m/s génère inévitablement environ 150 W de chaleur dissipée au niveau du genou, quelle que soit l'efficacité du reste du système, et ce flux ne peut pas être évacué par convection naturelle de manière continue sur la durée d'un semi-marathon. C'est précisément ce verrou qu'illustre la performance d'Unitree lors de la même épreuve : le constructeur chinois, plus établi commercialement, a dû recourir à un sac à dos de glace pour tenter de terminer la course sans surchauffe. Apptronik avait exploré le refroidissement liquide sur plusieurs prototypes, mais ne l'intègre pas à son humanoïde principal Apollo. Pour les intégrateurs industriels et les décideurs B2B, ce résultat signale que l'endurance à haute cadence sera conditionnée moins par la puissance de calcul ou l'IA embarquée que par la gestion thermique des actionneurs, un critère rarement mis en avant dans les fiches produit des fabricants. Honor, fabricant de smartphones reconverti à la robotique humanoïde, reste discret sur la feuille de route commerciale du Lightning : aucun pilote industriel ni calendrier de mise sur le marché n'a été communiqué, et les spécifications moteur détaillées ne sont pas publiées. Cette course du 19 avril positionne néanmoins le Lightning directement face aux acteurs chinois Unitree et Agibot, ainsi qu'aux plateformes occidentales comme Figure (Figure 03), Boston Dynamics (Atlas) et Agility Robotics (Digit). Dans un secteur où l'écart entre démonstration contrôlée et déploiement réel reste souvent considérable, la nature ouverte et chronométrée de l'épreuve -- un vrai semi-marathon public, pas un parcours en laboratoire -- donne à ce résultat un caractère de benchmark difficile à relativiser. La prochaine étape logique pour Honor serait de publier les données thermiques détaillées et d'annoncer des collaborations industrielles pour valider le Lightning en conditions de production réelle, seul terrain qui transforme un record sportif en argument commercial.

HumanoïdesOpinion
1 source
Genesis AI lance Eno, son robot polyvalent
60Robotics Business Review 

Genesis AI lance Eno, son robot polyvalent

Genesis AI a dévoilé le 16 juin 2026 Eno, son robot à usage général, accompagné de GENE, le modèle de fondation développé en interne pour piloter le système. Contrairement aux approches humanoïdes bipedaleset bipèdes dominantes dans le secteur, Eno repose sur une base roulante surmontée d'une colonne articulée dont la hauteur est ajustable en temps réel, permettant au robot de se replier pour le stockage ou d'étendre sa portée selon la tâche. Ses bras sont équipés de mains propriétaires à cinq doigts conçues pour manipuler des outils et objets calibrés pour des utilisateurs humains. Le robot intègre en option un écran affichant en temps réel l'état cognitif du système, c'est-à-dire les intentions et raisonnements en cours, un choix de design rare dans l'industrie. La société, basée à San Carlos en Californie et financée à hauteur de 105 millions de dollars en seed en 2025, prévoit de lancer la production et les premiers déploiements clients d'ici fin 2026, en ciblant en priorité les secteurs industriels (manufacturing, logistique, laboratoires), avant d'adresser l'hôtellerie, les hôpitaux, puis le grand public. L'annonce est notable non pas tant pour les performances revendiquées que pour le positionnement architectural choisi. En optant pour une base mobile sur roues plutôt que la locomotion bipedaleet bipède, Genesis AI fait le pari de la fiabilité opérationnelle sur des sols industriels plats plutôt que de la polyvalence locomotrice, ce qui réduit la complexité mécanique et le risque de chute tout en simplifiant l'intégration en entrepôt et en laboratoire. La transparence cognitive via l'écran intégré est un signal adressé aux opérateurs et intégrateurs, chez qui la confiance dans les décisions autonomes du robot reste un frein réel au déploiement. GENE est présenté comme un système capable de gérer des tâches longues et séquentielles en raisonnant sur le contexte, sans se limiter à des commandes isolées, ce qui correspond à la catégorie des VLA (Vision-Language-Action models) appliqués à la manipulation. Les affirmations de "précision au millimètre" et de "manipulation au niveau humain" restent à valider indépendamment : aucune métrique de benchmark externe n'est citée dans l'annonce. Genesis AI arrive sur un marché déjà très occupé. Figure AI (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus Gen 3) sont déjà en phase de déploiement pilote ou de production limitée. Nvidia pousse GR00T N2 comme socle commun pour les VLA humanoïdes. Dans ce contexte, Eno se distingue par son format non humanoïde et son interface de transparence, deux paris qui tranchent avec la convergence du secteur vers le robot bipède anthropomorphe. La co-conception corps-cerveau revendiquée par Genesis, où le hardware et le modèle GENE auraient été développés conjointement dès l'origine, reste une tendance lourde que l'on retrouve chez 1X Technologies ou Apptronik. Les prochaines étapes annoncées restent vagues : "déploiements ciblés" fin 2026 sans noms de clients ni volumes. L'annonce est pour l'instant une présentation publique de concept, pas un produit en livraison.

IA physiqueOpinion
1 source
Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1
61arXiv cs.RO 

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Des chercheurs ont publié sur arXiv (référence 2606.15915) un modèle physique linéaire-en-paramètres permettant de prédire avec précision la consommation électrique du bras gauche à sept degrés de liberté (7-DOF) du robot humanoïde Unitree G1. Le modèle intègre des termes de pertes actuateur, une correction de couple de base capturant les variations de charge en compensation gravitationnelle, et des termes d'interaction par paires pour modéliser le couplage de puissance lors de mouvements multi-articulaires simultanés. Les paramètres ont été identifiés à partir de données expérimentales collectées sur un G1 physique, en utilisant les mesures de puissance embarquées comme cible de régression. Sur 897 trajectoires couvrant des mouvements mono-articulaires et coordonnés à plusieurs vitesses, le modèle atteint un R² de 0,933 avec un RMSE de 1,07 W. La validation sur 46 trajectoires à des vitesses non vues lors de l'entraînement donne un R² de 0,965, confirmant une bonne capacité de généralisation. Ces résultats sont directement utiles pour les équipes qui intègrent des humanoïdes dans des contextes industriels ou logistiques. Un modèle de consommation précis et léger à l'inférence constitue un prérequis pour la planification de mouvement énergétiquement consciente, la gestion de batterie en temps réel et la surveillance thermique des actionneurs, trois points critiques pour tout déploiement prolongé hors laboratoire. La performance du modèle sur des vitesses non vues suggère qu'il est exploitable sans recalibration systématique, ce qui réduit le coût d'intégration. L'analyse des paramètres identifiés révèle par ailleurs des signatures distinctes selon les articulations : les pertes par frottement visqueux dominent l'épaule en tangage et les trois articulations du poignet, les pertes cuivre dominent l'abduction d'épaule et le coude, tandis que le roulis d'épaule présente un profil atypique dominé par le frottement de Coulomb. Unitree, constructeur chinois connu pour ses robots quadrupèdes à prix agressifs, a élargi sa gamme aux humanoïdes avec le G1, positionné comme une plateforme de recherche abordable face au Spot de Boston Dynamics ou aux robots de Figure et Apptronik. Ce travail s'inscrit dans un effort croissant de la communauté académique pour produire des modèles physiques fiables sur du matériel commercial accessible, en complément des approches par apprentissage (comme les VLA ou les politiques neuronales). La prochaine étape logique serait d'étendre le modèle au bras droit et aux membres inférieurs, puis de l'intégrer dans une boucle de planification de trajectoire en ligne. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint.

UELes équipes de recherche européennes utilisant le Unitree G1 comme plateforme académique abordable peuvent réutiliser directement ce modèle sans recalibration pour réduire le coût d'intégration dans leurs pipelines de planification de mouvement.

RecherchePaper
1 source
La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif
62arXiv cs.RO 

La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif

Une équipe de chercheurs publie sur arXiv (identifiant 2606.15064) un résultat négatif sur la curation de démonstrations pour l'apprentissage par imitation en robotique. L'hypothèse testée était la suivante : segmenter chaque trajectoire en phases temporelles, appliquer à chaque phase la métrique de qualité localement la plus informative, puis agréger les scores pour sélectionner les meilleures démonstrations. Les expériences portent sur trois tâches de saisie-dépose ("pick-and-place") de la suite de benchmarks LIBERO, avec un défaut structurel contrôlé dit "early-release" (relâchement prématuré de l'objet saisi), évalué sur cinq seeds aléatoires par condition. Résultat sans ambiguïté : la curation par phase n'est jamais la meilleure stratégie, et s'avère la pire sur deux tâches sur trois. Les chiffres sont nets : tâche 1, 86,0 % de taux de succès pour la méthode phasée contre 92,0 % pour la métrique globale unique ; tâche 3, 22,7 % contre 48,0 % pour l'application uniforme de la même métrique. Le mécanisme d'échec est tracé précisément : lorsque le signal de défaut est concentré dans une seule phase, l'agrégation des scores sur l'ensemble des phases dilue ce signal avec des valeurs non informatives issues des segments sans défaut, dégradant la sélection du sous-ensemble de démonstrations. Second problème structurel : les métriques gagnantes par phase ne se transfèrent pas d'une tâche à l'autre, aucune phase ne partageant la même métrique optimale entre deux tâches distinctes. La méthode est donc non réutilisable et exige une re-dérivation coûteuse pour chaque nouveau contexte. Pour les praticiens du "behavior cloning" et de l'apprentissage par imitation, ce résultat recadre une intuition répandue : la structure temporelle des démonstrations ne justifie pas une curation localisée quand le défaut est ponctuel. Ce travail s'inscrit dans la problématique croissante de la qualité des données en imitation learning. Des travaux antérieurs avaient établi qu'une métrique globale unique peut être le meilleur détecteur d'un défaut tout en étant le pire curateur de la politique résultante, tension qui avait motivé l'hypothèse phasée. La conclusion pratique est inverse : identifier une seule métrique informative sur le défaut et l'appliquer uniformément surpasse systématiquement la décomposition par phase. Le pipeline complet, les implémentations de métriques et les résultats par seed sont publiés en open source. Le sujet gagne en importance industrielle à mesure que les pipelines VLA (vision-language-action) et les systèmes de collecte téléopérée à grande échelle, notamment pour les robots humanoïdes en cours de déploiement chez Figure, 1X ou Apptronik, font du filtrage de démonstrations un levier critique pour la qualité des politiques apprises.

RecherchePaper
1 source
Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce
63Interesting Engineering 

Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce

Le RB-Y1 de Rainbow Robotics, filiale à 35 % de Samsung, aurait débuté des tests opérationnels dans un entrepôt de fulfillment de Coupang, premier e-commerce de Corée du Sud - ce qui constituerait son premier déploiement en environnement logistique commercial réel. Selon le Korea Herald et des sources industrielles citées par ETNews, le pilote vise à évaluer si le robot peut trier, transporter et manipuler des colis de manière fiable dans ce réseau hautement automatisé. Ni Coupang, ni Samsung, ni Rainbow Robotics n'ont confirmé officiellement l'essai : on reste au stade de test non annoncé, pas de déploiement validé. Le RB-Y1 adopte une architecture distincte des humanoïdes bipèdes qui dominent l'actualité : c'est un manipulateur mobile sur base à roues (AMR), mesurant 1,4 mètre pour 131 kilogrammes, équipé de deux bras à 7 degrés de liberté chacun, avec un payload de 3 kg par bras et une vitesse de déplacement de 1,5 m/s. L'ensemble est coordonné par un système de contrôle corps entier à 20 axes avec logiciel d'anti-collision intégré. Coupang a par ailleurs investi plus de 84 millions de dollars dans des startups IA mondiales depuis 2023 dans le cadre de sa stratégie de modernisation logistique. Ce pilote illustre un franchissement potentiel du fossé laboratoire-terrain pour les manipulateurs mobiles avancés, qui restent habituellement cantonnés à des environnements contrôlés. Le contexte réglementaire coréen renforce l'urgence : la loi sur la punition des accidents graves (Serious Accidents Punishment Act) engage pénalement les dirigeants en cas d'accident mortel sur le lieu de travail, créant une incitation directe à automatiser les tâches à risque. Le payload de 3 kg par bras positionne clairement le RB-Y1 sur le tri et le picking de petits articles - un segment différent de robots comme le Boston Dynamics Stretch, conçu pour des charges jusqu'à 23 kg. Pour les décideurs B2B, l'approche AMR plus double bras articulé, plus sobre que les humanoïdes bipèdes, pourrait s'avérer plus rapidement opérationnelle en conditions industrielles réelles - à condition que les métriques annoncées tiennent hors cadre laboratoire. Rainbow Robotics a été fondée en 2011 par des chercheurs issus du KAIST. Samsung a progressivement monté au capital avant d'en faire une filiale, identifiant la robotique comme axe stratégique aux côtés de l'IA et des semi-conducteurs avancés. La Corée du Sud affiche déjà la densité robotique la plus élevée au monde selon l'IFR, avec 1 012 robots industriels pour 10 000 travailleurs manufacturiers, soit plus de sept fois la moyenne mondiale. Dans la compétition sur les manipulateurs mobiles pour la logistique, le RB-Y1 fait face à l'Apollo d'Apptronik (partenaire de Mercedes-Benz), au Digit d'Agility Robotics (évalué par Amazon) et aux solutions de 1X Technologies. En Europe, Enchanted Tools et Pollen Robotics (France) travaillent sur des architectures comparables, à des stades de commercialisation plus précoces. Si le pilote Coupang est concluant, un déploiement à grande échelle en ferait l'un des premiers cas documentés de standardisation de ce type de robot dans la logistique commerciale mondiale.

UEEnchanted Tools et Pollen Robotics (France) sont explicitement positionnées comme en retard de commercialisation face au RB-Y1 de Rainbow Robotics, soulignant la pression concurrentielle que les acteurs européens subissent des conglomérats coréens soutenus par Samsung.

Chine/AsieOpinion
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
64arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
65arXiv cs.RO 

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

RecherchePaper
1 source
UWORLD, soutenu par UBTECH, reçoit 3 000 commandes en huit jours pour son robot humanoïde compagnon grandeur nature
66TechNode 

UWORLD, soutenu par UBTECH, reçoit 3 000 commandes en huit jours pour son robot humanoïde compagnon grandeur nature

UWORLD, la marque grand public du fabricant chinois UBTECH Robotics, a annoncé avoir reçu plus de 3 000 commandes en huit jours pour son robot humanoïde compagnon taille réelle, mis en vente le 2 juin sur la plateforme e-commerce JD.com. Le modèle masculin mesure 183 cm pour 42 kg, la version féminine 168 cm pour 35,2 kg. Les deux variantes embarquent 88 degrés de liberté (DOF) et offrent une autonomie annoncée de deux à quatre heures. Pour sécuriser une place dans le premier lot, les acheteurs versent un acompte de 3 000 yuans (442 dollars), le prix final n'ayant pas encore été communiqué. Le lancement officiel est prévu pour le 30 juin. L'appareil est réservé aux adultes, intègre un stockage mémoire chiffré et permet une personnalisation étendue de l'apparence ; le développement secondaire n'est en revanche pas pris en charge. 3 000 précommandes en huit jours constitue un signal commercial notable pour un produit humanoïde à usage résidentiel, un segment jusqu'ici dominé par des annonces et des démos contrôlées plutôt que par des commandes clients réelles. Le positionnement "compagnon émotionnel" tranche avec l'usage industriel ou logistique dominant dans les déploiements actuels d'humanoïdes, et cible un marché grand public encore quasiment inexistant à cette échelle. Plusieurs points méritent réserve toutefois : aucun prix final n'est annoncé, les vidéos promotionnelles n'ont pas encore été soumises à évaluation indépendante, et l'absence de développement secondaire place les acheteurs en dépendance totale de l'écosystème logiciel de UWORLD. Les 88 DOF sont un chiffre élevé pour un robot compagnon, mais sans données de couple, de précision ou de retour d'effort, la métrique reste difficile à interpréter objectivement. UBTECH Robotics, fondée à Shenzhen en 2012 et cotée à la Bourse de Hong Kong, est l'un des pionniers mondiaux de la robotique humanoïde avec sa série Walker, déjà déployée en contexte industriel chez des clients comme SAIC-GM. UWORLD en est la déclinaison grand public, positionnée sur le segment "compagnon" qui reste largement à construire. Sur ce terrain, les concurrents directs incluent Engineered Arts avec Ameca (Royaume-Uni), et des acteurs chinois comme Fourier Intelligence et Unitree. Aux États-Unis, Figure Robotics et Apptronik ciblent exclusivement l'industrie, laissant le marché résidentiel ouvert. Le vrai test viendra avec les premières livraisons post-30 juin : qualité de l'interaction, robustesse mécanique et prix final détermineront si ces 3 000 précommandes marquent une rupture commerciale ou restent une anecdote de lancement.

Chine/AsieOpinion
1 source
Standard Bots lève 200 millions de dollars pour développer sa présence dans l'industrie manufacturière américaine
67Robotics Business Review 

Standard Bots lève 200 millions de dollars pour développer sa présence dans l'industrie manufacturière américaine

Standard Bots, fabricant américain de bras robotiques industriels basé à Glen Cove (New York), a annoncé le 9 juin 2026 une levée de fonds de 200 millions de dollars en Série C, portant sa valorisation à un milliard de dollars. Le tour a été mené par RoboStrategy, un fonds fermé coté spécialisé en robotique, avec la participation d'investisseurs existants. La société prévoit d'utiliser ce capital pour agrandir son site de production de Glen Cove à 70 000 pieds carrés (environ 6 500 m²), où elle assemble l'intégralité de sa chaîne de valeur sur sol américain. Standard Bots commercialise des bras robotiques avec des charges utiles de 7 à 30 kg, ainsi que des humanoïdes industriels, tous programmables par démonstration sans ligne de code. Les applications couvertes incluent l'usinage, la soudure, la palettisation, le meulage, le vissage, la distribution, l'assemblage et l'inspection. La société affirme avoir déployé ses robots auprès de centaines d'entreprises américaines dans presque tous les États, des grands comptes Fortune 100 aux PME manufacturières. La levée intervient dans un contexte de réindustrialisation américaine sous tension compétitive forte. Standard Bots avance un chiffre structurant : la Chine a installé neuf fois plus de robots industriels que les États-Unis l'an dernier, davantage que le reste du monde combiné. Le pays est passé de 20 millions d'emplois manufacturiers en 1979 à 13 millions aujourd'hui, un recul que Standard Bots attribue en partie à l'absence d'investissement national en automatisation. La société revendique une trajectoire permettant de représenter 10% des nouveaux déploiements de robots industriels américains d'ici à l'an prochain -- un objectif ambitieux dont aucun audit tiers n'est mentionné. L'argument différenciant central est l'apprentissage par démonstration ("physical AI"), qui réduit le temps d'intégration sur le terrain sans nécessiter d'intégrateur spécialisé -- un point de douleur réel pour les manufacturiers de taille intermédiaire. Standard Bots a été fondée par Evan Beard, qui cumule les rôles de PDG et d'ingénieur en chef -- une configuration de fondateur-technicien rare dans l'industrie robotique traditionnellement dominée par des groupes comme FANUC, KUKA (Midea), ABB et Yaskawa. La société se positionne explicitement contre les équipements d'origine chinoise : elle conseille la Maison Blanche et le Congrès sur une stratégie nationale robotique, avec parmi ses recommandations une interdiction d'importation de robots et composants industriels chinois -- ce qui place Standard Bots à l'intersection du lobbying industriel et de la politique commerciale américaine. Face à elle, on trouve aussi des acteurs "AI-native" comme Machina Labs ou Veo Robotics dans le segment programmation sans code, et des startups en humanoides industriels comme Figure ou Apptronik. Les prochaines étapes annoncées se limitent à la montée en cadence de production à Glen Cove ; aucun partenariat ni déploiement pilote à grande échelle n'est précisé dans cette annonce.

UELa politique de réindustrialisation américaine et le lobbying pour interdire les robots industriels chinois pourraient alimenter des débats similaires en Europe sur la dépendance aux équipementiers asiatiques (KUKA/Midea, Yaskawa), sans impact direct immédiat sur la France ou l'UE.

IndustrielActu
1 source
NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA
68NVIDIA Blog Robotics 

NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA

NVIDIA et le conglomérat sud-coréen Doosan Group ont annoncé en juin 2026 un élargissement de leur collaboration couvrant quatre entités du groupe : Doosan Robotics, Doosan Bobcat, Doosan Enerbility et Doosan Corporation Electro-Materials BG. Côté robotique, Doosan Robotics intègre la pile physique AI de NVIDIA, dont Isaac Sim et Isaac Lab pour la simulation, les modèles de fondation Cosmos pour la génération de monde physique, le moteur de physique open source Newton, et le SoC embarqué Jetson Thor. L'objectif est de faire évoluer leur plateforme "Agentic Robot OS" -- présentée comme une couche logicielle unifiant perception, raisonnement, simulation, apprentissage et inférence on-device -- pour des tâches industrielles concrètes comme la dépalettisation et le ponçage, ainsi que pour de nouveaux facteurs de forme incluant des bras doubles et des plateformes humanoïdes. Doosan Bobcat, spécialisé dans les engins compacts (construction, agriculture, manutention), entend de son côté exploiter les mêmes technologies pour développer des world models spécialisés. Enfin, Doosan Enerbility explore l'alimentation des AI factories NVIDIA via turbines à gaz, vapeur, réacteurs modulaires de petite taille (SMR) et piles à combustible hydrogène, pendant que Doosan Electro-Materials fournit des copper clad laminates (CCL) haute performance pour les PCB des accélérateurs et serveurs IA compatibles NVIDIA MGX. Il faut lire cette annonce pour ce qu'elle est : un accord de collaboration, pas un déploiement. Aucun chiffre de production, de cycle time, ni de volume shipment n'est communiqué. Cela dit, la structure de l'accord est stratégiquement cohérente. Doosan couvre plusieurs couches de la chaîne de valeur de l'infrastructure IA simultanément : hardware embarqué (Jetson Thor sur cobots), logiciel de simulation (Isaac Lab), matériaux de base pour data centers (CCL), et production d'énergie pour alimenter ces mêmes data centers. Pour les intégrateurs industriels, le signal le plus concret est le passage revendiqué de Doosan Robotics d'un fournisseur de bras articulés vers une entreprise "AI-first full-stack" -- une ambition que partagent Universal Robots, Fanuc et Yaskawa, mais que peu ont encore matérialisée à l'échelle. L'intégration sim-to-real via Cosmos et Newton suggère une volonté de réduire le demo-to-reality gap qui plombe encore de nombreuses démonstrations de manipulation complexe. Doosan Group, fondé en Corée du Sud en 1896 et désormais actif dans l'énergie, l'industrie lourde et la robotique, a acquis Bobcat en 2007 et structuré Doosan Robotics en unité autonome cotée en 2023. Sur le terrain de la robotique collaborative, ses concurrents directs incluent Universal Robots (acquis par Teradyne), FANUC, ABB et Techman Robot, tous en train d'intégrer des couches IA similaires. Sur le segment humanoïde, auquel Doosan fait désormais référence explicitement, la concurrence est plus intense encore : Figure (qui déploie chez BMW), Agility Robotics (Amazon), 1X, Apptronik et Tesla Optimus avancent tous sur des timelines industrielles. NVIDIA, de son côté, capitalise sur cette annonce pour consolider son positionnement de "système d'exploitation de la robotique physique", après des accords similaires avec Boston Dynamics, Foxconn et Intrinsic (Alphabet). Les prochaines étapes mentionnées restent vagues : des cas d'usage de référence sont "en cours de développement", sans date ni client annoncés.

IndustrielOpinion
1 source
RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique
69arXiv cs.RO 

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

RealDexUMI est une interface de téléopération portable présentée en juin 2026 par des chercheurs de BeingBeyond dans un preprint arXiv (arXiv:2606.06033). Le dispositif repose sur un module d'effecteur terminal partagé combinant une main robotique légère, une caméra embarquée dans la paume et des capteurs tactiles au bout des doigts. Un gant isomorphe porté par l'opérateur humain traduit les mouvements des doigts en commandes articulaires directes sur la main robotique, sans retargeting ni conversion d'incarnation. Le système a été évalué sur huit tâches réelles couvrant des manipulations fines, riches en contacts, à longue durée et bimanuelles, obtenant un taux de succès moyen de 88,75%. Les politiques apprises se généralisent à des poses initiales non vues lors de l'entraînement et ont été transférées vers trois morphologies de robots différentes. Le verrou que RealDexUMI cherche à lever est connu dans le secteur sous le nom de "collection-to-deployment gap". Les pipelines classiques de collecte de données pour la manipulation dextre font face à un dilemme : la motion capture ou les gants souples permettent une collecte rapide mais nécessitent un retargeting qui dégrade la fidélité des contacts, tandis que la téléopération robot-spécifique préserve cette fidélité mais reste onéreuse et difficile à passer à l'échelle. RealDexUMI propose un troisième chemin via un effecteur "zéro-gap" : les observations (images embarquées, signaux tactiles, contacts, commandes articulaires) sont identiques entre collecte et déploiement, supprimant le biais d'observation qui dégrade souvent les politiques d'imitation. Un taux de 88,75% sur des tâches bimanuelles longue durée est significatif si les conditions expérimentales sont représentatives, bien que le preprint ne détaille pas encore la distribution des tentatives par tâche ni les protocoles de randomisation des scènes. La question de l'interface universelle de manipulation dextre est activement travaillée depuis plusieurs années, notamment depuis les travaux UMI de Columbia University (2023-2024), qui instrumentaient une spatule pour des robots standard. RealDexUMI étend ce paradigme aux mains multi-doigts, terrain nettement plus difficile. La démarche entre en compétition directe avec des approches comme ALOHA 2 et ACT de Carnegie Mellon, les systèmes de DexHand Research, ou les plateformes bimanuelle d'Apptronik et Agility Robotics. En Europe, des équipes de l'ISIR à Sorbonne Université et du DLR en Allemagne travaillent sur des thématiques proches de capture et transfert de manipulation dextre. BeingBeyond reste discret sur son positionnement commercial et ses partenaires industriels : la prochaine étape naturelle serait une validation dans des environnements non structurés ou une intégration sur des plateformes humanoïdes commerciales comme Figure 03, Unitree G1 ou Fourier GR-1, où la manipulation dextre demeure le principal goulot d'étranglement.

UELes équipes européennes de manipulation dextre (ISIR/Sorbonne, DLR) pourraient intégrer l'approche zéro-gap de RealDexUMI pour accélérer leurs pipelines de collecte de données sans retargeting.

RechercheOpinion
1 source
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
70arXiv cs.RO 

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme. L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire. Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

IA physiqueOpinion
1 source
IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena
71Pandaily 

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

La société chinoise Kuawei Intelligence a décroché la première place du classement mondial WorldArena Track 2 (Data Engine) pour le mois de mai 2026, devançant les concurrents internationaux WoW et BLM. Ce benchmark évalue non pas la qualité visuelle des sorties générées, mais les taux de succès réels de robots sur des tâches physiques, ce qui le rend plus pertinent pour les déploiements industriels que les métriques classiques de génération d'images. Le modèle lauréat, DSCFuncWorld, repose sur l'architecture DexWorldModel et est conçu pour produire des données d'entraînement robotique de haute qualité. Contrairement aux world models génératifs conventionnels qui opèrent au niveau du pixel, Kuawei utilise l'espace de features sémantiques DINO pour la prédiction d'état, une approche qui réduit la charge de calcul tout en améliorant la robustesse. La société a par ailleurs open-sourcé son infrastructure de données EmbodiChain. Ces résultats benchmark s'accompagnent de chiffres de déploiement concrets : Kuawei revendique plus de 1 000 projets dans plus de 50 secteurs industriels, un taux de succès de 99,99 % sur une ligne de production Hisense, une efficacité de tri trois fois supérieure à l'humain chez Midea, un chiffre d'affaires dépassant 100 millions de RMB en 2024 et plus de 100 unités de son robot humanoïde W1 Pro livrées à des clients comme BYD, GAC, Zoomlion, SANY et Panasonic. Ces chiffres sont issus de communications officielles de l'entreprise et n'ont pas fait l'objet de vérification indépendante. La performance de Kuawei sur WorldArena Track 2 est significative précisément parce que ce classement mesure le sim-to-real transfer, soit la capacité d'un modèle entraîné en simulation à fonctionner sur du matériel réel, longtemps considéré comme le principal obstacle à la robotisation à l'échelle. Si les chiffres revendiqués se confirment, ils suggèrent qu'une entreprise chinoise de taille intermédiaire a résolu, au moins partiellement, le problem de la data engine, c'est-à-dire la génération automatisée de données d'entraînement suffisamment réalistes pour produire des politiques motrices robustes. Pour les intégrateurs industriels et les décideurs B2B, l'argument le plus fort n'est pas le benchmark lui-même mais la combinaison revenus/déploiements réels, qui tranche avec le schéma habituel du secteur humanoïde, souvent long en annonces et court en traction commerciale. Kuawei Intelligence s'inscrit dans une vague d'acteurs chinois de l'IA incarnée qui ont émergé depuis 2023, parmi lesquels Unitree Robotics, Fourier Intelligence et AgileX Robotics, tous positionnés sur le segment des robots à bas coût et des plateformes open-source. Sur la scène internationale, elle affronte Physical Intelligence (Pi-0), Apptronik, Figure AI (Figure 03) et Boston Dynamics, dont les approches misent davantage sur la puissance des VLA (Vision-Language-Action models) que sur la data synthesis. La victoire de Kuawei à l'ICRA 2025 avec un robot bi-bras en manipulation fine sans intervention humaine avait déjà signalé ses ambitions. La prochaine étape pour l'entreprise sera de démontrer que ses déploiements tiennent dans des environnements non structurés, au-delà des lignes de production contrôlées où les benchmarks ont jusqu'ici été réalisés.

Chine/AsieActu
1 source
VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA
72arXiv cs.RO 

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Une équipe de chercheurs publie VISTA (Vision-grounded and Physics-Validated Adaptation), un framework visant à entraîner des modèles Vision-Language-Action (VLA) à partir de données collectées via l'Universal Manipulation Interface (UMI). L'UMI permet une collecte robotique à grande échelle sans téléopération hardware-spécifique, mais son exploitation pour les VLA bute sur deux incompatibilités identifiées par les auteurs : les caméras fisheye montées au poignet génèrent une distorsion radiale sévère, hors distribution pour les modèles de vision pré-entraînés ; et les trajectoires humaines enregistrées violent fréquemment les limites cinématiques du robot ou dépassent la bande passante du contrôleur, enseignant ainsi des actions physiquement irréalisables. VISTA répond avec trois composants : UMI-VQA, un premier dataset VQA à grande échelle conçu spécifiquement pour les vues fisheye au poignet ; un pipeline de validation physique scorant chaque trajectoire sur la continuité, le risque d'auto-collision et la fidélité d'exécution ; et une recette d'entraînement en deux étapes combinant ancrage vision-langage et prédiction d'actions. Le modèle, les données et le pipeline sont publiés en open source sous forme de preprint arXiv. L'enjeu est directement opérationnel : les VLA actuels souffrent d'un écart persistant entre démonstration et déploiement réel. VISTA apporte une réponse méthodologique en filtrant les trajectoires défectueuses avant l'entraînement, plutôt qu'en espérant que le modèle les absorbe. Les auteurs montrent que les scores de validation physique sont fortement prédictifs du succès en déploiement, ce qui plaide pour une approche data-quality-first plutôt que data-volume-first, un argument qui contredit la logique dominante du secteur. En simulation et sur des tâches réelles de manipulation, VISTA surpasse des baselines solides incluant π0.5 (Physical Intelligence), LingBot-VLA et Wall-X. Pour un intégrateur ou un décideur industriel, cela valide une voie vers des pipelines de collecte scalables via UMI, compatibles avec les VLA modernes, sans recourir à un hardware propriétaire coûteux. L'UMI avait été conçu initialement pour découpler la collecte de données du hardware robotique spécifique, mais son intégration aux VLA restait largement non documentée à grande échelle. Physical Intelligence a popularisé l'approche VLA avec π0 et π0.5 ; Figure AI, 1X et Apptronik misent sur des architectures concurrentes. VISTA s'attaque à un goulot d'étranglement rarement traité en publication : la qualité intrinsèque des données d'entraînement avant qu'elles n'entrent dans le pipeline. En libérant pipeline de validation, dataset UMI-VQA et modèle pré-entraîné, les auteurs positionnent VISTA comme un outil d'infrastructure pour la communauté robotique cherchant à industrialiser la collecte et le filtrage de données manipulation, en amont des choix d'architecture VLA.

IA physiqueOpinion
1 source
Robots domestiques : la collecte de données d’entraînement passe par le ménage gratuit
73Next INpact 

Robots domestiques : la collecte de données d’entraînement passe par le ménage gratuit

La startup allemande MicroAGI a lancé à New York un service baptisé Shift qui propose le nettoyage gratuit d'appartements par des professionnels, en échange d'un consentement précis : les agents portent des caméras filmant chacun de leurs gestes pendant l'intervention. Ces vidéos constituent des données d'entraînement pour des intelligences artificielles destinées à piloter des robots domestiques. L'entreprise rémunère par ailleurs des volontaires 20 dollars de l'heure pour enregistrer leurs tâches quotidiennes chez eux ou au travail. Au premier trimestre 2026, MicroAGI affirme avoir versé plus de 5 millions de dollars à 10 000 "opérateurs" répartis dans une dizaine de pays. Ce modèle répond à un problème structurel que toute l'industrie de la robotique humanoïde bute sur le même mur : l'absence de corpus de données équivalent à ce dont disposent les modèles de langage. Là où une IA générative peut s'alimenter de milliards de textes produits par l'humanité, un robot domestique a besoin de voir des milliers d'heures de mains humaines en train de frotter, plier, trier, saisir. Le constructeur 1X l'a illustré concrètement avec son humanoïde Neo, qui dépend encore régulièrement d'un téléopérateur humain pour accomplir certaines tâches chez le client. Shift contourne le problème en finançant la collecte par la valeur même des enregistrements, transformant le nettoyage en une transaction data contre service. La question de la vie privée est au coeur du modèle, et MicroAGI la gère avec des promesses techniques et juridiques dont la robustesse reste à éprouver. Les caméras floutent automatiquement visages, documents, écrans et pièces d'identité directement à la capture, avant tout téléversement. L'entreprise invoque le RGPD pour garantir un droit à l'effacement, mais considère simultanément que les données anonymisées échappent au champ des lois sur la protection des données, une position juridique contestable. Shift s'inscrit dans une tendance plus large de "travail du clic" appliqué à la robotique, où des entreprises comme Scale AI ou Labeling Tech ont construit des modèles comparables pour d'autres types de données. Avec des investissements massifs dans les humanoïdes chez Figure, Apptronik ou Tesla, la compétition pour ces corpus d'entraînement va s'intensifier, et les appartements new-yorkais ne seront vraisemblablement pas les derniers à servir de terrain de collecte.

UELa startup allemande MicroAGI invoque le RGPD pour légitimer sa collecte de données dans des domiciles privés, mais sa position juridique sur l'anonymisation des données est contestable et pourrait attirer l'attention des autorités européennes de protection des données.

HumanoïdesOpinion
1 source
Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes
74arXiv cs.RO 

Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Un article de revue de littérature déposé sur arXiv le 2 juin 2026 (identifiant 2606.00090) pose un problème de sécurité systémique pour les systèmes d'IA physique : les modèles de fondation, modèles vision-langage-action (VLA) et modèles du monde qui pilotent des robots, véhicules, drones et machines industrielles peuvent émettre des commandes physiquement dangereuses tout en paraissant confiants, plausibles et sémantiquement corrects. Les auteurs nomment ce phénomène "silent failure" (défaillance silencieuse) : une action physiquement conséquente est déclenchée avant qu'un contrôleur matériel en aval détecte une anomalie, sous l'effet d'une dérive de capteur, d'une occlusion, d'une erreur d'estimation d'état, d'un glissement de distribution, d'affordances hallucinées ou d'hypothèses physiques invalides. Ces défaillances ne sont capturées ni par la modération de contenu classique des systèmes d'IA, ni par les normes de sécurité robotique traditionnelles. L'enjeu industriel est direct : là où les intégrateurs s'appuient sur des couches de sécurité fonctionnelle (normes ISO 10218, IEC 61508) pensées pour des automates déterministes, les VLA introduisent un générateur d'actions opaque dont les sorties ne respectent aucune enveloppe formellement vérifiable. La revue synthétise un écart récurrent : sur l'ensemble des corpus analysés, modèles de fondation incarnés, simulation robotique, benchmarks de sécurité embodied, contrôle sûr, assurance runtime, estimation d'incertitude, vérification formelle et évaluation de guardrails, aucun flux technique ne fournit à lui seul une frontière d'autorisation complète entre le modèle boîte noire et l'exécution physique. Cela signifie que les déploiements actuels de robots humanoïdes ou d'AGV pilotés par des LLM reposent sur des garde-fous fragmentés dont la couverture n'est pas évaluée de manière unifiée. Pour combler ce vide, les auteurs proposent une formalisation bornée du problème, une définition rigoureuse de la "défaillance physique silencieuse", une taxonomie des fonctions de guardrail runtime, et des critères d'évaluation permettant de comparer ces guardrails comme mécanismes d'assurance. Le papier ne décrit pas de système déployé ni de résultats expérimentaux : c'est une revue structurante, dont l'utilité principale est de fournir un cadre commun à une communauté fragmentée entre labs robotique, sécurité IA et contrôle formel. Les acteurs comme Boston Dynamics (Spot + foundation models), Figure, 1X ou Apptronik, qui poussent vers des déploiements industriels de robots à base de VLA, sont implicitement concernés, tout comme les équipes de recherche travaillant sur Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La prochaine étape naturelle serait une validation empirique de la taxonomie proposée sur des benchmarks embodied existants comme RoboSuite ou Open-X Embodiment.

UELa mise en évidence d'un vide normatif entre les standards industriels EU (ISO 10218, IEC 61508) et les systèmes VLA opaques concerne directement les intégrateurs européens déployant des robots autonomes sous le régime de l'AI Act.

RechercheOpinion
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
75arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique
76arXiv cs.RO 

Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique

Une équipe de chercheurs a publié le 28 mai 2026 (arXiv:2605.28812) une nouvelle représentation tactile baptisée Centre de Pression (CoP, pour Center-of-Pressure), qui permet un transfert sim-to-real zéro-shot sur une main robotique multi-doigts pour des tâches de contact intensif. Les deux scénarios de validation retenus sont représentatifs de cas industriels difficiles : l'insertion de type cheville-trou (peg-in-hole) et l'équilibrage d'une balle sur les doigts. La méthode repose sur une calibration des capteurs tactiles via la dynamique différentiable, permettant d'estimer l'orientation de chaque taxel (l'équivalent tactile d'un pixel) sans mesures de force de référence. Les résultats montrent que les politiques conditionnées sur CoP surpassent deux baselines classiques : le contact binaire grossier et les taxels bruts non traités. Le verrou que CoP cherche à lever est bien identifié dans le domaine : le sim-to-real gap pousse la majorité des approches actuelles à réduire les données tactiles à des signaux bas-dimensionnels, sacrifiant la richesse nécessaire aux manipulations précises. CoP change l'équation en ancrant la représentation dans des principes physiques rigoureux plutôt que dans des heuristiques d'ingénierie, préservant la densité d'information tout en maintenant la robustesse au transfert. Un résultat secondaire notable : les politiques apprennent à encoder des propriétés physiques comme la masse de l'objet tenu de façon émergente, sans supervision explicite. Pour les intégrateurs et les équipes de robotique d'assemblage, cela ouvre la perspective de rendre compétitif l'apprentissage par renforcement en simulation pour des tâches de précision, sans collecter des milliers d'heures de données réelles. Ce travail s'inscrit dans une compétition académique soutenue autour de la manipulation dextère tactile, où plusieurs groupes de recherche (Berkeley, CMU, MIT, ETH Zurich) ont progressé sur le sim-to-real pour les capteurs de contact en 2024-2025, sans atteindre le transfert zéro-shot sur une main complète multi-doigts. Côté industriel, Shadow Robot (Royaume-Uni) reste la référence sur les mains tactiles à haute dextérité, tandis que Figure AI et Apptronik misent sur la manipulation corps entier dans des humanoïdes généralistes. Ce papier est un résultat académique : pas de prototype commercial ni de calendrier industriel annoncé, mais la validation sur peg-in-hole, benchmark historique en robotique d'assemblage, et sur une tâche dynamique d'équilibrage renforce sa crédibilité pour les équipes R&D en fabrication avancée.

UEAucun acteur européen n'est directement impliqué, mais les équipes R&D européennes en fabrication avancée (assemblage, manipulation de précision) pourraient exploiter cette méthode pour réduire leur dépendance aux données tactiles réelles coûteuses.

IA physiquePaper
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
77arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

IA physiqueOpinion
1 source
Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état
78arXiv cs.RO 

Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état

Des chercheurs ont publié sur arXiv (référence 2605.25546) un framework hiérarchique de contrôle sécurisé corps entier pour robots humanoïdes, fondé sur les fonctions barrières robustes aux perturbations (ISSf-CBF, Input-to-State Safe Control Barrier Functions). L'architecture s'articule en trois couches : un contrôleur whole-body cinématique (KinWBC) qui génère des références articulaires à partir de tâches priorisées, un filtre ISSf-CBF qui les ajuste au minimum pour satisfaire les contraintes de sécurité sous perturbations bornées, et un contrôleur whole-body dynamique (DynWBC) qui garantit la faisabilité corps entier et la stabilité des contacts. Les contraintes couvertes incluent les limites articulaires, l'évitement d'auto-collision, l'évitement d'obstacles et les frontières du workspace. Validé en simulation et sur robot réel, le système a été testé dans trois scénarios : locomotion, téleopération et équilibre monopode avec contrôle simultané des mains. L'intérêt de l'approche tient à un problème fondamental en robotique humanoïde : les garanties de sécurité formelles s'effondrent dès qu'apparaît un écart entre le modèle de simulation et le comportement physique réel. Les CBFs classiques supposent un système parfaitement connu et deviennent fragiles face aux incertitudes de modèle, aux erreurs de suivi de trajectoire ou aux perturbations externes, précisément les conditions d'un environnement industriel. Les ISSf-CBFs étendent ce formalisme en admettant des perturbations bornées tout en maintenant des garanties formelles transférables du niveau cinématique vers la dynamique complète. Le filtre intervient de façon minimalement invasive, ne corrigeant les références nominales que lorsque nécessaire, ce qui préserve la performance globale. C'est une réponse directe au "demo-to-reality gap" structurellement reproché aux humanoïdes actuels, et un prérequis pour toute certification de robot collaboratif en environnement humain. Les Control Barrier Functions sont un outil bien établi en automatique, popularisé dans les années 2010 pour les véhicules autonomes et les bras robotiques. Leur extension aux ISSf-CBFs pour la robustesse aux perturbations est plus récente, et leur application à un humanoïde corps entier avec des dizaines de degrés de liberté, des contacts multiples et des dynamiques non linéaires représente un saut de complexité notable. Dans la course actuelle aux humanoïdes, les acteurs comme Figure, Boston Dynamics, Tesla (Optimus), Agility Robotics, Apptronik ou Unitree publient peu sur les garanties de sécurité formelles corps entier, un domaine resté majoritairement académique. Ce travail n'annonce pas de déploiement industriel, mais fournit une brique méthodologique directement applicable aux pipelines de validation et de certification des futurs robots collaboratifs.

UELes garanties de sécurité formelles apportées par ce framework sont directement pertinentes pour la certification des robots collaboratifs humanoïdes dans le cadre du Machinery Regulation et de l'AI Act européens.

RecherchePaper
1 source
Robot humanoïde chinois épate en dansant le ballet aux côtés de danseurs humains
79Interesting Engineering 

Robot humanoïde chinois épate en dansant le ballet aux côtés de danseurs humains

UBTECH, entreprise chinoise de robotique fondée à Shenzhen, a présenté son nouveau robot humanoïde Walker C1 lors d'une performance live de ballet et de valse tirée du Lac des Cygnes, aux côtés de danseurs humains. La démonstration, organisée dans le cadre de la China International Supply Chain Expo (Chain Expo) 2026, dont UBTECH vient d'être désigné partenaire humanoïde officiel exclusif, visait à illustrer les capacités de contrôle de mouvement, d'équilibre dynamique et de coordination du robot. Le Walker C1 est un humanoïde électrique pleine taille conçu pour les environnements de service public, accueil d'hôtels, aéroports, centres d'exposition et centres commerciaux. Il intègre un module de navigation autonome U-SLAM, un contrôle de mouvement corps entier, et une vitesse de marche de 6 km/h. Il supporte l'interaction multilingue et est alimenté par un grand modèle d'interaction incarnée développé en interne. UBTECH n'a pas publié de fiche technique complète du C1 au moment de l'annonce. Une unité est déjà déployée à l'Expo 2025 d'Osaka, où elle opère comme guide intelligent dans le pavillon chinois. La démonstration chorégraphique est avant tout un exercice de communication, pas une validation de performance industrielle. Aucune métrique précise sur les degrés de liberté, le couple articulaire ou la précision de répétabilité du C1 n'a été communiquée, ce qui limite l'interprétation technique. En revanche, les données commerciales d'UBTECH méritent davantage d'attention : l'entreprise a enregistré environ 800 millions de yuans (113 millions de dollars) de commandes en 2025, dont un contrat de 250 millions de yuans (35 M$) signé en septembre avec une grande entreprise chinoise non nommée, ainsi que des engagements de 159 millions de yuans en Sichuan et 126 millions de yuans au Guangxi. Ces chiffres signalent un passage concret du stade prototype à la production commerciale à grande échelle. Le secteur automobile se révèle le principal moteur de la demande, avec BYD, Geely, FAW-Volkswagen, Dongfeng Liuzhou Motor et Foxconn comme clients actifs pour des applications de manufacturing et de logistique. UBTECH a franchi en 2025 le cap des 1 000 unités Walker S2 produites dans son usine de Liuzhou, avec plus de 500 robots déjà déployés en opération réelle. L'entreprise cible une capacité de production de 10 000 unités par an d'ici fin 2026. Dans ce contexte, la Chine consolide une course humanoïde qui implique aussi LimX Dynamics, dont le robot Oli avait réalisé une performance de ballet similaire l'an dernier, ainsi que Unitree et Fourier Intelligence. À l'international, les concurrents directs incluent Figure AI, Agility Robotics (Amazon) et Boston Dynamics sur le segment industriel, et Apptronik sur le service. La stratégie d'UBTECH combine une vitrine médiatique grand public via la danse, et un ancrage commercial fort sur les sites industriels et d'exposition, une dualité qui reflète l'ambition de transformer le robot humanoïde en produit de série avant ses rivaux occidentaux.

UELa montée en puissance commerciale d'UBTECH en Chine (10 000 unités/an visées fin 2026, 800 M¥ de commandes en 2025) intensifie la pression concurrentielle sur les acteurs européens positionnés sur les humanoïdes de service et industriels.

Chine/AsieOpinion
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
80arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

IA physiquePaper
1 source
La robotique connaîtra-t-elle son moment ChatGPT ?
81IEEE Spectrum Robotics 

La robotique connaîtra-t-elle son moment ChatGPT ?

En 2025, les investissements dans les entreprises de robotique ont atteint un record de 40,7 milliards de dollars, soit 9 % de l'ensemble du capital-risque mondial. C'est dans ce contexte que Jonathan Hurst, professeur en robotique à l'Oregon State University et cofondateur d'Agility Robotics, et Wendy Tan White, ancienne CEO du projet Everyday Robots chez Google X, publient une analyse à contre-courant. Leur thèse : la robotique ne connaîtra pas de "moment ChatGPT" unique, mais progressera grâce à l'application coordonnée de plusieurs systèmes d'IA complémentaires. Ils articulent leur démonstration autour de cinq vérités difficiles, dont la première est le "YouTube-to-Reality Gap". La prestation des robots humanoïdes Unitree au gala du Nouvel An chinois 2026, où des machines exécutaient des figures d'arts martiaux avec des enfants, illustre parfaitement ce fossé : techniquement impressionnante, la séquence était entièrement chorégraphiée, relevant du même niveau d'autonomie qu'un bras industriel en usine automobile, et non d'un système capable de s'adapter à l'imprévu. L'enjeu est décisif pour les intégrateurs et décideurs industriels. Si les robots maîtrisent le backflip et le kung-fu, pourquoi sont-ils absents des chaînes de production généralistes et des cuisines domestiques ? L'IA mobilisée dans ces démonstrations ne sert que le contrôle moteur de bas niveau, sans capacité de raisonnement ni d'adaptation à des environnements non structurés. La rupture introduite par l'IA est réelle : les robots apprennent désormais au lieu d'être programmés, et peuvent, avec suffisamment de données, percevoir, raisonner et agir de façon fiable. Mais ce saut exige des systèmes d'IA coordonnés et rigoureusement intégrés, et non un modèle fondateur unique. La promesse de robots polyvalents vivant aux côtés des humains alimente la science-fiction depuis des décennies, et les déceptions accumulées ont rendu le secteur prudent face aux annonces. Agility Robotics déploie son humanoïde Digit dans des entrepôts Amazon depuis 2023, l'une des rares preuves de déploiement industriel réel à l'échelle. La concurrence s'est toutefois densifiée : Figure AI, Tesla Optimus, 1X et Apptronik côté produits, Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) côté recherche. Hurst et White, forts d'une décennie de terrain, ne disqualifient pas l'optimisme ambiant, mais rappellent l'obligation de distinguer ce qui est opérationnel de ce qui reste un prototype filmé sous son meilleur angle.

HumanoïdesOpinion
1 source
Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?
82arXiv cs.RO 

Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?

Des chercheurs ont déposé sur arXiv (2605.18045) une étude systématique sur l'autonomie à seuil de confiance, mécanisme par lequel un robot décide d'agir de façon autonome ou de déléguer à une politique de repli selon son niveau d'incertitude prédictive. L'équipe a comparé trois familles de méthodes d'estimation de l'incertitude (heuristiques softmax, MC Dropout, ensembles de modèles) sur trois benchmarks de reconnaissance d'activité temporelle, avant de valider les résultats dans une simulation embarquée multi-seed mesurant taux de collision et coût opérationnel. Les auteurs critiquent les métriques standard comme l'ECE (erreur de calibration attendue) et l'AUROC : ces indicateurs ne testent pas directement si l'incertitude modifie la décision agir/déléguer. Ils proposent en remplacement une évaluation par corrélation de rang de Spearman, tests d'équivalence par bootstrap, et accord act/defer. Le résultat central contredit une hypothèse fréquente dans la robotique de déploiement : une fois un seuil de compétence minimal atteint par le modèle de base, les trois méthodes produisent des comportements de gating quasi-identiques. C'est le choix du seuil de décision qui pèse le plus sur les résultats d'exécution, bien davantage que la sophistication de la méthode d'incertitude choisie. En pratique, un proxy simple (softmax) suffit pour le gating sélectif dès lors que le modèle est compétent. Revers de la médaille : la détection sémantique hors-distribution fine-grained reste proche du hasard même avec des ensembles de modèles. Les systèmes actuels ne savent pas identifier une situation véritablement inédite, ce qui représente un angle mort critique pour les robots opérant en environnements non contrôlés. Ce travail s'inscrit dans le champ de l'autonomie partagée (shared autonomy), question centrale pour les robots collaboratifs et les AMR industriels. Les méthodes comparées (MC Dropout, Gal et Ghahramani 2016 ; ensembles, Lakshminarayanan 2017) font figure de références établies dans le domaine. Les résultats relativisent les arguments commerciaux en faveur des estimateurs bayésiens avancés pour le déploiement terrain, un sujet directement pertinent pour des acteurs comme Boston Dynamics, Figure AI, Apptronik ou Intrinsic (Alphabet), dont les systèmes doivent décider en temps réel quand solliciter un opérateur humain. Les auteurs annoncent comme prochaines étapes l'extension à des modalités sensorielles plus riches et à des scénarios de décalage de covariable plus agressifs, pour tester la robustesse des conclusions hors du cadre benchmarké.

RecherchePaper
1 source
Qu'est-ce qui rend un métier ennuyeux, sale ou dangereux ?
83IEEE Spectrum Robotics 

Qu'est-ce qui rend un métier ennuyeux, sale ou dangereux ?

Une équipe de chercheurs a mené une analyse systématique de la littérature robotique publiée entre 1980 et 2024 pour examiner comment la discipline utilise le cadre dit "DDD", dull, dirty, dangerous (répétitif, sale, dangereux), pour justifier le déploiement de robots dans certains secteurs. Le résultat est frappant : sur des milliers de publications mentionnant ce triptyque, seulement 2,7 % en proposent une définition explicite et seulement 8,7 % citent des exemples concrets de tâches ou de métiers visés. Les chercheurs ont ensuite croisé ces données avec la littérature en sciences sociales, anthropologie, économie, psychologie, sociologie, pour proposer un cadre analytique plus rigoureux des trois catégories. Cette imprécision n'est pas sans conséquences pour les décideurs et les ingénieurs qui orientent les feuilles de route robotiques. Sur le volet "dangereux", les données administratives sur les accidents du travail souffrent d'une sous-déclaration estimée à 70 % dans certaines études, et les statistiques sont rarement désagrégées par genre, statut migratoire ou type d'activité informelle. Exemple concret : la plupart des équipements de protection individuelle, masques, gilets, gants, sont dimensionnés pour des morphologies masculines, exposant les femmes à des risques accrus dans les environnements industriels. Sur le volet "sale", la dimension physique (déchets, substances toxiques, entretien) ne représente qu'une partie du concept : la stigmatisation sociale joue un rôle central. Les métiers "socialement dégradants" (agents de recouvrement, agents pénitentiaires) ou "moralement ambigus" selon les normes culturelles entrent dans cette catégorie, et la frontière varie selon les époques et les pays. Les chercheurs soulignent également un paradoxe important pour la conception des systèmes robotiques : un emploi classé "bas prestige" dans les enquêtes quantitatives sur le prestige professionnel peut être vécu avec fierté et sens par ceux qui l'exercent, ce que les roboticiens oublient souvent de mesurer avant d'intervenir. Le cadre DDD est apparu dans les années 1980 comme raccourci rhétorique pour légitimer la robotisation industrielle, notamment dans l'automobile et la manutention lourde. Il s'est imposé sans véritable formalisation, héritage d'une époque où la robotique se déployait quasi exclusivement en milieu manufacturier contrôlé. Aujourd'hui, avec l'essor des robots humanoïdes (Figure AI, Apptronik, Agility Robotics) et des systèmes mobiles en environnements non structurés, la cible s'étend à des secteurs comme les soins à domicile, la logistique urbaine ou l'agriculture. L'enjeu soulevé par cette recherche est de forcer la discipline à définir précisément quel problème humain elle cherche à résoudre, pour quels travailleurs, dans quel contexte culturel, avant de concevoir le robot, pas après.

UELes conclusions de cette recherche pourraient alimenter les discussions réglementaires européennes (AI Act, directive machines révisée) sur les critères d'acceptabilité sociale et les conditions de déploiement des robots dans des secteurs non structurés comme les soins ou la logistique urbaine.

RecherchePaper
1 source
Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle
84Interesting Engineering 

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

Genesis AI a présenté GENE-26.5, un modèle de fondation robotique conçu pour doter les robots de capacités de manipulation au niveau humain. La vidéo de démonstration publiée par l'entreprise montre des robots accomplissant une séquence culinaire de 20 étapes (couper des tomates, casser un oeuf d'une seule main, coordonner les deux bras pendant la cuisson), ainsi que la préparation d'un smoothie avec service en l'air, des tâches de laboratoire (pipettage, transfert de liquides), du câblage pour assemblage électronique, la résolution d'un Rubik's Cube en manipulation aérienne continue, et l'interprétation d'une pièce de piano rapide. Pour alimenter l'entraînement du modèle, l'entreprise a développé un gant haptique équipé d'une peau électronique à capteurs tactiles, établissant une correspondance 1:1:1 entre la main humaine, le gant et la main robotique. Genesis revendique un coût matériel cent fois inférieur aux solutions de télé-opération conventionnelles, et une efficacité de collecte de données cinq fois supérieure. Le moteur de données associé intègre également des vidéos égocentriques issues de caméras portables et des vidéos publiques centrées sur l'activité humaine. Ces résultats, s'ils se confirment en environnement réel non contrôlé, représentent une avancée potentiellement significative sur l'un des verrous les plus tenaces de la robotique : l'écart d'incarnation (embodiment gap) entre les mains humaines et robotiques, qui limite depuis des années la transférabilité des données d'entraînement. La cartographie 1:1 glove-to-robot est une approche déjà explorée par des acteurs comme Physical Intelligence (pi-0) et plusieurs laboratoires académiques, mais Genesis revendique une démonstration à une échelle et une polyvalence inédites. Pour les intégrateurs industriels et les décideurs cherchant à automatiser des tâches non structurées (assemblage fin, préparation culinaire en volume, logistique d'entrepôt), la promesse d'un système généraliste capable d'apprendre directement des gestes humains quotidiens, sans retraining extensif, représenterait un changement de paradigme. Il faut toutefois noter que les démonstrations sont des vidéos éditées, sans données indépendantes sur le taux d'échec, les conditions d'éclairage, ou la reproductibilité en cycle de production continu. Genesis AI s'inscrit dans un segment en forte concurrence avec Physical Intelligence (pi-0, Berkeley), Figure AI (Figure 03, déployé avec BMW), Tesla (Optimus Gen 3), NVIDIA (GR00T N2) et Apptronik (Apollo). L'approche par gant haptique à bas coût rappelle les travaux d'Enchanted Tools, acteur français du service robotique, qui mise également sur la capture de mouvement humain pour réduire le coût d'entraînement. Genesis n'a pas encore annoncé de déploiements industriels confirmés ni de partenariats nominatifs : GENE-26.5 reste à ce stade une annonce de produit accompagnée d'une démonstration vidéo, pas un système disponible commercialement. L'entreprise indique prévoir le déploiement de ses gants en milieu de travail réel via des partenariats industriels, avec pour objectif de constituer une bibliothèque de compétences humaines à grande échelle pour l'entraînement robotique.

IA physiqueActu
1 source
FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension
85arXiv cs.RO 

FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension

Des chercheurs ont publié FlashSAC, un algorithme d'apprentissage par renforcement (RL) hors-politique conçu pour le contrôle robotique en haute dimension. Basé sur Soft Actor-Critic (SAC), FlashSAC réduit drastiquement le nombre de mises à jour de gradient tout en compensant par des modèles plus grands et un débit de données plus élevé. Pour stabiliser l'entraînement à cette échelle, l'algorithme impose des bornes explicites sur les normes de poids, de features et de gradients, limitant ainsi l'accumulation d'erreurs du critique par bootstrapping. Testé sur plus de 60 tâches dans 10 simulateurs différents, il surpasse systématiquement PPO et les baselines hors-politique standards, aussi bien en performance finale qu'en efficacité d'entraînement. Le gain le plus marqué est observé sur des tâches à haute dimensionnalité comme la manipulation dextre. En locomotion humanoïde avec transfert sim-to-real, FlashSAC réduit le temps d'entraînement de plusieurs heures à quelques minutes. Ce résultat est significatif parce qu'il attaque directement le principal frein des méthodes hors-politique en robotique : leur instabilité sur des espaces d'états et d'actions complexes. Les méthodes sur-politique comme PPO dominent aujourd'hui les benchmarks robotiques précisément parce qu'elles sont stables, malgré leur inefficacité en données. FlashSAC propose un chemin pour inverser ce compromis sans sacrifier la convergence, ce qui est particulièrement pertinent pour la manipulation dextre et la locomotion humanoïde, où l'espace d'action peut dépasser plusieurs dizaines de degrés de liberté. La réduction du temps d'entraînement sim-to-real de quelques heures à quelques minutes change l'équation économique des cycles de développement pour les équipes robotique. L'algorithme s'inscrit dans une tendance plus large d'application des lois de scaling, jusqu'ici observées en apprentissage supervisé, aux algorithmes RL, une hypothèse activement explorée par des laboratoires comme Google DeepMind, Meta AI et des startups humanoïdes telles que Figure, Apptronik ou 1X Technologies. Ces acteurs cherchent tous à accélérer le sim-to-real pour leurs plateformes humanoïdes, où le coût d'entraînement en conditions réelles reste prohibitif. FlashSAC n'est pas encore associé à un déploiement industriel annoncé, mais la démonstration de locomotion humanoïde en simulation suggère une applicabilité directe aux robots à deux jambes actuellement en phase de pilote chez plusieurs intégrateurs. La prochaine étape naturelle serait une validation sur hardware réel à grande échelle.

RecherchePaper
1 source
Asimov : un robot humanoïde open source accessible à tous
86Hackaday Robots Hacks 

Asimov : un robot humanoïde open source accessible à tous

Le projet Asimov v1 est un robot humanoïde open source en kit, proposé à un prix cible de 15 000 dollars, avec la nomenclature complète publiée sur GitHub pour permettre aux équipes de sourcer leurs propres composants. Doté de 25 degrés de liberté au total, il embarque un calculateur basé sur un Raspberry Pi 5 et un module Radxa CM5, deux références grand public faciles à approvisionner. Les performances physiques déclarées restent modestes : 5 kg en squat et 18 kg en tirage unilatéral à un bras, ce qui le positionne clairement dans la catégorie expérimentale. Tout le code est libre, laissant aux développeurs la latitude d'implémenter leurs propres couches de contrôle. À 15 000 dollars avec du matériel sur étagère, Asimov v1 représente une rupture de prix notable dans un secteur longtemps réservé aux géants industriels. Les démonstrations emblématiques de Honda (Asimo, programme lancé dans les années 1980) et les investissements massifs de Tesla pour Optimus ont durablement ancré l'image d'un marché inaccessible aux laboratoires ou aux startups. L'open source change la donne : une équipe universitaire ou un intégrateur peut désormais disposer d'une base matérielle documentée pour tester des modèles de contrôle visuomoteur ou des politiques d'apprentissage par renforcement sans dépendre d'un fournisseur propriétaire. Il convient toutefois de rester prudent sur les métriques publiées, présentées sans protocole de test standardisé et sans vidéo en conditions réelles. Asimov v1 s'inscrit dans une tendance de démocratisation du hardware robotique comparable à ce que l'open source a réalisé dans les drones avec ArduPilot ou PX4 dans les années 2010. Sur le segment accessible, il se distingue du Unitree G1 (environ 16 000 dollars, non open source) par sa transparence architecturale complète. Il reste très éloigné des plateformes industrielles comme Figure 03, Agility Robotics Digit ou Apptronik Apollo, qui ciblent la logistique avec des financements de plusieurs centaines de millions de dollars et des déploiements confirmés chez des partenaires industriels. Fédérer une communauté active de contributeurs sera la prochaine étape critique pour faire progresser les performances mécaniques et logicielles du projet.

UELes laboratoires universitaires et startups robotique français et européens disposent d'une base matérielle open source documentée à 15 000 $ pour prototyper des algorithmes de contrôle visuomoteur sans dépendre d'un fournisseur propriétaire.

HumanoïdesOpinion
1 source
Mind Robotics lève 400 millions de dollars pour déployer ses robots à IA dans l'industrie manufacturière
87Robotics Business Review 

Mind Robotics lève 400 millions de dollars pour déployer ses robots à IA dans l'industrie manufacturière

Mind Robotics, startup américaine basée à Palo Alto, a annoncé le 13 mai 2026 une levée de fonds de 400 millions de dollars, portant son financement total à plus d'un milliard de dollars depuis sa création. Ce tour a été mené par Kleiner Perkins, avec la participation de nouveaux investisseurs comme Meritech Capital, Redpoint Ventures, SV Angel et Garuda Ventures, aux côtés d'acteurs déjà présents tels qu'Andreessen Horowitz, Accel, Bain Capital Ventures et Greenoaks. La startup, fondée par RJ Scaringe, avait enchaîné un seed de 115 millions de dollars fin 2025 puis une Série A de 500 millions en mars 2026, soit trois tours en moins de six mois. Mind Robotics se positionne comme constructeur d'une "plateforme full-stack" combinant modèles de fondation pour la robotique physique, hardware dédié et infrastructure de déploiement, ciblant l'automatisation de tâches manufacturières dextres et à fort contenu décisionnel. Rivian, le constructeur de véhicules électriques, est à la fois premier client, partenaire stratégique et actionnaire, fournissant un environnement de production à haut volume pour l'entraînement des modèles et alimentant ce que la société appelle un "data flywheel" d'itération continue. À ce stade, Mind Robotics reste une annonce plus qu'un produit déployé : le site de la société ne publie aucune image de robot, aucune fiche technique n'est disponible (payload, degrés de liberté, cadence de cycle), et les démonstrations publiques sont absentes. Ce point mérite d'être noté, car la plupart des levées comparables dans le secteur humanoïde ou manufacturing (Figure, 1X, Apptronik, Agility) s'accompagnent au minimum de vidéos opérationnelles. L'accès à l'usine Rivian comme terrain d'entraînement est un avantage réel pour réduire le sim-to-real gap, mais la promesse de généralisation inter-tâches et inter-domaines reste à valider empiriquement. Pour les décideurs industriels, la question centrale n'est pas le montant levé mais la capacité à démontrer une fiabilité en conditions réelles avant 2027, dans un secteur où le fossé entre démo et déploiement à l'échelle reste le principal obstacle commercial. RJ Scaringe, qui a co-fondé Rivian en 2009 et conduit l'entreprise jusqu'à son introduction en bourse en 2021, a créé Mind Robotics en novembre 2025 en s'appuyant sur l'expertise manufacturière accumulée chez Rivian. La société s'insère dans une vague de financements massifs autour de la "physical AI" : Boston Dynamics, Figure (2,6 milliards levés à date), Physical Intelligence avec Pi-0, ou encore 1X Technologies en Europe. En France et en Europe, des acteurs comme Wandercraft (exosquelettes), Enchanted Tools (Miroki) ou Pollen Robotics (Reachy) avancent sur des segments plus ciblés avec des modèles économiques plus définis. Les prochaines étapes à surveiller pour Mind Robotics : une première démonstration publique de son hardware, l'annonce d'un second client industriel hors Rivian, et la publication de métriques de déploiement concrètes qui permettront de juger si l'ambition "general-purpose" tient face à la réalité de la chaîne de production.

UELa concentration massive de capital américain sur la robotique physique (Mind Robotics dépasse le milliard en 6 mois) accentue l'écart de ressources avec les acteurs européens comme Wandercraft, Enchanted Tools et Pollen Robotics, qui opèrent sur des segments ciblés avec des levées sans commune mesure.

BusinessOpinion
1 source
DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle
88arXiv cs.RO 

DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle

Des chercheurs ont publié DreamPolicy (arXiv:2505.18780, mai 2025), un cadre de locomotion humanoïde conçu pour maîtriser des terrains variés avec une seule politique de contrôle. Son composant central est un modèle du monde à diffusion autorégressive, entraîné sur des trajectoires agrégées issues de plusieurs politiques spécialisées par type de terrain. Ce modèle génère des trajectoires futures physiquement plausibles qui guident une politique conditionnée, sans ingénierie manuelle des fonctions de récompense. En simulation, DreamPolicy surpasse la meilleure baseline de 27% sur des terrains composites jamais vus à l'entraînement, et de 38% sur des terrains combinés. Le framework est conçu pour scaler avec la taille du dataset offline: plus les données s'accumulent, plus le modèle de diffusion acquiert de compétences locomotrices. La contribution principale est de rompre le verrou "une tâche, une politique" qui freine les systèmes humanoïdes actuels. Les méthodes dominantes reposent sur la distillation de politiques enseignantes spécialisées en une politique étudiante unifiée; ce paradigme capture des primitives de base mais échoue à les composer organiquement face à des environnements composites hors distribution. DreamPolicy y substitue un modèle du monde qui capture des compétences locomotrices généralisables, autorisant un transfert zero-shot vers des terrains inédits. Il convient néanmoins de nuancer: les gains relatifs annoncés (27%, 38%) sont mesurés en simulation uniquement, sans détail sur les taux absolus de succès ni les conditions précises des benchmarks, ce qui limite les comparaisons directes avec d'autres systèmes publiés. Ce travail s'inscrit dans une tendance portée par DreamerV3 (Google DeepMind) et le RL model-based, ici appliquée à la locomotion humanoïde scalable. Figure, Agility Robotics (Amazon), Unitree, Apptronik et Boston Dynamics se livrent une course intensive sur ce segment; en Europe, Wandercraft (France) travaille sur la locomotion bipeède thérapeutique et Enchanted Tools sur des humanoïdes de service. DreamPolicy reste une contribution de recherche pure: aucun déploiement hardware ni partenariat industriel n'est mentionné. La validation sur robot physique constitue l'étape suivante naturelle, avec les défis de sim-to-real gap que les approches à diffusion n'ont pas encore pleinement résolus à grande échelle.

UEImpact indirect : les avancées en locomotion unifiée zero-shot pourraient alimenter les travaux de Wandercraft (France) sur la bipédie thérapeutique, mais aucun lien institutionnel ou déploiement européen n'est mentionné.

RecherchePaper
1 source
Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs
89Robotics Business Review 

Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs

Hello Robot a annoncé le 12 mai 2026 la disponibilité immédiate de Stretch 4, la quatrième génération de sa plateforme de manipulation mobile à usage général, au prix de 29 950 dollars. Le robot conserve l'architecture distinctive de la gamme, bras télescopique, base omnidirectionnelle, mais intègre une refonte complète selon les termes de Charlie Kemp, co-fondateur et CTO. L'enveloppe sensorielle est significativement enrichie : deux lidars 3D hémisphériques, trois caméras haute résolution, six capteurs laser linéaires et des caméras fisheye RGB à obturateur global couvrent l'environnement à 360 degrés, réduisant drastiquement les angles morts même lorsque le bras est en extension. Une caméra centrale haute résolution surveille spécifiquement l'espace de travail du préhenseur pour les tâches de manipulation fine. La vitesse du bras, du lift et de la base a été doublée par rapport à Stretch 3, et la portée totale étendue de 10 %. Un nouveau système d'alimentation permet jusqu'à huit heures d'autonomie, avec station de recharge autonome intégrée. Ce qui distingue Stretch 4 dans le segment des robots de service tient moins aux gains de vitesse qu'à sa philosophie sensorielle, explicitement calquée sur l'approche "sensor-rich" de Waymo pour le véhicule autonome. Aaron Edsinger, CEO, l'exprime sans détour : les robots mobiles actuels sont "relativement aveugles" aux personnes et aux obstacles dynamiques, ce qui représente un frein réel au déploiement en environnements non structurés, domiciles, établissements de santé. Pour les intégrateurs et les équipes de recherche qui ciblent ces contextes, Stretch 4 offre une base perceptuelle nettement plus robuste que la génération précédente. La hausse de taille répond à un besoin fonctionnel concret : accompagner des utilisateurs en fauteuil roulant motorisé, dont la tête se situe plus haut. La conception reste délibérément orientée sécurité intrinsèque, masse basse, absence d'actionneurs luttant contre la gravité, sans prétendre à une certification formelle, ce qu'Edsinger reconnaît explicitement. Hello Robot a été fondée en 2017 et a commercialisé Stretch à partir de 2020. La plateforme compte aujourd'hui plus de mille utilisateurs dans vingt-trois pays, principalement des laboratoires académiques et des équipes de R&D industrielle. Stretch 3 avait remporté le RBR50 Robotics Innovation Award 2025 dans la catégorie "Robots for Good". La stratégie open-source de Hello Robot la positionne différemment des acteurs humanoïdes (Figure, Agility, Apptronik) ou des robots de service propriétaires (Boston Dynamics Spot). Dans le segment des manipulateurs mobiles à bras unique destinés à la recherche, la concurrence directe inclut Fetch Robotics (racheté par Zebra), le PR2 en voie d'extinction, et les nouvelles plateformes de Robotics+AI startups comme Kepler. Stretch 4 cible une niche précise, recherche en IA physique, assistance aux personnes à mobilité réduite, où le rapport prix/polyvalence sensorielle constitue l'argument principal. Aucune timeline de certification sécurité n'a été communiquée.

IA physiqueActu
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
90arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
91arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source
Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
92arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
93arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

IA physiqueOpinion
1 source
Autonomie partagée assistée par un champ de guidage anisotrope à impédance variable
94arXiv cs.RO 

Autonomie partagée assistée par un champ de guidage anisotrope à impédance variable

Une équipe de recherche a publié le 5 mai 2026 (arXiv:2605.02410) un nouveau paradigme pour la téléopération robotique : IAGF-SA (Impedance-Driven Anisotropic Guidance Field Enhanced Shared Autonomy). Le principe repose sur un constat simple mais sous-exploré dans la littérature : l'autonomie partagée (SA) s'est historiquement concentrée sur la capacité du robot à inférer l'intention de l'opérateur humain, sans jamais résoudre le problème inverse, comment le robot communique sa propre intention à l'humain. IAGF-SA introduit un canal de communication physique et incarné, fondé sur le contrôle d'impédance, qui module dynamiquement la réponse du robot aux commandes humaines. Concrètement, le robot ne résiste pas uniformément dans toutes les directions : il oriente sa compliance de façon anisotrope pour guider subtilement la main de l'opérateur vers les trajectoires qu'il juge optimales. Les études utilisateurs couvrent trois scénarios de manipulation et deux interfaces de téléopération différentes, avec des résultats mesurés sur la performance de tâche, le taux d'accord humain-robot, et l'expérience subjective. L'enjeu industriel est concret : dans les déploiements de téléopération semi-autonome, chirurgie robotique, manipulation en environnements dangereux, ou encore téléopération d'humanoïdes en phase de démarrage comme chez Figure ou Apptronik, l'absence de retour d'intention robot oblige l'opérateur à compenser mentalement, ce qui ralentit les cycles et augmente les erreurs. Une approche purement physique, sans interface additionnelle (écran, indicateur sonore), réduit la charge cognitive et s'intègre dans des systèmes existants sans modification matérielle majeure. Le fait que le canal soit continu et gradué, plutôt que binaire ou discret, représente une avancée par rapport aux tentatives précédentes. Cela dit, il s'agit d'une preprint non encore soumise à revue par les pairs, et les études utilisateurs restent limitées en taille : les résultats sont prometteurs mais doivent être validés à plus grande échelle. La recherche en SA s'inscrit dans un contexte de convergence entre apprentissage par imitation (imitation learning, VLA) et contrôle classique en force/impédance. Des travaux antérieurs comme DAgger ou les approches de goal inference bayésienne ont résolu une partie de l'inférence d'intention côté robot, mais la boucle retour vers l'humain restait largement ignorée. Le recours au contrôle d'impédance, technologie maîtrisée industriellement par des cobot comme ceux de KUKA, FANUC ou Universal Robots, rend cette approche potentiellement transférable sans rupture technologique. Les suites logiques incluent une validation sur des plateformes physiques humanoïdes ou cobotiques, ainsi qu'une intégration dans des pipelines VLA où l'intention robot émerge d'un modèle appris plutôt que d'une planification explicite.

UEL'approche repose sur le contrôle d'impédance, technologie maîtrisée par KUKA (allemand) et Universal Robots (danois), ce qui facilite une intégration directe pour les intégrateurs robotiques européens sans rupture matérielle.

RecherchePaper
1 source
SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes
95arXiv cs.RO 

SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes

Des chercheurs ont publié début mai 2026 sur arXiv (réf. 2605.01427) SixthSense, un système d'estimation des forces et couples de contact (wrenches) pour robots humanoïdes fonctionnant exclusivement à partir de la proprioception et d'une centrale inertielle (IMU), sans capteur de force-couple dédié. Le système infère en temps réel le moment, la localisation et l'amplitude des wrenches appliqués sur l'ensemble du corps, même lorsque les points de contact sont indéterminés. Techniquement, SixthSense emploie le conditional flow matching pour tokeniser des historiques proprioceptifs et estimer un flux d'événements de contact spatialement et temporellement parcimonieux. Les validations expérimentales couvrent trois régimes distincts - posture statique, marche et suivi de trajectoire corps entier - avec des performances décrites comme "sans précédent" par les auteurs, bien que l'article ne publie pas de métriques comparatives chiffrées pour étayer cette affirmation. L'enjeu est concret pour l'intégration industrielle : les humanoïdes actuellement déployés (Figure 02, Optimus Gen 2, Unitree G1) manquent de perception fiable des efforts de contact pour des tâches exigeant une interaction physique précise - assemblage, manipulation d'objets fragiles, collaboration en cellule mixte. Les méthodes analytiques existantes supposent des contacts connus et des mesures souvent indisponibles en production, notamment en raison de la dynamique en base flottante propre aux bipèdes. SixthSense se présente comme un module plug-and-play intégrable sans modification matérielle, ciblant trois cas d'usage : détection de collision, interaction physique humain-robot (pHRI) et téléopération avec retour d'effort. Ce travail s'inscrit dans l'effort plus large visant à combler le fossé entre démonstrations en laboratoire et déploiements réels pour la perception haptique des humanoïdes. Les principaux acteurs commerciaux - Figure, Agility Robotics, Apptronik, 1X Technologies - comme les plateformes académiques partagent ce même déficit. En France, Wandercraft, spécialiste de l'exosquelette humanoïde pour la rééducation, fait face à des contraintes similaires pour la perception d'effort en interaction avec le patient. La publication demeure une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé, et la robustesse hors conditions contrôlées reste à démontrer.

UEWandercraft (France) développe des exosquelettes humanoïdes à interaction physique patient-robot ; ce module d'estimation d'effort sans capteur dédié pourrait, s'il est validé hors laboratoire, réduire les coûts matériels et améliorer la sécurité de contact en rééducation.

RecherchePaper
1 source
VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
96arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

IA physiqueOpinion
1 source
L'art de traverser le gouffre : quand une startup est-elle prête pour l'adoption par les entreprises ?
97Robotics Business Review 

L'art de traverser le gouffre : quand une startup est-elle prête pour l'adoption par les entreprises ?

Figure AI a annoncé avoir atteint un rythme de production d'un robot humanoïde par heure dans son usine BotQ, située dans la baie de San Francisco, soit une multiplication par 24 du débit en moins de 120 jours. La société revendique la livraison de plus de 350 unités de troisième génération (Figure 03), la fabrication de plus de 9 000 actionneurs et 500 packs batterie, avec 150 postes de travail en réseau et plus de 50 stations de contrôle qualité en ligne de production. En parallèle, Flex -- fabricant texan de composants électroniques -- a annoncé le déploiement de robots de Teradyne Robotics dans l'ensemble de ses sites de production mondiaux, en combinant les cobots Universal Robots (UR) et les AMR (robots mobiles autonomes) de Mobile Industrial Robot (MiR), deux filiales de Teradyne. Celle-ci a par ailleurs publié ses résultats du premier trimestre 2026 : 91 millions de dollars de chiffre d'affaires, quatrième trimestre consécutif de croissance après deux vagues de licenciements liées à des baisses de revenus en 2023 et 2024. Du côté des distinctions, l'association A3 a remis les prix Engelberger 2026 à Hiroshi Fujiwara, directeur exécutif de la Japan Robot Association (JARA) depuis 2009, et à Robert Little, cofondateur d'ATI Industrial Automation en 1989, qui a fait passer la société de 1 million à plus de 100 millions de dollars de revenus en devenant un acteur mondial des changeurs d'outils robotiques et des capteurs force/couple. Le chiffre de 24x de gain de débit chez Figure AI est spectaculaire, mais il convient de le lire avec précaution : la société communique sur des volumes de production, non sur des déploiements clients ou des contrats signés -- la distinction entre "fabriqué" et "opérationnel chez un client" reste floue dans ce communiqué. Cela dit, atteindre un robot par heure constitue un vrai seuil industriel si les données sont vérifiées, car la plupart des concurrents humanoïdes fonctionnent encore à l'échelle des dizaines d'unités annuelles. Le partenariat Flex/Teradyne est lui plus concret : Flex étant déjà fournisseur de composants pour UR, ce déploiement interne représente un signal fort de maturité opérationnelle des cobots et AMR dans des environnements de production à haute variabilité. C'est précisément la question que pose Neal Hansch, managing partner de Silicon Foundry et invité de l'épisode 242 du Robot Report Podcast : à quel moment un startup robotique est-il réellement prêt pour l'adoption entreprise, au-delà des démonstrations ? Figure AI a lancé ses premiers prototypes publics en 2023 et son Figure 02 en 2024, avec un financement total dépassant le milliard de dollars. Ses principaux concurrents sur le segment humanoïde incluent Tesla (Optimus Gen 3), Agility Robotics déployé chez Amazon, 1X Technologies, Apptronik, et Physical Intelligence (Pi-0, axé VLA), sans oublier Unitree et Fourier Intelligence côté asiatique. Teradyne, de son côté, cherche à repositionner UR et MiR comme infrastructure de "physical AI" face à la montée des solutions intégrées proposées par des acteurs comme Boston Dynamics (désormais sous Hyundai). La trajectoire de Robert Little chez ATI -- 40 ans d'expérience, croissance organique de 100x sur les end-effectors -- rappelle que les composants critiques de la chaîne robotique peuvent générer une valeur durable bien au-delà des intégrateurs systèmes.

UELe déploiement global de Universal Robots (UR) et MiR par Flex valide la maturité opérationnelle de ces deux marques danoises (filiales Teradyne) dans des environnements industriels à haute variabilité, renforçant leur position concurrentielle sur le marché européen des cobots et AMR face aux solutions intégrées émergentes.

HumanoïdesActu
1 source
AI² Robotics défend les modèles VLA et lance NeuroVLA
98Pandaily 

AI² Robotics défend les modèles VLA et lance NeuroVLA

Guo Yandong, fondateur et PDG d'AI² Robotics, a présenté NeuroVLA, un modèle d'action robotique de troisième génération qui réduit la latence de réponse de plusieurs centaines de millisecondes à quelques dizaines de millisecondes. L'entreprise articule l'évolution des architectures VLA (Vision-Language-Action) en trois stades : les modèles end-to-end de première génération unifiant perception et contrôle ; les systèmes de deuxième génération intégrant des world models pour le raisonnement prédictif ; et désormais NeuroVLA, architecture neuro-inspirée permettant une optimisation continue comparable à la mémoire musculaire. En parallèle, AI² Robotics a lancé AlphaBrain Platform, une boîte à outils open-source combinant modèles VLA neuro-inspirés, entraînement par reinforcement learning à base de tokens et architectures modulaires de world model, avec support des benchmarks de référence LIBERO et CALVIN. L'annonce ne précise ni contexte de déploiement réel, ni clients industriels : il s'agit d'un lancement de modèle et de plateforme, pas d'un déploiement terrain. La réduction de latence revendiquée est le chiffre à surveiller. En manipulation robotique, passer sous 50 ms est généralement considéré comme le seuil nécessaire pour des gestes précis en environnement non structuré. Si NeuroVLA tient ces performances hors laboratoire, cela représenterait une avancée concrète sur le sim-to-real gap, obstacle persistant à la commercialisation des robots VLA. L'ouverture d'AlphaBrain en open-source signale une stratégie d'écosystème : AI² Robotics cherche à fédérer des contributeurs autour de son approche architecturale, à l'image de ce que tente Physical Intelligence avec pi0. AI² Robotics est une startup chinoise spécialisée dans l'embodied AI pour robots manipulateurs et humanoïdes. La prise de position publique de Guo Yandong en faveur des VLA intervient dans un débat architectural actif : les pipelines VLA end-to-end, portés aussi par Figure AI et 1X Technologies, s'affrontent aux approches hybrides modulaires de Sanctuary AI ou Apptronik. Les prochains jalons crédibles à suivre sont les résultats publiés sur LIBERO et CALVIN, qui permettront une comparaison objective avec les modèles concurrents, ainsi que l'annonce éventuelle de pilotes industriels validant les métriques en conditions réelles.

IA physiqueOpinion
1 source
L'importance du sens du toucher pour l'apprentissage par imitation : une étude de cas sur l'allumage d'allumettes par robot
99arXiv cs.RO 

L'importance du sens du toucher pour l'apprentissage par imitation : une étude de cas sur l'allumage d'allumettes par robot

Des chercheurs ont publié en avril 2025 sur arXiv (papier 2504.13618) un cadre d'apprentissage par imitation visuotactile multimodal, évalué sur une tâche de référence particulièrement exigeante : l'allumage d'une allumette par un robot. Le système combine une architecture transformer modulaire avec un modèle génératif basé sur les flux (flow-based generative model), entraîné à partir d'un petit nombre de démonstrations humaines. L'originalité tient à l'intégration active de capteurs tactiles, capables de fournir des informations de contact précises, directement dans la boucle de politique, et non comme signal auxiliaire passif. L'allumage d'allumette n'est pas un choix anodin : c'est une tâche dynamique, riche en contacts, où le retour tactile influence mesurablementles performances humaines, ce qui en fait un banc d'essai pertinent pour isoler la contribution du toucher. Ce travail s'attaque à un angle mort bien identifié du domaine : malgré l'essor récent des politiques d'imitation (diffusion policies, VLA), la plupart des architectures restent mono-modales côté perception, vision seule, parfois force-couple, et échouent sur les manipulations dynamiques où le contact est fugace et précis. L'étude démontre expérimentalement que l'ajout du signal tactile améliore les performances de la politique par rapport à une baseline purement visuelle, ce qui étaye l'hypothèse que le sim-to-real et le demo-to-reality gap sur les tâches contact-rich peuvent être réduits en enrichissant la modalité sensorielle plutôt qu'en multipliant les démonstrations. Pour les intégrateurs industriels, c'est un signal : les capteurs tactiles de nouvelle génération (GelSight, DIGIT, XELA et équivalents) commencent à justifier leur coût d'intégration par des gains de robustesse mesurables sur des gestes fins. Ce papier s'inscrit dans une dynamique plus large où les laboratoires académiques (MIT, Stanford, CMU notamment) cherchent à dépasser les politiques visuomotrices en incorporant des modalités sensorielles supplémentaires. Du côté industriel, les robots commerciaux déployés en manipulation, bras collaboratifs Franka, systèmes Figure ou Apptronik, restent majoritairement sans retour tactile intégré, ce qui creuse un écart entre la recherche et le hardware disponible. La prochaine étape naturelle pour cette équipe sera de tester la généralisation de l'approche sur d'autres tâches contact-rich et sur des capteurs tactiles moins onéreux, condition nécessaire pour une adoption industrielle réaliste.

UEImpact indirect : Franka (fabricant allemand de bras collaboratifs) est cité parmi les systèmes actuellement dépourvus de retour tactile intégré, ce qui illustre le fossé recherche/hardware que les constructeurs européens devront combler pour rester compétitifs sur la manipulation fine.

IA physiqueOpinion
1 source
Digit apprend le soulevé de terre
100IEEE Spectrum Robotics 

Digit apprend le soulevé de terre

Agility Robotics a publié cette semaine une démonstration de son robot humanoïde Digit soulevant une charge de 29,5 kg (65 livres) en deadlift complet, soit l'une des charges utiles les plus élevées jamais documentées pour ce châssis. L'entraînement de la politique de contrôle a été réalisé entièrement en simulation, en intégrant l'objet cible dans la boucle d'apprentissage afin de modéliser la distribution des charges, les forces de préhension et les variations du centre de masse de Digit lors du lever. La politique résultante se transfère au robot réel avec un équilibre dynamique maintenu tout au long du mouvement, sans ajustement manuel post-simulation. En parallèle, MagicLab Robotics a déployé un essaim mixte de chiens-robots et d'humanoïdes lors de la cérémonie d'ouverture du Jiangsu Super League, dans un environnement extérieur ouvert, revendiquant la coordination simultanée d'une flotte multi-catégories en conditions réelles. L'équipe de Harvard a présenté ses RAnts, un essaim de micro-robots fourmis sans contrôle centralisé capable de creuser et de construire des structures en ajustant deux paramètres seulement : la force de coopération et le taux de dépôt de matériau. Michigan Robotics a quant à elle montré un actionneur à microcombustion de 8 millimètres de diamètre capable de propulser des gouttelettes d'eau en 3 millisecondes, remettant en question l'hypothèse selon laquelle les actionneurs souples sont intrinsèquement lents. Gatlin Robotics a annoncé son premier contrat commercial sous modèle Robot-as-a-Service (RaaS), sans préciser le secteur d'activité ni le client. Le cas de Digit en deadlift est notable pour ce qu'il valide méthodologiquement : la capacité de transférer des politiques sim-to-real pour des tâches à forte sollicitation mécanique, où la coordination corps entier et la robustesse des actionneurs sont critiques. C'est un résultat concret pour les intégrateurs industriels qui évaluent les humanoïdes pour la manutention lourde, un segment jusqu'ici dominé par les bras industriels fixes. Le déploiement de MagicLab au Jiangsu Super League est présenté comme une preuve de maturité des systèmes multi-agents à l'échelle, mais il s'agit d'un spectacle chorégraphié : la coordination en environnement non structuré, avec aléas, reste à démontrer dans un contexte opérationnel. L'actionneur de Michigan Robotics remet en cause un a priori du secteur : que la souplesse implique lenteur. Un actionneur de 8 mm capable d'impulsions de 3 ms ouvre des perspectives pour la chirurgie robotique, la micro-assemblage ou les prothèses. Les RAnts de Harvard illustrent l'intérêt des architectures décentralisées pour la robotique collective en environnements dégradés, avec des applications potentielles dans la construction autonome ou la démantèlement de structures. Agility Robotics, rachetée par Agility en 2023 après une première commercialisation limitée de Digit chez Amazon, intensifie ses démonstrations de capacités en charge lourde pour se différencier face à Figure (Figure 03), Apptronik (Apollo) et Boston Dynamics (Atlas électrique). MagicLab est un acteur chinois encore peu documenté en dehors de l'Asie, positionnant ses systèmes multi-agents comme une alternative aux approches humanoïdes pures. LimX Dynamics, également présent cette semaine avec son robot TRON 1 pour la photographie autonome en terrains complexes, confirme la diversification des cas d'usage des robots quadrupèdes en Chine. Les prochaines grandes échéances du secteur sont ICRA 2026 à Vienne du 1er au 5 juin, puis RSS 2026 à Sydney en juillet, où plusieurs de ces travaux devraient être présentés dans leur version complète avec données et protocoles.

UELes intégrateurs industriels européens évaluant les humanoïdes pour la manutention lourde doivent surveiller la validation sim-to-real de Digit (29,5 kg), qui le positionne comme concurrent direct des bras fixes dans la logistique lourde.

HumanoïdesActu
1 source