Aller au contenu principal

Dossier Sanctuary AI

33 articles

Sanctuary AI et Phoenix : humanoïde canadien centré sur la dextérité et l'IA généraliste, levées de fonds et déploiements pilotes.

Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos
1Interesting Engineering HumanoïdesPaper

Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos

ROBOTIS, fabricant coréen de composants et plateformes robotiques, a publié début juin 2026 une démonstration de son humanoïde AI Sapiens reproduisant le "CORTIS REDRED Challenge", une chorégraphie K-POP virale, à partir d'une unique vidéo captée sur smartphone. La chaîne de traitement repose sur quatre étapes enchaînées : capture de mouvement vidéo, retargeting cinématique vers la morphologie du robot, entraînement par apprentissage par renforcement en simulation, puis transfert Sim2Real vers le matériel physique. Aucun système de motion capture professionnel (OptiTrack, Vicon) n'a été utilisé. AI Sapiens mesure 1,3 mètre pour 34 kilogrammes, dispose de 23 degrés de liberté assurés par 23 actionneurs DYNAMIXEL-Q quasi-direct-drive (14 QM-060 et 9 QM-080), et embarque un NVIDIA Jetson Orin NX 16 Go offrant jusqu'à 100 TOPS de puissance de calcul. L'alimentation est assurée par une batterie 46,8 V, 9 000 mAh. ROBOTIS prévoit de publier l'intégralité du pipeline en open-source, incluant les fichiers CAD, le code source, les assets de simulation et les tutoriels. Ce qui mérite attention, ce n'est pas la danse en elle-même -- les vidéos de robots qui dansent sont devenues un genre communicationnel à part entière -- mais la suppression du goulot d'étranglement de la collecte de données de mouvement. Jusqu'ici, entraîner un humanoïde sur des mouvements complexes requérait des studios de capture équipés et des techniciens spécialisés, coûts prohibitifs pour les équipes de recherche et les PME industrielles. Substituer cela à une vidéo smartphone abaisse drastiquement la barrière d'entrée pour la production de comportements moteurs variés. La démonstration valide aussi partiellement le pipeline Sim2Real comme suffisamment robuste pour des mouvements dynamiques à corps entier -- un point que beaucoup d'équipes considéraient encore fragile hors de contextes très contraints. Reste que la vidéo présente un mouvement expressif non critique : il faudra des preuves comparables sur des tâches à charge utile ou à contact riche pour juger de la généralisation réelle de la méthode. ROBOTIS est une entreprise coréenne historiquement centrée sur les actionneurs Dynamixel, composants de référence dans la robotique académique mondiale depuis les années 2000. AI Sapiens constitue sa montée en gamme vers les plateformes humanoides complètes, en compétition directe avec des systèmes comme Unitree H1/G1 (Chine), Agility Robotics Digit (USA) ou Sanctuary AI Phoenix (Canada), tous également positionnés sur l'open-source partiel ou la recherche collaborative. Dans le paysage européen, des acteurs comme Enchanted Tools (Mirokaï, France) ou Wandercraft (exosquelette, Paris) restent sur des segments plus spécialisés. La publication open-source annoncée par ROBOTIS est un pari sur l'effet de communauté : si le pipeline se diffuse dans les labos universitaires, ROBOTIS consolide son écosystème Dynamixel comme standard de facto pour la prochaine génération d'humanoides de recherche. Aucune date de release précise n'a été communiquée à ce stade.

UELes laboratoires de recherche européens utilisant des actionneurs Dynamixel (standard académique mondial) pourront potentiellement bénéficier de la publication open-source du pipeline vidéo-vers-mouvement, réduisant le coût d'entrée pour l'entraînement de comportements moteurs complexes sans équipement de capture de mouvement professionnel.

1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
2arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques
3arXiv cs.RO 

HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques

Une équipe de chercheurs a publié sur arXiv en mai 2025 (référence 2505.08213) HandCept, un framework de proprioception visuo-inertielle pour mains dextres robotiques. Le système combine une caméra RGB-D montée au poignet et des IMU à 9 axes (accéléromètre, gyroscope, magnétomètre) pour estimer les angles articulaires en temps réel, via un filtre de Kalman étendu (EKF) sans latence ajoutée. Les erreurs d'estimation se situent entre 2° et 4° sur les angles articulaires, sans dérive observable sur la durée, surpassant selon les auteurs les approches purement visuelles ou purement inertielles. L'approche repose sur un apprentissage zero-shot, sans données réelles annotées, rendu possible par un pipeline de rendu photoréaliste haute fidélité sous Blender, publié en open-source sur GitHub. La proprioception, c'est-à-dire la capacité d'une main robotique à connaître précisément la position de ses propres doigts, reste l'un des verrous techniques de la manipulation dextre généraliste. Les encodeurs magnétiques et capteurs de force embarqués dans des mains multi-DOF imposent des contraintes de volume, de câblage et de calibration souvent incompatibles avec un déploiement à l'échelle. HandCept contourne ces limites en s'appuyant sur des capteurs déjà présents dans de nombreuses plateformes humanoïdes ou cobots, et la fusion EKF temps réel réduit le fossé sim-to-real, point critique pour accélérer le déploiement de politiques d'imitation learning ou de VLA (Vision-Language-Action) apprises en simulation. La précision annoncée de 2 à 4° reste toutefois à contextualiser: les résultats sont issus de conditions de laboratoire contrôlées et le papier n'a pas encore été évalué par les pairs. La course à la manipulation dextre s'est intensifiée en 2024-2025 avec des mains à haute densité d'actionneurs chez Figure (Figure 03), Sanctuary AI, Physical Intelligence (pi0), ou encore LEAP Hand côté recherche ouverte. La précision proprioceptive conditionne directement les performances de ces architectures. HandCept reste à ce stade un résultat de laboratoire: les auteurs n'annoncent ni partenaire industriel, ni timeline de commercialisation, ni intégration sur une plateforme humanoïde spécifique. Le pipeline Blender open-sourcé constitue néanmoins une contribution tangible pour la communauté, en facilitant la génération de données synthétiques pour d'autres équipes travaillant sur des architectures similaires sans accès à un système de capture de mouvement coûteux.

RecherchePaper
1 source
MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle
4arXiv cs.RO 

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Des chercheurs ont présenté MV-Actor (arXiv:2606.10899, juin 2026), un framework de perception multi-vues conçu pour la manipulation bimanuele robotique. Le système intègre trois modules successifs : Multi-view Semantic Interaction, qui partage la perception sémantique entre les différents flux caméra plutôt que de les traiter isolément ; Semantic-Spatial Token Interaction, qui ancre ces sémantiques visuelles dans une représentation 3D via un modèle de reconstruction feed-forward ; et un module Guided Metric Depth Repair, qui corrige la profondeur dégradée issue de capteurs grand public (Intel RealSense, Azure Kinect) pour fournir des ancres métriques fiables. Sur le benchmark PerAct2, référence académique dédiée à la manipulation bimanuele multi-tâches, MV-Actor atteint un taux de succès moyen de 87,8%, niveau state-of-the-art. Les évaluations en conditions réelles, avec changements de points de vue fréquents et profondeur bruitée, confirment des gains mesurables par rapport aux baselines RGB et RGB-D. Le verrou que MV-Actor tente de lever est structurel : les politiques multi-vues existantes encodent chaque vue indépendamment ou fusionnent les features de façon superficielle, ce qui produit une perception sémantique fragmentée et une localisation spatiale peu fiable. Pour les intégrateurs B2B qui déploient des cellules à deux bras (assemblage, emballage, picking de pièces déformables), c'est un problème concret : une politique qui "voit" mais ne comprend pas la cohérence entre vues génère des échecs en tâches coordonnées. Le module de réparation de profondeur est notable car il évite le recours à des lidars industriels onéreux, ce qui abaisse le seuil d'adoption. Le 87,8% sur PerAct2 est encourageant, mais ce benchmark reste simulé pour l'essentiel ; les auteurs mentionnent des tests réels sans publier de métriques détaillées par tâche, un point à nuancer. La manipulation bimanuele est un objectif central de plusieurs équipes : CMU, Stanford, ETH Zurich côté académique, et côté industrie les équipes de Figure, 1X Technologies et Sanctuary AI, qui intègrent des bras duaux dans leurs humanoïdes. Les politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux DeepMind sur RoboVLMs s'attaquent au même problème de coordination multi-membres. PerAct2, publié en 2024, étend PerAct au cas bimanuel et s'impose comme référence de comparaison. MV-Actor est pour l'heure un travail académique sans affiliation industrielle déclarée ; aucun pilote ni partenariat de déploiement n'est annoncé, ce qui le situe côté recherche fondamentale plutôt que produit imminent.

UEETH Zurich est cité comme acteur académique sur la manipulation bimanuele, mais MV-Actor n'implique aucune institution ou entreprise européenne directement ; pas d'impact immédiat sur la France/UE.

IA physiqueOpinion
1 source
RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste
5arXiv cs.RO 

RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste

Des chercheurs ont publié sur arXiv en juin 2026 un framework nommé RGB-S pour améliorer la fusion visuo-tactile dans la manipulation dextre robotique sous conditions d'occlusion. La méthode projette les emplacements des capteurs tactiles directement sur le plan image RGB via la cinématique directe du robot et la calibration caméra, puis génère des cartes de saillance gaussiennes modulées par la force pour modéliser l'incertitude spatiale liée aux erreurs de calibration. Ces ancres 2D sont injectées dans un backbone visuel standard via une architecture de conditionnement à initialisation zéro, ce qui préserve les représentations visuelles pré-entraînées. Testé sur six tâches de manipulation dextre en simulation et en monde réel sous occlusions sévères, RGB-S dépasse la meilleure baseline visuo-tactile implicite de 26,7 points de pourcentage en taux de succès sur les scénarios occludés. Ce résultat touche à un verrou majeur du déploiement de mains robotiques polyvalentes. Les approches implicites existantes laissent au modèle le soin d'apprendre seul les correspondances inter-modalités depuis un faible nombre de démonstrations, ce qui les rend fragiles dès que la vision est dégradée par l'auto-occlusion des doigts, la poussière ou un éclairage défavorable. En ancrant explicitement les contacts physiques dans l'espace image avec un prior géométrique fort, RGB-S court-circuite ce problème sans détruire les capacités visuelles pré-entraînées. Le gain de 26,7 points sur des expériences réelles est solide, bien que la sélection restreinte à six tâches de benchmark et l'absence de comparaison avec des architectures VLA récentes invitent à nuancer la portée des conclusions. La fusion visuo-tactile est un champ actif depuis l'essor des capteurs haute résolution comme GelSight ou DIGIT. Les approches précédentes, qu'il s'agisse d'imitation learning ou de reinforcement learning, peinent à résoudre le transfert sim-to-real sur des prises complexes. Du côté industriel, des acteurs comme Sanctuary AI, Dexterous Robotics ou Enchanted Tools (France) intègrent des interfaces tactiles dans leurs plateformes humanoïdes pour la manipulation fine. RGB-S se positionne comme une brique modulaire compatible avec des backbones standards, ce qui facilite son intégration dans des pipelines existants. Les prochaines validations naturelles passeront par des benchmarks standardisés comme DexYCB et des tests sur des mains à plus de six degrés de liberté en environnement industriel non contrôlé.

UEEnchanted Tools (France), qui intègre des interfaces tactiles dans ses humanoïdes, pourrait bénéficier directement de cette brique modulaire pour renforcer la manipulation fine sous occlusion sans reconstruire ses représentations visuelles pré-entraînées.

RecherchePaper
1 source
TARS présente son IA incarnée à la conférence de robotique ICRA 2026
6Robotics & Automation News 

TARS présente son IA incarnée à la conférence de robotique ICRA 2026

L'article source est très tronqué (il s'arrête à "[…]" après la démo sign-language), ce qui limite fortement la précision possible sur les métriques techniques. Voici ce que l'on peut écrire de factuel : --- La startup TARS a effectué les débuts internationaux de sa plateforme DexHand lors de l'ICRA 2026, la conférence annuelle de l'IEEE sur la robotique, tenue début juin 2026. Le Dr Ding, co-fondateur et directeur scientifique de l'entreprise, y a prononcé le discours d'ouverture en séance plénière. La démonstration publique de la DexHand a consisté à reproduire les 26 gestes de l'alphabet américain en langue des signes, une séquence qui a attiré l'attention de chercheurs et d'industriels présents sur le salon. La maîtrise de la manipulation dextre reste l'un des verrous les plus structurants de la robotique humanoïde et collaborative : reproduire fidèlement la gamme de gestes de la main humaine en temps réel constitue un indicateur crédible de maturité mécanique et de contrôle. Une présence en keynote plénière à l'ICRA, forum de référence académique et industriel, signale que TARS cherche à positionner sa DexHand comme plateforme de recherche autant que produit commercial, un positionnement qui peut accélérer l'adoption dans les labos et chez les intégrateurs. TARS opère dans un segment très disputé dominé par Shadow Robot (UK, racheté par Sanctuary AI), Inspire Robots (Chine), et les mains d'Agility ou de Figure embarquées dans leurs humanoïdes. Sans métriques publiées sur le nombre de degrés de liberté, le payload ou la latence de contrôle, il est prématuré de situer la DexHand dans ce classement. La suite de l'article source étant indisponible, les détails de déploiement et la roadmap commerciale restent à confirmer.

HumanoïdesOpinion
1 source
NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA
7NVIDIA Blog Robotics 

NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA

NVIDIA et LG Group ont annoncé la construction d'une infrastructure conjointe qualifiée d'"AI factory", destinée à accélérer les activités du conglomérat coréen dans quatre domaines: la robotique, la conduite autonome, les technologies de centres de données et les services cloud GPU. L'infrastructure couvrira l'intégralité du cycle, de l'entraînement à la simulation et au déploiement, en reliant génération de données, simulation robotique et jumeaux numériques dans un workflow unifié. Du côté robotique, LG Electronics intègre les frameworks NVIDIA Isaac Sim et Isaac Lab dans le développement de CLoiD, son robot domestique conçu pour les tâches d'intérieur, et explore l'adoption du modèle de fondation GR00T, un VLA (vision-language-action model) destiné à lui conférer un raisonnement de type humanoïde. LG Electronics développe également une data factory d'IA physique pour fournir des données d'entraînement aux entreprises coréennes et mondiales, en s'appuyant sur NVIDIA Cosmos pour la génération de données synthétiques. LG Innotek prépare des solutions de capteurs optiques optimisées pour les environnements GPU NVIDIA, tandis que LG CNS intègre Isaac, Cosmos et GR00T dans sa plateforme industrielle PhysicalWorks pour accélérer l'automatisation logistique et manufacturière. Sur le volet infrastructure, les deux groupes approfondissent leur collaboration autour du refroidissement des AI factories, incluant des unités de distribution de refroidissement (CDU), des plaques froides et un design modulaire préfabriqué, le tout aligné sur la plateforme NVIDIA DSX. Ce partenariat illustre la verticalisation des stacks d'IA physique, du modèle de fondation jusqu'au déploiement industriel. LG apporte des données de fabrication issues de sites mondiaux, une expertise optique via Innotek et des capacités d'intégration SI via CNS, là où NVIDIA fournit la couche logicielle et les accélérateurs. L'annonce de la data factory mérite une attention particulière: LG se positionne comme fournisseur de données d'entraînement pour l'industrie robotique, une ressource devenue critique face au défi du sim-to-real. Il convient cependant de souligner que CLoiD et l'intégration GR00T restent au stade de l'exploration déclarée, non d'un produit expédié, et qu'aucune métrique de déploiement industriel ni de volumétrie de production n'est communiquée. Ce rapprochement s'inscrit dans la stratégie NVIDIA d'expansion de l'écosystème Isaac et GR00T auprès des industriels asiatiques, après des partenariats similaires avec Foxconn et Hyundai. LG entre ainsi en compétition directe avec Samsung et SK dans la course des conglomérats coréens à intégrer l'IA physique dans leur portefeuille. Dans le segment des robots de service, CLoiD sera en concurrence indirecte avec Figure 03, Tesla Optimus Gen 3, 1X NEO et Sanctuary AI Phoenix, tous en déploiements pilotes chez des industriels. Côté infrastructure AI factory, Dell, HPE et Lenovo sont également partenaires certifiés NVIDIA DSX, ce qui relativise toute exclusivité de l'accord. Aucune date de livraison ni volume de déploiement n'est précisé dans l'annonce: il s'agit pour l'instant d'un cadre de coopération stratégique, pas d'un contrat de déploiement signé.

Chine/AsieOpinion
1 source
Le public américain acclame les robots dansants Unitree pendant que le Congrès cherche à les interdire
8SCMP Tech 

Le public américain acclame les robots dansants Unitree pendant que le Congrès cherche à les interdire

Les robots humanoïdes G1 du fabricant chinois Unitree Robotics ont fait une apparition remarquée dans le show télévisé américain America's Got Talent lors du lancement de sa nouvelle saison, décrochant une ovation debout du public en studio. La performance, diffusée en prime time sur une chaîne nationale américaine, a suscité une adhésion populaire immédiate selon les analystes du secteur, même si les chiffres d'audience définitifs n'ont pas encore été communiqués. Le G1 est un humanoïde bipède commercialisé par Unitree à environ 16 000 dollars, positionné comme l'une des plateformes humanoïdes les moins chères du marché mondial. Ce contraste entre l'enthousiasme du grand public et la méfiance des élus illustre une tension structurelle croissante dans le secteur robotique américain. Alors que des législateurs au Congrès examinent des projets de loi visant à restreindre ou interdire l'utilisation de robots et composants d'origine chinoise dans les infrastructures critiques, une exposition télévisée à grande échelle normalise ces mêmes machines auprès de dizaines de millions de foyers. Pour les décideurs industriels et les intégrateurs, ce clivage complique les arbitrages d'approvisionnement : les plateformes chinoises restent attractives sur le plan tarifaire mais exposent à un risque réglementaire croissant. Unitree a connu une montée en puissance rapide, passant des robots quadrupèdes bon marché (série Go) aux humanoïdes G1 et H1. La société s'impose comme le pendant grand public de Figure AI, Agility Robotics ou Boston Dynamics sur le segment entrée de gamme. Les tentatives législatives américaines de restreindre les robots chinois s'inscrivent dans la continuité des régulations visant Huawei ou DJI, et pourraient accélérer la demande pour des alternatives domestiques comme Apptronik ou Sanctuary AI si elles aboutissent.

UELes intégrateurs européens utilisant des plateformes Unitree s'exposent à un risque réglementaire croissant si l'UE s'aligne sur la trajectoire législative américaine, sur le modèle des restrictions DJI/Huawei.

Chine/AsieOpinion
1 source
Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique
9arXiv cs.RO 

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.00117) une méthode d'explication de la navigation robotique fondée sur le raisonnement ontologique et la théorie des affordances. L'approche construit, en temps réel, une ontologie locale représentant les entités proches du robot avec leurs affordances (ce qu'elles permettent de faire), leurs états possibles, et leurs relations spatiales qualitatives. Face à un obstacle, le système ne se contente pas de détecter le blocage : il évalue des hypothèses de changement d'état -- une porte peut-elle être ouverte, une chaise déplacée -- afin de générer des explications actionnables sur la manière de poursuivre la navigation. L'approche est validée sur un benchmark centré sur un scénario de robot bibliothécaire, avec des cas de navigation générés de manière procédurale. Les résultats montrent que le raisonnement ontologique identifie les facteurs d'explication pertinents avec une précision supérieure à une approche purement sémantique (semantic-only baseline), et reste robuste lorsque la densité d'objets non pertinents augmente -- ce qu'on appelle le semantic clutter, l'un des talons d'Achille des systèmes de navigation en environnement humain réel. Pour un intégrateur déployant des robots dans des espaces partagés (entrepôts mixtes, hôpitaux, bureaux), la capacité à expliquer les décisions de navigation répond à une exigence opérationnelle et réglementaire croissante, notamment sous l'AI Act européen. L'explication n'est pas ici cosmétique : elle est structurellement liée au raisonnement, ce qui la rend vérifiable et auditable par un opérateur humain. L'approche s'inscrit dans le courant de l'IA explicable (XAI) appliquée à la robotique. La théorie des affordances, conceptualisée par le psychologue James Gibson dans les années 1970, connaît un regain d'intérêt depuis l'émergence des vision-language models (VLMs) et des LLMs. Les approches concurrentes incluent les scene graphs sémantiques utilisés par Boston Dynamics et Sanctuary AI, ainsi que les planificateurs fondés sur LLM comme SayCan (Google DeepMind). Par rapport à ces méthodes, l'ontologie locale proposée ici est plus légère et plus explicite formellement, mais reste évaluée sur un benchmark synthétique limité -- le passage à des environnements réels non contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : ce travail est une contribution académique de fond, pas un produit en voie de commercialisation.

UEL'approche répond structurellement aux exigences de l'AI Act pour les systèmes autonomes navigant en environnement humain, en fournissant des explications auditables sur les décisions de navigation, pertinent pour les intégrateurs européens déployant des robots en espaces partagés.

RecherchePaper
1 source
Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine
10arXiv cs.RO 

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine

Des chercheurs présentent dans un preprint arXiv (2505.20795, soumis en mai 2025) un framework en deux étapes permettant à un robot d'apprendre une nouvelle tâche de manipulation en regardant simplement une vidéo de démonstration humaine, sans collecter de données de téléopération ni effectuer de fine-tuning du modèle. Le système repose d'abord sur un modèle de génération vidéo entraîné par cross-prediction sur un dataset mixte humain-robot, pour construire une représentation latente commune aux deux modalités. Ensuite, une perte contrastive prototypique ("prototypical contrastive loss") aligne cet espace de représentation avec un espace d'action partagé entre humain et robot. À l'inférence, une vidéo de démonstration humaine sert directement de prompt : le robot exécute la tâche correspondante sans aucune adaptation. Les validations portent sur des tâches de manipulation dextre en environnement réel. L'enjeu industriel est direct : la collecte de données de téléopération reste le goulot d'étranglement majeur du robot learning, coûteuse, lente, dépendante d'opérateurs qualifiés. Si l'approche tient à l'échelle, elle réduirait drastiquement le coût d'onboarding d'une nouvelle tâche, passant de plusieurs heures de collecte à quelques secondes de vidéo. C'est précisément le type de capacité qui intéresse les intégrateurs industriels et les startups d'AMR cherchant à déployer des politiques généralisables sans retraining continu. Cela dit, le papier reste un preprint académique : les résultats portent sur un nombre limité de tâches de manipulation, et l'absence de métriques comparatives détaillées (nombre de démonstrations, taux de succès absolu, diversité des saisies) rend l'évaluation de la robustesse difficile à ce stade. La question du "demonstration gap" humain-robot est travaillée depuis plusieurs années, notamment via les travaux sur les video-language-action models (VLA) et des approches comme ACT ou Diffusion Policy chez des labos comme Stanford, CMU, ou encore Physical Intelligence (Pi-0). L'originalité ici réside dans le découplage explicite entre représentation et action via la cross-prediction, plutôt que l'alignement direct de trajectoires. Des acteurs comme 1X, Sanctuary AI ou Figure (avec son modèle Helix) explorent des pistes similaires côté industriel. La prochaine étape logique pour cette ligne de recherche est la généralisation à des objets non vus et à des scènes plus encombrées, deux conditions qui font souvent échouer les approches zero-shot en déploiement réel.

IA physiqueOpinion
1 source
Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation
11arXiv cs.RO 

Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation

Publiés le 30 mai 2026 sur arXiv (2506.30569), des chercheurs présentent Any-ttach, un système de manipulation robotique qui renonce à la complexité des mains multi-doigts au profit d'un mécanisme de swap rapide d'effecteurs terminaux. Le système repose sur trois composants : un mécanisme d'échange automatique bas coût pour une interface robotique à ouverture/fermeture, un dispositif portatif pour collecter des démonstrations humaines, et un planificateur de tâches qui compose des compétences d'utilisation d'outils apprises, paramétriques et planifiées. L'interface unifiée supporte une gamme hétérogène d'effecteurs, outils du quotidien, ciseaux articulés, doigts Fin Ray et une main anthropomorphe bas coût, tous connectés via le même connecteur. En validation, le système exécute deux tâches longue durée : préparer un sandwich et couper un concombre, chacune décomposée en six sous-tâches avec changements d'effecteurs successifs. L'intérêt industriel réside dans le changement de paradigme proposé : là où la roadmap dominante mise sur des mains à 20+ degrés de liberté pour atteindre la dextérité humaine, Any-ttach montre qu'une capacité d'échange rapide d'outils peut produire une polyvalence fonctionnelle comparable à un coût matériel et logiciel nettement inférieur. Les auteurs rapportent une meilleure fiabilité de swap, une collecte de démonstrations plus efficace et une moindre variabilité de pose d'outil, trois métriques directement pertinentes pour un intégrateur souhaitant déployer sans ingénierie robotique lourde. L'approche reste toutefois un preprint sans validation en environnement industriel réel, et les tâches démontrées (cuisine domestique) sont loin des contraintes d'une ligne de production. L'article s'inscrit dans un débat plus large sur la morphologie optimale du robot manipulateur. Des acteurs comme Sanctuary AI, Apptronik ou encore Pollen Robotics (FR) investissent massivement dans des mains dextres haute fidélité, tandis que Boston Dynamics et ses pairs industriels restent attachés aux pinces simples. Any-ttach occupe un espace intermédiaire, proche dans l'esprit des systèmes à changement d'outil rapide des robots industriels (ISO 9283), mais étendu à la manipulation non structurée. Les prochaines étapes selon les auteurs sont disponibles sur le site dédié any-ttach.github.io ; aucun partenaire industriel ni timeline de commercialisation n'est mentionné.

UEL'approche Any-ttach constitue un défi indirect pour Pollen Robotics (FR), dont la roadmap repose sur des mains dextres haute fidélité : si le paradigme swap-d'effecteurs s'impose, cela pourrait remettre en question les choix d'investissement des acteurs européens engagés dans la dextérité multi-doigts.

IA physiquePaper
1 source
Contrôle des robots humanoïdes avec conscience de la force pour les mains multidoigts
12arXiv cs.RO 

Contrôle des robots humanoïdes avec conscience de la force pour les mains multidoigts

Des chercheurs de l'Istituto Italiano di Tecnologia (IIT, Gênes) ont publié sur arXiv (2603.08142v2) un framework de contrôle force-aware pour mains multi-doigts sur robots humanoïdes. Le système exploite cinq capteurs magnétiques Xela pour estimer les forces de contact en temps réel, sans recourir aux signaux tactiles bruts. Un dataset de signaux tactiles couplés à des mesures de force ground-truth a été constitué via des interactions avec des indenters calibrés, puis utilisé pour entraîner des estimateurs de force. Le contrôleur résultant coordonne simultanément le torse, le bras, le poignet et les doigts pour redistribuer les forces de contact et maintenir une prise stable sur des objets à distribution de masse variable. Sur une tâche d'équilibrage impliquant cinq objets distincts, le framework atteint 82,7 % de taux de succès, et 80 % de précision dans des scénarios multi-objets. L'approche est notable car elle s'appuie sur des forces estimées plutôt que sur des signaux capteurs spécifiques, ce qui la rend théoriquement transférable à tout capteur capable de produire une estimation de force, sans recalibration du contrôleur. Le noeud technique central est la minimisation de la distance entre le Centre de Pression (CoP) et le centroïde du polygone de contact des doigts, un critère classique de stabilité de prise en mécanique du contact. Ce choix de critère explicite, couplé à un schéma de contrôle model-based, contraste avec les approches purement apprentissage (VLA, imitation learning) dominantes dans les humanoïdes commerciaux actuels, où l'interprétabilité de la commande reste limitée. Pour les intégrateurs industriels, c'est un signal que le sim-to-real pour la manipulation dextre peut passer par des architectures hybrides capteur-modèle plutôt que par du bout-en-bout. L'IIT est l'un des laboratoires européens les plus actifs en robotique humanoïde, connu notamment pour le robot iCub et ses travaux fondateurs sur la manipulation dextre et la peau artificielle. Ce travail s'inscrit dans la lignée de recherches sur le contrôle de contact multi-doigts, un domaine où des acteurs comme Shadow Robot (UK), Sanctuary AI (Canada) ou Agility Robotics (USA) progressent également, mais via des stacks propriétaires moins publiés. Le code et les données sont disponibles en open source sur GitHub (hsp-iit/multifingered-force-aware-control), ce qui facilite la reproduction et l'adaptation. Les prochaines étapes naturelles seraient une validation sur des scénarios d'assemblage réels et une intégration avec des politiques de plus haut niveau pour la planification de saisie.

UEL'IIT (Gênes) publie en open source un framework de contrôle dextre pour humanoïdes avec métriques concrètes, offrant aux laboratoires et industriels européens un outil directement reproductible pour la manipulation multi-doigts sans dépendance à des capteurs propriétaires.

FR/EU ecosystemePaper
1 source
IntBot et Certis Group s'associent pour déployer l'IA physique en entreprise à Singapour
13Robotics Business Review 

IntBot et Certis Group s'associent pour déployer l'IA physique en entreprise à Singapour

IntBot, startup californienne fondée à San Jose, et Certis, opérateur de sécurité et de services aux entreprises coté à la Bourse de Singapour, ont annoncé en mai 2026 un partenariat stratégique visant à développer des applications robotiques dites "socialement intelligentes" pour des environnements à forte affluence publique à Singapour. L'accord prévoit d'intégrer la technologie General Social Intelligence d'IntBot, un système de perception multimodale en temps réel couplé à une boucle d'interaction fermée, aux capacités opérationnelles de Certis dans la gestion de missions critiques. Les cas d'usage ciblés sont les robots concierges et assistants dans des environnements comme les hôtels, les centres de conférence et les campus. IntBot avait présenté son humanoïde de service Nylo au CES 2026, et affirme être déjà déployé dans le secteur de l'hôtellerie, sans fournir de chiffres précis sur l'échelle de ces déploiements ni de spécifications techniques (charge utile, degrés de liberté, temps de cycle). L'annonce reste à ce stade un accord d'exploration : aucun calendrier de déploiement ni volume contractuel n'est communiqué. Ce partenariat illustre un glissement progressif dans la robotique humanoïde commerciale : la manipulation physique des tâches cède progressivement sa place à l'interaction humaine comme principal verrou technologique. Lei Yang, cofondateur et PDG d'IntBot, l'articule explicitement : selon lui, avec la maturité des modèles multimodaux, le bottleneck décisif pour l'IA incarnée se déplace de la manipulation vers l'interaction sociale. Pour les intégrateurs et les décideurs B2B, l'enjeu est concret : un robot humanoïde en espace public doit interpréter les intentions des usagers, gérer un contexte social dynamique et maintenir une fiabilité opérationnelle compatible avec des environnements en exploitation réelle, sans cage de sécurité. L'approche de Certis, qui conçoit la sécurité, la gestion des installations et des effectifs comme un modèle opérationnel unifié, vise à fournir ce que la plupart des startups robotiques peinent à livrer seules : des workflows structurés et une intégration dans des opérations existantes à contraintes élevées. IntBot s'inscrit dans un champ concurrentiel dense, dominé par des acteurs disposant de ressources bien supérieures : Figure AI avec le Figure 03, Tesla avec l'Optimus Gen 3, Boston Dynamics avec l'Atlas, Physical Intelligence avec Pi-0, et Agility Robotics avec Digit, ainsi que Sanctuary AI et 1X pour le volet interaction sociale. Le choix de Singapour comme marché d'entrée est stratégique : la cité-État dispose d'une infrastructure smart-city avancée et d'un cadre réglementaire favorable à l'expérimentation robotique en milieu public. Certis, ancré institutionnellement en Asie-Pacifique, apporte une crédibilité opérationnelle que les startups ne peuvent pas construire seules. La prochaine étape attendue sera la définition concrète des cas d'usage par Certis avant tout déploiement à l'échelle, une phase qui, dans le secteur, prend historiquement bien plus longtemps que les communiqués de presse ne le laissent entendre.

HumanoïdesOpinion
1 source
Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique
14arXiv cs.RO 

Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique

Des chercheurs ont publié sur arXiv (arXiv:2409.20473v3) un cadre méthodologique permettant, pour la première fois, de quantifier la contribution individuelle de chaque capteur tactile à la performance d'une politique d'apprentissage par renforcement profond (DRL) appliquée à la manipulation dextère. L'étude cible la Shadow Hand, une main robotique à 24 degrés de liberté équipée de 92 capteurs tactiles. En deux étapes, les auteurs réduisent ce réseau dense à 14 capteurs tout en conservant plus de 90 % de la performance initiale sur trois tâches de manipulation standardisées (bloc, oeuf, stylo). La première phase, empirique, écrête le nombre de capteurs de 92 à 21 en maintenant 93 % des performances. La seconde phase, plus fine, combine une régression par processus gaussiens (GPR) et une régression Lasso pour classer l'importance fonctionnelle de chaque capteur restant. Le résultat le plus saillant contredit l'intuition habituelle en robotique : les capteurs du doigt médius contribuent négativement à l'apprentissage, dégradant activement la politique DRL plutôt que de l'améliorer. À l'inverse, le pouce, l'annulaire et l'auriculaire concentrent l'essentiel de l'information utile au contrôle de contact. Pour les intégrateurs et les équipes de R&D en manipulation robotique, cela signifie qu'une réduction drastique du nombre de capteurs n'est pas seulement possible sans sacrifier les performances, elle peut même les améliorer en éliminant des signaux redondants ou antagonistes. Des expériences de transfert zéro-shot sur deux nouveaux objets et une validation croisée sur l'Allegro Hand et la Leap Hand confirment que ces classements d'importance se généralisent au-delà de la plateforme d'entraînement. La problématique de placement de capteurs tactiles reste largement non résolue dans la littérature, en l'absence de méthodes systématiques comparables à celles développées pour la vision. Ce travail s'inscrit dans un contexte où plusieurs laboratoires et entreprises, dont Sanctuary AI, Agility Robotics ou encore OpenAI avec Dexterous Manipulation, investissent massivement dans la manipulation fine comme prochain verrou de la robotique humanoïde. Les concurrents directs sur la Shadow Hand incluent des frameworks basés sur le sim-to-real (IsaacGym, MuJoCo), qui peinent encore à modéliser fidèlement le retour tactile dense. Les auteurs proposent leurs critères de déploiement comme des guidelines quantitatifs applicables à d'autres morphologies robotiques, ouvrant la voie à des configurations capteurs optimisées dès la phase de conception mécanique plutôt qu'a posteriori.

RecherchePaper
1 source
NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel
15arXiv cs.RO 

NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel

Une équipe de chercheurs a publié sur arXiv (réf. 2510.20390v2) NeuralTouch, un framework multimodal combinant les Neural Descriptor Fields (NDF) avec le retour haptique pour améliorer la précision de préhension des robots manipulateurs. Le principe repose sur deux étages : les NDF génèrent une représentation implicite de la géométrie de contact cible à partir de données visuelles, puis une politique d'apprentissage par renforcement profond (deep RL) affine la saisie en temps réel via des capteurs tactiles. Le système a été validé sur des tâches de manipulation fine, insertion de cheville dans un trou (peg-out-in-hole) et ouverture de bouchon de bouteille, avec un transfert zéro-shot du simulateur vers l'environnement physique, sans fine-tuning supplémentaire. Les études d'ablation en simulation et les tests réels montrent une amélioration significative de la précision et de la robustesse par rapport aux baselines, bien que les métriques quantitatives précises ne figurent pas dans le résumé publié. Le problème adressé est bien connu des intégrateurs : les NDF seuls souffrent d'imprécisions dues à une calibration caméra imparfaite, des nuages de points incomplets et la variabilité géométrique des objets. À l'inverse, les approches tactiles existantes restent cantonnées à des géométries de contact prédéfinies et simples, ce qui limite leur déployabilité industrielle. NeuralTouch contourne cette dualité en conditionnant la politique RL sur les descripteurs neuronaux sans nécessiter de spécification explicite du type de contact, ce qui est précisément le verrou que le secteur cherche à lever pour rendre les bras manipulateurs économiquement viables dans des environnements non structurés. La capacité de généralisation inter-catégories d'objets sans ré-entraînement représente un argument concret pour les COO industriels cherchant à réduire les coûts d'intégration. Ce travail s'inscrit dans un courant actif autour du sim-to-real pour la manipulation de précision, où Stanford, MIT et CMU rivalisent avec des acteurs industriels comme Sanctuary AI, 1X Technologies et Physical Intelligence, dont le modèle pi-0 cible également la manipulation généraliste. NeuralTouch se distingue par son approche hybride vision-tactile conditionnée sur des descripteurs neuronaux, évitant la fragmentation habituelle entre les pipelines purement visuels et les politiques haptiques spécialisées. Reste à démontrer la robustesse du framework sur une gamme plus large de géométries et sur des plateformes robotiques commerciales, étapes qui conditionneront le passage d'une démonstration académique à un outil industriellement pertinent.

RecherchePaper
1 source
Huit géants technologiques déploient des flottes autonomes sur le grand terrain d'essai public de Singapour
16Interesting Engineering 

Huit géants technologiques déploient des flottes autonomes sur le grand terrain d'essai public de Singapour

Singapour a officialisé le 20 mai 2026, lors de l'ATxSummit, le lancement de son premier terrain d'expérimentation public à grande échelle dédié à l'IA physique, situé dans le quartier Punggol Digital District. Ce dispositif, piloté conjointement par l'Infocomm Media Development Authority (IMDA), JTC et le Singapore Institute of Technology (SIT), accueillera dès la fin 2026 des flottes de robots autonomes multiusages et multi-opérateurs dans des espaces publics partagés. Les premières entreprises à co-concevoir et déployer leurs services sont Certis, DHL, Grab et QuikBot, sur des applications de livraison de repas et de colis, nettoyage et patrouille de sécurité. Sur le plan réglementaire, la Land Transport Authority a accordé une exemption au niveau du quartier dans le cadre de l'Active Mobility Act, autorisant des plateformes autonomes à circuler dans des espaces publics normalement fermés à ces usages. En parallèle, Nvidia annonce l'ouverture d'un laboratoire de recherche à Singapour centré sur l'IA embarquée (embodied AI) et l'efficience des systèmes de calcul, en coopération avec des universités, des agences gouvernementales et des industriels. Ce sera le deuxième site de recherche Nvidia dans la région Asie-Pacifique. William Dally, directeur scientifique de Nvidia, a précisé que les travaux viseront notamment des applications d'assemblage automobile. Ce que cette initiative valide, c'est la thèse selon laquelle le "sim-to-real gap" ne se comble pas en laboratoire mais en déploiement réel, avec des contraintes d'infrastructure, de cohabitation humain-robot et de conformité réglementaire que les environnements contrôlés ne répliquent pas. Pour les intégrateurs et les décideurs industriels, la distinction clé ici est celle entre un proof-of-concept filmé et un pilote en conditions réelles multi-opérateurs : Singapour construit délibérément ce second registre. L'association de spécialistes en workflows numériques (FieldAI, Thoughtworks), en localisation et mobilité (Slamtec, Unitree) et en robotique de service (QuikBot) au sein du Centre for Intelligent Robotics de SIT signale une approche orientée stack complet plutôt que brique technologique isolée. Sur le plan concurrentiel, Singapour se positionne explicitement face à des hubs comme Boston, Tokyo ou Séoul, qui concentrent déjà l'essentiel du capital-risque humanoid (Boston Dynamics, Agility, Figure, Unitree, Sanctuary AI). L'avantage singapourien tient à un cadre réglementaire stabilisé et à une continuité d'investissement public : le Home Team Humanoid Robotics Centre, premier site mondial dédié à la robotique humanoïde pour la sécurité publique, avait été annoncé en 2025, et un service de navettes autonomes est opérationnel à Punggol depuis avril 2026. La prochaine étape logique sera l'extension du périmètre d'exemption réglementaire et la mesure des métriques opérationnelles réelles, que Singapour n'a pour l'instant pas communiquées, ce qui tempère légèrement l'ampleur des annonces.

UESingapour se positionne explicitement comme concurrent aux hubs robotiques de Boston et Tokyo, ce qui constitue un signal indirect pour les décideurs français et européens (France 2030, EIC) sur la nécessité d'accélérer la création de terrains d'expérimentation publics multi-opérateurs avec exemptions réglementaires comparables.

Chine/AsieOpinion
1 source
IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques
17arXiv cs.RO 

IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques

Des chercheurs ont publié sur arXiv (2604.07833) un cadre architectural pour la gouvernance d'exécution des agents incarnés, ces systèmes IA capables d'agir sur des robots, outils ou environnements physiques. La proposition centrale est une couche de gouvernance dédiée, externe à la boucle d'inférence de l'agent, chargée de cinq fonctions : vérification de politiques, admission de capacités, surveillance d'exécution, gestion des rollbacks et déclenchement d'override humain. Cette architecture formalise une frontière de contrôle entre l'agent incarné, des modules de capacité baptisés ECMs (Embodied Capability Modules) et la couche de gouvernance runtime. Les auteurs ont validé l'approche sur 1 000 essais de simulation randomisés couvrant trois dimensions de gouvernance : taux d'interception des actions non autorisées à 96,2 %, réduction des continuations non sécurisées de 100 % à 22,2 % en cas de dérive d'exécution, et 91,4 % de récupération avec conformité totale aux politiques, tous significativement supérieurs aux baselines testés (p<0,001). L'enjeu dépasse la robotique académique. À mesure que des agents IA obtiennent une autorité d'exécution réelle sur des bras industriels, des AMR (Autonomous Mobile Robots) ou des systèmes cyber-physiques, leur contrôlabilité devient un problème d'ingénierie système critique. L'approche dominante actuelle consiste à enfouir la logique de sécurité à l'intérieur de la boucle agent, ce qui rend l'audit difficile et la standardisation quasi impossible dans des environnements réglementés (santé, industrie critique). En externalisant la gouvernance dans une couche séparée, les auteurs proposent un modèle où la politique d'usage peut être modifiée ou vérifiée sans toucher aux poids du modèle, répondant à un besoin concret des intégrateurs industriels qui composent avec plusieurs fournisseurs et des référentiels de sécurité imposés par leurs clients. Ce papier s'inscrit dans un mouvement plus large de "safety at deployment", distinct de l'alignment par entraînement (RLHF, Constitutional AI). Il dialogue avec les architectures de contrôle comme ROS 2 et les travaux sur les systèmes multi-agents à responsabilité distribuée. Le contexte concurrentiel est direct : OpenAI, Google DeepMind, Figure AI, Physical Intelligence et Sanctuary AI développent tous des agents incarnés à capacité d'exécution croissante, mais la gouvernance runtime reste un angle mort industriel. Une telle architecture trouverait une application prioritaire dans les déploiements d'humanoïdes en environnement contrôlé, entrepôts ou lignes d'assemblage, où les opérateurs exigent des garanties d'auditabilité que les architectures end-to-end ne fournissent pas encore.

UEL'architecture de gouvernance externe proposée répond directement aux exigences d'auditabilité et de traçabilité de l'AI Act pour les systèmes d'IA à haut risque, offrant aux intégrateurs robotiques européens un cadre de référence concret pour démontrer la conformité de leurs agents incarnés sans modifier les poids des modèles.

RechercheOpinion
1 source
Xynova dévoile une main dextérique hybride de deuxième génération pour robots humanoïdes
18Pandaily 

Xynova dévoile une main dextérique hybride de deuxième génération pour robots humanoïdes

La startup Xynova a présenté sa main dextère hybride de deuxième génération (Gen-2), destinée aux plateformes de robots humanoïdes. L'architecture combine des actionneurs rigides, qui garantissent précision et force, avec des éléments à compliance douce inspirés de la soft robotics, capables de s'adapter à des objets de formes, textures et rigidités variables. L'ensemble constitue un système d'actionnement hybride qui vise à dépasser les limites des préhenseurs industriels standards, inaptes à la manipulation fine. À noter : Xynova n'a divulgué aucun chiffre technique concret, ni nombre de degrés de liberté (DOF), ni charge utile nominale, ni temps de cycle, ni tarification. Ce dévoilement s'apparente davantage à un teaser produit qu'à un lancement commercial. La qualité des effecteurs terminaux constitue aujourd'hui l'un des principaux goulots d'étranglement dans la commercialisation des robots humanoïdes. La transition entre démonstrations en laboratoire et déploiements industriels réels exige une manipulation adaptative que les mains rigides actuelles ne permettent pas encore. L'approche hybride de Xynova, si elle tient ses promesses en conditions réelles, pourrait résoudre partiellement le "manipulation gap" qui freine l'adoption par les intégrateurs et les industriels. Pour un COO de logistique ou un intégrateur AMR, la capacité à traiter des articles non standardisés sans reprogrammation est un prérequis commercial. C'est précisément ce marché que cible Xynova, même si l'absence de benchmarks indépendants et de vidéos de manipulation complexe limite toute évaluation objective à ce stade. L'annonce s'inscrit dans une accélération visible du marché des mains dextères pour humanoïdes. Tesla (Optimus Gen 3), Figure (Figure 03) et un nombre croissant d'acteurs chinois investissent massivement dans la fermeture du gap de manipulation, reconnu comme le principal verrou technique avant une industrialisation à grande échelle. Des acteurs comme Sanctuary AI, Shadow Robot ou le projet open-source LEAP Hand ont déjà proposé des architectures concurrentes sur ce segment. Xynova se positionne comme fournisseur de composants pour écosystème humanoïde plutôt que comme constructeur de plateforme complète, un modèle qui pourrait séduire les intégrateurs cherchant à upgrader des plateformes existantes. Aucune date de disponibilité commerciale ni partenariat de déploiement n'ont été annoncés.

HumanoïdesOpinion
1 source
Un robot de tennis de table bat certains des meilleurs joueurs mondiaux : les implications majeures pour la robotique
19Robohub 

Un robot de tennis de table bat certains des meilleurs joueurs mondiaux : les implications majeures pour la robotique

Sony AI a publié dans la revue Nature les résultats d'un robot de tennis de table autonome baptisé Ace, capable de remporter trois matchs sur cinq contre des joueurs de niveau élite, soit des athlètes comptant plus de dix ans de pratique et vingt heures d'entraînement hebdomadaire en moyenne. Le robot a perdu ses deux confrontations face à des professionnels de la ligue japonaise, mais a remporté un set contre l'un d'eux, dont Yamato Kawamata lors d'un match en décembre 2025. Ace joue sur une table réglementaire, avec un équipement standard, contre des adversaires libres d'utiliser l'intégralité de leur répertoire technique. La balle peut dépasser 20 mètres par seconde et les joueurs professionnels peuvent lui imprimer une rotation jusqu'à 9 000 tours par minute, laissant moins d'une demi-seconde au robot pour évaluer la trajectoire et formuler une réponse. Pour percevoir cette dynamique, le système combine trois capteurs de vision événementielle (qui détectent les changements de luminosité plutôt que de capturer des images fixes) et neuf caméras haute vitesse. Un algorithme d'apprentissage par renforcement profond, entraîné sur plusieurs millions de rallyes simulés en self-play, recalcule les commandes de mouvement du bras articulé toutes les quelques dizaines de millisecondes, en évitant les collisions avec la table et avec le bras lui-même. Ce résultat dépasse le cadre du ping-pong : il constitue la première démonstration publiquement documentée d'un système IA autonome compétitif dans un environnement physique non contraint, à vitesse humaine et contre des adversaires experts. Contrairement aux victoires d'AlphaGo ou de Stockfish, obtenues dans des univers entièrement numériques aux règles fixes, Ace opère dans un espace où la physique, le spin et l'imprévisibilité humaine créent des conditions radicalement ouvertes. Pour l'industrie robotique, cela valide une chaîne technique complète : estimation de spin en temps réel via marquages visuels, transfert sim-to-real sur des tâches dynamiques rapides, et contrôle d'un bras multi-articulé sous contrainte temporelle sévère. Ces mêmes briques techniques (capteurs événementiels, RL simulé, contrôle rapproché temps réel) sont directement transférables à la manipulation industrielle haute cadence, au tri ou à l'assemblage fin, là où les systèmes actuels restent limités par leur latence de perception. Sony AI s'inscrit dans une trajectoire de recherche où la table de ping-pong sert depuis longtemps de banc de test pour la robotique physique. Le robot Forpheus d'Omron, développé depuis 2017, avait pavé la voie mais dans des conditions contraintes : lanceur de balles contrôlé, déplacements limités, effets de rotation peu ou pas pris en compte. Ace franchit un seuil qualitatif en jouant dans les mêmes conditions qu'un humain. Sony n'a pas encore annoncé de calendrier de commercialisation ni de partenariat industriel, et la publication Nature porte le statut d'avancée de recherche plutôt que de produit commercialisé. Du côté des concurrents, les efforts en robotique physique intelligente se concentrent ailleurs : Boston Dynamics sur la locomotion, Figure et 1X sur les humanoïdes polyvalents, Sanctuary AI sur la manipulation généraliste. Le vrai enjeu pour Sony sera de montrer si les innovations d'Ace peuvent migrer vers des cas d'usage industriels concrets, ou si elles restent cantonnées à un démonstrateur de laboratoire remarquable.

RecherchePaper
1 source
KaRMA : une métrique cinématique pour évaluer la dextérité fine des mains robotiques
20arXiv cs.RO 

KaRMA : une métrique cinématique pour évaluer la dextérité fine des mains robotiques

Des chercheurs ont publié sur arXiv (arXiv:2605.15548) KaRMA, ou Kinematic Rolling Manipulation Ability, une nouvelle métrique cinématique destinée à évaluer la dextérité fine des mains robotiques. Contrairement aux métriques existantes, KaRMA quantifie spécifiquement la capacité d'une main à repositionner un objet sphérique en prise pince à deux doigts (precision pinch) par des mouvements de roulement continus, sans relâcher le contact. Le système rapporte trois scores distincts : KaRMA-T (couverture translationnelle), KaRMA-R (couverture rotationnelle) et KaRMA-S (sensibilité à la configuration initiale de prise). L'exploration des poses atteignables se fait par un algorithme de recherche en largeur (breadth-first search) sur des primitives de translation et de rotation, en respectant les limites articulaires, les contraintes de collision, le contact par roulement, et la faisabilité de la force antipodale. La métrique a été évaluée sur 16 mains robotiques largement utilisées dans la littérature. L'intérêt de KaRMA réside dans ce qu'elle révèle là où les métriques statiques classiques échouent. Les outils habituels, espace de travail, manipulabilité (ellipsoïdes jacobiens), stabilité de prise, sont des propriétés statiques qui ne capturent pas la dextérité au sens opérationnel : déplacer un objet dans la main sans le lâcher. Sur les 16 mains testées, KaRMA différencie des architectures que les proxies statiques classent à l'identique, et met en évidence des compromis translation-rotation jusqu'ici invisibles. Les auteurs signalent également que les métriques basées sur le jacobien peuvent induire en erreur sur certains benchmarks de tâches publiés, là où KaRMA montre une cohérence qualitative meilleure. Pour un ingénieur en robotique ou un intégrateur qui sélectionne une main pour des tâches d'assemblage fin ou de manipulation d'objets variés, cela représente un outil de comparaison plus discriminant. Cette publication s'inscrit dans un débat de fond sur l'évaluation des mains robotiques multi-doigts, un domaine où les métriques de design héritées des années 1980-90 (critères de Yoshikawa, indices de qualité de prise) restent les références par défaut malgré leurs limites reconnues. Les équipes travaillant sur des mains humanoïdes comme celles d'Agility Robotics, Figure, Sanctuary AI, ou les projets académiques type Shadow Hand et Allegro Hand, disposent désormais d'un benchmark comparatif formalisé. KaRMA est pour l'instant une métrique cinématique pure, elle n'intègre pas la dynamique ni les propriétés des surfaces de contact, ce qui constitue sa principale limite avouée. Les prochaines étapes naturelles seraient une validation expérimentale sur des tâches réelles et l'extension aux prises multi-doigts au-delà du pinch à deux doigts.

RecherchePaper
1 source
Fraunhofer IPA propose un nouveau banc de test pour robots humanoïdes
21Robotics Business Review 

Fraunhofer IPA propose un nouveau banc de test pour robots humanoïdes

Le Fraunhofer IPA, l'un des principaux instituts de recherche en automatisation en Allemagne, a publié un référentiel d'évaluation standardisé pour les robots humanoïdes, avec pour premier cobaye le Unitree G1 EDU-4 équipé des mains trois doigts Dex3-1, livré en mai 2025 sous firmware version 1.04. Ce benchmark se décompose en six catégories applicatives couvrant les capacités de base (capteurs vision, audio, reconnaissance vocale, détection humaine), la manipulation (type de préhenseur, mobilité des doigts, forces de saisie), la sécurité (mesures de forces de collision selon ISO 10218 et ISO TS 15066), la propreté (qualification selon ISO 14644, norme sous laquelle l'IPA a déjà certifié plus de 3 000 composants d'automatisation), ainsi que des indicateurs de mobilité et de fiabilité opérationnelle. Le service est modulaire et disponible pour les fabricants, les utilisateurs finaux et les éditeurs de logiciels, qui peuvent sélectionner les volets pertinents selon leur application. L'initiative répond à un problème structurel qui freine l'adoption industrielle des humanoïdes : l'absence de données comparatives neutres et reproductibles. Les annonces marketing de Figure, Tesla, Boston Dynamics ou Agility Robotics s'appuient sur des vidéos sélectionnées et des démos en conditions contrôlées, rendant quasi impossible toute évaluation objective pour un intégrateur ou un COO cherchant à qualifier un robot pour une ligne de production réelle. "Le marché est trop volatile et opaque pour permettre une évaluation fondée des humanoïdes pour ses propres applications", résume Simon Schmidt, directeur senior de l'unité systèmes automatisés à l'IPA. En ancrant le benchmark sur des normes industrielles reconnues internationalement, l'institut cherche à combler le fossé entre le hype médiatique et les capacités réelles, et à rendre les résultats directement interprétables par des ingénieurs et des décideurs sans expertise robotique préalable. Le Fraunhofer IPA s'inscrit dans un contexte de multiplication des initiatives de standardisation autour des humanoïdes. Aux États-Unis, l'IEEE et l'ASTM travaillent sur des protocoles similaires, tandis que des acteurs comme Apptronik, Fourier Intelligence ou Sanctuary AI réclament des cadres communs pour accélérer la confiance des industriels. Côté français, des entreprises comme Enchanted Tools ou Wandercraft évoluent dans un écosystème encore dépourvu de tels référentiels, ce qui rend le travail de l'IPA potentiellement structurant pour les décideurs européens. Werner Kraus, responsable de la division automatisation et robotique à l'IPA, précise que le benchmark a été conçu pour rester pertinent sur les générations futures de robots, avec des tests reproductibles et standardisables. Les résultats complets de l'évaluation du Unitree G1 devaient être présentés au Robotics Summit & Expo de Boston ce mois-ci, avec des sessions dédiées aux humanoïdes industriels.

UELe Fraunhofer IPA fournit aux industriels européens, dont des acteurs français comme Enchanted Tools et Wandercraft, un premier référentiel neutre basé sur des normes ISO (10218, TS 15066, 14644) pour évaluer objectivement les robots humanoïdes avant déploiement en production.

FR/EU ecosystemeOpinion
1 source
Vers l'intelligence des mains dextériques en robotique : un état de l'art
22arXiv cs.RO 

Vers l'intelligence des mains dextériques en robotique : un état de l'art

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.13925) une revue systématique de l'état de l'art des mains robotiques dextres, couvrant l'ensemble de la chaîne de recherche : mécanique et actionnement, perception tactile, méthodes de contrôle et d'apprentissage, jeux de données et protocoles d'évaluation. Le papier structuré en quatre axes examine les compromis fondamentaux entre capacité de force, compliance mécanique, bande passante de contrôle et complexité d'intégration. Il recense les principales architectures de transmission (câbles, tendons, engrenages), les modalités sensorielles embarquées (capteurs de force, peau artificielle, vision tactile type GelSight), et retrace l'évolution chronologique des paradigmes de contrôle : du contrôle impédanciel classique vers les approches par apprentissage par renforcement, imitation, et plus récemment les Visual-Language-Action models (VLA) appliqués à la manipulation en contact riche. L'intérêt principal de cette synthèse pour les équipes R&D et les intégrateurs industriels est qu'elle tente de résoudre un problème structurel du domaine : l'hétérogénéité des hypothèses expérimentales rend les comparaisons entre travaux quasi impossibles. Les auteurs pointent explicitement que les résultats publiés varient selon l'embodiment de la main, la configuration sensorielle, le type de tâche et le protocole d'évaluation retenu, ce qui obscurcit la trajectoire réelle du secteur. En consolidant datasets, pratiques de benchmarking et métriques d'évaluation dans un cadre commun, le survey fournit une grille de lecture pour juger si les progrès annoncés relèvent d'avancées méthodologiques réelles ou d'artefacts de setup. C'est particulièrement utile dans un contexte où les démos vidéo soigneusement sélectionnées et les claims "sim-to-real solved" se multiplient sans validation robuste sur des tâches industrielles répétables. Ce travail s'inscrit dans une vague de consolidation académique portée par l'essor des mains humanoïdes commerciales : Figure (main intégrée sur Figure 02 et 03), Tesla Optimus, Agility Robotics ou encore les systèmes de Sanctuary AI ont tous relancé l'intérêt pour la manipulation dextre après deux décennies de progrès limités post-DLR Hand et Shadow Hand. Côté recherche, les laboratoires Carnegie Mellon, Stanford, ETH Zurich et, en Europe, des acteurs comme Enchanted Tools (France) et des spin-offs universitaires allemands poussent des approches hybrides hardware-learning. Le survey identifie comme chantiers ouverts prioritaires : la généralisation hors distribution (objets inconnus, matériaux déformables), la robustesse sensorielle en conditions industrielles dégradées, et la co-optimisation hardware-software encore trop rare. Aucun calendrier de publication étendue n'est annoncé ; le preprint est disponible en accès libre sur arXiv.

UELe survey cite explicitement Enchanted Tools (France) et des spin-offs universitaires allemands comme acteurs actifs sur la manipulation dextre hybride hardware-learning, en faisant une ressource de référence directement pertinente pour les équipes R&D françaises du secteur.

RecherchePaper
1 source
Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental
23arXiv cs.RO 

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

Une équipe de chercheurs a publié sur arXiv (référence 2604.14484) une analyse théorique des politiques de clonage comportemental (behavior cloning, BC) sur robots à commande en position. L'étude démontre que les erreurs d'action, modélisées comme variables sous-gaussiennes indépendantes, se propagent via la dynamique en boucle fermée d'un contrôleur PD pour produire des erreurs de position gouvernées par une matrice proxy X∞(K). La probabilité d'échec sur l'horizon T se factorise en un indice d'amplification Γ_T(K) dépendant des gains et en la perte de validation augmentée d'un terme de généralisation. Pour le système PD scalaire du second ordre, la variance stationnaire admet la forme fermée X∞(α,β) = σ²α/(2β), strictement monotone en rigidité (α) et en amortissement (β) sur l'ensemble de l'orthant stable. Quatre régimes canoniques sont classés : le mode conforme-suramorti (CO) minimise les erreurs ; le mode rigide-sous-amorti (SU) les maximise ; les deux cas intermédiaires restent dépendants de la dynamique propre du système. L'implication opérationnelle est directe : la perte d'entraînement ou de validation ne prédit pas la fiabilité en boucle fermée. Un modèle bien calibré peut échouer en déploiement si les gains du contrôleur PD amplifient les erreurs résiduelles de la politique apprise. Ce cadre analytique fournit aux intégrateurs robotiques un outil de dimensionnement concret : choisir des gains conformes-suramortis réduit statistiquement le risque d'échec de tâche, indépendamment de la qualité des démonstrations. Ce résultat remet en question une hypothèse largement répandue dans la communauté du robot learning, selon laquelle améliorer les données ou l'architecture du modèle suffit à améliorer les performances en conditions réelles. Ce travail prolonge les recherches de Bronars et al. sur l'atténuation d'erreurs dépendante des gains en offrant une extension non-asymptotique à horizon fini, qui manquait dans la littérature. Si les propriétés asymptotiques de stabilité des contrôleurs PD sont bien établies, leur traduction en bornes probabilistes finies sur l'échec de tâche restait ouverte. La contribution est directement applicable aux architectures BC modernes, notamment les VLA (Vision-Language-Action models) déployés sur des manipulateurs et des humanoïdes chez des acteurs comme 1X Technologies, Figure AI, Boston Dynamics ou Sanctuary AI. La discrétisation ZOH (Zero-Order Hold) est traitée explicitement, ancrant les résultats dans les implémentations numériques réelles plutôt que dans la seule analyse en temps continu.

UELes laboratoires et équipes R&D européens (INRIA, CEA-List, start-ups BC/VLA) déployant des politiques apprises sur manipulateurs ou humanoïdes peuvent appliquer directement ce cadre analytique pour calibrer leurs gains PD et réduire statistiquement les échecs en déploiement réel.

RecherchePaper
1 source
Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts
24arXiv cs.RO 

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des chercheurs ont publié DreamTacVLA, un framework qui dote les modèles Vision-Language-Action (VLA) d'un sens du toucher anticipatif. Ces architectures, parmi lesquelles Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, généralisent des comportements robotiques à partir de connaissances web-scale, mais restent aveugles à la physique du contact : force, texture et glissement. DreamTacVLA introduit une perception hiérarchique à trois niveaux : images tactiles haute résolution (micro-vision), caméra poignet (vision locale) et vue tierce (macro-vision), le tout aligné par une perte baptisée Hierarchical Spatial Alignment (HSA). Le système est ensuite affiné par un modèle de monde tactile prédisant des états de contact futurs, ce qui lui permet de conditionner ses décisions à la fois sur des observations réelles et sur des conséquences anticipées ; sur des benchmarks de manipulation contact-riche (vissage, pelage, textiles), il atteint jusqu'à 95 % de succès face aux baselines VLA état de l'art, appuyé par un dataset hybride combinant simulation haute-fidélité (digital twin) et expériences en monde réel. Ce résultat quantifie concrètement le "gap tactile" des VLA modernes : intégrer des signaux de contact haute résolution est discriminant pour des tâches industrielles entières, de l'assemblage de précision au conditionnement de composants déformables. Conditionner les décisions sur des conséquences tactiles anticipées, et non seulement sur des observations en temps réel, rapproche les VLA du raisonnement physique implicite des opérateurs expérimentés. Pour les intégrateurs B2B, cela laisse entrevoir une prochaine génération de politiques robotiques capables de manipulation fine sans capteurs de force-couple coûteux, à condition d'embarquer des capteurs tactiles conformes haute résolution. La démonstration reste cependant purement académique : aucun déploiement industriel ni partenariat de production n'est annoncé dans le papier. Le travail s'inscrit dans un mouvement d'enrichissement des VLA au-delà du seul canal vision-langage, aux côtés d'approches intégrant proprioception, retour de force ou audio. DreamTacVLA se distingue par l'application au domaine tactile de techniques issues des modèles de monde visuels (Dreamer, RSSM), une transposition méthodologiquement originale. L'article est à sa troisième révision arXiv (v3), signe d'une évaluation par les pairs active. Parmi les acteurs à surveiller : Sanctuary AI et Agility Robotics sur les politiques de manipulation, GelSight et Contactile sur les capteurs tactiles, et en Europe, Pollen Robotics qui explore des effecteurs sensoriellement enrichis.

UEPollen Robotics, identifié comme acteur européen explorant des effecteurs sensoriellement enrichis, est directement positionné pour intégrer ce type d'avancée tactile dans ses politiques de manipulation VLA.

IA physiqueOpinion
1 source
Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique
25Robotics Business Review 

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne fondée par Zhou Xian et basée à San Carlos, a dévoilé GENE-26.5, un modèle fondamental d'IA conçu pour la manipulation robotique dextre bimanuelle. Sortie de stealth l'an dernier avec une levée de 105 millions de dollars, l'entreprise annonce avoir résolu le principal verrou du secteur : le manque de données d'entraînement pour les tâches à haute dextérité. GENE-26.5 repose sur deux composants propriétaires : un moteur de données à grande échelle et une main robotique dimensionnée à l'échelle humaine, couplée à un gant de collecte doté d'une peau électronique tactile. Ce gant permet une correspondance 1:1:1 entre la main du démonstrateur, le gant et l'effecteur robotique, facilitant le transfert direct de compétences humaines vers le robot sans recodage. Pour illustrer les capacités du modèle, Genesis AI a publié des vidéos montrant la réalisation d'une recette en 20 étapes (découpe de tomates, cassage d'oeuf à une seule main, coordination bimanuelle), la préparation d'un smoothie avec service en vol, des expériences de laboratoire impliquant pipetage et transferts de liquides, du câblage de faisceaux électriques, la résolution d'un Rubik's Cube en manipulation aérienne, la préhension simultanée de quatre objets de tailles différentes, et l'interprétation d'une composition pianistique complexe. L'enjeu industriel est direct : le câblage de faisceaux électriques, désigné par l'entreprise comme "l'une des tâches les plus difficiles en électronique", représente des milliers de postes non automatisés dans les secteurs automobile et aérospatial, faute de robots capables de gérer la variabilité géométrique des fils. Si les performances démontrées se confirment hors conditions de laboratoire contrôlées - ce que des vidéos promotionnelles soigneusement sélectionnées ne permettent pas d'établir -, cela ouvrirait un marché significatif pour les intégrateurs cherchant à robotiser des tâches à haute variabilité morphologique. L'approche de Genesis AI vise à combler l'"embodiment gap" : l'écart de morphologie entre humain et robot qui a historiquement limité l'efficacité des modèles entraînés sur données humaines. L'investissement d'Eric Schmidt, ex-PDG de Google, dans la société souligne l'intérêt stratégique croissant pour ce segment au-delà du seul milieu robotique. Genesis AI s'inscrit dans une course à la manipulation dextre où plusieurs acteurs avancent en parallèle : Physical Intelligence avec son modèle Pi-0, Sanctuary AI et les équipes manipulation de Figure (Figure 03) et Tesla (Optimus Gen 3) développent également des architectures de type VLA (Vision-Language-Action) pour le contrôle fin des effecteurs. Genesis AI se distingue en concentrant son offre exclusivement sur la main et la manipulation bimanuelles, sans plateforme humanoide annoncée à ce stade. Le communiqué reste toutefois vague sur les suites opérationnelles : aucun pilote industriel nommé, aucune timeline de déploiement ni tarification n'est communiqué, ce qui place cette annonce clairement du côté de la démonstration technologique plutôt que du produit commercialisé.

IA physiqueOpinion
1 source
Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage
26arXiv cs.RO 

Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage

Une équipe de chercheurs a publié début mai 2025 sur arXiv (2605.01434) une architecture de lecture de capteurs analogiques scalable pour mains robotiques dextres. Le système repose sur un registre à décalage série-vers-parallèle (SIPO) qui permet de connecter des modules de capteurs hétérogènes via seulement trois lignes de signal entre chaque module. La validation porte sur une main robotique à tendons équipée de 16 modules articulaires et d'un module tactile à quatre canaux, soit 20 canaux échantillonnés à 1 kHz en mode plein balayage, avec une stabilité confirmée jusqu'à 1,5 kHz. Les capteurs articulaires atteignent une erreur maximale de pente (APE) de 0,446 % et une estimation angulaire inférieure au degré. Pour la perception tactile, des modèles LSTM déployés en inférence temps réel à 1 kHz obtiennent un RMSE de 0,125 N pour l'estimation de force et 93,4 % de précision pour la classification en cinq catégories de localisation de contact. L'apport principal est la dissociation entre nombre de capteurs, complexité du câblage et bande passante d'échantillonnage, un compromis qui freine depuis longtemps le développement de mains densément captées. Limiter l'interconnexion à trois fils réduit la complexité mécanique et électrique de façon significative, un point critique pour les intégrations en espace contraint. La démonstration à 1 kHz sur 20 canaux simultanés avec inférence LSTM embarquée prouve que la chaîne capteur-modèle peut tenir le rythme d'une boucle de contrôle temps réel sans matériel dédié coûteux. Les performances tactiles sont solides sur banc de test, mais l'article ne précise pas les conditions en manipulation libre, un élément à vérifier avant toute extrapolation industrielle. La dextérité robotique reste un verrou majeur pour la manipulation non structurée, et la densification des capteurs dans les mains mécaniques est un axe actif chez des acteurs comme Sanctuary AI, Figure, Apptronik ou 1X, dont les humanoïdes commerciaux peinent encore à atteindre la densité sensorielle des prototypes académiques. L'architecture SIPO présentée est suffisamment générique pour s'adapter à d'autres géométries de main ou d'autres types de capteurs comme la pression, la température ou la proximité, et constitue une base crédible pour des intégrations sur plateformes humanoïdes en cours de commercialisation. Du côté européen, ni Wandercraft ni Enchanted Tools n'ont publié d'approches comparables pour les effecteurs distaux, laissant ce créneau ouvert à de prochains travaux.

UEL'architecture SIPO publiée en open access sur arXiv constitue une base technique directement exploitable pour les équipes R&D européennes travaillant sur les effecteurs distaux d'humanoïdes, un créneau où Wandercraft et Enchanted Tools n'ont pas encore publié d'approches comparables.

RecherchePaper
1 source
IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA
27arXiv cs.RO 

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Une équipe de chercheurs a publié le 1er mai 2026 (arXiv:2605.00321) un travail introduisant deux outils de diagnostic pour les politiques de type Vision-Langage-Action (VLA) : l'Interventional Significance Score (ISS) et le Nuisance Mass Ratio (NMR). L'ISS est une procédure de masquage interventionnel qui estime l'influence causale de régions visuelles spécifiques sur les prédictions d'action d'un agent robotique. Le NMR est une métrique scalaire qui quantifie dans quelle mesure un modèle s'appuie sur des caractéristiques visuelles non pertinentes pour la tâche plutôt que sur des causes réelles. La méthode reformule l'attribution visuelle comme un problème d'estimation interventionnelle, au sens de la causalité de Pearl, et non comme une simple corrélation statistique. Des expériences sur des tâches de manipulation variées confirment que le NMR prédit le comportement de généralisation, et que l'ISS produit des attributions plus fidèles que les méthodes d'interprétabilité existantes. À noter : le preprint ne publie ni code ni benchmark public, et les métriques de performance sur tâches spécifiques restent peu détaillées dans l'abstract. L'enjeu est direct pour les intégrateurs et les décideurs industriels : les modèles VLA actuellement déployés, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Sanctuary AI, échouent régulièrement hors de leur distribution d'entraînement. Jusqu'ici, identifier pourquoi restait largement empirique. ISS et NMR offrent un test diagnostique pré-déploiement : un NMR élevé signale que le modèle prend ses décisions sur la base de corrélations visuelles parasites (couleur de fond, éclairage, texture du sol) plutôt que sur la structure causale de la tâche. C'est une avancée concrète vers l'analyse formelle du sim-to-real gap, l'un des verrous les plus cités par les équipes d'intégration robotique industrielle, et cela ouvre la voie à des critères de certification hors-distribution avant mise en production. Le problème de l'interprétabilité des politiques robotiques apprises restait largement ouvert. Les méthodes existantes, cartes de saillance par gradient ou rollout d'attention, reposent sur des observations corrélationnelles et ont tendance à surestimer l'importance de features visuelles non causales. Ce travail se positionne explicitement contre ces approches en adoptant un cadre interventionnel rigoureux. Aucune affiliation institutionnelle n'est mentionnée dans le preprint. Les suites naturelles incluent l'application systématique de ces métriques sur des architectures établies comme OpenVLA, Octo ou RoboVLMs, et potentiellement leur intégration comme signal de régularisation pendant l'entraînement. Le papier arrive au moment où Figure AI, 1X Technologies et Agility Robotics intensifient leurs déploiements en environnements industriels réels, rendant la robustesse hors-distribution critique pour la crédibilité commerciale du secteur.

UECes outils de diagnostic pourraient aider les intégrateurs industriels européens à évaluer la robustesse hors-distribution des modèles VLA avant déploiement, et à terme nourrir des critères de certification conformes à l'AI Act.

IA physiquePaper
1 source
Les 10 actualités robotique les plus marquantes d'avril 2026
28Robotics Business Review 

Les 10 actualités robotique les plus marquantes d'avril 2026

Avril 2026 a concentré plusieurs signaux forts pour l'industrie robotique. Tesla a confirmé lors de ses résultats T1 2026 un pivot vers la robotique: 3,9 milliards de dollars de cash-flow opérationnel, marge brute GAAP de 21%, et démarrage annoncé de la production Optimus à l'usine de Fremont dès le Q2 2026, en reconvertissant les lignes Model S et Model X pour une capacité d'un million d'unités par an, avec un objectif à terme de dix millions via un futur site au Texas. Pudu Technology a levé près de 150 millions de dollars, portant sa valorisation au-delà de 1,5 milliard et ses financements cumulés à plus de 300 millions. ABB Robotics a lancé sa gamme de cobots PoWa, positionnée entre cobots classiques et robots industriels, dans un marché estimé en croissance de 20% par an jusqu'en 2028. La startup Generalist AI a dévoilé GEN-1, un modèle généraliste pour la robotique revendiquant un taux de réussite de 99% sur des tâches où les modèles précédents plafonnaient à 64%, trois fois plus rapide, avec seulement une heure de données robot par tâche. Sanctuary AI a présenté une démonstration de manipulation in-hand en zero-shot, et Locus Robotics a lancé au salon MODEX son système Locus Array, combinant robot mobile, bras de picking intégré et perception par IA pour une préparation de commandes entièrement autonome. Ces développements indiquent une phase d'industrialisation accélérée. Le pivot de Tesla illustre une conviction croissante dans le secteur: les robots humanoïdes passent du stade de la recherche à la ligne de production planifiée, même si le fossé entre annonce et déploiement réel reste entier. La montée en puissance de la manipulation mobile illustrée par Locus Array répond à des contraintes logistiques concrètes que les AMR seuls ne résolvent plus. Les performances annoncées par GEN-1, publiées sans benchmark public indépendant, méritent confirmation, mais si avérées, elles signaleraient une inflexion dans le débat sur le sim-to-real gap qui freine encore les déploiements VLA à grande échelle. L'entrée d'ABB sur le segment cobot haute performance signale que les grands intégrateurs industriels cessent de laisser ce marché aux seuls pure players. Ce mois d'avril a également été marqué par des reconfigurations stratégiques majeures. Honeywell a annoncé la cession de sa division Warehouse and Workflow Solutions (marques Intelligrated et Transnorm) au fonds de private equity American Industrial Partners, actant son retrait de l'automatisation logistique après une décennie d'investissement. Le tribunal régional de Hambourg a émis une injonction préliminaire contre la filiale allemande d'Elite Robots, poursuivie par Teradyne Robotics pour violation de droits d'auteur, en pleine ouverture du salon Hannover Messe. L'IFR a publié son rapport "World Robotics 2025" confirmant une hausse de la densité robotique (unités pour 10 000 salariés) sur trois continents: Europe, Asie et Amériques. Transitive Robotics a enfin livré la version 2.0 de son framework open-source pour la robotique full-stack, intégrant stockage ClickHouse, visualisation Grafana et alerting via Alertmanager.

UEABB (groupe européen) entre sur le segment cobot haute performance avec la gamme PoWa, le tribunal de Hambourg émet une injonction contre Elite Robots pendant Hannover Messe, et l'IFR confirme une hausse de la densité robotique en Europe, trois signaux directs pour le marché industriel européen.

BusinessActu
1 source
Un robot humanoïde chinois grandeur nature avec 18 000 capteurs maîtrise 115 degrés de liberté
29Interesting Engineering 

Un robot humanoïde chinois grandeur nature avec 18 000 capteurs maîtrise 115 degrés de liberté

Kinetix AI, une entreprise de recherche en IA basée à Shenzhen, a dévoilé KAI, un robot humanoïde de taille réelle mesurant 173 cm pour 70 kg. Le robot affiche 115 degrés de liberté (DoF) au total, dont 72 concentrés dans les mains, soit 36 DoF par main combinant 22 articulations actives à commande précise et 14 articulations passives jouant le rôle d'amortisseurs mécaniques. KAI peut se déplacer à 5 km/h, soulever jusqu'à 20 kg, et fonctionne 4 heures par charge grâce à une batterie semi-solide de 1,7 kWh. Sa peau tactile synthétique embarque 18 000 points de capteurs capables de détecter des forces à partir de 0,1 newton, permettant une manipulation haptic-aware en temps réel. Le prix annoncé est inférieur à 40 000 dollars, avec une production en série prévue pour fin 2026. Il s'agit pour l'instant d'une annonce avec démonstration vidéo, sans déploiement commercial confirmé. Le nombre de degrés de liberté des mains est la donnée qui retient l'attention des intégrateurs : la majorité des humanoïdes actuels en compétition (Figure 03, Tesla Optimus Gen 3, Agility Digit) plafonnent à 20-30 DoF manuels, rendant la préhension d'objets complexes ou fragiles difficile à fiabiliser. Les 36 DoF par main de KAI, couplés aux 18 000 capteurs tactiles, visent directement ce goulot d'étranglement. Si les performances annoncées se confirment hors conditions de labo, cela représente un argument sérieux pour les cas d'usage de tri, d'assemblage fin et d'interaction service. Le choix de la batterie semi-solide mérite également d'être noté : en réduisant le risque d'emballement thermique par rapport aux cellules Li-ion classiques, Kinetix adresse un frein réel au déploiement en environnement humain. La cible déclarée reste le service (retail, conciergerie, assistance domicile) et non l'industrie lourde, ce qui situe KAI dans la même catégorie commerciale que Sanctuary AI ou Apptronik. Kinetix AI est une structure relativement peu connue hors de Chine, opérant dans un écosystème humanoïde domestique qui comprend des acteurs déjà bien financés comme Unitree (G1, H1), DEEP Robotics et Fourier Intelligence. Pour entraîner KAI, la société a développé un dispositif portable baptisé KAI Halo, permettant à des opérateurs humains de générer des données d'entraînement lors de tâches quotidiennes via capture vidéo première personne, mouvements corporels et données spatiales. L'architecture d'intelligence repose sur un "World Model" à trois couches (base, action, évaluation) intégrant une simulation prédictive avant exécution de mouvement, approche cohérente avec les tendances actuelles en Physical AI (pi0 de Physical Intelligence, GR00T N2 de NVIDIA). La prochaine étape structurante sera la confirmation de pilotes industriels ou de partenariats distributeurs pour valider la transition du prototype vers le produit livrable.

Chine/AsieOpinion
1 source
AI² Robotics défend les modèles VLA et lance NeuroVLA
30Pandaily 

AI² Robotics défend les modèles VLA et lance NeuroVLA

Guo Yandong, fondateur et PDG d'AI² Robotics, a présenté NeuroVLA, un modèle d'action robotique de troisième génération qui réduit la latence de réponse de plusieurs centaines de millisecondes à quelques dizaines de millisecondes. L'entreprise articule l'évolution des architectures VLA (Vision-Language-Action) en trois stades : les modèles end-to-end de première génération unifiant perception et contrôle ; les systèmes de deuxième génération intégrant des world models pour le raisonnement prédictif ; et désormais NeuroVLA, architecture neuro-inspirée permettant une optimisation continue comparable à la mémoire musculaire. En parallèle, AI² Robotics a lancé AlphaBrain Platform, une boîte à outils open-source combinant modèles VLA neuro-inspirés, entraînement par reinforcement learning à base de tokens et architectures modulaires de world model, avec support des benchmarks de référence LIBERO et CALVIN. L'annonce ne précise ni contexte de déploiement réel, ni clients industriels : il s'agit d'un lancement de modèle et de plateforme, pas d'un déploiement terrain. La réduction de latence revendiquée est le chiffre à surveiller. En manipulation robotique, passer sous 50 ms est généralement considéré comme le seuil nécessaire pour des gestes précis en environnement non structuré. Si NeuroVLA tient ces performances hors laboratoire, cela représenterait une avancée concrète sur le sim-to-real gap, obstacle persistant à la commercialisation des robots VLA. L'ouverture d'AlphaBrain en open-source signale une stratégie d'écosystème : AI² Robotics cherche à fédérer des contributeurs autour de son approche architecturale, à l'image de ce que tente Physical Intelligence avec pi0. AI² Robotics est une startup chinoise spécialisée dans l'embodied AI pour robots manipulateurs et humanoïdes. La prise de position publique de Guo Yandong en faveur des VLA intervient dans un débat architectural actif : les pipelines VLA end-to-end, portés aussi par Figure AI et 1X Technologies, s'affrontent aux approches hybrides modulaires de Sanctuary AI ou Apptronik. Les prochains jalons crédibles à suivre sont les résultats publiés sur LIBERO et CALVIN, qui permettront une comparaison objective avec les modèles concurrents, ainsi que l'annonce éventuelle de pilotes industriels validant les métriques en conditions réelles.

IA physiqueOpinion
1 source
Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain
31arXiv cs.RO 

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite. L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire. Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

RechercheOpinion
1 source
Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)
32arXiv cs.RO 

Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)

Des chercheurs ont publié sur arXiv (référence 2603.04531) une méthode baptisée PTLD, pour "Privileged Tactile Latent Distillation", visant à résoudre l'un des verrous fondamentaux de la manipulation dextère robotique : intégrer le retour tactile dans des politiques de contrôle sans disposer de simulation réaliste de capteurs tactiles. L'approche repose sur un entraînement par renforcement en simulation, puis une phase de distillation en monde réel : des capteurs tactiles "privilégiés" (accessibles uniquement lors de la collecte de données réelles) servent à entraîner un estimateur d'état latent, qui est ensuite intégré dans la politique proprioceptive déjà apprise. Sur la tâche de référence de rotation en main (in-hand rotation), PTLD affiche une amélioration de 182 % par rapport à une politique basée uniquement sur la proprioception. Sur la tâche plus difficile de réorientation en main guidée par le toucher, le gain atteint 57 % en nombre d'objectifs atteints. L'enjeu industriel est direct : la manipulation fine avec des mains multi-doigts bute depuis des années sur deux obstacles simultanés, l'impossibilité de simuler fidèlement les capteurs tactiles et le coût prohibitif des démonstrations téléopérées de qualité suffisante. PTLD contourne les deux en découplant apprentissage en simulation (pour la dynamique) et distillation en monde réel (pour le sens du toucher), sans jamais exiger de simulation tactile. Ce résultat valide l'hypothèse que le sim-to-real n'implique pas nécessairement de simuler chaque modalité sensorielle, à condition de concevoir intelligemment la phase de transfert. Pour les intégrateurs et les équipes de R&D travaillant sur l'assemblage précis ou la manipulation d'objets déformables, c'est un signal fort : des politiques robustes sont atteignables sans infrastructure de téléopération lourde. La manipulation dextère avec retour tactile reste un chantier ouvert dans le champ robotique : des acteurs comme Sanctuary AI, Dexterous Robotics, ou encore Shadow Robot explorent des approches similaires, tandis que des laboratoires académiques (Stanford, CMU, MIT) publient régulièrement sur le sim-to-real pour mains multi-doigts. PTLD se distingue en évitant la simulation tactile là où d'autres groupes investissent dans des moteurs physiques spécialisés (ex. Isaac Gym avec contact enrichi). Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un résultat académique publié sur preprint ; la reproductibilité sur des plateformes matérielles variées (Allegro, LEAP Hand, Dexterous Hand de Shadow) reste à démontrer.

RecherchePaper
1 source
Digit apprend à danser en une nuit grâce à la simulation
33IEEE Spectrum AI 

Digit apprend à danser en une nuit grâce à la simulation

Le robot humanoïde Digit d'Agility Robotics vient d'apprendre à danser en une nuit. Grâce à des données brutes de capture de mouvement, d'animation et de téléopération, l'équipe IA de l'entreprise a développé de nouvelles capacités de contrôle corporel via un entraînement par renforcement en simulation transféré ensuite au robot réel. Dans le même temps, la startup Generalist AI a annoncé GEN-1, un modèle d'IA généraliste pour la robotique physique atteignant 99 % de taux de réussite sur des tâches simples, contre 64 % pour les générations précédentes, avec une vitesse d'exécution environ trois fois supérieure et seulement une heure de données collectées sur robot réel par tâche. Unitree, de son côté, a rendu public depuis le 5 mars 2026 le dataset UnifoLM-WBT, un jeu de données open-source de téléopération whole-body pour robots humanoïdes en environnements réels, disponible sur Hugging Face avec des mises à jour fréquentes. Ces avancées illustrent une accélération concrète sur deux fronts majeurs : la généralisation des capacités motrices et la réduction des coûts de données d'entraînement. GEN-1 représente un saut qualitatif potentiellement décisif pour la viabilité commerciale des robots de service, en abaissant drastiquement le seuil d'échec sur des tâches répétitives industrielles ou logistiques. L'ouverture du dataset Unitree constitue elle un signal fort pour la communauté académique et les startups qui manquent de ressources pour collecter des données humanoïdes à grande échelle. Par ailleurs, Universal Robots démontre avec THEMAGIC5 comment des cobots automatisent les derniers 5 % d'une production personnalisée, permettant à une entreprise née sur Kickstarter de dépasser les 400 000 paires de lunettes de natation sur mesure vendues dans le monde. Ces démonstrations s'inscrivent dans une dynamique plus large où la frontière entre recherche et déploiement commercial s'efface rapidement. La conférence ICRA 2026 se tiendra à Vienne du 1er au 5 juin, et RSS 2026 à Sydney en juillet, deux rendez-vous clés où beaucoup de ces travaux seront formalisés. Sanctuary AI poursuit quant à elle le développement de ses mains hydrauliques à haute dextérité, capables de réorienter un objet de manière autonome vers une configuration cible. Enfin, la Chine a validé en orbite un bras robotique flexible embarqué à bord du satellite commercial Yuxing 3-06, ouvrant la voie au ravitaillement autonome en orbite. L'ensemble de ces actualités confirme que 2026 marque une inflexion décisive : la robotique physique entre dans une phase d'industrialisation rapide, portée par des modèles IA de plus en plus généralisés et des écosystèmes de données ouverts.

UEUniversal Robots (Danemark) illustre l'adoption des cobots dans la production personnalisée européenne, et la conférence ICRA 2026 à Vienne constituera un relais académique clé pour ces avancées en robotique physique.

HumanoïdesActu
1 source