Aller au contenu principal

Dossier Wandercraft — page 2

149 articles · page 2 sur 3

Wandercraft, fleuron français des exosquelettes médicaux : Atalante, Personal Exoskeleton, levée Bpifrance et NEA, projet humanoïde industriel Calvin.

Apprentissage de la manipulation dextérique via guidage par couple de contact issu de démonstrations humaines
51arXiv cs.RO RecherchePaper

Apprentissage de la manipulation dextérique via guidage par couple de contact issu de démonstrations humaines

Wandercraft, Exotec, Pollen et Enchanted Tools ne sont pas mentionnés dans le papier, donc aucune mention forcée. Voici l'article : Une équipe de recherche publie CHORD (Contact Wrench Guidance from Human Demonstration in Robotic Dexterous Manipulation), un framework d'apprentissage par renforcement pour la manipulation dextre à long horizon d'objets rigides et articulés, dans un preprint arXiv daté du 2 juillet 2026 (arXiv:2607.00033v1). L'idée centrale consiste à représenter les mouvements humains et robotiques non pas par des trajectoires articulaires brutes, mais par les forces et couples (wrench) qu'ils induisent sur l'objet manipulé, ce qui permet de comparer directement leur effet plutôt que leur cinématique. Les chercheurs ont construit un benchmark de simulation de 4 739 tâches de manipulation bimanuelle dextre, issu de jeux de données de capture de mouvement et de vidéos reconstruites en interne. Sur 1 831 tâches évaluées, CHORD atteint un taux de réussite moyen de 82,12 %. La méthode se généralise aussi à la manipulation corps entier à partir de démonstrations limitées aux mains ou filmées à la troisième personne, avec 90,77 % de réussite, et les politiques apprises se transfèrent vers le réel en boucle ouverte comme en boucle fermée. L'enjeu dépasse la simple prouesse académique : l'apprentissage par renforcement pour la manipulation riche en contacts est réputé difficile à faire passer à l'échelle, car les démonstrations humaines se transposent mal aux mains robotiques dont la cinématique diffère. En ancrant le signal de guidage dans la physique des forces plutôt que dans les gestes eux-mêmes, CHORD contourne en partie ce fossé d'incarnation. Un benchmark de près de 5 000 tâches, avec transfert vérifié sur robot réel et non seulement en simulation, constitue un test de scalabilité plus rigoureux que la plupart des démonstrations ponctuelles habituelles du secteur. Ce travail s'inscrit dans une tendance plus large exploitant la capture de mouvement et la vidéo humaine pour entraîner des politiques robotiques, en parallèle des approches par imitation ou des modèles vision-langage-action comme Pi-0 ou GR00T N2. Étant un preprint, il reste à valider par relecture par les pairs, avec une portée réelle encore limitée aux conditions de laboratoire décrites.

1 source
KYON : quadrupède semi-modulaire roues-pattes aux capacités bimanuelles agiles
52arXiv cs.RO 

KYON : quadrupède semi-modulaire roues-pattes aux capacités bimanuelles agiles

KYON est un robot quadrupède hybride roue-jambes, doté d'un torse bimanel, présenté dans un preprint arXiv (2606.30243) publié fin juin 2026 par une équipe dont l'affiliation institutionnelle n'est pas précisée dans l'abstract. La plateforme adopte une architecture semi-modulaire : les membres inférieurs sont reconfigurables, permettant de basculer entre locomotion sur roues et locomotion sur pattes selon le terrain. Plutôt que de distribuer les actionneurs le long des membres, KYON les concentre dans le châssis central et transmet le mouvement via des mécanismes de transmission, ce qui réduit l'inertie distale et améliore l'agilité dynamique. Le système de contrôle combine un cadre de contrôle du corps entier (whole-body control) avec une politique d'apprentissage par renforcement (RL), traitant séparément mais de façon coordonnée les tâches de locomotion et de manipulation. Les résultats expérimentaux rapportés valident la capacité du robot à opérer en locomotion dynamique et en manipulation bimane dans des environnements non structurés -- aucun chiffre précis de charge utile, de degrés de liberté ou de temps de cycle n'est communiqué dans l'abstract. L'intérêt de KYON pour les intégrateurs industriels et les décideurs B2B tient à la combinaison rare d'une base mobile à double mode (roue/patte) et d'une capacité de manipulation à deux bras sur un même châssis compact. La réduction de l'inertie distale via la centralisation des actionneurs est un choix de conception déjà validé sur des plateformes comme l'ANYmal de ANYbotics ou le MIT Cheetah, et son application à un système bimane à mobilité hybride constitue un apport méthodologique tangible. L'usage du RL pour absorber les perturbations dynamiques sans recalibration manuelle est cohérent avec les avancées récentes en sim-to-real, bien que les conditions exactes de test et les métriques de robustesse ne soient pas détaillées, ce qui limite l'évaluation externe à ce stade. Le marché des quadrupèdes mobiles est aujourd'hui dominé par Boston Dynamics (Spot), ANYbotics (ANYmal C/D), Unitree (B2, Go2) et, en France, des acteurs comme Wandercraft sur le segment bipède. La niche hybride roue-patte est occupée par peu de plateformes commerciales matures, ce qui positionne KYON comme un candidat de recherche dans un espace encore peu peuplé. Publié en preprint sans validation par les pairs, ce travail reste au stade de prototype de laboratoire : aucun partenaire industriel, aucun déploiement ni calendrier de commercialisation ne sont mentionnés. Les prochaines étapes naturelles seraient une publication en conférence (ICRA, IROS, RSS) et des tests en conditions réelles d'entrepôt ou de logistique.

RecherchePaper
1 source
MWC Shanghai : oubliez le score, les tirs au but de robots humanoïdes ont mis l'IA incarnée à l'épreuve
53TechNode 

MWC Shanghai : oubliez le score, les tirs au but de robots humanoïdes ont mis l'IA incarnée à l'épreuve

Pendant deux jours au Shanghai New International Expo Centre, lors du MWC Shanghai 2026, huit équipes chinoises de robotique humanoïde se sont affrontées dans un tournoi de tirs au but entièrement autonomes, réunissant plus de 10 000 spectateurs sur environ 100 rounds de compétition. Trois équipes ont dominé le classement final : China Mobile (Hangzhou) Information Technology a décroché la première place, devant Tianshu Tanjie (Beijing) Technology et Hangzhou Xingshu Intelligent Robot. La règle centrale du concours, imposée par les organisateurs, prohibait tout contrôle à distance et tout script de mouvement préprogrammé : les robots devaient localiser le ballon, se positionner, tirer, défendre le but et retrouver leur équilibre en temps réel via leurs propres systèmes de perception, de planification et de contrôle moteur. Le robot de China Mobile (Hangzhou) s'est distingué par sa régularité sur plusieurs rounds avec peu de défaillances visuelles ou d'instabilités posturales, en s'appuyant sur une connectivité 5G à faible latence couplée à du calcul edge AI embarqué. Tianshu Tanjie a démontré des capacités solides en contrôle dynamique et en actuation articulaire, permettant à son gardien compact de s'ajuster à des tirs provenant d'angles variés. Hangzhou Xingshu, start-up de nouvelle génération, a présenté une plateforme allégée d'environ 30 % par rapport à ses concurrents, lui conférant une agilité notable dans les changements de direction, malgré quelques erreurs de mouvement résiduelles. Ce qui rend cet événement significatif pour l'industrie dépasse largement la performance footballistique. Contrairement aux démonstrations classiques en laboratoire contrôlé ou aux vidéos promotionnelles soigneusement montées, le concours a exposé les robots à des conditions imprévisibles en conditions réelles : environnement dynamique, éclairage variable, interactions non scriptées. C'est précisément le profil de test le plus révélateur pour évaluer la maturité des systèmes d'IA incarnée (embodied AI). La capacité à percevoir, planifier et maintenir l'équilibre dans un environnement non déterministe est le vrai critère de qualification pour un déploiement industriel. Le fait que plusieurs équipes aient tenu des rounds complets sans intervention humaine, même si le taux de réussite global reste modeste, indique que le "demo-to-reality gap" se resserre. Pour un intégrateur B2B ou un COO industriel, ce n'est pas encore une maturité commerciale, mais c'est un signal de trajectoire difficilement ignorable. La Chine investit massivement dans la robotique humanoïde depuis 2023, avec un écosystème dense de start-ups bénéficiant du soutien d'opérateurs institutionnels comme China Mobile. Ce concours illustre la montée en puissance compétitive de cet écosystème national, qui se développe en parallèle des initiatives américaines (Boston Dynamics, Figure, Agility Robotics) et européennes, où des acteurs comme Enchanted Tools ou Wandercraft avancent sur des segments spécialisés. L'absence totale de concurrents non-chinois dans ce tournoi révèle aussi la fragmentation géographique croissante du secteur. Les suites concrètes restent floues : aucune des trois équipes primées n'a annoncé de pilote industriel ni de calendrier de commercialisation à l'issue de la compétition, ce qui maintient ces systèmes dans la catégorie "démonstrateur avancé" plutôt que "produit déployable à court terme".

UELa montée en puissance de l'écosystème humanoïde chinois (8 équipes autonomes, ~100 rounds en conditions réelles sans intervention humaine) renforce la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, sans impact opérationnel immédiat mais avec un signal de trajectoire à intégrer dans les feuilles de route R&D.

Chine/AsieOpinion
1 source
Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion
54arXiv cs.RO 

Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion

Des chercheurs présentent MS-PPO (Morphological Symmetry Proximal Policy Optimization), une architecture d'apprentissage par renforcement pour la locomotion robotique qui encode les symétries morphologiques directement dans la structure du réseau de contrôle. Ce preprint, mis à jour sur arXiv en juin 2026 (identifiant 2512.00727v2), valide l'approche sur deux plateformes commerciales d'Unitree Robotics : le quadrupède Go2 et l'humanoïde G1. À partir du graphe topologique du robot, l'algorithme augmente chaque espace d'observation et d'action avec les transformations de permutation et de signe induites par la symétrie corporelle, produisant un acteur de graphe symétrique-équivariant et un critique invariant. Quatre scénarios sont évalués : suivi de commande de vitesse, pannes asymétriques de joints, généralisation hors distribution, et déploiement zéro-shot du simulateur vers le robot physique. L'enjeu est structurel : les politiques de contrôle actuelles, MLP génériques ou réseaux de graphes (GNN), ignorent comment les grandeurs physiques se transforment symétriquement d'un membre à l'autre. Un quadrupède a quatre pattes quasi-identiques, un humanoïde a deux côtés symétriques, et cette information doit normalement être apprise empiriquement au prix de milliers d'échantillons supplémentaires. MS-PPO l'impose par construction plutôt que par reward shaping ou data augmentation, ce qui, selon les auteurs, améliore simultanément la généralisation aux symétries, la robustesse aux pannes de joints, l'efficacité d'échantillonnage et la compacité du modèle. Le résultat le plus fort reste le transfert sim-to-real zéro-shot : aucun fine-tuning sur le matériel physique, là où le reality gap demeure l'obstacle principal au déploiement industriel. À noter : l'abstract ne fournit pas de métriques chiffrées ; les gains quantifiés sont dans le corps du papier. L'exploitation des symétries en RL de locomotion est un axe de recherche actif depuis les travaux sur les réseaux équivariants et les architectures morpho-symétriques, notamment ceux d'Ordonez-Apraez et al. MS-PPO se positionne comme l'étape suivante : encoder non plus seulement la connectivité mais la physique des transformations dans le graphe. Les plateformes Go2 et G1 d'Unitree Robotics dominent les benchmarks académiques grâce à leur accessibilité commerciale et leur large base d'utilisateurs chercheurs. Aucun acteur européen n'est cité dans l'étude ; côté FR/EU, Wandercraft (Paris, humanoïdes médicaux) et PAL Robotics (Barcelone) développent leurs propres pipelines de contrôle. L'étape suivante attendue pour MS-PPO : validation sur des tâches locomotion-manipulation combinées et des déploiements longue durée hors laboratoire.

UELes laboratoires européens de contrôle locomotion (Wandercraft, PAL Robotics) pourraient appliquer MS-PPO à leurs propres plateformes, mais aucun acteur européen n'est impliqué dans l'étude.

RecherchePaper
1 source
Modélisation du monde en contexte pour le contrôle robotique
55arXiv cs.RO 

Modélisation du monde en contexte pour le contrôle robotique

Des chercheurs ont publié le 25 juin 2026 un preprint arXiv (2606.26025) présentant ICWM (In-Context World Modeling), un cadre d'adaptation pour les modèles Vision-Language-Action (VLA) appliqués à la robotique. Les VLA actuels échouent dès que le contexte d'exécution change - angle de caméra différent, morphologie de robot modifiée - parce qu'ils supposent un contexte fixe, celui rencontré pendant l'entraînement, et nécessitent un fine-tuning intensif en données pour toute nouvelle configuration. ICWM traite l'identification du système comme un problème d'adaptation en contexte : avant d'exécuter une tâche, le robot génère de courtes interactions autonomes agnostiques à la tâche, dont l'historique est injecté dans la fenêtre de contexte du modèle. Celui-ci infère ainsi implicitement la dynamique du système courant - position de caméra, configuration mécanique - sans mise à jour de poids. Les expériences menées en simulation et sur plateformes réelles montrent que ICWM surpasse significativement les baselines VLA standards sur des configurations de caméra inédites. La généralisation des VLA est le verrou principal qui freine le déploiement industriel de la robotique généraliste. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et les modèles Google nécessitent tous du fine-tuning dès qu'on change la disposition d'une caméra ou la morphologie d'un robot, ce qui rend les pilotes industriels coûteux et longs à mettre en place. ICWM attaque ce problème sans modifier les poids du modèle : l'adaptation passe uniquement par le contexte, à l'image de ce que l'In-Context Learning a apporté aux LLMs. Pour un intégrateur ou un COO industriel, cela signifie potentiellement déployer un même modèle sur plusieurs lignes avec des géométries de capteurs différentes, sans pipeline de re-entraînement. La contribution est conceptuellement distincte : là où l'ICL classique spécifie quelle tâche effectuer, ICWM apprend comment le système fonctionne - une couche d'adaptation complémentaire aux approches existantes. Les modèles VLA ont connu une explosion depuis 2024 : RT-2 (Google DeepMind), Pi-0 de Physical Intelligence, GR00T N2 d'NVIDIA présenté à GTC 2025, et plus récemment Helix (Figure AI) illustrent la convergence entre fondations LLM et contrôle moteur. La fragilité aux variations contextuelles - ce qu'on appelle le "demo-to-deployment gap" - reste une critique récurrente formulée notamment par des acteurs européens comme Enchanted Tools ou Wandercraft, qui misent sur des architectures plus déterministes pour des environnements industriels contraints. ICWM s'inscrit dans une tendance plus large : importer les paradigmes d'adaptation du machine learning directement dans la boucle de contrôle robotique, sans passer par un cycle de collecte de données et de re-entraînement. Le preprint ne mentionne ni partenariat industriel, ni code open-source, ni dataset public : il s'agit d'une contribution de recherche pure, sans déploiement commercial annoncé à ce stade.

UESi ICWM tient ses promesses, les intégrateurs européens pourraient déployer un même modèle VLA sur plusieurs lignes à géométries de capteurs différentes sans pipeline de ré-entraînement, réduisant directement le coût des pilotes industriels, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le vrai frein au déploiement robotique industriel, ce n'est pas la performance brute des VLA, c'est que la moindre caméra déplacée oblige à relancer un fine-tuning complet. ICWM importe dans la boucle de contrôle la même logique qui a rendu les LLMs flexibles, et si ça tient, c'est un changement de calcul économique pour les intégrateurs européens qui tentent des pilotes. Bon, pour l'instant c'est un preprint sans code ni partenaire industriel, donc on verra.

IA physiqueOpinion
1 source
G³VLA : biais inductif géométrique pour les modèles vision-langage-action (VLA)
56arXiv cs.RO 

G³VLA : biais inductif géométrique pour les modèles vision-langage-action (VLA)

Un preprint arXiv déposé fin juin 2026 présente G³VLA, un module géométrique plug-in pour les modèles VLA (Vision-Language-Action), conçu pour corriger un angle mort structurel de ces architectures : leurs tokens visuels sont encodés en coordonnées image 2D, sans exploiter la géométrie calibrée des caméras du robot. Dans les configurations multi-caméras, où intrinsèques et extrinsèques sont pourtant parfaitement connus, les vues sont traitées comme des images indépendantes, effaçant toute information de profondeur et de position relative. G³VLA injecte cette géométrie calibrée via trois composantes : des ray embeddings conditionnés sur les paramètres intrinsèques, un encodage positionnel projectif baptisé PRoPE, et une fusion cross-view bidirectionnelle. Aucun capteur de profondeur n'est requis : la supervision géométrique s'appuie soit sur des point maps ground-truth, soit sur des prédictions du modèle π³X filtrées par seuil de confiance. Le module a été instancié sur π₀ (Physical Intelligence) puis validé sur π₀.₅ et GR00T 1.5 de NVIDIA, avec des évaluations sur les suites LIBERO, RoboCasa24, RoboTwin2.0 et sur robot réel. Les gains obtenus sont réguliers sur l'ensemble des benchmarks, les améliorations les plus prononcées concernant les tâches dites spatialement sensibles : manipulation d'objets proches, désambiguïsation de positions relatives, réponse à des instructions impliquant des relations 3D précises. Pour un intégrateur ou un décideur industriel, le point central est la compatibilité : G³VLA s'ajoute sans modifier l'espace d'action ni l'objectif d'imitation du VLA hôte, le rendant portable vers des systèmes existants sans réentraînement complet. L'analyse comparative sur GR00T 1.5 livre un enseignement architectural : le transfert de géométrie est maximal quand les tokens géométriques ont accès direct au pathway de génération d'actions, et non positionnés en périphérie du flux. G³VLA s'inscrit dans la recherche post-RT-2 autour des VLA généralistes, portée par Physical Intelligence avec π₀ (2024) et NVIDIA avec la famille GR00T (N1, N2, 1.5). Ces modèles ont prouvé une généralisation hors distribution convaincante, mais leur faiblesse reconnue reste la précision spatiale fine, là où les réseaux end-to-end apprennent des heuristiques visuelles sans véritable compréhension 3D. Des travaux concurrents comme SpatialVLA (2025) explorent des voies similaires d'injection de géométrie. Du côté européen, des acteurs spécialisés dans la manipulation de précision, comme Enchanted Tools ou Wandercraft, pourraient tirer parti de ce type de module si intégré dans des VLAs open-source. Le code source n'est pas encore disponible, mais une page projet en ligne laisse anticiper une publication prochaine.

UEDes équipes françaises spécialisées en manipulation de précision, comme Enchanted Tools ou Wandercraft, pourraient intégrer ce module géométrique dans leurs pipelines VLA open-source pour améliorer la précision spatiale fine de leurs robots, dès la publication du code source.

💬 Les VLA passent à côté d'informations géométriques que les caméras calibrées donnent pourtant gratuitement, et ça se paie en précision spatiale. G³VLA corrige ça en plug-in, sans modifier l'espace d'action ni forcer un réentraînement, ce qui le rend applicable à des systèmes déjà en production. Reste à voir si Enchanted Tools ou Wandercraft suivent dès que le code sort.

IA physiqueOpinion
1 source
Une entreprise américaine dévoile R-Noid, un robot humanoïde pour les usines, hôtels et entrepôts
57Interesting Engineering 

Une entreprise américaine dévoile R-Noid, un robot humanoïde pour les usines, hôtels et entrepôts

Robot.com, société américaine, a annoncé le lancement commercial de R-Noid, un robot humanoïde destiné aux environnements industriels, logistiques, hospitaliers et de restauration. Proposé selon un modèle Robot-as-a-Service (RaaS), le système serait déployable en huit à douze semaines, de l'évaluation initiale du site jusqu'à l'opération autonome. R-Noid mesure 1,7 mètre, pèse 90 kilogrammes, et embarque deux bras à 7 degrés de liberté (7-DOF) capables de manipuler des charges allant jusqu'à 4 kilogrammes chacun, complétés par un torse articulé à 4-DOF offrant une portée verticale de 0 à 1,9 mètre. Sa base mobile holonome permet des déplacements omnidirectionnels sans modification des infrastructures existantes. Au lancement, le robot couvre 19 tâches réparties en cinq catégories : Restaurant Assistant, Packer, Picker, Folder et Host, comprenant notamment le montage de cartons, le picking en entrepôt, le transfert de pièces plastiques sur lignes de production, le support en cuisine et le pliage de linge. L'autonomie annoncée est d'environ trois heures sur batterie, avec la possibilité de fonctionner en continu branché au secteur, et une architecture d'effecteurs terminaux modulaire permet de changer d'outil selon la tâche. Ce qui distingue techniquement R-Noid, c'est l'empilement logiciel retenu. La manipulation est pilotée par pi-0.7, le modèle vision-langage-action (VLA) développé par Physical Intelligence, dont les travaux sur les politiques généralisées font référence dans la communauté robotique. La navigation et l'autonomie terrain reposent sur les Foundation Field Models (FFM) de FieldAI, conçus pour opérer sans cartographie préalable dans des environnements dynamiques. L'inférence embarquée est assurée par des modules NVIDIA Jetson, et la validation pré-déploiement passe par NVIDIA Isaac Sim. Ce choix d'assembler trois couches tierces spécialisées plutôt que de développer une stack propriétaire reflète une tendance croissante chez les intégrateurs humanoïdes. Reste que le RaaS humanoïde n'a pas encore fait ses preuves à l'échelle industrielle : l'annonce ne mentionne ni clients nommés ni volumes déployés, ce qui la place davantage du côté du lancement commercial que du déploiement réel en production. Robot.com s'inscrit dans une vague d'acteurs cherchant à industrialiser l'humanoïde en contournant la difficulté du hardware par un modèle de service. Ses concurrents directs incluent Figure AI avec le Figure 03 déployé chez BMW, Agility Robotics présent chez Amazon, 1X Technologies et Apptronik, tous positionnés sur les marchés industriels et logistiques. Du côté européen, Wandercraft développe Atalante X pour la rééducation médicale, et la française Enchanted Tools positionne Miroka sur l'hospitalité, segment également ciblé par la catégorie Host de R-Noid. Aucune tarification n'est communiquée. Les prochaines étapes seront déterminantes : Robot.com devra démontrer que ses délais de déploiement de huit à douze semaines tiennent en conditions réelles, et que pi-0.7 maintient ses performances hors des environnements contrôlés où les VLA ont jusqu'ici surtout été validés.

UEL'entrée de R-Noid sur le segment hospitalité crée une pression concurrentielle directe pour la française Enchanted Tools (Miroka) et indirectement pour Wandercraft, en illustrant la rapidité à laquelle des acteurs américains s'attaquent aux niches où des acteurs européens se positionnaient.

HumanoïdesOpinion
1 source
L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique
58Pandaily 

L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique

En l'espace d'une semaine, l'industrie robotique chinoise a enregistré plusieurs jalons concrets. Ubtech Robotics a annoncé que les pré-commandes de son robot humanoïde pleine taille Ubestworld dépassent 5 000 unités sur JD.com, avec une mise en vente simultanée sur Tmall. Dans le segment de l'IA physique, Jiangxing Intelligence a bouclé deux tours de financement stratégiques consécutifs totalisant plusieurs centaines de millions de yuans ; l'entreprise, fondée par Pang Haitian, revendique déjà la rentabilité et déploie ses solutions dans de multiples secteurs industriels. Alibaba a par ailleurs publié la série Qwen-Robot, ses modèles d'IA incarnée, pendant que le constructeur automobile Seres dévoilait son premier robot humanoïde. Sur le segment grand public, la startup ZuzuZoos a finalisé un tour Pre-A de plusieurs dizaines de millions de yuans pour son robot compagnon IA couplant grands modèles de langage et design IP, ciblant les femmes de 18 à 35 ans. Enfin, le ministère chinois de l'Industrie et des Technologies de l'Information (MIIT) a mis en consultation publique des projets de normes techniques pour les robots humanoïdes dans les sous-stations électriques et la fabrication d'électroménager, couvrant évaluation de performance, spécifications après-vente et interconnexion inter-robots. La simultanéité de ces signaux est plus significative que chacun pris isolément. Les 5 000 pré-commandes d'Ubtech, même sans précision de prix ni calendrier de livraison ferme, constituent un indicateur de demande grand public qui dépasse le cadre industriel habituel des humanoïdes, un glissement de marché que peu d'analystes anticipaient à ce stade. Plus structurellement, la publication de normes sectorielles par le MIIT est un accélérateur de déploiement B2B : elle réduit le risque d'évaluation pour les intégrateurs et les donneurs d'ordre industriels, qui n'ont plus à définir leurs propres grilles de qualification. La profitabilité affichée de Jiangxing Intelligence, si elle se confirme, invalide partiellement la thèse selon laquelle l'IA physique à grande échelle est encore trop immature pour générer des revenus récurrents. Du côté de JD Group, l'annonce par le fondateur Liu Qiangdong d'un plan de reconversion pour 700 000 employés col bleu, livreurs inclus, via des accords avec 120 établissements de formation, signale une stratégie de transition sociale anticipée face à l'automatisation, rarement formulée aussi explicitement par un opérateur de cette taille. Ce déferlement s'inscrit dans une dynamique d'écosystème que Pékin cultive depuis plusieurs années : subventions à la R&D robotique, zones pilotes pour l'IA incarnée, et pression réglementaire pour structurer rapidement un marché encore fragmenté. Face à cette accélération, les acteurs occidentaux positionnés sur l'humanoïde, Figure AI avec son robot 03, Tesla avec Optimus Gen 3, Physical Intelligence avec Pi-0, ou NVIDIA avec GR00T N2, maintiennent une avance technologique sur certains benchmarks de manipulation, mais voient l'écart de vitesse de commercialisation se réduire. Aucun acteur français ou européen n'est directement mentionné dans ces développements, bien que Wandercraft, Enchanted Tools ou Pollen Robotics opèrent sur des niches complémentaires (exosquelettes, cobots). Les prochaines étapes à surveiller : les dates de livraison effectives de l'Ubestworld, l'entrée en vigueur des normes MIIT, et les premiers déploiements industriels documentés de Qwen-Robot.

UELa simultanéité des avancées chinoises (normes MIIT, Qwen-Robot, signal de demande grand public Ubtech) accroît la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché ou la réglementation en France/UE.

Chine/AsieActu
1 source
FORT et NVIDIA lancent un plan de sécurité basé sur l'IA pour la surveillance externe
59The Robot Report 

FORT et NVIDIA lancent un plan de sécurité basé sur l'IA pour la surveillance externe

FORT Robotics a annoncé le 23 juin son intégration dans l'écosystème NVIDIA Halos for Robotics, en présentant conjointement une solution baptisée "Outside-In Safety" à la conférence Automate de Chicago. Démontrée cette semaine lors d'une session commune dans le Humanoid Robotics Pavilion, cette architecture combine le NVIDIA Outside-In Safety Blueprint avec le FORT Trust Layer pour étendre la perception des robots au-delà de leurs capteurs embarqués. Concrètement, le système connecte des capteurs d'infrastructure externes -- caméras montées en hauteur dans les entrepôts, par exemple -- via le NVIDIA Holoscan Sensor Bridge à un module de calcul IA NVIDIA IGX Thor, pour délivrer une sécurité fonctionnelle certifiable en temps réel. L'objectif déclaré est de moduler dynamiquement la vitesse et le comportement des robots autonomes selon la présence de travailleurs humains, sans imposer les ralentissements systématiques des architectures traditionnelles. L'approche "Outside-In" cible un point de friction bien réel dans les déploiements industriels actuels : les systèmes de sécurité classiques, dits "inside-out", s'appuient uniquement sur les capteurs embarqués du robot (lidar, caméras frontales), ce qui oblige les intégrateurs à programmer des zones de ralentissement conservatrices couvrant l'ensemble d'un espace de travail, même vide. En ajoutant une couche de perception infrastructurelle, FORT et NVIDIA promettent de récupérer ce débit sacrifié tout en maintenant la conformité aux normes de sécurité fonctionnelle. Pour un responsable d'intégration ou un COO logistique, l'argument commercial est direct : les caméras de surveillance déjà installées peuvent être réutilisées comme capteurs de sécurité, réduisant ainsi le coût d'entrée. Il faut toutefois noter que l'annonce reste au stade de la démonstration -- aucun chiffre de déploiement réel, ni donnée de temps de cycle validée en conditions industrielles, n'a été communiqué à ce stade. FORT Robotics, spécialisé dans les couches hardware/software de sécurité pour systèmes autonomes (agricole, logistique, industriel), est membre du NVIDIA Halos AI Systems Inspection Lab, un laboratoire accrédité ANAB (American National Accreditation Board) dédié à la vérification de la sécurité fonctionnelle, de la cybersécurité et de la conformité IA pour robots et véhicules autonomes. NVIDIA Halos constitue le cadre par lequel NVIDIA cherche à s'imposer comme infrastructure de sécurité de référence pour l'industrie robotique, en se positionnant face aux stacks propriétaires de Boston Dynamics, ABB Robotics ou Rockwell Automation sur la question de la certification fonctionnelle. En Europe, des acteurs comme Wandercraft ou Enchanted Tools travaillent sur des problématiques similaires de coexistence humain-robot, sans annonce comparable sur ce volet certification à ce stade. Les prochaines étapes pour FORT incluent des pilotes en entrepôts et sur des lignes de fabrication, sans calendrier précis communiqué.

IndustrielOpinion
1 source
Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique
60Robotics Business Review 

Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique

Bear Robotics a annoncé la signature d'un accord définitif pour acquérir Kinisi Robotics, une startup basée à Bristol, au Royaume-Uni. La clôture est attendue dans les prochains jours. L'opération transfère à Bear l'équipe d'ingénierie britannique de Kinisi, son robot humanoïde à roues KR1, ainsi que ses modèles d'IA propriétaires : un modèle vision-langage-action (VLA) et un modèle fondation pour la robotique (RFM). Ces systèmes combinent apprentissage par imitation, renforcement, contrôle agentique de tâches et vision par ordinateur pour la détection, la localisation et la segmentation d'objets. Le KR1 est un humanoïde sur base roulante, conçu pour la préhension, le tri et le déplacement d'objets dans des environnements industriels, logistiques et hôteliers. Fondée en 2017 par John Ha, Bear a déployé plus de 16 000 robots de service dans le monde, opérant déjà comme une flotte coordonnée via une orchestration multi-robots agentique sur une plateforme cloud unifiée. L'acquisition répond à un verrou technique persistant dans la robotique de service : les robots mobiles autonomes (AMR) naviguent efficacement, mais peinent dès qu'il s'agit de saisir, trier ou manipuler des objets physiques. En intégrant Kinisi, Bear franchit cette frontière entre navigation pure et manipulation physique, que la majorité des acteurs du secteur tentent encore de résoudre séparément. Ce qui donne du crédit à l'opération plutôt que d'en faire une annonce spéculative, c'est que Kinisi utilisait déjà le stack de navigation de production de Bear depuis ses débuts : les équipes se connaissent, le code tourne en conditions réelles, et Bear dispose d'une visibilité concrète sur la maturité de l'ingénierie de Kinisi. La synergie sur les données d'entraînement est également tangible : la flotte de 16 000 robots génère en continu des données issues de milliers de sites, tandis que les outils de capture de Kinisi permettent d'ajouter des exemples de manipulation à faible coût. C'est un avantage que des pure-players de l'humanoïde comme Figure AI (Figure 03), Physical Intelligence (pi-0), Agility Robotics (Digit) ou encore Boston Dynamics (Atlas) n'ont pas encore à cette échelle de déploiement commercial réel. Bear Robotics s'est fait connaître à partir de 2017 avec ses robots de livraison pour la restauration (Servi, Laboni), avant de s'étendre au nettoyage industriel, en construisant une chaîne de fabrication et une base de clients enterprise. Kinisi a été co-fondée par Brennand Pierce, lui-même co-fondateur originel de Bear, ce qui explique la proximité technique et culturelle des deux entités : Pierce rejoindra Bear à la clôture de la transaction. Aucun calendrier public de déploiement commercial du KR1 n'est encore annoncé, ni de prix ni de volume cible. La prochaine étape logique est l'intégration du KR1 dans la flotte existante pour des tâches de picking en environnement hospitality ou logistique, les données d'entraînement étant alimentées directement par la flotte en production. Côté Europe, aucun acteur comparable en termes de flotte déployée n'est positionné sur ce segment : Wandercraft (exosquelette médical) et Enchanted Tools (Miroka, hospitality) opèrent sur des verticales plus étroites.

UEL'acquisition de Kinisi (Bristol, UK) par Bear Robotics intensifie la pression concurrentielle sur les acteurs européens de robotique de service en hospitality et logistique, notamment Enchanted Tools, sans déploiement commercial annoncé en Europe à ce stade.

BusinessOpinion
1 source
Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique
61Interesting Engineering 

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

MindOne Robotics, startup chinoise fondée à Shenzhen en 2025, a présenté une démonstration de son framework robotique Mind-0, capable de piloter simultanément des robots humanoïdes Unitree G1 et des systèmes bras-double fixes à partir d'un unique modèle d'IA. Le scénario illustré couvre un workflow logistique complet: récupération d'objets, transport, emballage et fermeture de caisses, avec une flotte mixte opérant sous la même intelligence centralisée. L'entreprise revendique une précision de manipulation inférieure au centimètre sur la plateforme Unitree G1 en conditions réelles. L'architecture Mind-0 sépare le raisonnement de haut niveau (perception, planification, décision) du contrôle moteur bas niveau, ce qui permet de déployer le même cerveau logiciel sur des morphologies différentes sans pipeline d'entraînement séparé par plateforme. Particularité notable: le modèle est entraîné exclusivement sur des données humaines capturées par motion capture corps entier, caméras égocentrées et dispositifs manuels, et non sur de la téléopération robot directe, ce que MindOn présente comme un moyen de préserver les comportements naturels de résolution de problèmes. L'enjeu industriel est double. D'abord, l'agnosticisme matériel: si un seul modèle orchestre humanoïdes et bras fixes sur une même tâche, les intégrateurs n'ont plus à développer des pipelines d'IA distincts par plateforme, ce qui réduit le coût d'entrée dans les déploiements multi-robots. Ensuite, MindOn s'attaque frontalement au sim-to-real, l'un des verrous les plus persistants de la robotique moderne: son Real-World Execution Compensation Model utilise un volume réduit de données réelles pour corriger les dérives dues aux différences de dynamique entre simulation et environnement physique. Les métriques annoncées (précision sub-centimétrique sur une démonstration sélectionnée) restent toutefois à valider dans des conditions de déploiement industriel répétable, avec cadences et taux d'erreur documentés. Le système de raisonnement hiérarchique compensant les délais d'actuation répond par ailleurs à un problème souvent sous-estimé: contrairement aux démonstrations humaines, les robots subissent des latences de capteur, de calcul et d'actionneur que le modèle doit continuellement corriger en temps réel. MindOne Robotics évolue dans un espace concurrentiel très chargé. Sur l'agnosticisme matériel et les modèles unifiés cross-embodiment, elle fait face à GR00T N2 de NVIDIA (conçu pour humanoïdes multiples), à pi0 de Physical Intelligence (modèle généraliste pour la manipulation), ainsi qu'aux stacks maison de Fourier Intelligence et d'Unitree. En Europe, Enchanted Tools avec son robot Miroka et Wandercraft positionnent des approches verticales différentes. MindOne reste une très jeune société, et cette démonstration constitue à ce stade un teaser technologique, non un produit commercialement déployé: aucun client pilote ni délai de mise en production n'ont été annoncés publiquement. L'entreprise indique vouloir étendre ses datasets humains et industrialiser son pipeline cross-embodiment, sans préciser de calendrier.

UELa montée en puissance de l'approche cross-embodiment chinoise (Mind-0) crée une pression concurrentielle indirecte sur les acteurs français Enchanted Tools et Wandercraft, qui développent des approches verticales différentes sans modèle unifié cross-morphologie.

Chine/AsieOpinion
1 source
HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique
62arXiv cs.RO 

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique

Une équipe de chercheurs a publié HT-Bench, un benchmark à grande échelle destiné à évaluer les représentations tactiles main entière dans la manipulation robotique dextre, avec un dataset de 10 millions de trames RGB et 7,8 millions de trames tactiles collectées sur 226 tâches distinctes. La publication (arXiv:2606.19161, juin 2026) propose une approche centrée sur la vision égocentrique couplée à des capteurs tactiles couvrant l'intégralité de la main robotique. Le benchmark structure l'évaluation autour de quatre tâches : récupération de similarité tactile fine, inpainting de trames masquées, synthèse vision-vers-tactile, et prédiction multimodale de trames tactiles. En parallèle, les auteurs introduisent HandTouch, un encodeur vision-tactile à quantification vectorielle (VQ), entraîné selon trois phases progressives : spatiale, cross-modale et temporelle. Les gains quantitatifs de HandTouch sur HT-Bench sont nets : le Recall@5 en récupération de similarité tactile passe de 74,65 % à 85,23 %, l'erreur quadratique moyenne (RMSE) en inpainting chute de 0,022 à 0,010, et le score cIoU hors-distribution (OOD) en synthèse vision-tactile progresse de 0,628 à 0,705. Pour l'industrie robotique, cela valide une hypothèse structurante : coupler vision égocentrique et retour tactile main entière constitue une base d'apprentissage généralisable, sans exiger des capteurs ou des embodiments standardisés. C'est un signal concret pour les intégrateurs et équipes R&D travaillant sur la manipulation dextre en environnements non structurés, où percevoir l'état d'une prise sans vision directe reste un verrou majeur. Le domaine du tactile en robotique souffre depuis longtemps d'une fragmentation des formats de capteurs et des protocoles, rendant les comparaisons entre travaux difficiles. HT-Bench s'inscrit dans une dynamique de benchmarking qui émerge en 2025-2026, aux côtés d'initiatives comme RoboSet, DROID ou LIBERO pour la manipulation généraliste. Des laboratoires comme le CMU Robotics Institute et le MIT CSAIL, ainsi que des entreprises comme Sanctuary AI, explorent des approches similaires de fusion tactile-visuelle. Aucun acteur européen n'est directement cité dans ce travail, mais des startups comme Enchanted Tools ou Wandercraft, actives sur la manipulation avancée, pourraient tirer parti d'un tel benchmark pour standardiser leurs évaluations internes. L'étape suivante logique serait l'intégration de HandTouch dans des pipelines VLA (Vision-Language-Action), où le retour tactile reste aujourd'hui largement absent.

RecherchePaper
1 source
ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges
63arXiv cs.RO 

ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges

Des chercheurs ont publié une nouvelle méthode de contrôle pour quadrupèdes transportant des charges via des bras passifs à ressort, baptisée ZiMPedance. Le problème central : lorsqu'un quadrupède porte une charge suspendue à un bras passif (ressort et amortisseur, sans actionnement propre), la dynamique de cette interface génère des forces oscillatoires susceptibles de déstabiliser la locomotion. Les auteurs dérivent une formulation étendue du Zero Moment Point (ZMP), critère classique de stabilité en robotique de marche, intégrant explicitement les paramètres de raideur, d'amortissement et de masse de la charge. Cette formulation est ensuite incorporée dans un contrôleur prédictif (MPC) basé sur un modèle Single Rigid Body Dynamics augmenté des sous-systèmes passifs. En simulation, la méthode réduit les violations de stabilité par un facteur 10, de 7,0 % à 0,7 %, et abaisse l'effort en force de réaction au sol horizontale de 15 % par rapport à un contrôleur de référence. Les tests matériels ont utilisé une charge de 2 kg : le robot maintient une locomotion stable sous perturbations de type traction-relâchement là où le contrôleur nominal échoue. L'enjeu industriel est direct. Les bras passifs à ressort constituent une solution attractive pour équiper les quadrupèdes de capacités de transport sans alourdir la plateforme ni multiplier les actionneurs, contrairement aux manipulateurs actifs, plus lourds et plus coûteux. Le phénomène identifié ici, la résonance entre les configurations sous-amorties et les harmoniques de locomotion, représente un obstacle réel au déploiement en environnements non contrôlés. ZiMPedance démontre qu'il est possible de compenser ces effets par la modélisation plutôt que par le sur-actionnement, une approche directement transposable pour des cas d'usage logistiques, d'inspection industrielle ou de livraison de colis. Le même modèle permet en outre un suivi de position de l'effecteur via la dynamique passive, sans actionner le bras, ce qui ouvre des possibilités de contrôle indirect à faible coût énergétique. Ce travail s'inscrit dans la continuité des avancées MPC pour robots à pattes, un axe de recherche structurant depuis les développements autour de MIT Cheetah et ANYmal (ANYbotics). Dans le segment commercial, Boston Dynamics équipe Spot d'un bras actif à six degrés de liberté, Unitree propose des configurations payload sur ses quadrupèdes B1 et B2, et des acteurs européens comme Wandercraft ou Enchanted Tools explorent des architectures complémentaires pour la manipulation embarquée. Publié en preprint sur arXiv sous l'identifiant 2606.18883, ce travail n'a pas encore été soumis à révision par les pairs : les gains annoncés restent à valider en conditions de charge variable et sur terrain non structuré, hors cadre simulé.

UEMéthode potentiellement transposable pour des acteurs européens comme Wandercraft ou Enchanted Tools explorant la manipulation embarquée, mais aucun lien direct avec la France ou l'UE n'est documenté dans ce travail.

RecherchePaper
1 source
La peau de la trompe d'éléphant, un modèle à double zone pour les pinces robotiques avancées
64Interesting Engineering 

La peau de la trompe d'éléphant, un modèle à double zone pour les pinces robotiques avancées

Une équipe de chercheurs menée par Lucia Beccai a cartographié avec une précision inédite l'architecture microscopique de la peau de trompe d'éléphant, en vue d'en extraire des principes directement applicables à la robotique souple. L'étude, publiée dans PNAS Nexus, s'appuie sur 35 échantillons de tissu prélevés sur un unique spécimen adulte d'éléphant d'Asie (Elephas maximus) mort de causes naturelles au zoo de Zurich, en Suisse, en 2020. Les chercheurs ont combiné tests biomécaniques, histologie, imagerie multi-technique et modélisation par éléments finis pour caractériser la peau de la trompe en détail. Résultat central : la peau ne présente pas une composition homogène, mais se divise en deux zones mécaniques distinctes. La face supérieure, exposée aux frottements lors du transport de rondins ou du creusage du sol, affiche une rigidité 3,14 fois supérieure à celle de la face inférieure. Cette dernière, au contraire, est flexible et hypersensible : sa faible rigidité lui permet d'envelopper précisément la surface de chaque objet saisi, maximisant la surface de contact sans force musculaire excessive. Sous cette face inférieure, les chercheurs ont identifié des structures en dôme appelées papilles dermiques, dont la modélisation révèle qu'elles fonctionnent comme une lentille mécanique : elles concentrent et amplifient les contraintes à l'exacte position des terminaisons nerveuses sensorielles, transformant de faibles signaux tactiles en informations exploitables. Ce résultat a des implications directes pour les concepteurs de préhenseurs robotiques souples. La combinaison protection mécanique et sensibilité tactile reste l'un des défis les plus persistants du domaine : les capteurs assez fins pour détecter une texture de surface sont généralement les composants les plus vulnérables à l'abrasion et aux contacts répétés. La trompe d'éléphant résout ce problème sans compromis, via une architecture à gradient de rigidité continu et une géométrie sous-cutanée qui amplifie les signaux avant qu'ils n'atteignent les récepteurs. Pour les ingénieurs, cela valide concrètement une approche multi-matériaux biomimétique : fabriquer des préhenseurs en couches à rigidité délibérément variable, la couche externe protégeant et amplifiant simultanément les signaux vers des capteurs positionnés en profondeur. L'étude reste une caractérisation biomécanique, pas une démonstration robotique, mais elle fournit des paramètres exploitables (ratio de rigidité de 3,14:1, géométrie précise des papilles dermiques) que des équipes de conception pourraient intégrer directement dans des simulations ou des prototypes. La recherche en préhension souple d'inspiration biologique est active depuis plusieurs années, avec des travaux sur les doigts de pieuvre, les pattes de gecko ou les coussinets de primates, mais les mécanismes cutanés précis de la trompe restaient mal caractérisés. Des laboratoires comme le Soft Robotics Toolkit de Harvard ou le BioRobotics Lab de l'EPFL de Lausanne travaillent sur des préhenseurs à sensibilité tactile intégrée. Du côté européen, des acteurs comme Enchanted Tools à Paris, qui développe des plateformes humanoïdes expressives, ou Wandercraft, spécialisé dans les exosquelettes et la mobilité, pourraient s'appuyer sur ce type de solution pour les membres préhenseurs de leurs systèmes. Aucun déploiement industriel n'est encore annoncé en lien avec ce travail spécifique, et la transition de la biologie à un composant industrialisable reste un chemin non trivial. Les prochaines étapes logiques sont une validation sur matériaux synthétiques (élastomères à rigidité graduée, silicones composites) puis des tests de discrimination tactile sur prototypes, avant tout horizon de commercialisation.

UEL'EPFL de Lausanne et des entreprises françaises comme Enchanted Tools et Wandercraft sont mentionnés comme bénéficiaires potentiels de cette architecture biomimétique, mais aucune collaboration directe ni déploiement lié à ce travail n'est annoncé.

RecherchePaper
1 source
Le prochain robot humanoïde pourrait ne pas ressembler à un humain
65The Verge 

Le prochain robot humanoïde pourrait ne pas ressembler à un humain

La startup française Genesis AI a présenté Eno, un robot se réclamant du "général purpose" sans reproduire la silhouette humaine. Soutenue par Eric Schmidt, ancien PDG de Google, la société fait le choix radical d'une morphologie repensée : pas de tête au sens classique, une base potentiellement sur roues, une structure compacte et pliable. Seul élément fidèle à l'anatomie : les mains, conçues pour reproduire "exactement la forme et les fonctions" de la main humaine. Genesis AI positionne Eno comme un robot polyvalent capable d'une large gamme de tâches, à l'opposé des machines spécialisées. Les métriques techniques précises (charge utile, degrés de liberté, prix) n'ont pas été communiquées. Ce parti pris interroge une hypothèse dominante du secteur : pourquoi l'humanoïde doit-il ressembler à un humain ? La réponse de Genesis est fonctionnelle. Ce qui compte, c'est la compatibilité avec des environnements et des outils conçus pour des mains humaines, pas la forme du torse ou l'existence d'un visage. Pour les intégrateurs industriels, cela ouvre une piste concrète : des robots ergonomiquement compatibles avec l'espace de travail humain, potentiellement moins coûteux si les composants non fonctionnels sont supprimés. Genesis AI s'inscrit dans une vague de startups françaises de robotique avancée, aux côtés de Wandercraft (exosquelettes) et Enchanted Tools (robots hospitaliers). Le soutien d'Eric Schmidt lui donne une visibilité internationale dans un secteur dominé par Figure AI, Agility Robotics, Boston Dynamics côté américain et Unitree ou Fourier Intelligence côté asiatique. Eno reste à ce stade un teaser : aucun déploiement ni pilote industriel n'a été annoncé, et les performances réelles du système restent entièrement à démontrer.

UEGenesis AI est une startup française dont le projet Eno, soutenu par Eric Schmidt, renforce la visibilité internationale de l'écosystème robotique français, bien que le produit reste à un stade de teaser sans métriques ni déploiement validés.

FR/EU ecosystemeOpinion
1 source
Apprentissage par imitation physique : distiller des politiques de contrôle en élasticité passive
66arXiv cs.RO 

Apprentissage par imitation physique : distiller des politiques de contrôle en élasticité passive

Des chercheurs proposent Physical Imitation Learning (PIL), une méthode de co-conception contrôle-mécanique publiée sur arXiv (2604.00611). Le principe: prendre une politique de contrôle apprise par renforcement (RL) et la décomposer automatiquement en deux composantes distinctes, une contribution active (actionneurs) et une contribution passive, cette dernière étant ensuite transférée vers des articulations élastiques parallèles passives (PEJ, Passive Parallel Elastic Joints). La politique RL est ensuite ré-entraînée pour exploiter activement l'assistance mécanique des PEJ, en générant des allures mieux adaptées à leur comportement intrinsèque. En simulation sur des quadrupèdes, la méthode parvient à déléguer jusqu'à 95 % de la puissance mécanique aux PEJ sur terrain plat, et 13 % sur terrain accidenté. L'efficacité énergétique reste un verrou critique pour le déploiement de robots mobiles autonomes: les batteries limitent l'autonomie, et les robots actuels dépensent une énergie considérable à compenser leur propre mécanique plutôt qu'à en tirer parti. PIL adresse ce problème structurellement: plutôt que d'optimiser uniquement la loi de commande active, elle redistribue la charge d'actionnement vers des composants passifs fiables et bon marché. Le cadre est présenté comme généraliste, applicable à toute morphologie robotique à articulations, ce qui élargirait son périmètre aux bras, exosquelettes et robots humanoïdes. Si les résultats se confirment en conditions réelles, l'approche pourrait allonger l'autonomie et réduire l'usure des actionneurs sur des flottes en déploiement. L'inspiration biologique invoquée, celle de la co-évolution cerveau-corps et de la locomotion économe en énergie observée chez les animaux, est documentée depuis les travaux de Raibert (Boston Dynamics, années 1980-90) et les recherches sur les Series Elastic Actuators (SEA) du MIT. En Europe, des acteurs comme Wandercraft intègrent des mécanismes passifs dans leurs exosquelettes pour des raisons similaires. PIL se distingue en automatisant l'extraction de la composante passive depuis une politique RL existante, plutôt que de concevoir les ressorts manuellement. Les résultats demeurent toutefois entièrement en simulation; le sim-to-real gap, notamment sur terrain accidenté où l'offload chute à 13 %, constituera l'épreuve de vérité pour valider la crédibilité industrielle de cette approche.

UEPertinent pour Wandercraft (France) et les labos européens (INRIA, DLR) travaillant sur la locomotion économe en énergie, mais les résultats restent en simulation et aucun transfert réel vers des acteurs EU n'est encore engagé.

RecherchePaper
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
67arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
Atlas de Boston Dynamics montrerait des signes d'intelligence générale pour le travail en usine
68Interesting Engineering 

Atlas de Boston Dynamics montrerait des signes d'intelligence générale pour le travail en usine

Selon un rapport publié par KB Securities, l'humanoïde Atlas de Boston Dynamics franchit un seuil décisif vers le déploiement industriel. L'analyste Kang Sung-jin y documente des progrès significatifs dans ce que le secteur appelle l'«intelligence générale robotique», soit la capacité à s'adapter à des environnements inconnus et à accomplir des tâches variées sans instructions exclusivement préprogrammées. Le facteur technique central : un pipeline d'entraînement accéléré permettant de simuler l'équivalent de millions d'heures de formation robotique en une seule journée, puis de transférer les comportements appris sur le robot physique en environ une heure. Lors de démonstrations récentes, Atlas a déplacé un réfrigérateur de plus de 45 kg alors qu'il avait été entraîné sur des charges de 23 à 32 kg, illustrant une capacité de généralisation au-delà des conditions d'entraînement initiales. La filiale robotique du groupe Hyundai Motor a également montré Atlas exécutant des mouvements de frappe dynamiques nécessitant équilibre, agilité et contrôle moteur précis. Ces avancées reposent sur des partenariats stratégiques avec Google DeepMind, qui contribue son expertise en systèmes d'apprentissage, et Nvidia, qui fournit l'infrastructure de calcul haute performance nécessaire aux simulations à grande échelle. La réduction du «sim-to-real gap», l'écart historiquement problématique entre performances simulées et comportement réel, constitue l'argument technique le plus solide mis en avant par Boston Dynamics. La société l'attribue à une architecture matérielle délibérément simplifiée : Atlas n'utilise que deux types d'actionneurs sur l'ensemble de son corps, avec bras et jambes symétriques. Cette homogénéité facilite la création de simulations fidèles et accélère le transfert des compétences. La suppression des câbles traversant les articulations permet en outre une rotation continue des joints et réduit les exigences de maintenance. Pour les intégrateurs industriels et les décideurs B2B, ces caractéristiques signifient concrètement que les cycles de qualification de nouvelles tâches pourraient passer de plusieurs mois à quelques semaines. KB Securities projette que Boston Dynamics pourrait capturer 15 % du marché mondial des humanoïdes d'ici 2035 et jusqu'à 60 % du segment premium industriel, des estimations ambitieuses à considérer avec précaution sur un marché encore naissant. Boston Dynamics, fondée en 1992 au MIT et acquise par Hyundai Motor Group en 2021 pour 1,1 milliard de dollars, présente avec cet Atlas une rupture architecturale par rapport à ses générations précédentes, entièrement hydrauliques. Sur le terrain concurrentiel, la société fait face à Figure (accords industriels avec BMW et son robot 02), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0, approche VLA), et Agility Robotics (Digit, déployé dans des entrepôts Amazon). En Europe, Enchanted Tools avec son Mirokaï et Wandercraft avec l'Atalante ciblent des niches spécifiques mais restent loin de la polyvalence industrielle visée par Atlas. Les prochains déploiements pilotes annoncés concernent des installations du groupe Hyundai, sans calendrier précis communiqué à ce stade.

UELes acteurs européens Enchanted Tools et Wandercraft accusent un retard marqué sur la polyvalence industrielle visée par Atlas, accentuant la pression concurrentielle sur l'écosystème humanoïde FR/EU avant même les premiers déploiements pilotes Hyundai.

HumanoïdesOpinion
1 source
Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos
69Interesting Engineering 

Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos

ROBOTIS, fabricant coréen de composants et plateformes robotiques, a publié début juin 2026 une démonstration de son humanoïde AI Sapiens reproduisant le "CORTIS REDRED Challenge", une chorégraphie K-POP virale, à partir d'une unique vidéo captée sur smartphone. La chaîne de traitement repose sur quatre étapes enchaînées : capture de mouvement vidéo, retargeting cinématique vers la morphologie du robot, entraînement par apprentissage par renforcement en simulation, puis transfert Sim2Real vers le matériel physique. Aucun système de motion capture professionnel (OptiTrack, Vicon) n'a été utilisé. AI Sapiens mesure 1,3 mètre pour 34 kilogrammes, dispose de 23 degrés de liberté assurés par 23 actionneurs DYNAMIXEL-Q quasi-direct-drive (14 QM-060 et 9 QM-080), et embarque un NVIDIA Jetson Orin NX 16 Go offrant jusqu'à 100 TOPS de puissance de calcul. L'alimentation est assurée par une batterie 46,8 V, 9 000 mAh. ROBOTIS prévoit de publier l'intégralité du pipeline en open-source, incluant les fichiers CAD, le code source, les assets de simulation et les tutoriels. Ce qui mérite attention, ce n'est pas la danse en elle-même -- les vidéos de robots qui dansent sont devenues un genre communicationnel à part entière -- mais la suppression du goulot d'étranglement de la collecte de données de mouvement. Jusqu'ici, entraîner un humanoïde sur des mouvements complexes requérait des studios de capture équipés et des techniciens spécialisés, coûts prohibitifs pour les équipes de recherche et les PME industrielles. Substituer cela à une vidéo smartphone abaisse drastiquement la barrière d'entrée pour la production de comportements moteurs variés. La démonstration valide aussi partiellement le pipeline Sim2Real comme suffisamment robuste pour des mouvements dynamiques à corps entier -- un point que beaucoup d'équipes considéraient encore fragile hors de contextes très contraints. Reste que la vidéo présente un mouvement expressif non critique : il faudra des preuves comparables sur des tâches à charge utile ou à contact riche pour juger de la généralisation réelle de la méthode. ROBOTIS est une entreprise coréenne historiquement centrée sur les actionneurs Dynamixel, composants de référence dans la robotique académique mondiale depuis les années 2000. AI Sapiens constitue sa montée en gamme vers les plateformes humanoides complètes, en compétition directe avec des systèmes comme Unitree H1/G1 (Chine), Agility Robotics Digit (USA) ou Sanctuary AI Phoenix (Canada), tous également positionnés sur l'open-source partiel ou la recherche collaborative. Dans le paysage européen, des acteurs comme Enchanted Tools (Mirokaï, France) ou Wandercraft (exosquelette, Paris) restent sur des segments plus spécialisés. La publication open-source annoncée par ROBOTIS est un pari sur l'effet de communauté : si le pipeline se diffuse dans les labos universitaires, ROBOTIS consolide son écosystème Dynamixel comme standard de facto pour la prochaine génération d'humanoides de recherche. Aucune date de release précise n'a été communiquée à ce stade.

UELes laboratoires de recherche européens utilisant des actionneurs Dynamixel (standard académique mondial) pourront potentiellement bénéficier de la publication open-source du pipeline vidéo-vers-mouvement, réduisant le coût d'entrée pour l'entraînement de comportements moteurs complexes sans équipement de capture de mouvement professionnel.

HumanoïdesPaper
1 source
À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique
70Robotics Business Review 

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

X Square Robot a mis en open source XRZero-G0, un système de collecte de données robotiques combinant un casque VR PICO 4 à tracking spatial inside-out, une caméra frontale et deux caméras poignet, ainsi qu'une paire de grippers physiques duals, un gripper en H à actionnement par pression et un gripper en G à entraînement digital. Le dispositif assure une estimation de pose 6-DOF à précision millimétrique et intègre un parsing spatiotemporel embarqué pour synchroniser flux visuels, données de trajectoire et annotations langagières. En parallèle, la société publie le G0-Dataset : 2 000 heures de démonstrations humaines multimodales, disponibles sur HuggingFace avec le code source sur GitHub. Sous conditions expérimentales contrôlées, X Square Robot annonce une réduction des besoins en données réelles pouvant atteindre un facteur 20x : environ 10 épisodes collectés sans robot, combinés à un seul épisode sur robot réel, suffiraient à égaler les performances d'un entraînement purement issu de données robotiques. L'enjeu est direct pour les équipes qui développent des politiques de manipulation dextre : le goulot d'étranglement de l'embodied AI n'est pas le compute, c'est la donnée de qualité à grande échelle. XRZero-G0 formalise ce que le secteur cherche depuis plusieurs années, une pipeline fermée "collecte-inspection-entraînement-évaluation" qui filtre automatiquement les trajectoires invalides via cinématique inverse corps entier avec contraintes de collision et de limites articulaires, et valide par rejeu réel sur robot avant d'intégrer les épisodes à l'entraînement. Si les chiffres de réduction 20x se confirment sur des tâches variées hors conditions de labo, cela change structurellement l'économie de déploiement des VLA (Vision-Language-Action models) : les industriels pourraient composer leurs datasets sans immobiliser de flotte robotique pendant des semaines. Le transfert cross-embodiment revendiqué, démontration humaine transférable à des plateformes non vues à l'entraînement, reste la promesse la plus forte, et la plus à vérifier indépendamment. X Square Robot s'inscrit dans un mouvement plus large de standardisation de la collecte de données robotiques, aux côtés d'initiatives comme Open-X Embodiment (Google DeepMind, 2023), DROID (Berkeley, 2024) ou les efforts de Physical Intelligence autour de pi0. Le positionnement open source du G0-Dataset rappelle la stratégie d'Hugging Face avec LeRobot, visant à créer une infrastructure commune de benchmarking. Aucun concurrent européen direct n'est impliqué ici, bien qu'Enchanted Tools et Wandercraft opèrent sur des segments adjacents (interaction et mobilité bipède) qui pourraient bénéficier de telles ressources de préentraînement. Les prochaines étapes annoncées incluent l'utilisation du dataset pour du préentraînement à grande échelle et des expériences de transfert cross-embodiment, sans timeline commerciale précisée, ce projet reste pour l'instant dans le périmètre recherche.

UELes équipes R&D françaises et européennes (Enchanted Tools, Wandercraft) pourraient exploiter le G0-Dataset open source pour le préentraînement de leurs modèles VLA, réduisant potentiellement leur dépendance à la collecte de données robotiques en flotte, si le facteur 20x se confirme hors conditions contrôlées.

IA physiqueOpinion
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
71arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
72arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
73arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation
74arXiv cs.RO 

LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation

LightTact est un capteur tactile-visuel de bout de doigt conçu pour détecter les contacts sans déformation mécanique de surface. Là où les capteurs conventionnels (GelSight du MIT, DIGIT de Meta, Tactip) s'appuient sur la déformation d'un élastomère pour inférer un contact, LightTact exploite une configuration optique à blocage de lumière ambiante: seule la lumière diffusée aux points de véritables contacts traverse le système, laissant les pixels non-contactés à une valeur de gris moyenne inférieure à 3 sur 255. Les images brutes produites sont à fort contraste, chaque zone de contact préservant l'apparence naturelle de la surface touchée. La robustesse annoncée couvre les variations de propriétés matérielles, de force de contact, d'apparence de surface et d'éclairage ambiant, sans calibration spécifique au matériau. Ce verrou adresse un angle mort structurant de la manipulation robotique fine: les contacts dits "légers" avec des liquides, semi-liquides ou matériaux ultra-mous ne génèrent pas de déformation macroscopique et restent donc invisibles pour la plupart des capteurs actuels. LightTact démontre des comportements jusque-là difficiles à automatiser: étalement d'eau sur une surface, prélèvement de crème cosmétique, interaction avec des films minces souples. Pour les intégrateurs ciblant la cosmétique, l'agroalimentaire ou la manutention de produits fragiles, c'est un point de blocage technique levé. Fait significatif: les images visuelles et tactiles, spatialement alignées, sont directement interprétables par des vision-language models (VLMs), ce qui abaisse la barrière d'intégration avec les pipelines d'IA multimodaux sans couche de traitement intermédiaire dédiée. Le travail est publié en préprint sur arXiv (référence 2512.20591, troisième version), ce qui le situe au stade de la recherche académique: aucun produit commercial ni déploiement industriel n'est annoncé. Dans le panorama des capteurs tactiles visuels, LightTact occupe une niche distincte de celle de GelSight et ses dérivés, ou des solutions capacitives comme Xela Robotics, qui ciblent des régimes de contact avec déformation mesurable. Du côté européen, Pollen Robotics ou Wandercraft ne proposent pas de capteur tactile propre à ce niveau de spécificité. Les prochaines étapes logiques incluent une validation en boucle fermée sur plateforme robotique réelle et un test de durabilité de la surface optique face à des matériaux agressifs en usage répété.

UEAucun impact direct documenté à ce stade de préprint, mais les acteurs FR/EU ciblant la manipulation fine (Pollen Robotics, intégrateurs agroalimentaire/cosmétique) pourraient bénéficier de cette approche pour des contacts légers avec matériaux mous ou liquides.

RecherchePaper
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
75arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes
76arXiv cs.RO 

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper
1 source
IA incarnée fiable : un programme communautaire du test à la vérification formelle
77arXiv cs.RO 

IA incarnée fiable : un programme communautaire du test à la vérification formelle

Un article de position publié sur arXiv (2606.03593) dans le cadre du programme AAAI'26 Bridge sur la fiabilité des IA embarquées pose un constat cru : malgré l'accélération des déploiements en environnements ouverts, l'industrie ne dispose d'aucune méthodologie unifiée pour garantir le comportement sûr et prévisible de ces systèmes. Les auteurs identifient trois axes complémentaires : des tests par scénarios appuyés sur des spécifications validées et des métriques de couverture, une vérification compositionnelle via des représentations symboliques structurées, et des mécanismes d'assurance à l'exécution capables de gérer les incertitudes et les glissements de distribution (distribution shifts) en déploiement réel. Leur thèse centrale : ces trois approches doivent être intégrées dans un workflow d'assurance continu reliant tests, vérification formelle et adaptation runtime via des représentations neuro-symboliques partagées, sur l'ensemble du cycle de vie du système. L'enjeu est direct pour les intégrateurs et les COO industriels. Les systèmes d'IA embarquée, robots humanoïdes, AMR, bras de manipulation autonome, atteignent un niveau de capacité qui autorise des déploiements commerciaux, mais la certification de leurs comportements reste un angle mort. Là où l'automobile dispose de l'ISO 26262 et l'aéronautique de la DO-178C, la robotique IA ne dispose d'aucun cadre équivalent. Ce papier ne propose pas de norme : il trace un agenda de recherche communautaire pour combler cet écart. Prouver formellement les propriétés de sécurité d'un système dont les comportements émergent d'un réseau de neurones reste un problème ouvert, et l'absence de solution freine les déploiements à grande échelle en logistique, en industrie et dans les soins à la personne. Ce travail s'inscrit dans le sillage de l'essor des VLA (Vision-Language-Action models), Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, qui ont rendu les robots plus capables mais aussi moins prédictibles, compliquant d'autant leur vérification. Des acteurs français comme Wandercraft (exosquelette marchant) et Enchanted Tools (robot Mirokaï) se heurtent au même verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics. La suite logique de cet agenda passe par la constitution de benchmarks partagés et d'outils de vérification formelle adaptés aux architectures neuro-symboliques, un chantier que le Bridge Program de l'AAAI'26, prévu pour 2026, entend contribuer à structurer.

UEWandercraft et Enchanted Tools sont cités explicitement comme confrontés à ce verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics en France, cet agenda de recherche pourrait structurer le cadre de certification qui leur fait défaut.

RechercheOpinion
1 source
Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
78arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source
Sortie de l'Open Motion Planning Library 2.0
79arXiv cs.RO 

Sortie de l'Open Motion Planning Library 2.0

L'Open Motion Planning Library (OMPL), publiée en open source en 2008, franchit en mai 2026 une étape majeure avec la sortie d'OMPL 2.0, annoncée via un preprint arXiv (2605.29301). Cette mise à jour de fond fait évoluer une bibliothèque de planification de mouvement par échantillonnage qui, en près de deux décennies de développement continu, avait déjà intégré des planificateurs asymptotiquement optimaux, des planificateurs paresseux (lazy planners), la planification sous contraintes, et la planification avec objectifs en logique temporelle. La version 2.0 cible explicitement la planification de mouvement en temps réel grâce à l'accélération matérielle (GPU/FPGA), et s'interface avec les workflows de recherche en IA modernes. Aucun benchmark quantitatif n'est publié dans le résumé; les détails de performance restent à évaluer à la lecture du papier complet. L'enjeu est direct pour les équipes de robotique intégrées dans des environnements industriels ou académiques : OMPL est aujourd'hui l'une des briques les plus utilisées dans ROS/ROS 2 via MoveIt, ce qui signifie qu'une accélération matérielle en production peut réduire les temps de calcul de trajectoire de plusieurs ordres de grandeur, condition sine qua non pour les bras manipulateurs collaboratifs, les humanoïdes en manipulation dextère, et les AMR opérant dans des espaces non structurés. L'intégration avec les pipelines IA modernes, typiquement Vision-Language-Action (VLA) ou apprentissage par imitation, répond à un verrou réel : les planificateurs classiques et les modèles neuronaux cohabitent encore difficilement en temps réel. OMPL a été développé initialement à Rice University sous l'impulsion de Ioan Sucan et Lydia Kavraki, puis maintenu par une communauté large incluant des contributions de Willow Garage, puis de MoveIt. Ses concurrents directs dans l'écosystème open source incluent DRAKE (Toyota Research Institute / MIT), Tesseract (ROS-Industrial), et Pinocchio côté cinématique. Côté européen, des acteurs comme Wandercraft (exosquelette) ou Enchanted Tools (Mirmi) s'appuient sur des couches de planification proches. La prochaine étape naturelle sera la validation sur benchmarks standardisés (MotionBenchMaker, PlanningBenchmark) et l'intégration officielle dans MoveIt 2; aucune timeline n'est encore communiquée.

UEWandercraft et Enchanted Tools (Mirmi), acteurs français s'appuyant sur des couches de planification proches d'OMPL via ROS/MoveIt, pourraient bénéficier de l'accélération GPU/FPGA d'OMPL 2.0 pour réduire les temps de calcul de trajectoire en production.

InfrastructureOpinion
1 source
Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes
80arXiv cs.RO 

Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes

Une étude publiée sur arXiv en mai 2026 (arXiv:2605.28033) compare trois modalités d'apprentissage par démonstration pour robots manipulateurs : le guidage kinesthésique (l'opérateur déplace physiquement le bras du robot), la téléopération par joystick, et l'enseignement par gestes de la main. Conduit avec huit participants sur trois tâches de manipulation, le protocole mesure le taux de succès en rejeu, la charge cognitive via l'échelle NASA-TLX modifiée, et les erreurs courantes commises pendant la phase d'enseignement. Le guidage kinesthésique produit les démonstrations les plus courtes et la charge de travail la plus faible ; c'est aussi la méthode la plus performante sur les tâches à fort contenu en contact et sensibles à l'orientation. La téléopération par joystick prend l'avantage sur la tâche de saisie de cheville simple (peg picking). Les gestes de la main, bien que moins fiables en général, surpassent les attentes et atteignent dans certains cas des performances comparables au guidage kinesthésique. Ces résultats ont une portée directe pour les intégrateurs qui cherchent à déployer du learning-from-demonstration (LfD) en milieu industriel sans expertise robotique avancée. Le fait que le guidage kinesthésique reste supérieur sur les tâches contact-riches valide une hypothèse structurante du secteur : la qualité de la démonstration dépend de la bande passante haptique du canal d'enseignement, et un joystick 6-DOF n'y suffit pas pour les trajets fins. À l'inverse, la performance correcte des gestes sur certaines tâches ouvre une piste pour des scénarios sans accès physique au robot, ce qui intéresse les déploiements en cellule fermée ou à distance. Le panel de huit participants reste cependant limité pour généraliser, et l'article ne détaille pas les conditions de capture des gestes ni les taux d'échec absolus. L'apprentissage par démonstration est un axe de recherche actif depuis les années 2000, avec une accélération marquée depuis l'émergence des politiques visuomotrices (VLA) comme ACT, Diffusion Policy ou pi0 de Physical Intelligence. La comparaison de modalités d'enseignement reste peu explorée expérimentalement, la majorité des travaux se concentrant sur les architectures de politiques plutôt que sur l'interface homme-robot en amont. Des acteurs comme Wandercraft ou Enchanted Tools, qui développent des robots à usage humain en Europe, sont directement concernés par ces compromis d'utilisabilité. La prochaine étape logique serait d'étendre l'étude à des panels plus larges et à des tâches bimanipulation, domaine où l'avantage kinesthésique pourrait être encore plus marqué.

UEWandercraft et Enchanted Tools, qui développent des robots à usage humain en France, sont directement concernés par ces compromis de modalité d'enseignement pour le déploiement de leurs plateformes auprès d'opérateurs non-experts.

IA physiquePaper
1 source
Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub
81arXiv cs.RO 

Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub

Des chercheurs de l'Istituto Italiano di Tecnologia (IIT) de Gênes ont publié en mai 2026 sur arXiv une architecture formelle pour humanoïdes collaboratifs, dont ils présentent une implémentation concrète dans le robot ergoCub. L'approche repose sur deux piliers conceptuels empruntés aux neurosciences cognitives : la "shared intelligence" (la capacité à modéliser les intentions et actions d'un partenaire humain) et l'"embodied cognition" (l'idée que corps et cognition co-évoluent en réponse à l'environnement). Concrètement, la morphologie d'ergoCub et ses paramètres de contrôle moteur ont été co-optimisés en prenant comme fonction objectif des métriques ergonomiques humaines, notamment en intégrant des modèles biomécaniques du corps humain directement dans la couche de planification du mouvement. L'abstract ne fournit pas de chiffres de charge utile, de DOF ni de temps de cycle, et aucune ligne de production ni site de déploiement industriel n'est mentionné : il s'agit d'un article de recherche, pas d'une annonce de produit. Le principal apport de ce travail est méthodologique : c'est l'un des rares frameworks à co-optimiser simultanément le hardware et l'intelligence physique d'un humanoïde autour de l'ergonomie humaine, plutôt que de traiter ces deux couches séparément. Pour les intégrateurs industriels et les équipes d'ingénierie, cela ouvre une voie de conception où le robot n'est pas simplement "sécurisé" par des capteurs de force ou des limites de vitesse, mais structurellement conçu pour minimiser la charge musculo-squelettique de l'opérateur lors de tâches de co-manipulation. C'est une réponse directe à l'un des angles morts des humanoïdes commerciaux actuels, qui optimisent surtout la dextérité autonome sans modéliser l'impact biomécanique sur le coéquipier humain. ergoCub est une évolution directe du robot iCub, plateforme de recherche humanoïde phare du programme européen RobotCub lancé par l'IIT dans les années 2000, qui compte aujourd'hui plus de 40 laboratoires utilisateurs dans le monde. Cette filiation place ergoCub dans un écosystème académique robuste, mais loin encore d'une commercialisation. Sur le terrain concurrent, les acteurs en avance sur la collaboration humain-robot incluent Physical Intelligence (pi0), Agility Robotics (Digit, déployé chez Amazon), et Figure (02), mais aucun ne publie de métriques ergonomiques formalisées de ce type. En Europe, Enchanted Tools (Mirokaï) et Wandercraft (Atalante X) restent les acteurs les plus avancés sur les humanoïdes à vocation assistive et médicale. Les prochaines étapes pour ergoCub passeront vraisemblablement par des validations expérimentales de l'architecture en conditions de co-manipulation réelle, avant tout envisagement de transfert industriel.

UEL'IIT de Gênes (EU) positionne l'Europe comme précurseur sur la co-optimisation hardware/intelligence autour de l'ergonomie humaine pour les humanoïdes collaboratifs, un angle différenciateur absent des architectures des constructeurs américains.

FR/EU ecosystemePaper
1 source
Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact
82arXiv cs.RO 

Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact

Une équipe de chercheurs publie sur arXiv (2605.17336v1) un état de l'art de la fusion tactile multimodale dans les systèmes d'intelligence incarnée, couvrant les travaux jusqu'au premier trimestre 2026. L'article recense les approches qui combinent capteurs tactiles, vision et modèles de langage (LLM), et propose une taxonomie hiérarchique selon deux axes : les jeux de données multimodaux (Tactile-Vision, Tactile-Language, Tactile-Vision-Language) et les méthodes, regroupées en trois piliers : perception et reconnaissance (prédiction de saisie, identification d'objets), génération cross-modale (traduction bidirectionnelle entre données tactiles, visuelles et textuelles), et interaction multimodale (contrôle par retour d'effort, manipulation guidée par le langage). Le survey recense également le matériel de captation tactile représentatif et les métriques d'évaluation en usage dans les benchmarks actuels. Ce travail arrive à un moment critique : le toucher reste la grande modalité sensorielle non unifiée dans les pipelines robotiques modernes. Les systèmes de manipulation actuels, qu'il s'agisse de bras industriels ou d'humanoïdes comme Figure 03, Optimus ou GR00T N2, s'appuient massivement sur la vision et les VLA (Vision-Language-Action models), mais le retour tactile reste sous-exploité, souvent réduit à des capteurs force/couple rudimentaires. La perception tactile fournit pourtant des informations irremplaçables sur la géométrie de contact, les propriétés des matériaux et la dynamique d'interaction que la caméra seule ne peut pas restituer, ce qui en fait probablement la prochaine frontière pour réduire les taux d'échec en manipulation fine (assemblage, tri de pièces déformables, objets fragiles). Le domaine a connu une accélération depuis 2020 grâce aux capteurs visuotactiles comme GelSight (MIT) et DIGIT (Meta/FAIR), qui convertissent la déformation de surface en image RGB et permettent d'appliquer les architectures de vision standard au toucher. Des laboratoires comme Stanford, CMU et plusieurs groupes chinois (Shanghai AI Lab, Tsinghua) ont produit l'essentiel des datasets référencés. En Europe, des acteurs comme Shadow Robot et Wandercraft travaillent sur l'intégration du retour haptique dans des systèmes commerciaux. La fragmentation des datasets et des protocoles d'évaluation reste le principal frein à la montée en échelle, et les auteurs identifient la création de benchmarks unifiés et de modèles fondation tactiles comme les prochains jalons structurants du domaine.

UEWandercraft (France) est cité parmi les acteurs travaillant sur l'intégration du retour haptique dans des systèmes commerciaux, mais ce survey académique n'a pas d'impact opérationnel direct sur la France/UE à court terme.

RecherchePaper
1 source
Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM
83arXiv cs.RO 

Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM

Une étude publiée en prépublication sur arXiv (réf. 2503.00794) a évalué sept méthodes cinématiques et un modèle LSTM (Long Short-Term Memory) pour la détection automatique des événements de marche, à savoir le contact du talon (heel strike) et le décollage de l'orteil (toe-off), sur un corpus de 4 363 cycles de marche issus de 588 sujets valides. Parmi les approches cinématiques testées, la méthode de Zeni et al. obtient les meilleures performances en précision, tandis que plusieurs autres présentent des biais systématiques ou requièrent un ajustement paramétrique spécifique au jeu de données. Le modèle LSTM, entraîné de manière supervisée sur ces mêmes données, atteint un niveau de performance comparable à Zeni et al. sans ces biais, s'imposant comme une alternative data-driven sans recalibrage manuel. Ces résultats ont des implications directes pour le contrôle d'exosquelettes, où la détection précise des phases de stance (appui) et de swing (oscillation) conditionne la qualité de l'assistance motrice. Un algorithme de détection biaisé ou mal calibré peut introduire des erreurs de synchronisation dans la commande de l'actionneur, dégradant le confort et la sécurité du porteur. Le fait que le LSTM rivalise avec la meilleure méthode cinématique sans nécessiter d'ajustement selon la morphologie du sujet ou le type de capteur suggère que les approches deep learning offrent une robustesse supérieure pour des déploiements ambulatoires hors laboratoire. La détection des événements de marche est un problème central en biomécanique clinique depuis plusieurs décennies, traditionnellement résolu par des semelles de force (force plates) ou des capteurs de pression plantaire, matériel coûteux et peu portable. Les méthodes cinématiques basées sur des unités inertielles (IMU) ont émergé comme alternative ambulatoire, mais restent sensibles aux artefacts de mouvement et aux profils atypiques. Des acteurs comme Wandercraft (exosquelette Atalante, Paris) ou ReWalk intègrent ce type de détection dans leurs boucles de contrôle en temps réel. Les auteurs annoncent comme prochaine étape la validation sur des populations pathologiques, notamment les sujets post-AVC et les patients souffrant d'arthrose du genou, populations dont les profils cinématiques s'écartent significativement des normes d'entraînement du modèle actuel, et où la généralisation des méthodes reste à démontrer.

UELes méthodes LSTM sans recalibrage présentées pourraient renforcer la robustesse du contrôle en temps réel de l'exosquelette Atalante de Wandercraft (Paris), acteur français explicitement cité comme intégrateur de ce type de détection dans ses boucles de commande.

ExosquelettesPaper
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
84Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

IA physiqueOpinion
1 source
IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel
85arXiv cs.RO 

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

Lors du SAE World Congress 2026, un panel intitulé "Embodied AI in Action" a réuni des experts issus de l'automobile, de la robotique, de l'intelligence artificielle et de l'ingénierie de la sécurité pour faire le point sur le déploiement réel des systèmes d'IA incarnée. Le compte rendu de cette session, publié sous forme de livre blanc (arXiv:2605.10653), couvre trois grandes familles de systèmes : les véhicules autonomes, les robots mobiles et les machines industrielles autonomes. Contrairement à une annonce produit, ce document n'avance pas de métriques de performance spécifiques, payload, cycle time, taux de déploiement, mais synthétise le consensus d'experts sur les conditions nécessaires à un déploiement industriel fiable. Le message central est explicite : l'IA incarnée quitte les labos et entre dans des environnements opérationnels réels, avec toutes les contraintes que cela implique. Ce changement de statut, du prototype au système déployé, est précisément ce qui rend ce document pertinent pour les intégrateurs et les décideurs B2B. Le panel souligne que l'IA incarnée doit être traitée comme un défi systémique complet : rigueur d'ingénierie, gouvernance du cycle de vie, conception centrée utilisateur, et standards réglementaires encore en construction. Ce n'est pas une position nouvelle, mais le fait qu'elle émerge d'un consensus d'acteurs industriels, et non d'un seul laboratoire de recherche, signale que le secteur commence à s'aligner sur un cadre commun. La question de la confiance (trust) et de la sûreté opérationnelle est présentée comme aussi déterminante pour le succès long terme que les avancées techniques en elles-mêmes, ce qui tranche avec les discours purement axés sur les capacités des modèles. Le SAE (Society of Automotive Engineers) est l'organisation qui a défini les niveaux d'autonomie (L0 à L5) devenus la référence industrielle mondiale, son implication dans le cadrage de l'IA incarnée n'est donc pas anodine. Ce livre blanc s'inscrit dans une série d'initiatives de standardisation qui se multiplient depuis 2024, portées aussi par l'ISO, l'IEEE et l'UE dans le cadre de l'AI Act. Sur le plan concurrentiel, les géants du secteur, Boston Dynamics (Spot, Atlas), Figure AI (Figure 03), Tesla (Optimus), Agility Robotics (Digit), avancent chacun leur propre cadre de certification. Des acteurs européens comme Enchanted Tools ou Wandercraft sont concernés par ces évolutions réglementaires. Les prochaines étapes probables : la formalisation de standards sectoriels et des exigences de validation formelle pour les systèmes déployés en environnement humain partagé.

UELes acteurs européens comme Enchanted Tools et Wandercraft seront directement soumis aux standards de sécurité et de validation formelle qui émergent de ces initiatives SAE/ISO/IEEE, en convergence avec les exigences de l'AI Act pour les systèmes d'IA incarnée déployés en environnement humain partagé.

RegulationReglementation
1 source
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
86arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles
87Interesting Engineering 

Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles

Des chercheurs de l'Aston University et de l'University of Birmingham ont publié dans Scientific Reports une méthode d'entraînement robotique visant à réduire le "sim-to-real gap", ce fossé persistant entre les performances d'un robot en simulation et son comportement réel. L'approche, développée dans le cadre du projet REBELION financé par UK Research and Innovation, utilise un générateur de variations d'environnement piloté par IA : pendant la phase de simulation, le système introduit automatiquement des perturbations (bruit capteur, variabilité des matériaux, forces inattendues) pour entraîner le robot à des conditions plus proches du terrain. La validation expérimentale porte sur des tâches de manipulation et de découpe impliquant une interaction physique avec des matériaux, puis un ajustement avec un volume minimal de données réelles. Le cas d'usage mis en avant est le recyclage de batteries lithium-ion, où les robots doivent opérer autour de cellules endommagées ou potentiellement dangereuses, rendant les cycles de test physiques coûteux et risqués. L'intérêt industriel est direct : la dépendance à de longs cycles de test en environnement réel est l'un des principaux freins au déploiement rapide de robots dans des lignes de production ou des ateliers de recyclage. En permettant de compresser l'essentiel de l'apprentissage en simulation tout en garantissant un transfert fiable avec peu de données réelles, cette approche pourrait raccourcir significativement les timelines d'intégration et réduire les coûts opérationnels pour les industriels. Elle valide aussi une hypothèse qui fait débat dans le secteur depuis plusieurs années : que le sim-to-real gap n'est pas une fatalité, mais un problème d'exposition à la variance pendant l'entraînement. La vision formulée par le Dr. Alireza Rastegarpanah, assistant professor en applied AI and robotics à Aston University, est celle de systèmes robotiques "plug-and-play", entraînés une fois en simulation et redéployés rapidement dans un nouveau contexte sans reconfiguration lourde. C'est une promesse ambitieuse, et les résultats publiés restent limités à un périmètre de tâches contrôlées ; aucun chiffre de performance comparative (taux de succès, cycles de recalibration) n'est rendu public dans la version relayée. Le sim-to-real gap est un problème structurel documenté depuis les premières applications de reinforcement learning en robotique. Des acteurs comme Boston Dynamics, Agility Robotics ou encore Wandercraft (France, exosquelettes) utilisent des combinaisons de domain randomization et de transfert par imitation pour y répondre, avec des niveaux de maturité variables selon les tâches. Le projet REBELION s'inscrit dans un effort européen plus large sur l'automatisation du recyclage de batteries, filière en forte croissance avec l'essor des véhicules électriques. Les prochaines étapes annoncées par l'équipe visent à élargir la méthode à des environnements industriels plus incertains et à des applications en manufacturing avancé et opérations autonomes, sans calendrier précis communiqué.

UELa méthode du projet REBELION (financé UKRI, inscrit dans un effort européen) pourrait accélérer le déploiement de robots dans les filières EU de recyclage de batteries lithium-ion, secteur stratégique pour la transition électrique.

RecherchePaper
1 source
Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil
88arXiv cs.RO 

Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil

Des chercheurs ont déposé sur arXiv (identifiant 2507.23045, version révisée) un algorithme de calibration extrinsèque pour plateformes multi-capteurs, formulé comme une solution générale au problème dit de "robot-world and hand-eye calibration" (RWHEC). La contribution centrale est la garantie de convergence vers l'optimum global, une propriété que les méthodes précédentes, souvent fondées sur une optimisation locale par descente de gradient, ne pouvaient pas assurer. L'algorithme résout simultanément la pose de plusieurs capteurs et de plusieurs cibles, et prend en charge les caméras monoculaires, qui présentent une ambiguïté d'échelle intrinsèque : seules, elles ne peuvent pas mesurer la distance absolue sans information supplémentaire. Une implémentation open-source accompagne la publication pour faciliter reproductibilité et adoption. La calibration extrinsèque, la détermination précise de la position et de l'orientation relative entre un capteur (caméra, LiDAR) et l'effecteur ou la base d'un robot, est un prérequis critique pour tout système multi-capteurs, qu'il s'agisse de robotique industrielle, de véhicules autonomes ou de manipulation. En pratique, les méthodes existantes exigent soit des hypothèses fortes sur l'environnement (cibles connues, mouvements structurés), soit des initialisations manuelles proches de la solution, au risque de converger vers un minimum local erroné. Les auteurs dérivent des critères d'identifiabilité a priori, c'est-à-dire des conditions mathématiques permettant de vérifier avant le calcul si le problème admet une solution unique, ainsi que des garanties d'optimalité globale pour des instances à erreurs de mesure bornées. Cela réduit la charge opérateur et élimine le risque d'échec silencieux en production. Techniquement, l'algorithme repose sur une relaxation SDP (Semidefinite Programming) d'un programme quadratique à contraintes quadratiques (QCQP), une famille de méthodes popularisée notamment par TEASER++ (MIT, 2020) pour le recalage de nuages de points. Les auteurs introduisent en parallèle une nouvelle qualification de contraintes pour les programmes non linéaires à contraintes redondantes, une contribution de théorie de l'optimisation valable indépendamment du problème de calibration. À noter que ce travail reste un preprint non encore évalué par les pairs. Dans un secteur où des acteurs comme Boston Dynamics, Agility Robotics, ou côté français Wandercraft, investissent massivement dans la perception embarquée multi-capteurs, disposer d'une calibration certifiée, générale et peu contraignante représente un gain opérationnel concret pour le passage à l'échelle en environnements réels.

UELes entreprises françaises multi-capteurs comme Wandercraft pourraient intégrer cet algorithme open-source pour fiabiliser leur calibration robot en production sans risque de minimum local silencieux.

RecherchePaper
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
89Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage
90arXiv cs.RO 

Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage

Une équipe de chercheurs a publié début mai 2025 sur arXiv (2605.01434) une architecture de lecture de capteurs analogiques scalable pour mains robotiques dextres. Le système repose sur un registre à décalage série-vers-parallèle (SIPO) qui permet de connecter des modules de capteurs hétérogènes via seulement trois lignes de signal entre chaque module. La validation porte sur une main robotique à tendons équipée de 16 modules articulaires et d'un module tactile à quatre canaux, soit 20 canaux échantillonnés à 1 kHz en mode plein balayage, avec une stabilité confirmée jusqu'à 1,5 kHz. Les capteurs articulaires atteignent une erreur maximale de pente (APE) de 0,446 % et une estimation angulaire inférieure au degré. Pour la perception tactile, des modèles LSTM déployés en inférence temps réel à 1 kHz obtiennent un RMSE de 0,125 N pour l'estimation de force et 93,4 % de précision pour la classification en cinq catégories de localisation de contact. L'apport principal est la dissociation entre nombre de capteurs, complexité du câblage et bande passante d'échantillonnage, un compromis qui freine depuis longtemps le développement de mains densément captées. Limiter l'interconnexion à trois fils réduit la complexité mécanique et électrique de façon significative, un point critique pour les intégrations en espace contraint. La démonstration à 1 kHz sur 20 canaux simultanés avec inférence LSTM embarquée prouve que la chaîne capteur-modèle peut tenir le rythme d'une boucle de contrôle temps réel sans matériel dédié coûteux. Les performances tactiles sont solides sur banc de test, mais l'article ne précise pas les conditions en manipulation libre, un élément à vérifier avant toute extrapolation industrielle. La dextérité robotique reste un verrou majeur pour la manipulation non structurée, et la densification des capteurs dans les mains mécaniques est un axe actif chez des acteurs comme Sanctuary AI, Figure, Apptronik ou 1X, dont les humanoïdes commerciaux peinent encore à atteindre la densité sensorielle des prototypes académiques. L'architecture SIPO présentée est suffisamment générique pour s'adapter à d'autres géométries de main ou d'autres types de capteurs comme la pression, la température ou la proximité, et constitue une base crédible pour des intégrations sur plateformes humanoïdes en cours de commercialisation. Du côté européen, ni Wandercraft ni Enchanted Tools n'ont publié d'approches comparables pour les effecteurs distaux, laissant ce créneau ouvert à de prochains travaux.

UEL'architecture SIPO publiée en open access sur arXiv constitue une base technique directement exploitable pour les équipes R&D européennes travaillant sur les effecteurs distaux d'humanoïdes, un créneau où Wandercraft et Enchanted Tools n'ont pas encore publié d'approches comparables.

RecherchePaper
1 source
Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint
91arXiv cs.RO 

Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint

Des chercheurs ont publié le 5 mai 2026 sur arXiv (preprint, non encore évalué par les pairs) un framework baptisé AGG (Adaptive Gait Generation), basé sur les Kernelized Movement Primitives (KMP), conçu pour permettre aux exosquelettes de membres inférieurs (Lower Limb Exoskeletons, LLEs) de marcher sur plusieurs types de terrains intérieurs en temps réel. Le système apprend une représentation probabiliste de la marche humaine à partir d'un nombre limité de démonstrations, dans les espaces articulaires et cartésiens, pour garantir la cohérence physiologique et la faisabilité cinématique. Une caméra RGB-D embarquée extrait des informations environnementales qui sont injectées comme contraintes linéaires dans un problème d'optimisation via des via-points. La méthode a été validée en simulation sur quatre scénarios, marche à plat, pentes, escaliers et franchissement d'obstacles, puis testée physiquement sur un LLE commercial dans des conditions réelles. L'enjeu principal est de combler le fossé entre laboratoire et terrain pour les exosquelettes de rééducation et d'assistance, qui restent aujourd'hui cantonnés aux surfaces planes et uniformes. L'approche KMP permet d'adapter la trajectoire de marche sans recalibration manuelle, ce qui représente une avancée opérationnelle concrète pour les cliniciens et les intégrateurs industriels. La capacité à générer des trajectoires cohérentes à partir de peu de démonstrations humaines réduit significativement le coût de déploiement, un verrou majeur pour la commercialisation. Les résultats sur le LLE commercial valident le passage du sim-to-real, même si la robustesse à long terme et la diversité des profils utilisateurs restent à démontrer sur des cohortes plus larges. Les exosquelettes de membres inférieurs sont un segment en pleine structuration : des acteurs comme Wandercraft (Paris), avec son Atalante X, ou Ekso Bionics et ReWalk côté américain, s'affrontent sur la question de l'autonomie locomotrice en environnement non contrôlé. La plupart des systèmes existants imposent encore une supervision clinique ou des réglages manuels par terrain. Ce travail s'inscrit dans une vague de recherches cherchant à coupler perception embarquée et planification adaptive, un axe également exploré par des équipes à l'ETH Zurich et au MIT. Les prochaines étapes naturelles seraient une validation sur des populations de patients avec des pathologies variées et une intégration dans un pipeline de contrôle adaptatif complet incluant la détection d'intention de l'utilisateur.

UEWandercraft (Paris) et son Atalante X sont directement concernés par cette avancée, qui ouvre la voie à une autonomie locomotrice en environnements non contrôlés sans recalibration manuelle, un verrou clé pour la commercialisation clinique en Europe.

ExosquelettesPaper
1 source
Figure et 1X accélèrent la production de robots humanoïdes
92IEEE Spectrum Robotics 

Figure et 1X accélèrent la production de robots humanoïdes

Figure atteint désormais une cadence de production de 55 robots humanoïdes par semaine, selon une annonce publiée fin avril 2026. Ces unités sont, selon la startup américaine, destinées aux équipes internes de R&D, à la collecte de données, au développement de tâches domestiques de bout en bout et à des "cas d'usage commerciaux en développement", une formulation qui interroge sur la destination réelle de cette production alors que les déploiements commerciaux restent à maturité. En parallèle, 1X Technologies a officiellement ouvert la NEO Factory à Hayward, en Californie : une usine de 58 000 pieds carrés (environ 5 400 m²) employant plus de 200 personnes, avec une chaîne entièrement intégrée couvrant moteurs, batteries, transmissions, capteurs, structures et assemblage final. Les premières unités NEO sortent déjà des lignes de production, avec des livraisons grand public annoncées pour 2026. Sur le plan technique, Agility Robotics a publié des tests d'équilibre dynamique sur une seule jambe pour son robot Digit, et une équipe de recherche a présenté HTD (Humanoid Transformer with Touch Dreaming), un système de manipulation humanoïde combinant téleopération VR, apprentissage par renforcement pour le bas du corps et capteurs tactiles distribués. La montée en cadence simultanée de Figure et 1X marque un glissement du secteur humanoïde vers la production industrielle, mais chaque annonce appelle une lecture critique. Produire 55 unités par semaine sans contrats commerciaux confirmés suggère soit une stratégie de collecte de données à grande échelle, ressource clé pour l'entraînement des politiques VLA (Vision-Language-Action), soit une anticipation agressive de la demande avant une prochaine levée de fonds. L'intégration verticale revendiquée par 1X, inspirée du modèle Tesla, offre une flexibilité d'itération et réduit la dépendance aux fournisseurs, mais mobilise des capitaux considérables. Les travaux d'Agility sur l'équilibre dynamique illustrent par ailleurs que le gap sim-to-real reste un verrou technique central : la moindre divergence entre modèle simulé et robot réel peut provoquer une instabilité en conditions réelles, limitant directement la fiabilité en milieu industriel. Figure, fondée en 2022 par Brett Adcock, a levé plus de 750 millions de dollars avec BMW, Microsoft et Amazon comme partenaires, et opère un pilote chez BMW Manufacturing en Caroline du Sud depuis 2024, bien que les vidéos publiées restent en conditions contrôlées. 1X, société norvégienne soutenue par OpenAI et Tiger Global, se positionne sur le marché résidentiel face à Tesla Optimus (déployé progressivement dans les usines Tesla), aux robots Agility Digit (opérés chez Amazon) et aux fabricants chinois comme Unitree (G1, H1) qui exercent une pression tarifaire croissante. Aucun acteur européen, ni Wandercraft, ni Enchanted Tools, ni Pollen Robotics, n'annonce de production à ce volume pour l'instant. Les prochains trimestres détermineront si ces cadences correspondent à des commandes fermes ou à une stratégie de positionnement avant financement.

UELa montée en cadence de Figure et 1X exerce une pression concurrentielle sur les acteurs européens (Wandercraft, Enchanted Tools, Pollen Robotics), qui n'annoncent pas de volumes de production comparables à ce stade.

HumanoïdesActu
1 source
ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux
93arXiv cs.RO 

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Une équipe de chercheurs a publié sur arXiv (arXiv:2505.20032) ViTaPEs, une architecture transformer conçue pour fusionner les perceptions visuelles et tactiles dans les robots manipulateurs. Le principe central est un encodage positionnel à deux étages : un encodage local propre à chaque modalité (vision d'un côté, capteurs tactiles de l'autre), suivi d'un encodage global appliqué sur la séquence de tokens fusionnés juste avant le mécanisme d'attention croisée. Cette double injection positionn­elle fournit un vocabulaire spatial partagé au moment précis où les deux flux d'information interagissent. Les expériences ont été conduites sur plusieurs jeux de données réels à grande échelle, et les résultats montrent des gains sur des tâches de reconnaissance visuotactile, ainsi qu'une capacité de généralisation zero-shot vers des scénarios hors domaine non vus pendant l'entraînement. En transfert vers une tâche de saisie robotique, ViTaPEs surpasse les baselines actuelles dans la prédiction du succès de préhension. L'enjeu industriel de ces travaux est concret : les capteurs tactiles (GelSight, DIGIT et dérivés) fournissent des informations que la vision seule ne capture pas, texture de surface, compliance d'un matériau, force de contact locale. Sans fusion visuotactile robuste, un robot de manipulation en environnement non structuré reste fragile face aux objets inconnus ou aux variations de surface. La contribution de ViTaPEs n'est pas seulement de performance brute : c'est de montrer qu'un encodage positionnel explicitement conçu pour le cross-modal permet une meilleure généralisation, sans s'appuyer lourdement sur des modèles vision-langage pré-entraînés comme CLIP. Pour les intégrateurs et les équipes robotiques industrielles, c'est un signal que le sim-to-real et le cross-domain gap sur la perception tactile peuvent être partiellement résolus par l'architecture plutôt que par la masse de données supervisées. Ce travail s'inscrit dans une vague de recherche sur la représentation visuotactile, on pense aux travaux antérieurs de Meta AI sur DIGIT, aux représentations auto-supervisées de Calandra et al., ou encore à Pi-0 de Physical Intelligence qui intègre déjà des flux multimodaux pour le contrôle de robots polyvalents. Côté acteurs européens, des startups comme Wandercraft (France) ou des laboratoires comme le LAAS-CNRS travaillent sur la manipulation dextère, et ce type d'architecture pourrait s'intégrer à leurs pipelines. Les prochaines étapes probables incluent l'évaluation sur des manipulateurs commerciaux (Franka, UR) et l'intégration dans des pipelines de contrôle visuomoteur de type VLA, où la précision tactile manque encore cruellement.

UELes équipes françaises de manipulation dextère (Wandercraft, LAAS-CNRS) pourraient intégrer cette architecture visuotactile dans leurs pipelines, réduisant la dépendance aux données supervisées massives pour la généralisation cross-domain.

IA physiquePaper
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
94arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source
Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle
95arXiv cs.RO 

Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle

Des chercheurs ont présenté un système hybride baptisé Learning-Augmented Robotic Automation (LARA), déployé sur une ligne de production réelle de moteurs électriques pour automatiser deux tâches jusqu'alors confiées à des opérateurs humains : l'insertion de câbles déformables et la soudure. Le système combine des contrôleurs de tâches appris par imitation et un moniteur de sécurité neuronal 3D, intégré directement dans les workflows industriels existants. Entraîné avec moins de 20 minutes de données réelles par tâche, LARA a fonctionné en continu pendant 5 heures 10 minutes, produisant 108 moteurs sans barrière physique de protection, avec un taux de conformité de 99,4 % aux tests de contrôle qualité au niveau produit. Le takt time atteint est comparable à celui d'un opérateur humain, avec une réduction mesurée de la variabilité des joints de soudure et des temps de cycle. Ce résultat s'attaque directement au fossé entre démonstration laboratoire et déploiement industriel effectif, l'obstacle principal qui freine l'adoption de la robotique apprenante en production. L'entraînement en moins de 20 minutes par tâche abaisse considérablement la barrière à l'intégration pour les industriels et les intégrateurs système. Pour un COO de ligne d'assemblage, le point le plus structurant est l'absence de caging physique : le moniteur neuronal remplace les protections mécaniques classiques, ouvrant la voie à des cellules collaboratives sans les coûts de reconfiguration d'atelier associés aux robots industriels traditionnels. La manipulation de câbles déformables et la soudure figurent parmi les tâches les plus résistantes à la robotisation classique, du fait de la déformation matière et de la non-répétabilité des poses. Sur ce segment, Physical Intelligence (Pi-0.5) et Figure AI (Helix sur Figure 02) poussent des VLA généralistes pour la manipulation multi-tâches, tandis que Wandercraft et Enchanted Tools, tous deux français, ciblent respectivement la mobilité humanoïde et les robots de service. LARA se distingue par son pragmatisme : pas d'humanoïde, pas de modèle fondationnel, mais une hybridation ciblée sur des cellules industrielles existantes. Les auteurs évoquent comme suites naturelles l'extension à d'autres tâches de câblage et la validation sur des lignes multi-produits.

UELa fabrication de moteurs électriques est un segment clé de la transition EV en Europe ; LARA démontre qu'un système appris en moins de 20 minutes peut atteindre le takt time humain sur des tâches résistantes à la robotisation classique, abaissant directement la barrière d'adoption pour les intégrateurs et industriels européens sans reconfiguration lourde d'atelier.

IndustrielActu
1 source
Un joint de poignet à abduction-adduction entraîné par tendons améliore les performances d'un exosquelette de membre supérieur à 5 degrés de liberté
96arXiv cs.RO 

Un joint de poignet à abduction-adduction entraîné par tendons améliore les performances d'un exosquelette de membre supérieur à 5 degrés de liberté

Une équipe de chercheurs a publié sur arXiv (preprint arXiv:2504.20898) une évaluation expérimentale de l'exosquelette de membre supérieur EXOTIC2, enrichi d'un sixième degré de liberté actif au niveau du poignet : le mouvement d'abduction-adduction (Ab-Ad). Le module intégré est compact et léger, utilisant une transmission par tendons pour l'abduction et un rappel par ressort pour l'adduction. Le protocole a impliqué huit adultes sans déficit moteur, soumis à deux tâches fonctionnelles de la vie quotidienne (boire dans un verre, gratter une surface) dans deux conditions randomisées : poignet actif vs. poignet bloqué. Un test de faisabilité préliminaire a également été conduit sur une personne atteinte de sclérose latérale amyotrophique (SLA). Les résultats quantitatifs sont nets : avec le DoF Ab-Ad activé, le taux de renversement lors de la tâche de boisson chute de 56 % à 3 %, et le taux de succès pour le nivellement lors de la tâche de grattage passe de 28 % à 75 %. Aucune dégradation du temps d'exécution n'a été observée. Ces chiffres apportent une preuve expérimentale directe d'un point souvent débattu dans la communauté exosquelette : l'ajout d'un DoF au poignet est fréquemment évité pour des raisons de complexité mécanique et de poids, sans que son bénéfice fonctionnel réel soit bien documenté. Cette étude comble ce vide pour les tâches de préhension et de transport d'objets. L'exosquelette EXOTIC (dont EXOTIC2 est la seconde génération) est développé dans un contexte de rééducation pour personnes à mobilité réduite sévère, notamment les patients SLA. Le domaine des exosquelettes de membre supérieur à vocation clinique reste dominé par quelques acteurs européens et nord-américains : Hocoma, Tyromotion, ou encore le français Wandercraft côté membre inférieur. Pour le membre supérieur, les solutions commerciales disponibles (Armeo, REAplan) intègrent rarement un contrôle actif du poignet en Ab-Ad. Ce travail, encore au stade de preprint, devra être validé sur une cohorte de patients avec déficits moteurs avant toute perspective de commercialisation, mais il pose une base expérimentale solide pour les prochaines itérations de conception.

UECette recherche sur EXOTIC2 renforce la base expérimentale des exosquelettes de membre supérieur cliniques, un segment dominé par des acteurs européens (Hocoma, Tyromotion) et où ce bénéfice documenté du DoF de poignet Ab-Ad peut orienter les prochaines générations de dispositifs de rééducation.

ExosquelettesPaper
1 source
Quanzhibo lève des centaines de millions de yuans lors d'un tour de Série A++
97Pandaily 

Quanzhibo lève des centaines de millions de yuans lors d'un tour de Série A++

Quanzhibo, développeur chinois de joints servo fondé en 2020 à Wuxi, a bouclé le 21 avril 2026 un tour Series A++ de plusieurs centaines de millions de yuans, avec la participation de Shenzhen Investment Holdings, Photosynthesis Ventures, Orient Jiafu, Junshan Capital, Liangjiang Capital et Junxi Capital. Cette levée porte le financement total cumulé à plus de 600 millions de RMB en huit tours. La société commercialise trois familles de joints servo intégrés (planétaire PA, harmonique HA, cycloïdal CA) couvrant des couples de 2 à 400 Nm, pour humanoïdes et robots quadrupèdes. En 2025, ses livraisons ont dépassé 100 000 modules, auprès de clients comme Songyan Power et Leju Robotics. En avril 2026, son usine de fabrication de précision à Wuxi est entrée en production avec un cycle de 90 secondes par unité, un taux d'automatisation de 85 %, un rendement au premier passage de 96 % et un rendement global supérieur à 98 %, pour une capacité annuelle annoncée à l'échelle du million d'unités. Ce financement reflète la tension croissante autour des joints actionneurs, qui restent l'un des principaux verrous pour les fabricants d'humanoïdes. Couvrir 2 à 400 Nm avec un seul fournisseur simplifie la chaîne d'approvisionnement des intégrateurs, des doigts jusqu'aux hanches. Atteindre 100 000 unités expédiées en 2025 et viser le million par an place Quanzhibo dans un registre de volume compatible avec une production en série, à condition que le taux de rendement annoncé (98 % global) résiste à une vérification indépendante, hors contexte de communication financière. Fondée en 2020, l'entreprise a enchaîné cinq tours en 2025 seul (A2 à A6), rythme qui traduit une compétition intense côté chinois sur les actionneurs de précision, où des acteurs comme INNFOS et des filiales de groupes industriels investissent également. À l'international, Figure AI (Figure 03), Tesla (Optimus) et 1X Technologies développent leurs joints en interne, tandis que Harmonic Drive AG reste la référence sur les marchés occidentaux. En Europe, des sociétés comme Wandercraft ou Enchanted Tools s'approvisionnent encore majoritairement hors de Chine. L'ouverture de l'usine de Wuxi marque le passage de Quanzhibo d'une logique de R&D à une logique de composant de série ; les prochaines étapes probables incluent des accords OEM avec des fabricants d'humanoïdes de second rang et des ambitions à l'export.

UELa montée en puissance industrielle de Quanzhibo (capacité annoncée à 1 million d'unités/an) accentue la pression concurrentielle sur les fournisseurs d'actionneurs de précision non-chinois, au moment où des fabricants européens d'humanoïdes comme Wandercraft et Enchanted Tools s'approvisionnent encore majoritairement hors de Chine.

Chine/AsieActu
1 source
Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes
98Interesting Engineering 

Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes

RobCo, startup allemande fondée à Munich, a dévoilé à la Hannover Messe 2026 un robot humanoïde industriel baptisé Autonomous Alfie, conçu pour des tâches de fabrication complexes impliquant une forte variabilité : kitting, palettisation, assemblage de précision et manipulation de matériaux sensibles. L'annonce intervient dans la foulée d'une levée de fonds Serie C de 100 millions de dollars, orientée vers le développement de ce que RobCo appelle la "Physical AI". Le robot embarque une manipulation bimanuels, c'est-à-dire une coordination à deux bras imitant la gestuelle humaine, couplée à un système de vision et de perception haptique permettant de gérer des pièces mal orientées ou des flux de travail changeants. Les premiers déploiements clients sont annoncés pour la fin 2026, sans précision sur les sites ou les secteurs ciblés. RobCo dispose déjà d'opérations à San Francisco et Austin, et l'essentiel de ce financement est clairement orienté vers le marché américain. Ce que RobCo met en avant, c'est le passage à ce qu'il nomme le "niveau 4 d'autonomie" en contexte industriel : un système capable d'apprendre par observation plutôt que par programmation explicite, et d'exécuter des tâches avec une intervention humaine minimale, même dans des environnements non structurés. C'est précisément le segment qui résiste encore à l'automatisation classique, dominée par les bras articulés répétitifs qui exigent des environnements stables et des fixtures précises. Si les performances annoncées se confirment en production réelle, Alfie s'attaquerait au "messy middle" de la chaîne industrielle, ce gisement de tâches manuelles à haute variabilité que ni les AMR ni les cobots traditionnels n'ont su automatiser à l'échelle. Le modèle Robotics-as-a-Service (RaaS) proposé en parallèle vise à supprimer le frein du capex initial, facilitant une adoption rapide sans engagement d'achat lourd. Il faut néanmoins noter qu'Alfie est décrit comme étant encore en "phase finale de développement" : les affirmations sur l'autonomie de niveau 4 restent à valider sur des lignes de production en conditions réelles, les vidéos de démo présentées à Hannover Messe ne constituant pas une preuve de déploiement industriel à l'échelle. RobCo n'est pas un nouvel entrant : la société était jusqu'ici positionnée sur les bras robotiques modulaires pour PME, avant de pivoter vers l'humanoïde et la Physical AI. Elle rejoint un champ concurrentiel désormais dense, où Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies se disputent la même promesse d'un robot généraliste pour l'industrie. En Europe, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft développent des approches parallèles, sans avoir encore atteint la phase de déploiement commercial annoncé. La prochaine étape décisive pour RobCo sera la publication de métriques de production vérifiables, notamment les temps de cycle en conditions non contrôlées et les taux d'erreur sur tâches à haute variabilité, seuls indicateurs capables de distinguer une démonstration convaincante d'un produit réellement opérationnel.

UERobCo, startup allemande basée à Munich, annonce un humanoïde industriel et lève 100M$ mais oriente son financement prioritairement vers le marché américain, limitant l'impact concret à court terme pour l'industrie européenne malgré la vitrine de Hannover Messe.

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
99arXiv cs.RO 

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée. Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée. Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

UEAucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

RechercheOpinion
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
100arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source