Aller au contenu principal

Dossier Enchanted Tools — Mirokaï — page 2

217 articles · page 2 sur 5

Enchanted Tools et Mirokaï : robot social français à roues, animations expressives, expérimentations en hôpitaux et hôtels.

FORT et NVIDIA lancent un plan de sécurité basé sur l'IA pour la surveillance externe
51The Robot Report IndustrielOpinion

FORT et NVIDIA lancent un plan de sécurité basé sur l'IA pour la surveillance externe

FORT Robotics a annoncé le 23 juin son intégration dans l'écosystème NVIDIA Halos for Robotics, en présentant conjointement une solution baptisée "Outside-In Safety" à la conférence Automate de Chicago. Démontrée cette semaine lors d'une session commune dans le Humanoid Robotics Pavilion, cette architecture combine le NVIDIA Outside-In Safety Blueprint avec le FORT Trust Layer pour étendre la perception des robots au-delà de leurs capteurs embarqués. Concrètement, le système connecte des capteurs d'infrastructure externes -- caméras montées en hauteur dans les entrepôts, par exemple -- via le NVIDIA Holoscan Sensor Bridge à un module de calcul IA NVIDIA IGX Thor, pour délivrer une sécurité fonctionnelle certifiable en temps réel. L'objectif déclaré est de moduler dynamiquement la vitesse et le comportement des robots autonomes selon la présence de travailleurs humains, sans imposer les ralentissements systématiques des architectures traditionnelles. L'approche "Outside-In" cible un point de friction bien réel dans les déploiements industriels actuels : les systèmes de sécurité classiques, dits "inside-out", s'appuient uniquement sur les capteurs embarqués du robot (lidar, caméras frontales), ce qui oblige les intégrateurs à programmer des zones de ralentissement conservatrices couvrant l'ensemble d'un espace de travail, même vide. En ajoutant une couche de perception infrastructurelle, FORT et NVIDIA promettent de récupérer ce débit sacrifié tout en maintenant la conformité aux normes de sécurité fonctionnelle. Pour un responsable d'intégration ou un COO logistique, l'argument commercial est direct : les caméras de surveillance déjà installées peuvent être réutilisées comme capteurs de sécurité, réduisant ainsi le coût d'entrée. Il faut toutefois noter que l'annonce reste au stade de la démonstration -- aucun chiffre de déploiement réel, ni donnée de temps de cycle validée en conditions industrielles, n'a été communiqué à ce stade. FORT Robotics, spécialisé dans les couches hardware/software de sécurité pour systèmes autonomes (agricole, logistique, industriel), est membre du NVIDIA Halos AI Systems Inspection Lab, un laboratoire accrédité ANAB (American National Accreditation Board) dédié à la vérification de la sécurité fonctionnelle, de la cybersécurité et de la conformité IA pour robots et véhicules autonomes. NVIDIA Halos constitue le cadre par lequel NVIDIA cherche à s'imposer comme infrastructure de sécurité de référence pour l'industrie robotique, en se positionnant face aux stacks propriétaires de Boston Dynamics, ABB Robotics ou Rockwell Automation sur la question de la certification fonctionnelle. En Europe, des acteurs comme Wandercraft ou Enchanted Tools travaillent sur des problématiques similaires de coexistence humain-robot, sans annonce comparable sur ce volet certification à ce stade. Les prochaines étapes pour FORT incluent des pilotes en entrepôts et sur des lignes de fabrication, sans calendrier précis communiqué.

1 source
Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique
52Robotics Business Review 

Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique

Bear Robotics a annoncé la signature d'un accord définitif pour acquérir Kinisi Robotics, une startup basée à Bristol, au Royaume-Uni. La clôture est attendue dans les prochains jours. L'opération transfère à Bear l'équipe d'ingénierie britannique de Kinisi, son robot humanoïde à roues KR1, ainsi que ses modèles d'IA propriétaires : un modèle vision-langage-action (VLA) et un modèle fondation pour la robotique (RFM). Ces systèmes combinent apprentissage par imitation, renforcement, contrôle agentique de tâches et vision par ordinateur pour la détection, la localisation et la segmentation d'objets. Le KR1 est un humanoïde sur base roulante, conçu pour la préhension, le tri et le déplacement d'objets dans des environnements industriels, logistiques et hôteliers. Fondée en 2017 par John Ha, Bear a déployé plus de 16 000 robots de service dans le monde, opérant déjà comme une flotte coordonnée via une orchestration multi-robots agentique sur une plateforme cloud unifiée. L'acquisition répond à un verrou technique persistant dans la robotique de service : les robots mobiles autonomes (AMR) naviguent efficacement, mais peinent dès qu'il s'agit de saisir, trier ou manipuler des objets physiques. En intégrant Kinisi, Bear franchit cette frontière entre navigation pure et manipulation physique, que la majorité des acteurs du secteur tentent encore de résoudre séparément. Ce qui donne du crédit à l'opération plutôt que d'en faire une annonce spéculative, c'est que Kinisi utilisait déjà le stack de navigation de production de Bear depuis ses débuts : les équipes se connaissent, le code tourne en conditions réelles, et Bear dispose d'une visibilité concrète sur la maturité de l'ingénierie de Kinisi. La synergie sur les données d'entraînement est également tangible : la flotte de 16 000 robots génère en continu des données issues de milliers de sites, tandis que les outils de capture de Kinisi permettent d'ajouter des exemples de manipulation à faible coût. C'est un avantage que des pure-players de l'humanoïde comme Figure AI (Figure 03), Physical Intelligence (pi-0), Agility Robotics (Digit) ou encore Boston Dynamics (Atlas) n'ont pas encore à cette échelle de déploiement commercial réel. Bear Robotics s'est fait connaître à partir de 2017 avec ses robots de livraison pour la restauration (Servi, Laboni), avant de s'étendre au nettoyage industriel, en construisant une chaîne de fabrication et une base de clients enterprise. Kinisi a été co-fondée par Brennand Pierce, lui-même co-fondateur originel de Bear, ce qui explique la proximité technique et culturelle des deux entités : Pierce rejoindra Bear à la clôture de la transaction. Aucun calendrier public de déploiement commercial du KR1 n'est encore annoncé, ni de prix ni de volume cible. La prochaine étape logique est l'intégration du KR1 dans la flotte existante pour des tâches de picking en environnement hospitality ou logistique, les données d'entraînement étant alimentées directement par la flotte en production. Côté Europe, aucun acteur comparable en termes de flotte déployée n'est positionné sur ce segment : Wandercraft (exosquelette médical) et Enchanted Tools (Miroka, hospitality) opèrent sur des verticales plus étroites.

UEL'acquisition de Kinisi (Bristol, UK) par Bear Robotics intensifie la pression concurrentielle sur les acteurs européens de robotique de service en hospitality et logistique, notamment Enchanted Tools, sans déploiement commercial annoncé en Europe à ce stade.

BusinessOpinion
1 source
Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique
53Interesting Engineering 

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

MindOne Robotics, startup chinoise fondée à Shenzhen en 2025, a présenté une démonstration de son framework robotique Mind-0, capable de piloter simultanément des robots humanoïdes Unitree G1 et des systèmes bras-double fixes à partir d'un unique modèle d'IA. Le scénario illustré couvre un workflow logistique complet: récupération d'objets, transport, emballage et fermeture de caisses, avec une flotte mixte opérant sous la même intelligence centralisée. L'entreprise revendique une précision de manipulation inférieure au centimètre sur la plateforme Unitree G1 en conditions réelles. L'architecture Mind-0 sépare le raisonnement de haut niveau (perception, planification, décision) du contrôle moteur bas niveau, ce qui permet de déployer le même cerveau logiciel sur des morphologies différentes sans pipeline d'entraînement séparé par plateforme. Particularité notable: le modèle est entraîné exclusivement sur des données humaines capturées par motion capture corps entier, caméras égocentrées et dispositifs manuels, et non sur de la téléopération robot directe, ce que MindOn présente comme un moyen de préserver les comportements naturels de résolution de problèmes. L'enjeu industriel est double. D'abord, l'agnosticisme matériel: si un seul modèle orchestre humanoïdes et bras fixes sur une même tâche, les intégrateurs n'ont plus à développer des pipelines d'IA distincts par plateforme, ce qui réduit le coût d'entrée dans les déploiements multi-robots. Ensuite, MindOn s'attaque frontalement au sim-to-real, l'un des verrous les plus persistants de la robotique moderne: son Real-World Execution Compensation Model utilise un volume réduit de données réelles pour corriger les dérives dues aux différences de dynamique entre simulation et environnement physique. Les métriques annoncées (précision sub-centimétrique sur une démonstration sélectionnée) restent toutefois à valider dans des conditions de déploiement industriel répétable, avec cadences et taux d'erreur documentés. Le système de raisonnement hiérarchique compensant les délais d'actuation répond par ailleurs à un problème souvent sous-estimé: contrairement aux démonstrations humaines, les robots subissent des latences de capteur, de calcul et d'actionneur que le modèle doit continuellement corriger en temps réel. MindOne Robotics évolue dans un espace concurrentiel très chargé. Sur l'agnosticisme matériel et les modèles unifiés cross-embodiment, elle fait face à GR00T N2 de NVIDIA (conçu pour humanoïdes multiples), à pi0 de Physical Intelligence (modèle généraliste pour la manipulation), ainsi qu'aux stacks maison de Fourier Intelligence et d'Unitree. En Europe, Enchanted Tools avec son robot Miroka et Wandercraft positionnent des approches verticales différentes. MindOne reste une très jeune société, et cette démonstration constitue à ce stade un teaser technologique, non un produit commercialement déployé: aucun client pilote ni délai de mise en production n'ont été annoncés publiquement. L'entreprise indique vouloir étendre ses datasets humains et industrialiser son pipeline cross-embodiment, sans préciser de calendrier.

UELa montée en puissance de l'approche cross-embodiment chinoise (Mind-0) crée une pression concurrentielle indirecte sur les acteurs français Enchanted Tools et Wandercraft, qui développent des approches verticales différentes sans modèle unifié cross-morphologie.

Chine/AsieOpinion
1 source
Vidéo : un système robotique atteint 99,5 % de réussite dans le câblage rapide en usine automobile
54Interesting Engineering 

Vidéo : un système robotique atteint 99,5 % de réussite dans le câblage rapide en usine automobile

La société canadienne Sanctuary AI a annoncé avoir atteint un taux de succès supérieur à 99,5 % sur une tâche d'insertion de connecteurs de câbles flexibles pour un équipementier automobile Tier 1 mondial non identifié. L'opération s'est déroulée sur une ligne de production active, avec un temps de cycle de 2,54 secondes validé contre les exigences de cadence du client. La difficulté intrinsèque de cette tâche tient à la nature des câblages souples : ils peuvent se tordre, se déformer et changer de position de façon imprévisible lors du transport sur convoyeur. Le système est piloté par la plateforme "Physical AI" de Sanctuary AI, qui combine perception en temps réel via caméras et capteurs, planification de trajectoire et contrôle adaptatif pour détecter, suivre, aligner et insérer les connecteurs sans arrêt de ligne. Olivia Norton, co-fondatrice et CTO, a résumé l'enjeu : "Manipuler un câble flexible sur une cible en mouvement sur un convoyeur en direct est exactement le type de problème de dextérité à contact riche qui a maintenu ce type de tâches hors de portée de l'automatisation traditionnelle." Ce résultat mérite attention à plusieurs égards. Le contexte est une ligne de production réelle, non un environnement de démonstration contrôlé, ce qui donne davantage de poids au taux annoncé. Le chiffre de 2,54 secondes n'est pas une métrique absolue mais un temps calibré contre les benchmarks opérationnels du client, distinction qu'il faut garder à l'esprit pour ne pas généraliser hors contexte. Pour les intégrateurs et les responsables industriels, l'approche de Sanctuary AI est notable : plutôt que d'attendre la maturité commerciale des humanoïdes, l'entreprise déploie son IA sur des systèmes industriels existants via une architecture agnostique du hardware. Ce positionnement réduit le risque d'adoption, préserve les investissements en infrastructure existants et produit des données de production sur des tâches d'assemblage restées historiquement inaccessibles à l'automatisation classique, notamment dans les industries automobile et électronique où la manipulation de câblages flexibles représente un volume de travail manuel encore considérable. Fondée à Vancouver, Sanctuary AI développe le robot humanoïde Phoenix mais mise d'abord sur la valorisation de son IA sur des plateformes existantes avant le passage à l'échelle des humanoïdes. Elle s'inscrit dans une course qui implique Figure AI (Figure 02), Tesla (Optimus Gen 3), Boston Dynamics (Atlas), 1X Technologies et Agility Robotics (Digit), ainsi que des acteurs de niche comme Enchanted Tools en France sur le segment hospitalier. L'équipementier Tier 1 impliqué n'a pas été nommé publiquement, ce qui limite la vérification indépendante des performances annoncées. Aucun volume de déploiement ni calendrier d'extension n'ont été précisés, des données qui permettraient de mieux qualifier l'ampleur réelle du projet au-delà de cette première validation en conditions de production.

UEL'approche hardware-agnostique de Sanctuary AI pour l'assemblage de câbles flexibles pourrait accélérer l'automatisation de tâches manuelles encore courantes dans les usines automobiles et électroniques européennes (Stellantis, Valeo, Bosch), sans nécessiter de remplacement d'infrastructure existante.

IndustrielOpinion
1 source
Gestes robotiques naturels et expressifs via un apprentissage par renforcement itératif avec retours humains et LLMs
55arXiv cs.RO 

Gestes robotiques naturels et expressifs via un apprentissage par renforcement itératif avec retours humains et LLMs

Des chercheurs ont publié en juin 2026 (arXiv:2606.18747) un système permettant au robot humanoïde Pepper de générer des gestes co-verbaux naturels à l'exécution, sans recours à des animations préprogrammées. L'architecture combine ChatGPT pour la génération de code gestuel en langage naturel, couplée à un pipeline d'apprentissage par renforcement à partir de retours humains (RLHF) appliqué de manière itérative. Des utilisateurs évaluent les gestes produits par Pepper lors d'une étude comparative, ces préférences servant de signal de récompense pour affiner le modèle de langage. Résultat annoncé : des mouvements jugés plus expressifs, pertinents et fluides qu'avec le seul pipeline LLM de base. L'enjeu est significatif pour les intégrateurs de robots sociaux. Aujourd'hui, la quasi-totalité des comportements gestuels déployés en production repose sur des bibliothèques d'animations conçues à la main par des experts, ce qui rend les robots rigides face à des contextes conversationnels imprévus. Les approches par apprentissage automatique peinent à capturer la naturalité perçue, un critère subjectif qui se dégrade à mesure que le nombre de degrés de liberté augmente. Ce travail propose une alternative concrète : utiliser un LLM comme générateur de comportements moteurs au runtime, puis le corriger via RLHF pour coller aux préférences réelles des utilisateurs. C'est une transposition directe de la méthode qui a rendu ChatGPT lui-même plus utile, appliquée ici au domaine de la communication non verbale humain-robot. Les résultats restent néanmoins issus d'une étude utilisateur contrôlée, pas d'un déploiement à grande échelle. Pepper est le robot social d'Aldebaran Robotics, société française rachetée par SoftBank en 2012, aujourd'hui commercialisé dans les secteurs retail, accueil et éducation. Après une phase de déception commerciale liée précisément à la rigidité comportementale du robot, plusieurs équipes académiques cherchent à relancer son potentiel via des couches IA génératives. Sur ce terrain, Pepper fait face à une concurrence croissante des agents conversationnels incarnés (avatars AR/VR) et de nouvelles plateformes comme Enchanted Tools (France) avec son robot Miroki, conçu dès l'origine pour une expressivité naturelle. La prochaine étape logique serait un déploiement en contexte réel pour mesurer le gap entre l'évaluation en laboratoire et l'acceptation en environnement ouvert, une question que les auteurs n'adressent pas encore.

UEDes travaux académiques sur Pepper (Aldebaran, origine française rachetée par SoftBank) appliquant l'RLHF à la gestualité co-verbale ouvrent une voie concrète pour réhabiliter cette plateforme en production, dans un contexte où Enchanted Tools (France) cherche à s'imposer sur le segment des robots sociaux expressifs avec Miroki.

FR/EU ecosystemePaper
1 source
Pourquoi automatiser ? Corrélations entre désir d'automatisation robotique, temps consacré et bien-être
56arXiv cs.RO 

Pourquoi automatiser ? Corrélations entre désir d'automatisation robotique, temps consacré et bien-être

Une étude publiée sur arXiv (référence 2501.06348v4) par le laboratoire ROBIN de l'Université du Texas à Austin interroge les ressorts psychologiques qui poussent les individus à vouloir déléguer des tâches domestiques à des robots. Les chercheurs ont croisé trois sources de données : le dataset BEHAVIOR-1K, qui répertorie environ un millier d'activités domestiques types, l'American Time-Use Survey (ATUS), qui mesure le temps consacré à chaque activité, et le module Well-Being de ce même sondage, qui capture six états émotionnels associés (bonheur, sens, tristesse, douleur, stress, fatigue). L'objectif central était de déterminer si c'est la durée d'une tâche ou son ressenti émotionnel qui prédit le mieux le désir d'automatisation, en différenciant les résultats selon le genre et le niveau de revenu des répondants. Le résultat principal contredit une hypothèse structurante du secteur : le temps consacré à une activité n'est pas un bon prédicteur du souhait de l'automatiser. Ce sont l'absence de bonheur et la douleur physique ressentie qui constituent les indicateurs les plus forts. Pour les concepteurs de robots et les décideurs industriels, cela signifie que prioriser la vitesse d'exécution ou les gains de temps risque de manquer les priorités réelles des utilisateurs finaux. L'étude révèle par ailleurs des écarts démographiques nets : les femmes souhaitent en priorité automatiser les activités stressantes, tandis que les hommes ciblent celles qui les rendent malheureux. Les individus à revenus intermédiaires visent les tâches jugées ni agréables ni significatives, alors que les tranches basses et hautes de revenu ne présentent aucune corrélation statistiquement significative. Ce travail s'appuie sur BEHAVIOR-1K, un benchmark développé à UT Austin pour évaluer les capacités des robots domestiques sur un spectre large d'activités quotidiennes. Il arrive alors que plusieurs acteurs du marché des robots humanoïdes, dont Figure, 1X Technologies, Apptronik ou Enchanted Tools côté français, intensifient leurs efforts vers des déploiements en environnement résidentiel. L'étude souligne que le secteur conçoit trop souvent ses produits autour de métriques d'efficacité qui ne reflètent pas la psychologie des utilisateurs. Les données complètes et un outil de visualisation interactif sont disponibles publiquement, mais les résultats restent ancrés dans le contexte américain, une réserve importante avant toute transposition à d'autres marchés culturels.

UEEnchanted Tools (FR) est cité parmi les acteurs ciblés par les conclusions, mais les données reposent exclusivement sur le contexte américain (ATUS), les concepteurs européens de robots domestiques devront mener des études équivalentes sur leurs marchés avant de revoir leurs priorités de conception.

RecherchePaper
1 source
ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges
57arXiv cs.RO 

ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges

Des chercheurs ont publié une nouvelle méthode de contrôle pour quadrupèdes transportant des charges via des bras passifs à ressort, baptisée ZiMPedance. Le problème central : lorsqu'un quadrupède porte une charge suspendue à un bras passif (ressort et amortisseur, sans actionnement propre), la dynamique de cette interface génère des forces oscillatoires susceptibles de déstabiliser la locomotion. Les auteurs dérivent une formulation étendue du Zero Moment Point (ZMP), critère classique de stabilité en robotique de marche, intégrant explicitement les paramètres de raideur, d'amortissement et de masse de la charge. Cette formulation est ensuite incorporée dans un contrôleur prédictif (MPC) basé sur un modèle Single Rigid Body Dynamics augmenté des sous-systèmes passifs. En simulation, la méthode réduit les violations de stabilité par un facteur 10, de 7,0 % à 0,7 %, et abaisse l'effort en force de réaction au sol horizontale de 15 % par rapport à un contrôleur de référence. Les tests matériels ont utilisé une charge de 2 kg : le robot maintient une locomotion stable sous perturbations de type traction-relâchement là où le contrôleur nominal échoue. L'enjeu industriel est direct. Les bras passifs à ressort constituent une solution attractive pour équiper les quadrupèdes de capacités de transport sans alourdir la plateforme ni multiplier les actionneurs, contrairement aux manipulateurs actifs, plus lourds et plus coûteux. Le phénomène identifié ici, la résonance entre les configurations sous-amorties et les harmoniques de locomotion, représente un obstacle réel au déploiement en environnements non contrôlés. ZiMPedance démontre qu'il est possible de compenser ces effets par la modélisation plutôt que par le sur-actionnement, une approche directement transposable pour des cas d'usage logistiques, d'inspection industrielle ou de livraison de colis. Le même modèle permet en outre un suivi de position de l'effecteur via la dynamique passive, sans actionner le bras, ce qui ouvre des possibilités de contrôle indirect à faible coût énergétique. Ce travail s'inscrit dans la continuité des avancées MPC pour robots à pattes, un axe de recherche structurant depuis les développements autour de MIT Cheetah et ANYmal (ANYbotics). Dans le segment commercial, Boston Dynamics équipe Spot d'un bras actif à six degrés de liberté, Unitree propose des configurations payload sur ses quadrupèdes B1 et B2, et des acteurs européens comme Wandercraft ou Enchanted Tools explorent des architectures complémentaires pour la manipulation embarquée. Publié en preprint sur arXiv sous l'identifiant 2606.18883, ce travail n'a pas encore été soumis à révision par les pairs : les gains annoncés restent à valider en conditions de charge variable et sur terrain non structuré, hors cadre simulé.

UEMéthode potentiellement transposable pour des acteurs européens comme Wandercraft ou Enchanted Tools explorant la manipulation embarquée, mais aucun lien direct avec la France ou l'UE n'est documenté dans ce travail.

RecherchePaper
1 source
La peau de la trompe d'éléphant, un modèle à double zone pour les pinces robotiques avancées
58Interesting Engineering 

La peau de la trompe d'éléphant, un modèle à double zone pour les pinces robotiques avancées

Une équipe de chercheurs menée par Lucia Beccai a cartographié avec une précision inédite l'architecture microscopique de la peau de trompe d'éléphant, en vue d'en extraire des principes directement applicables à la robotique souple. L'étude, publiée dans PNAS Nexus, s'appuie sur 35 échantillons de tissu prélevés sur un unique spécimen adulte d'éléphant d'Asie (Elephas maximus) mort de causes naturelles au zoo de Zurich, en Suisse, en 2020. Les chercheurs ont combiné tests biomécaniques, histologie, imagerie multi-technique et modélisation par éléments finis pour caractériser la peau de la trompe en détail. Résultat central : la peau ne présente pas une composition homogène, mais se divise en deux zones mécaniques distinctes. La face supérieure, exposée aux frottements lors du transport de rondins ou du creusage du sol, affiche une rigidité 3,14 fois supérieure à celle de la face inférieure. Cette dernière, au contraire, est flexible et hypersensible : sa faible rigidité lui permet d'envelopper précisément la surface de chaque objet saisi, maximisant la surface de contact sans force musculaire excessive. Sous cette face inférieure, les chercheurs ont identifié des structures en dôme appelées papilles dermiques, dont la modélisation révèle qu'elles fonctionnent comme une lentille mécanique : elles concentrent et amplifient les contraintes à l'exacte position des terminaisons nerveuses sensorielles, transformant de faibles signaux tactiles en informations exploitables. Ce résultat a des implications directes pour les concepteurs de préhenseurs robotiques souples. La combinaison protection mécanique et sensibilité tactile reste l'un des défis les plus persistants du domaine : les capteurs assez fins pour détecter une texture de surface sont généralement les composants les plus vulnérables à l'abrasion et aux contacts répétés. La trompe d'éléphant résout ce problème sans compromis, via une architecture à gradient de rigidité continu et une géométrie sous-cutanée qui amplifie les signaux avant qu'ils n'atteignent les récepteurs. Pour les ingénieurs, cela valide concrètement une approche multi-matériaux biomimétique : fabriquer des préhenseurs en couches à rigidité délibérément variable, la couche externe protégeant et amplifiant simultanément les signaux vers des capteurs positionnés en profondeur. L'étude reste une caractérisation biomécanique, pas une démonstration robotique, mais elle fournit des paramètres exploitables (ratio de rigidité de 3,14:1, géométrie précise des papilles dermiques) que des équipes de conception pourraient intégrer directement dans des simulations ou des prototypes. La recherche en préhension souple d'inspiration biologique est active depuis plusieurs années, avec des travaux sur les doigts de pieuvre, les pattes de gecko ou les coussinets de primates, mais les mécanismes cutanés précis de la trompe restaient mal caractérisés. Des laboratoires comme le Soft Robotics Toolkit de Harvard ou le BioRobotics Lab de l'EPFL de Lausanne travaillent sur des préhenseurs à sensibilité tactile intégrée. Du côté européen, des acteurs comme Enchanted Tools à Paris, qui développe des plateformes humanoïdes expressives, ou Wandercraft, spécialisé dans les exosquelettes et la mobilité, pourraient s'appuyer sur ce type de solution pour les membres préhenseurs de leurs systèmes. Aucun déploiement industriel n'est encore annoncé en lien avec ce travail spécifique, et la transition de la biologie à un composant industrialisable reste un chemin non trivial. Les prochaines étapes logiques sont une validation sur matériaux synthétiques (élastomères à rigidité graduée, silicones composites) puis des tests de discrimination tactile sur prototypes, avant tout horizon de commercialisation.

UEL'EPFL de Lausanne et des entreprises françaises comme Enchanted Tools et Wandercraft sont mentionnés comme bénéficiaires potentiels de cette architecture biomimétique, mais aucune collaboration directe ni déploiement lié à ce travail n'est annoncé.

RecherchePaper
1 source
Le prochain robot humanoïde pourrait ne pas ressembler à un humain
59The Verge 

Le prochain robot humanoïde pourrait ne pas ressembler à un humain

La startup française Genesis AI a présenté Eno, un robot se réclamant du "général purpose" sans reproduire la silhouette humaine. Soutenue par Eric Schmidt, ancien PDG de Google, la société fait le choix radical d'une morphologie repensée : pas de tête au sens classique, une base potentiellement sur roues, une structure compacte et pliable. Seul élément fidèle à l'anatomie : les mains, conçues pour reproduire "exactement la forme et les fonctions" de la main humaine. Genesis AI positionne Eno comme un robot polyvalent capable d'une large gamme de tâches, à l'opposé des machines spécialisées. Les métriques techniques précises (charge utile, degrés de liberté, prix) n'ont pas été communiquées. Ce parti pris interroge une hypothèse dominante du secteur : pourquoi l'humanoïde doit-il ressembler à un humain ? La réponse de Genesis est fonctionnelle. Ce qui compte, c'est la compatibilité avec des environnements et des outils conçus pour des mains humaines, pas la forme du torse ou l'existence d'un visage. Pour les intégrateurs industriels, cela ouvre une piste concrète : des robots ergonomiquement compatibles avec l'espace de travail humain, potentiellement moins coûteux si les composants non fonctionnels sont supprimés. Genesis AI s'inscrit dans une vague de startups françaises de robotique avancée, aux côtés de Wandercraft (exosquelettes) et Enchanted Tools (robots hospitaliers). Le soutien d'Eric Schmidt lui donne une visibilité internationale dans un secteur dominé par Figure AI, Agility Robotics, Boston Dynamics côté américain et Unitree ou Fourier Intelligence côté asiatique. Eno reste à ce stade un teaser : aucun déploiement ni pilote industriel n'a été annoncé, et les performances réelles du système restent entièrement à démontrer.

UEGenesis AI est une startup française dont le projet Eno, soutenu par Eric Schmidt, renforce la visibilité internationale de l'écosystème robotique français, bien que le produit reste à un stade de teaser sans métriques ni déploiement validés.

FR/EU ecosystemeOpinion
1 source
Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action
60arXiv cs.RO 

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Une équipe de chercheurs a publié Token Steering (TS), une méthode permettant de piloter dynamiquement les trajectoires générées par des modèles de fondation robotiques de type VLA (vision-language-action autorégressif). Le principe : injecter des entrées utilisateur de faible dimension directement dans l'espace de représentation des tokens d'action du modèle, sans modifier l'architecture du modèle de langage visuel (VLM) sous-jacent. TS opère entièrement à l'inférence, sans réentraînement ni fine-tuning. Évalué sur deux tâches de manipulation domestique, fermeture d'un tiroir après placement d'objet, et permutation d'objets en contexte dynamique, le taux de succès passe respectivement de 10,0 % à 72,5 % et de 16,7 % à 93,8 %. Ces résultats sont issus de la préprint arXiv:2606.15021 et n'ont pas encore fait l'objet d'une révision par les pairs. L'intérêt opérationnel est direct : supprimer le besoin de réentraînement lève un verrou majeur pour le déploiement de robots de fondation en conditions réelles. Des intégrateurs peuvent adapter le comportement d'un VLA pré-entraîné à des variations de scénario sans coût de calcul additionnel significatif. Le mécanisme guide l'action sans l'écraser, ce qui préserve les priors de dextérité et de fluidité appris durant le pré-entraînement. C'est un avantage concret sur les approches classiques de surcharge par commande directe, qui dégradent souvent la qualité du mouvement. L'article évoque également des cas d'usage d'accessibilité pour des personnes à mobilité limitée, piste crédible vers une robotique d'assistance plus inclusive. Les politiques VLA constituent l'un des axes les plus actifs de la robotique actuelle : Physical Intelligence a commercialisé Pi-0, NVIDIA a présenté GR00T N2, et plusieurs groupes académiques développent des variantes d'OpenVLA. Token Steering s'inscrit dans une tendance plus large qui cherche à rendre ces politiques modulables sans réentraînement, direction que poursuit également Enchanted Tools sur le plan applicatif. La contribution reste pour l'heure académique : aucun déploiement industriel ni partenariat n'est annoncé, et le site projet (jasontchan.github.io/token-steering) présente des vidéos de démonstration en environnement contrôlé. Les prochaines étapes attendues sont une validation sur hardware hors laboratoire et une extension aux VLA de génération récente comme Pi-0 ou GR00T N2.

UEEnchanted Tools (entreprise française) est citée comme poursuivant la même direction applicative ; la méthode de pilotage à l'inférence sans réentraînement pourrait directement accélérer les travaux européens sur la robotique d'assistance.

💬 Passer de 10% à 72% de réussite sur une tâche de manipulation sans toucher au modèle, c'est le chiffre qui compte. Le vrai frein des VLA hors du labo, c'est exactement ça : chaque variation de scénario forçait un fine-tuning coûteux, et Token Steering court-circuite ça à l'inférence. Reste à valider sur du hardware moins coopératif, mais c'est précisément le bon problème à avoir résolu en premier.

IA physiqueOpinion
1 source
FARM : retrouver n'importe quel objet grâce à la mémoire spatiale relationnelle
61arXiv cs.RO 

FARM : retrouver n'importe quel objet grâce à la mémoire spatiale relationnelle

Des chercheurs ont publié FARM (Find Anything using Relational Spatial Memory), un système de mémoire spatiale pour robots capable de localiser des objets en temps réel via des requêtes en langage naturel exprimant des relations contextuelles, du type "la grande lampe sous la cible de fléchettes et à gauche de l'affiche". Le système construit une carte sémantique compacte à 5-10 Hz intégrant géométrie, descripteurs visuels-linguistiques et indices de point de vue. Évalué sur 44 000 requêtes couvrant 67 scènes intérieures et extérieures de 15 à 15 000 m², FARM améliore le Recall@5 de 164 % et le Recall@10 de 224 % par rapport aux méthodes existantes. Une étape de réordonnancement par VLM améliore encore l'Accuracy@1 de 35 %. Le système tourne en temps réel et a été validé en boucle fermée sur un robot quadrupède fonctionnant uniquement avec capteurs et calcul embarqués. L'enjeu dépasse la simple localisation d'objet: dans des entrepôts, habitations ou espaces industriels, un robot doit résoudre des ambiguïtés entre objets similaires via des relations contextuelles, ce que les mémoires de niveau objet seul ne permettent pas. FARM structure explicitement les contraintes spatiales par des prédicats relationnels plutôt qu'en les laissant implicites dans un raisonnement end-to-end sur des historiques de frames. Pour les intégrateurs et décideurs B2B, c'est une brique critique: les robots de service, de picking ou de logistique doivent être pilotables par instruction verbale sans expertise technique. Les gains à +224 % sur Recall@10 sont significatifs, bien que les conditions précises de benchmark, scènes contrôlées ou environnements non-stagés, ne soient pas détaillées dans la publication. Ce travail se situe à l'intersection de la cartographie sémantique 3D (systèmes type ConceptFusion ou OpenScene), des graphes de scène neuronaux et des VLM multimodaux. La combinaison mémoire open-vocabulary et prédicats relationnels explicites distingue FARM des approches end-to-end qui saturent dans les scènes denses. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Unitree et des laboratoires tels que Stanford ou CMU explorent des approches similaires pour la navigation sémantique. En Europe, des projets de robots de service ou d'assistance, dont des initiatives françaises liées à l'ANR ou des spin-offs comme Enchanted Tools travaillant sur l'interaction homme-robot, pourraient directement intégrer ce type de composant. La prochaine étape décisive sera de valider FARM dans des environnements dynamiques où les objets se déplacent et les relations spatiales évoluent en continu.

UEDes projets européens de robotique de service et des acteurs comme Enchanted Tools pourraient intégrer FARM comme brique de perception sémantique, mais aucun déploiement direct en France/UE n'est confirmé à ce stade.

💬 Ce qui m'accroche, c'est pas les chiffres, c'est que le robot comprend "la lampe sous la cible de fléchettes". C'est exactement ce qui plantait tous les systèmes de mémoire objet précédents, ils encodaient les objets mais pas les relations spatiales entre eux, et c'est pourtant ce qu'on exprime naturellement quand on parle à un robot. Les +224% sur les benchmarks sont solides, bon, reste à voir si ça tient dans une vraie usine où les objets bougent en permanence.

IA physiqueOpinion
1 source
Atlas de Boston Dynamics montrerait des signes d'intelligence générale pour le travail en usine
62Interesting Engineering 

Atlas de Boston Dynamics montrerait des signes d'intelligence générale pour le travail en usine

Selon un rapport publié par KB Securities, l'humanoïde Atlas de Boston Dynamics franchit un seuil décisif vers le déploiement industriel. L'analyste Kang Sung-jin y documente des progrès significatifs dans ce que le secteur appelle l'«intelligence générale robotique», soit la capacité à s'adapter à des environnements inconnus et à accomplir des tâches variées sans instructions exclusivement préprogrammées. Le facteur technique central : un pipeline d'entraînement accéléré permettant de simuler l'équivalent de millions d'heures de formation robotique en une seule journée, puis de transférer les comportements appris sur le robot physique en environ une heure. Lors de démonstrations récentes, Atlas a déplacé un réfrigérateur de plus de 45 kg alors qu'il avait été entraîné sur des charges de 23 à 32 kg, illustrant une capacité de généralisation au-delà des conditions d'entraînement initiales. La filiale robotique du groupe Hyundai Motor a également montré Atlas exécutant des mouvements de frappe dynamiques nécessitant équilibre, agilité et contrôle moteur précis. Ces avancées reposent sur des partenariats stratégiques avec Google DeepMind, qui contribue son expertise en systèmes d'apprentissage, et Nvidia, qui fournit l'infrastructure de calcul haute performance nécessaire aux simulations à grande échelle. La réduction du «sim-to-real gap», l'écart historiquement problématique entre performances simulées et comportement réel, constitue l'argument technique le plus solide mis en avant par Boston Dynamics. La société l'attribue à une architecture matérielle délibérément simplifiée : Atlas n'utilise que deux types d'actionneurs sur l'ensemble de son corps, avec bras et jambes symétriques. Cette homogénéité facilite la création de simulations fidèles et accélère le transfert des compétences. La suppression des câbles traversant les articulations permet en outre une rotation continue des joints et réduit les exigences de maintenance. Pour les intégrateurs industriels et les décideurs B2B, ces caractéristiques signifient concrètement que les cycles de qualification de nouvelles tâches pourraient passer de plusieurs mois à quelques semaines. KB Securities projette que Boston Dynamics pourrait capturer 15 % du marché mondial des humanoïdes d'ici 2035 et jusqu'à 60 % du segment premium industriel, des estimations ambitieuses à considérer avec précaution sur un marché encore naissant. Boston Dynamics, fondée en 1992 au MIT et acquise par Hyundai Motor Group en 2021 pour 1,1 milliard de dollars, présente avec cet Atlas une rupture architecturale par rapport à ses générations précédentes, entièrement hydrauliques. Sur le terrain concurrentiel, la société fait face à Figure (accords industriels avec BMW et son robot 02), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0, approche VLA), et Agility Robotics (Digit, déployé dans des entrepôts Amazon). En Europe, Enchanted Tools avec son Mirokaï et Wandercraft avec l'Atalante ciblent des niches spécifiques mais restent loin de la polyvalence industrielle visée par Atlas. Les prochains déploiements pilotes annoncés concernent des installations du groupe Hyundai, sans calendrier précis communiqué à ce stade.

UELes acteurs européens Enchanted Tools et Wandercraft accusent un retard marqué sur la polyvalence industrielle visée par Atlas, accentuant la pression concurrentielle sur l'écosystème humanoïde FR/EU avant même les premiers déploiements pilotes Hyundai.

HumanoïdesOpinion
1 source
ORCA : une plateforme open source pour la recherche en dextérité
63arXiv cs.RO 

ORCA : une plateforme open source pour la recherche en dextérité

Une équipe de chercheurs présente ORCA, une pile logicielle open-source dédiée à la manipulation dextre par mains anthropomorphes, publiée sur arXiv (2606.14561) en juin 2026. La plateforme unifie en une seule interface le contrôle bas niveau, la simulation, la téleopération depuis des dispositifs grand public, et le retargeting de main, c'est-à-dire la conversion des mouvements d'une main humaine vers les actionneurs d'une main robotique. ORCA s'intègre nativement avec LeRobot, le framework de robot learning open-source de Hugging Face devenu référence dans la communauté. Les auteurs ont validé le système sur une tâche de réorientation objet en main (in-hand reorientation), en collectant des démonstrations par téleopération via un casque VR grand public, en entraînant une politique autonome avec LeRobot, puis en évaluant les résultats dans un environnement entièrement reproductible. Aucun chiffre de performance quantifié (taux de succès, temps de cycle) n'est communiqué dans l'abstract. Ce travail s'attaque à un verrou structurel du domaine : les mains dextres restent quasi-absentes des benchmarks de robot learning, non par manque de hardware accessible, mais parce que les couches logicielles, simulation, téleopération, retargeting, sont dispersées dans des dépôts non maintenus, sans connexion aux pipelines de données et d'entraînement standards. Résultat, les chercheurs travaillant sur les pinces parallèles à deux doigts (two-finger grippers) bénéficient d'un écosystème mature, tandis que les équipes mains anthropomorphes repartent de zéro à chaque projet. ORCA propose une fondation partagée pour homogénéiser cet effort, permettant de réutiliser les mêmes datasets, les mêmes recettes d'entraînement et les mêmes protocoles d'évaluation entre plateformes dextres et non-dextres. C'est un pari d'infrastructure communautaire, pas une avancée algorithmique. Le contexte immédiat est la montée en puissance de LeRobot comme socle commun du robot learning open-source, accélérant la demande pour des intégrations matérielles homogènes. La recherche en manipulation dextre reste dominée par quelques labos bien équipés (Stanford, CMU, Berkeley), souvent sur des mains propriétaires comme la Dexterous Hand d'Allegro ou la Shadow Hand. Côté européen, Pollen Robotics (Bordeaux) et Enchanted Tools intègrent des mains polydigitales dans leurs plateformes, et pourraient bénéficier directement d'une couche d'abstraction standardisée comme ORCA. La prochaine étape naturelle serait l'adoption par la communauté LeRobot et l'extension à des tâches multi-objets ou de manipulation bimanuelle, domaines où les grippers classiques atteignent leurs limites mécaniques.

UEPollen Robotics (Bordeaux) et Enchanted Tools pourraient adopter ORCA directement pour accélérer leurs développements sur mains polydigitales, en bénéficiant d'une couche d'abstraction standardisée native avec LeRobot, le framework open-source de HuggingFace (entreprise française).

RecherchePaper
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
64arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
65arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste
66arXiv cs.RO 

RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste

Des chercheurs ont publié sur arXiv en juin 2026 un framework nommé RGB-S pour améliorer la fusion visuo-tactile dans la manipulation dextre robotique sous conditions d'occlusion. La méthode projette les emplacements des capteurs tactiles directement sur le plan image RGB via la cinématique directe du robot et la calibration caméra, puis génère des cartes de saillance gaussiennes modulées par la force pour modéliser l'incertitude spatiale liée aux erreurs de calibration. Ces ancres 2D sont injectées dans un backbone visuel standard via une architecture de conditionnement à initialisation zéro, ce qui préserve les représentations visuelles pré-entraînées. Testé sur six tâches de manipulation dextre en simulation et en monde réel sous occlusions sévères, RGB-S dépasse la meilleure baseline visuo-tactile implicite de 26,7 points de pourcentage en taux de succès sur les scénarios occludés. Ce résultat touche à un verrou majeur du déploiement de mains robotiques polyvalentes. Les approches implicites existantes laissent au modèle le soin d'apprendre seul les correspondances inter-modalités depuis un faible nombre de démonstrations, ce qui les rend fragiles dès que la vision est dégradée par l'auto-occlusion des doigts, la poussière ou un éclairage défavorable. En ancrant explicitement les contacts physiques dans l'espace image avec un prior géométrique fort, RGB-S court-circuite ce problème sans détruire les capacités visuelles pré-entraînées. Le gain de 26,7 points sur des expériences réelles est solide, bien que la sélection restreinte à six tâches de benchmark et l'absence de comparaison avec des architectures VLA récentes invitent à nuancer la portée des conclusions. La fusion visuo-tactile est un champ actif depuis l'essor des capteurs haute résolution comme GelSight ou DIGIT. Les approches précédentes, qu'il s'agisse d'imitation learning ou de reinforcement learning, peinent à résoudre le transfert sim-to-real sur des prises complexes. Du côté industriel, des acteurs comme Sanctuary AI, Dexterous Robotics ou Enchanted Tools (France) intègrent des interfaces tactiles dans leurs plateformes humanoïdes pour la manipulation fine. RGB-S se positionne comme une brique modulaire compatible avec des backbones standards, ce qui facilite son intégration dans des pipelines existants. Les prochaines validations naturelles passeront par des benchmarks standardisés comme DexYCB et des tests sur des mains à plus de six degrés de liberté en environnement industriel non contrôlé.

UEEnchanted Tools (France), qui intègre des interfaces tactiles dans ses humanoïdes, pourrait bénéficier directement de cette brique modulaire pour renforcer la manipulation fine sous occlusion sans reconstruire ses représentations visuelles pré-entraînées.

RecherchePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
67arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
68arXiv cs.RO 

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial. Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs. Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

UELe benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

RecherchePaper
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
69arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique
70The Robot Report 

NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique

Lors du GTC Taipei et du Computex, NVIDIA a dévoilé un ensemble de nouveaux outils open-source rassemblés sous le nom NVIDIA Agent Toolkit, destinés aux développeurs de systèmes d'IA physique : robotique, véhicules autonomes, vision industrielle et jumeaux numériques. L'objectif affiché est de réduire le coût et la complexité des pipelines de développement en rendant l'ensemble de la pile logicielle de NVIDIA directement orchestrable par des agents IA. Les outils concernés incluent Cosmos 3, le modèle de fondation pour la compréhension du monde physique (vidéo, texte, prédiction d'états futurs), les bibliothèques Omniverse pour la simulation et les jumeaux numériques, Isaac pour la robotique, Metropolis pour la vision IA, Alpamayo pour la conduite autonome, et la plateforme Jetson pour le déploiement embarqué. Le déploiement sécurisé de ces agents est encadré par le blueprint NemoClaw et le runtime OpenShell, qui appliquent des politiques de sécurité et de confidentialité en local comme dans le cloud. L'approche "agent-ready" de NVIDIA marque un changement de paradigme dans le développement de l'IA physique : plutôt que des bibliothèques que les ingénieurs assemblent manuellement, les outils deviennent des briques directement appelables par des agents de codage, capables d'enchaîner automatiquement génération de données, simulation, entraînement et évaluation. Pour les développeurs de véhicules autonomes, cela signifie qu'un agent peut reconstruire des scènes à partir de données de flotte, générer des scénarios de conduite photoréalistes et lancer des boucles de renforcement sans intervention manuelle à chaque étape. Pour les intégrateurs robotiques, des tâches comme l'automatisation de l'entraînement à la navigation ou le tuning de systèmes Jetson deviennent théoriquement scriptables. Rev Lebaredian, vice-président pour la simulation d'IA physique chez NVIDIA, a qualifié Cosmos 3 de "modèle de fondation frontier pour l'IA physique", capable de comprendre vidéo et texte, de prédire les états futurs et de générer des actions, positionnant ce world model comme un candidat généraliste opérationnel, même si aucune métrique de benchmark indépendante n'a été communiquée à ce stade. NVIDIA consolide avec cette annonce sa position d'infrastructure de référence pour l'IA physique, un rôle qu'elle occupe via ses GPU d'entraînement et ses plateformes Isaac Sim et Jetson. La compétition dans ce segment s'intensifie : Google DeepMind pousse MuJoCo et ses dérivés, Boston Dynamics, Figure, Agility Robotics et Physical Intelligence développent leurs propres stacks de simulation et d'apprentissage, tandis que des acteurs industriels comme Siemens ou ANSYS occupent le terrain des jumeaux numériques. En Europe, des entreprises comme Wandercraft ou Enchanted Tools pourraient bénéficier de ces outils si la promesse de réduction de complexité se confirme en pratique. NVIDIA joue ici la carte de la plateforme unifiée plutôt que du modèle de fondation isolé, un positionnement cohérent avec son modèle d'affaires mais qui reste à valider au-delà des démonstrations internes. Les suites annoncées incluent des applications en santé, dont le détail n'a pas été entièrement communiqué lors de l'événement.

UELes entreprises françaises comme Wandercraft et Enchanted Tools pourraient bénéficier de la réduction de complexité annoncée, mais aucun déploiement européen concret n'est confirmé à ce stade.

InfrastructureOpinion
1 source
7 robots inspirés du vivant qui relèvent de vrais défis d'ingénierie
71Interesting Engineering 

7 robots inspirés du vivant qui relèvent de vrais défis d'ingénierie

Six familles de robots à morphologie animale concentrent une part croissante des efforts en robotique appliquée, couvrant des secteurs aussi divers que l'inspection industrielle, le sauvetage en catastrophe, la maintenance offshore et l'aquaculture. Le quadrupède Spot, commercialisé par Boston Dynamics, est déjà opérationnel dans des centrales électriques, des installations pétrolières et des chantiers pour des missions de surveillance en environnement dangereux. Les robots serpents, dotés de corps segmentés articulés, ont été testés par des équipes de recherche et des équipes de secours pour localiser des survivants dans des décombres post-séisme, là où les plateformes conventionnelles ne peuvent pas pénétrer. Des robots grimpeurs reproduisent les micro-structures adhésives des pattes de gecko pour inspecter verticalement ponts et infrastructures. En milieu offshore, le robot Eelume, développé par la spin-off NTNU éponyme soutenue par Equinor et Kongsberg, adopte la locomotion ondulatoire de l'anguille pour inspecter pipelines et plateformes en restant déployé durablement sous l'eau. Des chercheurs du CIRTESU (Centre de recherche en robotique et technologies sous-marines) de l'Universitat Jaume I ont récemment testé à PortCastelló un poisson-robot biomimétique à propulsion par nageoires, sans hélices, équipé de sonar et de systèmes de vision, pour surveiller les filets de fermes aquacoles. Le laboratoire CREATE de l'EPFL a par ailleurs présenté un bras souple reposant sur une structure d'hélicoïde tronqué (trimmed helicoid), inspirée de la trompe d'éléphant et des tentacules de pieuvre, qui module rigidité et flexibilité localement pour permettre une manipulation délicate en contexte co-robotique. Ces plateformes répondent à des problèmes industriels documentés, pas à des curiosités de laboratoire. Eelume modifie structurellement l'économie de la maintenance offshore : là où un ROV traditionnel nécessite un navire de surface et dépend de la météo, un système résident opère en continu, réduisant les coûts d'intervention. La propulsion par nageoires du robot valencien surpasse les hélices en discrétion et efficacité énergétique dans les milieux aquacoles. Spot constitue le cas commercial le plus avancé de la tendance, Boston Dynamics ayant livré plusieurs centaines d'unités à des industriels. Pour les autres familles, notamment les robots serpents, les tests restent majoritairement conduits en environnements contrôlés : le fossé sim-to-real pour des décombres réels n'est pas résolu. L'approche soft robotics de l'EPFL illustre une stratégie alternative : intégrer la compliance mécanique dans la conception plutôt que de la gérer par contrôle actif, ce qui simplifie considérablement l'implémentation en environnement co-robotique. Boston Dynamics développe Spot depuis les travaux fondateurs de Marc Raibert au MIT ; l'entreprise a été rachetée par Hyundai en 2021 pour 1,1 milliard de dollars. Sur le segment quadrupède, la concurrence est vive : ANYbotics (ANYmal), Unitree (Go2, H1) et Ghost Robotics (Vision 60) ciblent les mêmes marchés industriels avec des positionnements prix différenciés. Eelume opère sur le marché oil & gas depuis plusieurs années avec le soutien de majors du secteur. En Europe, Pollen Robotics et Enchanted Tools développent des architectures à inspiration biologique, mais restent peu positionnés sur ces créneaux applicatifs précis. L'aquaculture robotisée bénéficie de financements croissants dans le cadre du Blue Deal européen, ce qui devrait accélérer les déploiements à l'image du projet de l'Universitat Jaume I. L'intégration de modèles VLA (vision-language-action) pour la compréhension contextuelle des tâches et la certification ATEX pour les robots industriels constituent les prochains jalons pour plusieurs de ces familles.

UEPlusieurs acteurs européens figurent parmi les leaders des niches couvertes, Eelume/NTNU (soutenu par Equinor et Kongsberg) sur la maintenance offshore résidente, l'EPFL sur la soft robotics co-robotique, l'Universitat Jaume I sur l'aquaculture, et le financement croissant via le Blue Deal européen devrait accélérer les déploiements dans ce secteur, créant des opportunités pour les startups françaises Pollen Robotics et Enchanted Tools si elles se positionnent sur ces créneaux applicatifs.

IndustrielActu
1 source
NIST propose un benchmark de référence pour évaluer les performances des robots humanoïdes
72The Robot Report 

NIST propose un benchmark de référence pour évaluer les performances des robots humanoïdes

Le National Institute of Standards and Technology (NIST) a publié en avril 2026 une proposition de référentiel de performance standardisé pour les robots humanoïdes, décrit comme un ensemble de tâches de locomotion et de manipulation à faible empreinte logistique. C'est le premier cadre d'évaluation de ce type depuis le DARPA Robotics Challenge de 2015, selon Aaron Prather, directeur du programme Robotics & Autonomous Systems chez ASTM International. Le benchmark couvre quatre dimensions : la mobilité de base (agnostic au domaine d'application), la manipulation et la dextérité, les capacités combinées loco-manipulation, le contrôle en espace contraint, et un niveau minimal de raisonnement et de compréhension de scène. Le NIST prévoit de fabriquer un nombre limité d'appareils de test physiques pour les distribuer gratuitement aux fabricants américains d'humanoïdes et aux centres de test régionaux, et de publier les plans et modèles 3D pour usage en environnement physique ou virtuel (simulateurs de training et de développement de contrôle). Les données collectées seront agrégées sous des accords de partage préapprouvés protégeant la propriété intellectuelle. L'absence de standard commun est un problème structurel pour le secteur : Tesla Optimus, Figure, Agility Robotics, Apptronik, Unitree et une douzaine d'autres plateformes humanoïdes ont attiré des milliards de dollars d'investissement ces dix dernières années sans qu'il existe de méthode consensuelle pour mesurer ce qu'elles font réellement. Comme le note Prather, "les vidéos marketing ont comblé le vide". Pour un intégrateur industriel ou un décideur B2B, l'absence de benchmarks opposables rend toute comparaison entre plateformes impossible et ralentit les décisions d'achat. Ce référentiel, s'il est adopté, permettrait d'objectiver le fossé entre démo et déploiement réel, de quantifier les progrès en loco-manipulation et en whole-body control, et d'offrir aux chercheurs une baseline reproductible. Il représente aussi un signal réglementaire potentiel : un benchmark NIST peut devenir une norme de fait pour les appels d'offres gouvernementaux américains. Ce projet s'appuie sur la collaboration antérieure du NIST avec le DARPA pour évaluer les capacités humanoïdes dans l'industrie et la recherche académique. En Europe, le Fraunhofer IPA (Stuttgart) a publié ce mois-ci son propre référentiel de sécurité et de développement pour humanoïdes, structuré autour de six critères, signalant que la course aux standards est désormais transatlantique. Aucun acteur français ou européen n'est directement impliqué dans la proposition NIST à ce stade, bien que des entreprises comme Enchanted Tools ou Wandercraft pourraient être concernées si ce cadre influence les standards ISO ou CEN. Le NIST est en phase de consultation et recherche des participants, fabricants comme labos, pour affiner la liste des tâches et tester leurs robots dans les installations NIST ou partenaires. Aucune date de finalisation n'est annoncée.

UELe Fraunhofer IPA a publié ce même mois son propre référentiel de sécurité pour humanoïdes, signalant une course transatlantique aux standards ; si le benchmark NIST influence les normes ISO/CEN, des acteurs européens comme Enchanted Tools ou Wandercraft devront adapter leur processus de qualification.

InfrastructureOpinion
1 source
Sortie de l'Open Motion Planning Library 2.0
73arXiv cs.RO 

Sortie de l'Open Motion Planning Library 2.0

L'Open Motion Planning Library (OMPL), publiée en open source en 2008, franchit en mai 2026 une étape majeure avec la sortie d'OMPL 2.0, annoncée via un preprint arXiv (2605.29301). Cette mise à jour de fond fait évoluer une bibliothèque de planification de mouvement par échantillonnage qui, en près de deux décennies de développement continu, avait déjà intégré des planificateurs asymptotiquement optimaux, des planificateurs paresseux (lazy planners), la planification sous contraintes, et la planification avec objectifs en logique temporelle. La version 2.0 cible explicitement la planification de mouvement en temps réel grâce à l'accélération matérielle (GPU/FPGA), et s'interface avec les workflows de recherche en IA modernes. Aucun benchmark quantitatif n'est publié dans le résumé; les détails de performance restent à évaluer à la lecture du papier complet. L'enjeu est direct pour les équipes de robotique intégrées dans des environnements industriels ou académiques : OMPL est aujourd'hui l'une des briques les plus utilisées dans ROS/ROS 2 via MoveIt, ce qui signifie qu'une accélération matérielle en production peut réduire les temps de calcul de trajectoire de plusieurs ordres de grandeur, condition sine qua non pour les bras manipulateurs collaboratifs, les humanoïdes en manipulation dextère, et les AMR opérant dans des espaces non structurés. L'intégration avec les pipelines IA modernes, typiquement Vision-Language-Action (VLA) ou apprentissage par imitation, répond à un verrou réel : les planificateurs classiques et les modèles neuronaux cohabitent encore difficilement en temps réel. OMPL a été développé initialement à Rice University sous l'impulsion de Ioan Sucan et Lydia Kavraki, puis maintenu par une communauté large incluant des contributions de Willow Garage, puis de MoveIt. Ses concurrents directs dans l'écosystème open source incluent DRAKE (Toyota Research Institute / MIT), Tesseract (ROS-Industrial), et Pinocchio côté cinématique. Côté européen, des acteurs comme Wandercraft (exosquelette) ou Enchanted Tools (Mirmi) s'appuient sur des couches de planification proches. La prochaine étape naturelle sera la validation sur benchmarks standardisés (MotionBenchMaker, PlanningBenchmark) et l'intégration officielle dans MoveIt 2; aucune timeline n'est encore communiquée.

UEWandercraft et Enchanted Tools (Mirmi), acteurs français s'appuyant sur des couches de planification proches d'OMPL via ROS/MoveIt, pourraient bénéficier de l'accélération GPU/FPGA d'OMPL 2.0 pour réduire les temps de calcul de trajectoire en production.

InfrastructureOpinion
1 source
MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique
74arXiv cs.RO 

MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique

Des chercheurs proposent avec MonoDuo (arXiv:2505.29298) une méthode pour entraîner des politiques de manipulation bimanuelles sans disposer de robots à deux bras. La collecte de données est hybride: un opérateur téléopère un bras unique pour exécuter un côté d'une tâche bimanuelles, un humain réalisant l'autre côté, puis les rôles sont inversés pour couvrir les deux membres. Les séquences RGB-D, capturées par une caméra de poignet et une caméra fixe, sont transformées en démonstrations synthétiques calibrées sur la cinématique du robot bimanuel cible, via estimation de pose des mains, segmentation de nuage de points et inpainting. Testé sur cinq tâches (soulèvement d'une boîte, remplissage d'un sac à dos, pliage d'un vêtement, fermeture d'une veste à glissière, passage d'une assiette), MonoDuo atteint jusqu'à 70% de taux de réussite en déploiement zero-shot sur des configurations bimanuelles non vues à l'entraînement. Avec seulement 25 démonstrations supplémentaires sur le robot cible, un fine-tuning few-shot améliore ces résultats de 65 à 70% par rapport à un entraînement depuis zéro. Le verrou adressé est structurel: les robots à deux bras coordonnés restent rares et onéreux dans les laboratoires de recherche, alors que les bras uniques sont omniprésents. Cette asymétrie crée un goulot d'étranglement dans la constitution de datasets pour les tâches bimanuelles, freinant le développement de politiques viables aussi bien pour les humanoïdes commerciaux que pour les cellules industrielles bimanuelles. MonoDuo montre qu'il est possible de bootstrapper ces politiques sans matériel dédié, réduisant considérablement le coût d'entrée. La réussite du déploiement zero-shot sur des configurations non vues est notable dans un domaine où le sim-to-real gap reste un obstacle structurel, et le gain de 65 à 70% obtenu avec seulement 25 démonstrations de fine-tuning constitue un signal positif pour les intégrateurs ne pouvant se permettre des milliers de cycles de collecte. Ce travail s'inscrit dans la lignée d'ALOHA, de UMI (Universal Manipulation Interface) et de Diffusion Policy, qui cherchent à décorréler la plateforme de collecte de la plateforme cible. L'essor des humanoïdes commerciaux (Figure 03, Tesla Optimus Gen 3, Unitree G1, 1X Eve) relance l'intérêt pour la manipulation bimanuelles à grande échelle. En Europe, Pollen Robotics avec son robot open-source Reachy et Enchanted Tools avec Miroki travaillent sur des problématiques similaires d'efficacité des démonstrations. MonoDuo reste à ce stade un preprint académique sans déploiement industriel annoncé; ses résultats devront être confirmés hors conditions de laboratoire pour valider leur transposabilité opérationnelle.

UEPollen Robotics et Enchanted Tools, qui développent des robots bimanuels en Europe, pourraient exploiter cette méthode pour constituer des datasets bimanuels à moindre coût sans dupliquer leur parc matériel.

RecherchePaper
1 source
Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)
75arXiv cs.RO 

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence. Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles. Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

UELe benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

RechercheOpinion
1 source
AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux
76arXiv cs.RO 

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

Des chercheurs du laboratoire be2rlab publient sur arXiv (arXiv:2605.25901) AgentGrounder, un système de localisation visuelle 3D zéro-shot opérant directement sur des nuages de points colorés, sans entraînement spécifique à la tâche. L'architecture repose sur deux étapes : une phase hors ligne construit une table de correspondance d'objets (Object Lookup Table, OLT) regroupant identifiants d'instances, labels sémantiques et boîtes englobantes 3D ; une phase en ligne déploie un agent qui décompose chaque requête en langage naturel, récupère les candidats pertinents dans l'OLT, effectue un scoring géométrique, puis déclenche un rendu d'image à la demande lorsque des indices visuels supplémentaires (couleur, texture, angle de vue) sont nécessaires. Évalué sur les benchmarks ScanRefer et Nr3D en configuration zéro-shot, AgentGrounder surpasse SeeGround de +2,5 % en précision Acc@0.5 sur ScanRefer et de +6,3 % sur Nr3D, dont un gain de +6,3 % sur les requêtes indépendantes du point de vue. Le code est publié sur GitHub. Ce résultat est directement pertinent pour les équipes travaillant sur la manipulation robotique et la navigation en environnements intérieurs non structurés. L'absence d'entraînement dédié abaisse la barrière d'intégration : un robot équipé d'un LiDAR ou d'une caméra de profondeur pourrait répondre à des commandes en langage naturel sans fine-tuning sur l'environnement cible, ce qui simplifie les déploiements dans des entrepôts ou des espaces de service variables. Le mécanisme de récupération sélective dans l'OLT réduit les erreurs en cascade typiques des pipelines d'ancrage-cible fixes, qui saturent la fenêtre de contexte des modèles de langage avec des objets non pertinents. L'inspection visuelle adaptative évite par ailleurs de solliciter inutilement les capacités multimodales coûteuses lorsque la géométrie seule suffit à discriminer. La localisation visuelle 3D est un domaine de recherche structuré autour de benchmarks comme ScanRefer (2020) et Nr3D, qui évaluent la capacité à identifier un objet précis dans une scène intérieure 3D à partir d'une description textuelle ambiguë. Les méthodes zéro-shot antérieures supposaient souvent des ensembles d'images multi-vues préexistants et peinaient face aux limites sémantiques des outils de segmentation 3D standards, SeeGround représentant jusqu'ici l'état de l'art sur ces benchmarks. Côté industrie, NVIDIA intègre des capacités de grounding 3D dans son framework GR00T pour la manipulation robotique, tandis qu'Enchanted Tools en France et les équipes embodied AI de Meta FAIR travaillent sur des modules similaires de compréhension spatiale ouverte. AgentGrounder, encore au stade de preprint non évalué par les pairs, devra confirmer ses performances hors contexte académique avant toute adoption en conditions réelles.

UEEnchanted Tools (France), explicitement citée comme travaillant sur des modules similaires de compréhension spatiale ouverte, peut utiliser AgentGrounder comme référence zéro-shot pour réduire les coûts de fine-tuning dans ses déploiements robotiques.

RechercheOpinion
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
77arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
Coordination multi-robots fédérée sans fragmentation multi-agents intra-robot
78arXiv cs.RO 

Coordination multi-robots fédérée sans fragmentation multi-agents intra-robot

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.11028v2) une architecture de coordination de flottes de robots baptisée Federated Single-Agent Robotics (FSAR). Le principe central s'oppose à une tendance croissante dans la robotique multi-robots : plutôt que de fragmenter chaque robot en plusieurs agents internes spécialisés (approche multi-agent intra-robot), FSAR préserve chaque unité comme un agent unique cohérent, doté de son propre runtime persistant, de son périmètre de politique locale et de son autorité de récupération autonome. La coordination inter-robots s'effectue au niveau de la flotte par fédération, via des registres partagés d'Embodied Capability Modules (ECM), de la délégation de tâches entre robots, une attribution d'autorité sensible aux politiques, et des protocoles de récupération en couches hiérarchiques. Sur des scénarios multi-robots représentatifs, les auteurs mesurent des gains statistiquement significatifs : effet de taille d=2.91 (p<0.001) pour la localité de gouvernance face au contrôle centralisé, et d=4.88 (p<0.001) pour le confinement des défaillances face aux architectures fortement décomposées. Pour les intégrateurs déployant des flottes d'AMR (Autonomous Mobile Robots) en entrepôt ou en environnement industriel, le choix de l'architecture de coordination impacte directement la robustesse opérationnelle. La thèse de FSAR est que la fragmentation intra-robot génère des conflits d'autorité, complique la récupération après panne et dilue la traçabilité des décisions. En maintenant un agent unique par robot, les politiques restent localement auditables, les pannes confinées, et la supervision humaine hiérarchique praticable à l'échelle de la flotte. Ces résultats sont toutefois issus de scénarios simulés qualifiés de "représentatifs" et non d'un déploiement physique documenté, ce qui limite pour l'instant la portée industrielle des conclusions. Le papier s'inscrit dans un débat architectural qui s'intensifie avec la montée en puissance des flottes humanoïdes (Figure AI, Agility Robotics, Apptronik) et des systèmes AMR à grande échelle. Les approches concurrentes, notamment les pipelines LLM/VLA qui décomposent chaque robot en sous-agents spécialisés, offrent davantage de flexibilité mais au prix d'une complexité de gouvernance croissante, selon les auteurs. En Europe, des acteurs comme Exotec (flotte Skypod déployée chez Decathlon et Cdiscount) ou Enchanted Tools (robot Miroka) sont directement concernés par ces choix architecturaux de fond. Le papier est une préprint arXiv en version 2, non encore soumise à ICRA, IROS ou CoRL ; la prochaine étape naturelle serait une validation expérimentale sur plateforme physique réelle.

UEExotec (flotte Skypod chez Decathlon et Cdiscount) et Enchanted Tools sont explicitement identifiés comme directement concernés par ces choix d'architecture de coordination de flotte, ce qui pourrait orienter leurs décisions techniques à moyen terme.

RecherchePaper
1 source
RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés
79arXiv cs.RO 

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

Des chercheurs du PurSec Lab ont publié RoboJailBench, un benchmark standardisé pour évaluer les attaques adversariales de type "jailbreak" et leurs contre-mesures dans les systèmes d'IA embarquée. Présenté sur arXiv (2605.19328), ce framework cible les agents robotiques et véhicules autonomes qui s'appuient sur des Vision-Language Models (VLMs) pour interpréter l'environnement visuel et exécuter des commandes en langage naturel. Il repose sur trois composantes: une taxonomie de sécurité dérivée des normes ISO et d'incidents documentés, couvrant 18 catégories de violations; un pipeline de données "intent contrast" associant à chaque exemple un objectif adversarial et un objectif bénin, afin de mesurer conjointement sécurité et utilité; et un dépôt évolutif de métriques standardisées. Les auteurs ont construit un dataset taxonomique, enrichi cinq datasets existants, intégré quatre types d'attaques et deux défenses, puis évalué l'ensemble sur les principaux VLMs embarqués actuels. Un leaderboard public est maintenu sur purseclab.github.io. L'enjeu dépasse la recherche académique. Un robot compromis par un jailbreak n'affiche pas une réponse textuelle inappropriée: il exécute une action physique potentiellement dangereuse. Les benchmarks existants ciblaient soit les LLMs conversationnels, soit la sécurité non-adversariale des agents incarnés, sans jamais capturer le triptyque risques adversariaux, conséquences physiques et arbitrage sécurité-utilité. Quantifier explicitement ce compromis est une contribution méthodologique significative: un système trop défensif bloque des commandes légitimes et devient inutilisable en production. Pour les intégrateurs industriels, une grille d'évaluation ancrée dans les normes ISO simplifie la qualification réglementaire avant tout déploiement réel. La montée en puissance des VLMs dans la robotique physique, illustrée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures de Figure AI, a considérablement élargi la surface d'attaque des systèmes autonomes. Des travaux antérieurs avaient documenté la vulnérabilité des agents embarqués aux jailbreaks visuels ou textuels, mais sans cadre d'évaluation reproductible. Alors que des fabricants comme Boston Dynamics, Unitree ou, côté européen, Enchanted Tools intègrent des VLMs en production, la robustesse adversariale est appelée à devenir une exigence réglementaire dans les secteurs logistique, manufacturier et médical. RoboJailBench pose une base commune sur laquelle industriels et académiques peuvent s'appuyer pour standardiser ces tests avant mise en service.

UELe benchmark RoboJailBench, ancré dans les normes ISO, fournit aux intégrateurs européens, dont Enchanted Tools (France) qui déploie des VLMs en production, un cadre standardisé pour qualifier la robustesse adversariale avant mise en service sous les exigences de l'AI Act.

Societe/EthiqueOpinion
1 source
La sécurité des robots domestiques repose avant tout sur la relation humain-machine
80IEEE Spectrum Robotics 

La sécurité des robots domestiques repose avant tout sur la relation humain-machine

L'Organisation internationale de normalisation (ISO) révise ISO 13482, sa norme de sécurité pour les robots de soin personnel, vieille de douze ans. La mise à jour est actuellement en phase d'approbation finale. Elle couvre l'identification des dangers, l'évaluation des risques et différents scénarios d'utilisation, mais n'établit ni seuils contraignants, ni méthodes de test, ni mécanismes d'application pour les risques liés à l'interaction humain-robot. C'est précisément ce manque que dénonce Jae-Seong Lee, chercheur en politique technologique à l'Electronics and Telecommunications Research Institute de Daejeon (Corée du Sud), dans une interview accordée à IEEE Spectrum. La norme entre en phase finale au moment où les fabricants d'humanoïdes domestiques basculent des prototypes de laboratoire vers des produits destinés à de vraies maisons, de vrais aidants et de vraies familles. Le problème central identifié par Lee est autant conceptuel que technique : la sécurité d'un robot domestique n'est pas une propriété fixe de la machine, elle émerge de la relation entre le robot et l'humain. L'interaction est bidirectionnelle, le robot modifie le comportement de l'humain, et l'humain modifie ce que le robot perçoit et décide ensuite. Les normes industrielles classiques peuvent borner la tâche, l'espace de travail et la population concernée. Dans un domicile, le robot doit s'adapter à des personnes âgées, des enfants, des visiteurs, des animaux, du désordre et des espaces confinés. Ce ne sont pas des cas marginaux : c'est le cadre opérationnel de base. Contraindre l'enveloppe d'un humanoïde domestique pour la rapprocher d'un robot industriel reviendrait à annuler son utilité. Par ailleurs, les entreprises qui constituent les jeux de données d'entraînement envoient déjà des travailleurs salariés filmer leurs tâches quotidiennes dans des logements ordinaires à travers le monde, ancrant la variabilité réelle du terrain dans les modèles. Le problème de sécurité se situe donc au niveau du système humain-robot complet, pas d'un composant isolé. ISO 13482 avait été publiée en 2014, dans un contexte où les robots de soin se limitaient à des assistants de mobilité et des plateformes relativement simples. Douze ans plus tard, des acteurs comme Figure AI, Boston Dynamics, 1X ou Agility Robotics positionnent des humanoïdes polyvalents comme prochaine étape du travail domestique et du maintien à domicile. En Europe, des entreprises comme Enchanted Tools avec son Mirokaï ou Wandercraft évoluent dans des environnements réglementaires similaires, ce qui leur confère une exposition directe à ce vide normatif. Le déficit identifié par Lee est avant tout un déficit de gouvernance : la communauté technique comprend le couplage bidirectionnel, le cadre normatif reconnaît les dangers associés, mais aucune norme ne traduit aujourd'hui cette compréhension en règles applicables pour l'autonomie domestique. Une question reste aussi ouverte : qui décide quel comportement humain est "normal" ? Quelle démarche sert de référence, et quel seuil de risque est acceptable pour une personne âgée à mobilité réduite par rapport à un adulte valide ? Sans réponse à ces questions, la prochaine génération de robots domestiques arrivera sur le marché sans cadre de sécurité adapté à sa réalité opérationnelle.

UEEnchanted Tools (Mirokaï) et Wandercraft sont explicitement cités comme directement exposés au vide normatif d'ISO 13482, qui n'impose aucun seuil contraignant ni méthode de test pour l'autonomie domestique.

RegulationReglementation
1 source
Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint
81arXiv cs.RO 

Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint

Des chercheurs de Meta AI (FAIR) ont publié une étude systématique des modèles du monde à architecture prédictive par plongement conjoint, désignés sous l'acronyme JEPA-WM (Joint-Embedding Predictive Architecture World Models), appliqués à la planification physique d'agents autonomes. L'équipe a analysé trois dimensions techniques critiques : architecture du modèle, objectif d'entraînement et algorithme de planification, sur des environnements simulés et sur des données robotiques réelles, pour des tâches de navigation et de manipulation. Au terme de cette ablation, ils proposent une configuration qui surpasse deux baselines de référence, DINO-WM et V-JEPA-2-AC. Le code, les checkpoints et les données sont accessibles publiquement sur GitHub (facebookresearch/jepa-wms). L'originalité des JEPA-WM tient à leur mode de planification : plutôt que d'opérer dans l'espace d'entrée brut (pixels, vecteurs d'état), ces modèles planifient dans l'espace de représentation appris, ce qui permet d'abstraire les détails visuels non pertinents et d'accélérer la recherche de trajectoires. La contribution principale de ce travail n'est pas une nouvelle architecture, mais un guide empirique des choix qui font réellement la différence. Pour un intégrateur ou une équipe R&D robotique, cela comble un vide récurrent dans la littérature : savoir quelles décisions d'implémentation ont de l'impact, et lesquelles n'en ont pas. Le fait que les expériences couvrent des données réelles, et pas uniquement de la simulation, renforce la crédibilité des conclusions et réduit partiellement le problème classique du gap sim-to-real qui fragilise beaucoup de travaux sur les world models pour la manipulation. Les JEPA (Joint-Embedding Predictive Architectures) constituent une famille de modèles portée par Yann LeCun et FAIR comme alternative aux architectures génératives classiques (diffusion, autorégressif) pour modéliser le monde physique. V-JEPA-2, sorti début 2025, en représentait une étape clé ; V-JEPA-2-AC, l'une des baselines ici surpassées, en est la variante avec conditionnement par actions. DINO-WM, l'autre référence, combine des features DINO avec une planification par modèle du monde. Cette étude s'inscrit dans un contexte de forte compétition autour des modèles fondationnels pour la robotique, où Physical Intelligence (pi.), Google DeepMind, et des acteurs européens comme Enchanted Tools ou Wandercraft développent leurs propres pipelines de planification et de contrôle. Les prochaines étapes naturelles incluraient une mise à l'échelle des données d'entraînement et une extension à des morphologies robotiques plus variées, notamment humanoïdes.

UELes guidelines empiriques et checkpoints open-source de FAIR pourraient bénéficier directement aux équipes R&D européennes (Enchanted Tools, Wandercraft) développant leurs propres pipelines de planification physique sur world models.

RechercheOpinion
1 source
Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs
82arXiv cs.RO 

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (arXiv:2605.18611) un framework d'apprentissage par renforcement unifié permettant à un seul contrôleur de faire marcher, courir et se relever après une chute le robot humanoïde Unitree G1, sans commande explicite de changement de mode au déploiement. L'approche étend les Adversarial Motion Priors (AMP) en remplaçant la distribution de référence globale par un mécanisme de routage conditionné à l'état : un seuil fixe sur la gravité projetée (|gz+1| > 0,6, soit environ 37° d'inclinaison du torse par rapport à la verticale) aiguille chaque transition d'entraînement soit vers un discriminateur dédié à la récupération, soit vers un discriminateur de locomotion conditionné par la vitesse commandée, qui couvre à la fois la marche et la course. Seuls trois clips de motion capture extraits du jeu de données LAFAN1 sont nécessaires pour régulariser l'ensemble du comportement. Sur hardware réel, la politique tourne à 50 Hz sous forme d'un fichier ONNX figé, sans aucune logique de mode à l'exécution, et valide des relevés réussis depuis les positions ventrale et dorsale ainsi que des transitions fluides marche-course. Ce résultat s'attaque directement à un problème d'intégration récurrent dans la robotique humanoïde commerciale : la fragmentation en contrôleurs spécialisés par mode, reliés par des automates à états qui génèrent des zones de transition fragiles et coûteuses à maintenir. Démontrer qu'une politique apprise par RL couvre ces régimes de façon continue sur hardware réel, et non uniquement en simulation, affaiblit l'argument du sim-to-real gap rédhibitoire pour les comportements complexes. Le coût d'annotation est lui aussi remarquablement bas : trois clips de reference suffisent là où d'autres travaux en exigent des dizaines, ce qui rend la méthode potentiellement transférable à d'autres plateformes avec un effort de données limité, qu'il s'agisse du PAL Robotics TALOS, du MIROKAÏ d'Enchanted Tools, ou de tout humanoïde léger à faible budget de motion capture. La publication s'inscrit dans une course dense à la locomotion humanoïde robuste, où Boston Dynamics (Atlas), Figure (Figure 03), Agility Robotics (Digit) et Tesla (Optimus Gen 3) investissent massivement, mais publient peu. Sur le plan académique, des approches concurrentes comme les VLA (Vision-Language-Action models) de Physical Intelligence ou les travaux de Berkeley visent des politiques encore plus générales, mais sacrifient souvent la robustesse physique au profit de la flexibilité sémantique. L'utilisation du Unitree G1, disponible à environ 16 000 dollars et largement répandu dans les laboratoires, confère à ces travaux une reproductibilité pratique supérieure aux publications sur plateformes fermées. L'article ne précise pas de timeline de déploiement industriel, mais la compatibilité ONNX et l'absence de logique embarquée à l'exécution réduisent la barrière à l'intégration pour un OEM ou un intégrateur souhaitant évaluer la méthode sur sa propre plateforme.

UELa méthode, compatible ONNX et nécessitant seulement 3 clips de motion capture, est explicitement identifiée comme transférable au MIROKAÏ d'Enchanted Tools (FR) et au TALOS de PAL Robotics (EU), réduisant le coût d'adaptation pour les équipes de recherche et les intégrateurs européens.

RecherchePaper
1 source
CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs
83arXiv cs.RO 

CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs

Des chercheurs de la Technische Universität München (TUM) ont publié CLARE, un framework d'apprentissage continu pour les modèles vision-langage-action (VLA) en robotique manipulatrice. Présenté sur arXiv (arXiv:2601.09512v2), CLARE repose sur deux mécanismes principaux : des adaptateurs modulaires légers insérés dans des couches sélectionnées du VLA, et un système de routage dynamique basé sur un autoencodeur qui active à l'inférence les adaptateurs les plus pertinents sans que le robot ait besoin de connaître l'identifiant de la tâche en cours. Lors de l'apprentissage d'une nouvelle tâche, le framework évalue la similarité des features couche par couche pour décider d'étendre ou non le modèle, expansion réalisée uniquement là où c'est nécessaire. Validé sur le benchmark LIBERO et cinq tâches réelles en manipulation, CLARE surpasse les méthodes existantes y compris celles qui stockent des données antérieures (méthodes "exemplar-based"). L'enjeu derrière ce travail est structurant pour l'industrie robotique : le fine-tuning classique d'un VLA sur de nouvelles tâches provoque un "catastrophic forgetting", c'est-à-dire l'effacement des compétences précédemment acquises. Pour un robot industriel ou de service devant s'adapter en continu à de nouveaux environnements ou procédures sans interruption de déploiement, cette limitation est rédhibitoire. Clare propose une voie sans stockage de données historiques (contrainte forte en RGPD et en coût mémoire), sans identifiant de tâche imposé à l'opérateur, et avec une empreinte paramétrique réduite grâce aux adaptateurs, une combinaison que les approches par Elastic Weight Consolidation (EWC) ou LoRA seuls n'atteignaient pas sur de longues séquences de tâches. Les VLA sont devenus un axe de recherche central depuis les travaux de Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2). L'apprentissage continu sans oubli catastrophique y reste un problème ouvert : la majorité des démos sont réalisées dans des conditions contrôlées avec re-fine-tuning complet entre environnements. CLARE s'attaque directement à ce gap entre laboratoire et déploiement longue durée. Le code, les données et les vidéos sont disponibles publiquement sur le site du laboratoire LSY de la TUM. Les prochaines étapes probables incluent des tests sur des séquences de tâches plus longues et une intégration dans des plateformes humanoïdes ou collaboratives, domaine où plusieurs acteurs européens comme Enchanted Tools ou Wandercraft pourraient bénéficier de ce type de composant pour l'adaptation terrain.

UELa TUM (Allemagne) publie une solution open-source au catastrophic forgetting dans les VLA, directement exploitable par des acteurs européens comme Enchanted Tools et Wandercraft pour déployer des robots s'adaptant à de nouvelles tâches sans re-fine-tuning complet ni stockage de données historiques.

RechercheOpinion
1 source
MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale
84arXiv cs.RO 

MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale

Une équipe de chercheurs a publié sur arXiv (référence 2505.09672) MVB-Grasp, un système de saisie robotique conçu pour le bras Unitree Z1, un manipulateur à 6 degrés de liberté (DOF) positionné en configuration frontale, c'est-à-dire face à l'objet plutôt qu'en vue surplombante. Le dispositif expérimental associe une caméra Intel RealSense D405, un détecteur d'objets YOLOv8 et le générateur de prises GraspGen basé sur la diffusion. L'innovation centrale est un filtre géométrique fondé sur la boîte englobante de volume minimal orientée (MVBB) : en analysant les normales des faces de cette boîte en temps O(N), le système élimine les candidats de saisie qui traverseraient la table ou s'aligneraient mal avec les faces accessibles de l'objet. Une fonction de re-scoring combine le score du discriminateur appris et l'alignement géométrique avec un coefficient alpha fixé à 0,85. Sur 81 épisodes de simulation MuJoCo (cylindre, boîte asymétrique, bouteille d'eau), MVB-Grasp atteint 59,3 % de succès contre 24,7 % pour GraspGen seul, soit un gain de 2,4x, confirmé ensuite en conditions réelles sans nécessiter de ré-entraînement du modèle. Ce résultat est notable parce qu'il pointe un angle mort structurel de la recherche en manipulation : les benchmarks standards comme GraspNet-1Billion ou YCB-Video sont quasi-exclusivement conçus pour des caméras en vue de dessus sur des manipulateurs haut de gamme à large espace de travail. Or une part croissante des déploiements industriels et de service implique des bras montés sur des piédestaux fixes ou des AMR, en saisie frontale, avec des contraintes cinématiques sévères. Le fait que le gain soit obtenu sans ré-entraînement, uniquement par un filtre géométrique injecté en post-traitement, démontre que le "sim-to-real gap" dans ces configurations n'est pas seulement un problème de données mais aussi de biais dans la sélection des poses candidates. C'est une piste directement exploitable pour les intégrateurs qui déploient des manipulateurs à bas coût dans des cellules contraintes. Le Unitree Z1 est un bras compact vendu autour de 4 000 à 6 000 dollars, souvent utilisé en recherche académique comme alternative économique aux UR5 ou Franka Panda. La diffusion appliquée à la génération de prises est un axe actif depuis 2022-2023 (GraspGen, SE(3)-DiffusionFields, DexGraspNet 2.0), mais la majorité des travaux optimisent pour des postures overhead. Côté concurrents directs sur les manipulateurs frontaux contraints, les approches d'Enchanted Tools et les travaux issus du LAAS-CNRS en France explorent des contraintes similaires, bien que sur des plateformes différentes. La prochaine étape logique pour cette équipe serait d'étendre le protocole à des objets articulés ou transparents, et d'intégrer le filtre MVBB dans une boucle de planification réactive plutôt qu'en sélection statique de candidats.

UELe filtre MVBB est directement exploitable sans ré-entraînement par des intégrateurs européens déployant des manipulateurs en configuration frontale sur AMR ou piédestaux fixes, et s'inscrit dans la continuité de travaux menés au LAAS-CNRS et chez Enchanted Tools en France sur des contraintes cinématiques similaires.

💬 Un filtre géométrique pur, injecté en post-traitement, qui multiplie le taux de succès par 2,4 sans ré-entraîner le modèle : c'est le genre de résultat qui devrait faire rougir pas mal d'équipes qui empilent des couches de deep learning là où une contrainte bien posée suffit. Ce qui est vraiment utile ici, c'est qu'ils pointent un biais structurel évident en retrospective : tous les benchmarks standards supposent une caméra en vue de dessus, alors que la moitié des bras déployés en prod sont en configuration frontale sur des AMR ou des piédestaux fixes. Le filtre MVBB, tu peux le brancher demain sur ton pipeline existant.

IA physiquePaper
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
85arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?
86arXiv cs.RO 

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Des chercheurs ont publié REI-Bench (arXiv:2505.10872), le premier benchmark dédié à évaluer comment les planificateurs de tâches robotiques basés sur des grands modèles de langage (LLM) gèrent les instructions humaines vagues. L'étude porte spécifiquement sur les expressions référentielles (ER), formulations dont le sens dépend du contexte dialogique et de l'environnement immédiat, comme "prends ça" ou "mets-le là-bas". Les expériences montrent que cette ambiguïté fait chuter le taux de succès des planificateurs jusqu'à 36,9 points de pourcentage. L'analyse des cas d'échec révèle que la majorité provient d'objets manquants dans les plans générés : le modèle ne résout pas correctement la référence et omet l'objet cible de la séquence d'actions. Ce résultat est significatif pour les intégrateurs et les équipes qui déploient des robots en environnement non contrôlé. La quasi-totalité des benchmarks existants, et donc des pipelines de planification actuels, supposent des instructions claires et structurées, ce qui correspond à un utilisateur expert. Or, les populations prioritaires pour la robotique de service (personnes âgées, enfants, opérateurs non formés) sont précisément celles qui formulent des instructions les plus ambiguës. La dégradation mesurée n'est pas marginale : un écart de 37 points sur le taux de succès représente un planificateur fonctionnel en labo qui devient inutilisable en conditions réelles. Le papier souligne également que les approches classiques d'atténuation, prompts enrichis, chaînes de pensée (chain-of-thought), apprentissage en contexte (in-context learning), ne suffisent pas à combler cet écart. Pour y répondre, les auteurs proposent une méthode appelée "task-oriented context cognition" : avant de générer le plan d'action, le système produit explicitement une instruction reformulée et désambiguïsée à partir du contexte environnemental et dialogique. Cette approche atteint l'état de l'art sur REI-Bench en surpassant les baselines précitées. Le benchmark s'inscrit dans un effort plus large de la communauté pour combler le fossé entre performances en simulation et déploiement réel, un problème central pour des acteurs comme Boston Dynamics, Agility Robotics ou les startups européennes telles qu'Enchanted Tools, dont les robots humanoïdes devront interagir avec des utilisateurs non techniques. Les prochaines étapes naturelles seraient d'intégrer REI-Bench dans les pipelines d'évaluation de modèles VLA (vision-language-action) comme pi0 ou OpenVLA, où la résolution de références visuelles et linguistiques est un point de friction connu.

UEL'approche de désambiguïsation proposée (task-oriented context cognition) est directement applicable aux équipes européennes développant des robots de service pour utilisateurs non techniques, notamment les startups comme Enchanted Tools dont les humanoïdes devront gérer des instructions vagues d'opérateurs non formés.

RecherchePaper
1 source
AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances
87arXiv cs.RO 

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion
1 source
IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel
88arXiv cs.RO 

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

Lors du SAE World Congress 2026, un panel intitulé "Embodied AI in Action" a réuni des experts issus de l'automobile, de la robotique, de l'intelligence artificielle et de l'ingénierie de la sécurité pour faire le point sur le déploiement réel des systèmes d'IA incarnée. Le compte rendu de cette session, publié sous forme de livre blanc (arXiv:2605.10653), couvre trois grandes familles de systèmes : les véhicules autonomes, les robots mobiles et les machines industrielles autonomes. Contrairement à une annonce produit, ce document n'avance pas de métriques de performance spécifiques, payload, cycle time, taux de déploiement, mais synthétise le consensus d'experts sur les conditions nécessaires à un déploiement industriel fiable. Le message central est explicite : l'IA incarnée quitte les labos et entre dans des environnements opérationnels réels, avec toutes les contraintes que cela implique. Ce changement de statut, du prototype au système déployé, est précisément ce qui rend ce document pertinent pour les intégrateurs et les décideurs B2B. Le panel souligne que l'IA incarnée doit être traitée comme un défi systémique complet : rigueur d'ingénierie, gouvernance du cycle de vie, conception centrée utilisateur, et standards réglementaires encore en construction. Ce n'est pas une position nouvelle, mais le fait qu'elle émerge d'un consensus d'acteurs industriels, et non d'un seul laboratoire de recherche, signale que le secteur commence à s'aligner sur un cadre commun. La question de la confiance (trust) et de la sûreté opérationnelle est présentée comme aussi déterminante pour le succès long terme que les avancées techniques en elles-mêmes, ce qui tranche avec les discours purement axés sur les capacités des modèles. Le SAE (Society of Automotive Engineers) est l'organisation qui a défini les niveaux d'autonomie (L0 à L5) devenus la référence industrielle mondiale, son implication dans le cadrage de l'IA incarnée n'est donc pas anodine. Ce livre blanc s'inscrit dans une série d'initiatives de standardisation qui se multiplient depuis 2024, portées aussi par l'ISO, l'IEEE et l'UE dans le cadre de l'AI Act. Sur le plan concurrentiel, les géants du secteur, Boston Dynamics (Spot, Atlas), Figure AI (Figure 03), Tesla (Optimus), Agility Robotics (Digit), avancent chacun leur propre cadre de certification. Des acteurs européens comme Enchanted Tools ou Wandercraft sont concernés par ces évolutions réglementaires. Les prochaines étapes probables : la formalisation de standards sectoriels et des exigences de validation formelle pour les systèmes déployés en environnement humain partagé.

UELes acteurs européens comme Enchanted Tools et Wandercraft seront directement soumis aux standards de sécurité et de validation formelle qui émergent de ces initiatives SAE/ISO/IEEE, en convergence avec les exigences de l'AI Act pour les systèmes d'IA incarnée déployés en environnement humain partagé.

RegulationReglementation
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
89arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

IA physiqueOpinion
1 source
OGPO : un affinage complet et efficace des politiques de contrôle génératives
90arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

IA physiqueOpinion
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
91Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation
92arXiv cs.RO 

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Des chercheurs ont proposé sur arXiv (arXiv:2605.01544, mai 2026) une métrique automatisée pour évaluer la qualité des démonstrations en apprentissage par imitation (IL), fondée sur la densité spectrale de puissance (PSD) des trajectoires enregistrées. Une PSD faible signale une trajectoire lisse et exploitable ; une PSD élevée indique oscillations, corrections abruptes et mouvements erratiques qui dégradent les politiques apprises. Contrairement aux méthodes existantes, la métrique ne requiert ni rollout de politique, ni interaction avec l'environnement, ni étiquetage expert. Elle a été évaluée sur deux benchmarks IL et via une étude terrain avec des résidents âgés d'un établissement de retraite, dont les démonstrations ont servi à affiner π0.5 de Physical Intelligence pour une tâche de vie quotidienne. Les politiques issues des données filtrées par PSD surpassent les baselines non filtrées et deux méthodes concurrentes en taux de succès et en fluidité d'exécution. Le déploiement réel de robots guidés par imitation bute sur les scénarios hors distribution (OOD), aggravés par la faible qualité des démonstrations d'utilisateurs finaux. Les approches existantes de curation automatisée exigeaient des rollouts en environnement, coûteux et impraticables à grande échelle. La métrique PSD supprime ce verrou : applicable avant tout entraînement, elle filtre les démonstrations directement au moment de la collecte terrain. Pour les intégrateurs de robots manipulateurs en environnements non contrôlés, cela réduit concrètement le coût de mise en qualité des données sans ressources RL dédiées. Le travail s'inscrit dans l'essor des VLA (Vision-Language-Action models), où π0.5 de Physical Intelligence figure parmi les modèles de fondation robotique disponibles pour le fine-tuning, mais le défi du "demo-to-reality gap" reste l'un des freins majeurs au passage à l'échelle de l'IL. En ciblant des utilisateurs âgés peu habitués au guidage de robots, l'étude ouvre une piste vers la robotique d'assistance, segment où des acteurs comme Enchanted Tools en France cherchent à s'implanter. La prochaine étape logique serait l'intégration de cette métrique dans des pipelines de collecte en production, couplée à des retours temps réel pour guider les utilisateurs vers de meilleures démonstrations dès la capture.

UELa métrique PSD pourrait réduire le coût de curation de données pour des acteurs européens comme Enchanted Tools (France), actifs en robotique d'assistance, en supprimant le besoin de rollouts environnementaux coûteux lors du fine-tuning de modèles VLA.

RechercheOpinion
1 source
Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage
93arXiv cs.RO 

Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage

Une équipe de chercheurs a publié début mai 2025 sur arXiv (2605.01434) une architecture de lecture de capteurs analogiques scalable pour mains robotiques dextres. Le système repose sur un registre à décalage série-vers-parallèle (SIPO) qui permet de connecter des modules de capteurs hétérogènes via seulement trois lignes de signal entre chaque module. La validation porte sur une main robotique à tendons équipée de 16 modules articulaires et d'un module tactile à quatre canaux, soit 20 canaux échantillonnés à 1 kHz en mode plein balayage, avec une stabilité confirmée jusqu'à 1,5 kHz. Les capteurs articulaires atteignent une erreur maximale de pente (APE) de 0,446 % et une estimation angulaire inférieure au degré. Pour la perception tactile, des modèles LSTM déployés en inférence temps réel à 1 kHz obtiennent un RMSE de 0,125 N pour l'estimation de force et 93,4 % de précision pour la classification en cinq catégories de localisation de contact. L'apport principal est la dissociation entre nombre de capteurs, complexité du câblage et bande passante d'échantillonnage, un compromis qui freine depuis longtemps le développement de mains densément captées. Limiter l'interconnexion à trois fils réduit la complexité mécanique et électrique de façon significative, un point critique pour les intégrations en espace contraint. La démonstration à 1 kHz sur 20 canaux simultanés avec inférence LSTM embarquée prouve que la chaîne capteur-modèle peut tenir le rythme d'une boucle de contrôle temps réel sans matériel dédié coûteux. Les performances tactiles sont solides sur banc de test, mais l'article ne précise pas les conditions en manipulation libre, un élément à vérifier avant toute extrapolation industrielle. La dextérité robotique reste un verrou majeur pour la manipulation non structurée, et la densification des capteurs dans les mains mécaniques est un axe actif chez des acteurs comme Sanctuary AI, Figure, Apptronik ou 1X, dont les humanoïdes commerciaux peinent encore à atteindre la densité sensorielle des prototypes académiques. L'architecture SIPO présentée est suffisamment générique pour s'adapter à d'autres géométries de main ou d'autres types de capteurs comme la pression, la température ou la proximité, et constitue une base crédible pour des intégrations sur plateformes humanoïdes en cours de commercialisation. Du côté européen, ni Wandercraft ni Enchanted Tools n'ont publié d'approches comparables pour les effecteurs distaux, laissant ce créneau ouvert à de prochains travaux.

UEL'architecture SIPO publiée en open access sur arXiv constitue une base technique directement exploitable pour les équipes R&D européennes travaillant sur les effecteurs distaux d'humanoïdes, un créneau où Wandercraft et Enchanted Tools n'ont pas encore publié d'approches comparables.

RecherchePaper
1 source
Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé
94arXiv cs.RO 

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

Une équipe de chercheurs a publié fin avril 2026 (arXiv:2604.26577) une évaluation systématique de la sécurité de 72 grands modèles de langage (LLMs) dans le contexte du contrôle de robots-soignants. Le protocole repose sur un corpus de 270 instructions nuisibles, réparties en neuf catégories de comportements interdits dérivés des Principes d'éthique médicale de l'American Medical Association, et testées dans un environnement de simulation basé sur le cadre "Robotic Health Attendant". Le taux de violation moyen toutes catégories confondues atteint 54,4 %, et plus de la moitié des modèles dépassent individuellement les 50 %. Les instructions superficiellement plausibles, manipulation d'équipements médicaux ou retard délibéré face à une urgence, s'avèrent bien plus difficiles à refuser pour les modèles que des requêtes ouvertement destructrices. L'écart entre modèles propriétaires et open-weight est particulièrement marqué : taux médian de violation à 23,7 % pour les premiers, contre 72,8 % pour les seconds. Ces résultats ont des implications directes pour quiconque envisage d'intégrer un LLM dans une boucle de contrôle robotique en milieu clinique. Ils invalident deux hypothèses courantes : d'abord, que le fine-tuning dans le domaine médical améliore la sécurité (aucun bénéfice significatif mesuré), ensuite, que des défenses basées sur le prompt suffisent à sécuriser les modèles les moins fiables (réduction modeste, niveaux absolus toujours incompatibles avec un déploiement clinique). La taille du modèle et la date de sortie restent les meilleurs prédicteurs de sécurité pour les modèles open-weight, ce qui suggère que l'amélioration est incidentelle aux évolutions générales d'entraînement, pas le fruit d'une conception sécurité-first. Le cadre Robotic Health Attendant, utilisé comme base de simulation, s'inscrit dans une tendance plus large où les LLMs sont envisagés comme couche de raisonnement dans des systèmes robotiques d'assistance à la personne, aux côtés d'approches comme les Vision-Language-Action models (VLA). Les acteurs du secteur, qu'il s'agisse de startups comme Enchanted Tools côté français ou de plateformes hospitalières intégrant des bras manipulateurs, n'ont pas encore de benchmark standardisé pour valider la sécurité comportementale de leurs modèles embarqués. Cette étude constitue une première tentative de formalisation, mais ses auteurs reconnaissent que les résultats, obtenus en simulation, devront être confrontés à des protocoles en environnement réel avant de pouvoir orienter des décisions de certification ou de déploiement.

UECette étude fournit un premier benchmark formalisé pour la sécurité comportementale des LLMs en robotique de santé, dont des acteurs français comme Enchanted Tools sont explicitement dépourvus, et pourrait orienter les futures exigences de certification dans le cadre de la réglementation européenne sur les dispositifs médicaux autonomes.

RechercheOpinion
1 source
Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine
95SCMP Tech 

Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine

L'IA physique - la combinaison de machines avancées dotées de "cerveaux" capables d'interagir avec leur environnement - connaît une expansion accélérée en Chine. Des drones de livraison sillonnent désormais les airs au-dessus de Shenzhen, dans le sud du pays, tandis que des robots de livraison empruntent les réseaux de métro urbains. Les premiers véhicules autonomes circulent sur des axes publics, et des robots humanoïdes font leur apparition aussi bien sur les lignes de production industrielles que sur des scènes de spectacle. Cette convergence entre robotique, véhicules autonomes et drones représente un changement structurel dans la façon dont la Chine déploie l'IA au-delà des serveurs : il ne s'agit plus de démos en laboratoire, mais de systèmes en opération réelle dans des environnements non contrôlés. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le fossé entre prototype et déploiement se réduit concrètement sur plusieurs verticales simultanément, ce qui accroît la pression concurrentielle sur les acteurs occidentaux et japonais du secteur. Ce déploiement s'inscrit dans une stratégie industrielle nationale de long terme, soutenue par des financements publics et une chaîne d'approvisionnement en composants (actionneurs, capteurs, puces) largement localisée. Face à la Chine, les États-Unis misent sur des acteurs comme Figure AI, Agility Robotics ou Boston Dynamics, tandis qu'en Europe, des sociétés comme Enchanted Tools (France) ou Wandercraft restent à des stades de commercialisation plus précoces. Les prochaines étapes chinoises devraient inclure une densification des flottes de drones en zone urbaine et l'extension des corridors de test pour véhicules autonomes.

UELes entreprises françaises comme Enchanted Tools et Wandercraft, encore en phase de commercialisation précoce, subissent une pression concurrentielle croissante face aux déploiements à grande échelle opérés en Chine sur plusieurs verticales simultanément.

Chine/AsieOpinion
1 source
Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle
96arXiv cs.RO 

Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle

Des chercheurs ont présenté un système hybride baptisé Learning-Augmented Robotic Automation (LARA), déployé sur une ligne de production réelle de moteurs électriques pour automatiser deux tâches jusqu'alors confiées à des opérateurs humains : l'insertion de câbles déformables et la soudure. Le système combine des contrôleurs de tâches appris par imitation et un moniteur de sécurité neuronal 3D, intégré directement dans les workflows industriels existants. Entraîné avec moins de 20 minutes de données réelles par tâche, LARA a fonctionné en continu pendant 5 heures 10 minutes, produisant 108 moteurs sans barrière physique de protection, avec un taux de conformité de 99,4 % aux tests de contrôle qualité au niveau produit. Le takt time atteint est comparable à celui d'un opérateur humain, avec une réduction mesurée de la variabilité des joints de soudure et des temps de cycle. Ce résultat s'attaque directement au fossé entre démonstration laboratoire et déploiement industriel effectif, l'obstacle principal qui freine l'adoption de la robotique apprenante en production. L'entraînement en moins de 20 minutes par tâche abaisse considérablement la barrière à l'intégration pour les industriels et les intégrateurs système. Pour un COO de ligne d'assemblage, le point le plus structurant est l'absence de caging physique : le moniteur neuronal remplace les protections mécaniques classiques, ouvrant la voie à des cellules collaboratives sans les coûts de reconfiguration d'atelier associés aux robots industriels traditionnels. La manipulation de câbles déformables et la soudure figurent parmi les tâches les plus résistantes à la robotisation classique, du fait de la déformation matière et de la non-répétabilité des poses. Sur ce segment, Physical Intelligence (Pi-0.5) et Figure AI (Helix sur Figure 02) poussent des VLA généralistes pour la manipulation multi-tâches, tandis que Wandercraft et Enchanted Tools, tous deux français, ciblent respectivement la mobilité humanoïde et les robots de service. LARA se distingue par son pragmatisme : pas d'humanoïde, pas de modèle fondationnel, mais une hybridation ciblée sur des cellules industrielles existantes. Les auteurs évoquent comme suites naturelles l'extension à d'autres tâches de câblage et la validation sur des lignes multi-produits.

UELa fabrication de moteurs électriques est un segment clé de la transition EV en Europe ; LARA démontre qu'un système appris en moins de 20 minutes peut atteindre le takt time humain sur des tâches résistantes à la robotisation classique, abaissant directement la barrière d'adoption pour les intégrateurs et industriels européens sans reconfiguration lourde d'atelier.

IndustrielActu
1 source
Chaleur et compétence dans l'essaim : concevoir des équipes humain-robot efficaces
97arXiv cs.RO 

Chaleur et compétence dans l'essaim : concevoir des équipes humain-robot efficaces

Une équipe de chercheurs a publié sur arXiv (identifiant 2604.19270, avril 2026) une étude portant sur la perception sociale des essaims de robots lors de collaborations avec des humains. Via deux expériences structurées autour d'une tâche collective de recherche, les participants ont évalué différentes configurations d'essaim en tant qu'observateurs passifs dans la première étude, puis en tant qu'opérateurs actifs dans la seconde. Les résultats sont consistants sur les deux études : les variations de comportement du groupe de robots modifient systématiquement les jugements de chaleur relationnelle (warmth) et de compétence attribués au collectif. Une durée de diffusion de signal plus longue augmente la chaleur perçue ; une distance de séparation inter-robots plus grande augmente la compétence perçue. La vitesse individuelle de chaque robot, en revanche, n'a d'effet significatif sur aucun des deux attributs. Le résultat le plus contre-intuitif est que les perceptions sociales prédisent les préférences d'équipe plus fortement que la performance brute. Les participants ont préféré les équipes à la fois chaleureuses et compétentes à celles qui accomplissaient la tâche le plus rapidement. Pour les intégrateurs de systèmes multi-robots et les responsables industriels, ce constat remet en cause un postulat courant : optimiser un essaim pour la vitesse ou l'efficacité pure ne suffit pas à obtenir l'adhésion des opérateurs humains. La dimension sociale du comportement collectif, la façon dont le groupe semble agir plutôt que ce qu'il accomplit, détermine l'acceptation et la confiance. Dans des environnements collaboratifs intégrant des AMR ou des flottes robotiques, ignorer ces paramètres constitue un facteur de risque d'adoption sous-estimé. Le cadre théorique utilisé, le modèle competence-warmth issu de la psychologie sociale, est bien établi pour la perception des individus et des groupes humains, mais son application aux essaims robotiques reste émergente. La littérature en HRI (human-robot interaction) s'est jusqu'ici principalement focalisée sur des agents individuels. Ce preprint arXiv, non encore évalué par les pairs, s'inscrit dans une direction de recherche croissante à l'intersection du swarm robotics et de la HRI. Des entreprises déployant des flottes en environnement humain, de Boston Dynamics à des acteurs européens comme Exotec ou Enchanted Tools, auraient intérêt à intégrer ces paramètres comportementaux dès la conception. La prochaine étape logique serait de valider ces résultats en environnement industriel réel, avec des opérateurs non-experts et des tâches à plus forte variabilité.

UEExotec et Enchanted Tools, acteurs européens déployant des flottes robotiques en environnement humain, sont explicitement cités comme pouvant intégrer dès la conception les paramètres comportementaux (durée de signal, distance inter-robots) identifiés par cette étude.

💬 Ce qui est frappant, c'est que la vitesse ne change rien à la perception. Les opérateurs préfèrent un essaim qui semble chaleureux et compétent à celui qui boucle la tâche le plus vite, ce qui chamboule pas mal les priorités si tu déploies une flotte en entrepôt avec des humains. Exotec, Enchanted Tools : ces paramètres comportementaux, c'est à intégrer dès la conception, pas après coup.

RecherchePaper
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
98arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert
99arXiv cs.RO 

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.15814) un framework d'étalonnage main-oeil continu (continual hand-eye calibration) destiné aux robots manipulateurs déployés dans des environnements ouverts et changeants. Le problème adressé est précis : les modèles de calibration basés sur le deep learning perdent leur précision sur les scènes précédemment apprises dès qu'ils s'adaptent à un nouvel environnement, un phénomène connu sous le nom d'oubli catastrophique (catastrophic forgetting). Le framework proposé repose sur deux composants distincts. Le premier, SARS (Spatial-Aware Replay Strategy), construit un buffer de rejeu géométriquement uniforme qui couvre l'espace de poses de chaque scène sans redondance, en sélectionnant les points de vue les plus informatifs plutôt que les frames adjacentes. Le second, SPDD (Structure-Preserving Dual Distillation), décompose la connaissance de localisation en deux niveaux, la structure grossière de la scène et la précision fine de pose, puis applique une distillation séparée pour préserver les deux dimensions lors des adaptations successives. Les expériences sur plusieurs datasets publics confirment que le modèle maintient la précision sur les scènes passées tout en s'adaptant aux nouvelles. L'enjeu industriel est réel : un bras manipulateur recalibré pour une nouvelle cellule de production ne devrait pas perdre sa précision sur les postes précédents. C'est le problème quotidien des intégrateurs qui déploient des robots dans des lignes flexibles ou multi-produits. La plupart des approches actuelles imposent soit un recalibrage complet à chaque changement de scène, soit acceptent une dégradation progressive des performances sur les configurations antérieures. Ce travail propose une voie intermédiaire via l'apprentissage continu structuré, sans recourir à un replay naïf qui ne suffit pas à enrayer l'oubli. L'approche par distillation duale est notamment pertinente car elle distingue deux types d'erreur, positionnement global et précision locale, ce que les méthodes monolithiques ne font pas. Ce travail s'inscrit dans un champ de recherche en forte activité depuis 2022, où la robustesse de la calibration visuelle en conditions réelles est identifiée comme l'un des goulots d'étranglement pour le passage à l'échelle des manipulateurs autonomes. La localisation visuelle pour la calibration main-oeil emprunte aux techniques de Visual Place Recognition (VPR) et de relocalisation utilisées en navigation mobile, mais les contraintes de précision sous-millimétrique propres à la manipulation y ajoutent une difficulté spécifique. Parmi les acteurs qui travaillent sur des problèmes adjacents figurent des équipes comme Physical Intelligence (pi) avec Pi-0, ou des laboratoires comme le Stanford AI Lab et ETH Zurich sur la sim-to-real calibration. En France, des acteurs comme Enchanted Tools et Pollen Robotics, qui développent des plateformes d'interaction physique, sont directement concernés par ce type de verrou. La prochaine étape naturelle pour ce framework serait une validation sur des données industrielles réelles et une intégration dans des pipelines de déploiement multi-cellules, que les auteurs n'ont pas encore annoncée.

UEEnchanted Tools et Pollen Robotics, qui développent des plateformes de manipulation physique en France, sont directement concernés par ce verrou de calibration continue, susceptible de réduire les coûts de redéploiement en production flexible.

RecherchePaper
1 source
JD.com Launches “Robot Ambulance” Service, Targets 50 Cities in Three Years
100Pandaily 

JD.com Launches “Robot Ambulance” Service, Targets 50 Cities in Three Years

JD.com, le géant chinois du e-commerce, a lancé officiellement son service baptisé "robot ambulance", un réseau de maintenance et de réparation dédié aux robots commerciaux. Le service couvre les robots humanoïdes, quadrupèdes et robots compagnons IA, et propose une gamme complète de prestations : diagnostics de pannes, remplacement de batteries, tests de performance, maintenance esthétique et recyclage d'équipements. Déjà opérationnel à Pékin, le dispositif doit s'étendre à plus de 50 grandes villes chinoises d'ici trois ans. JD.com vise également une expansion internationale vers l'Europe, l'Amérique du Nord, le Moyen-Orient et l'Asie-Pacifique, avec des opérations déjà amorcées dans certains pays européens. Pour soutenir cette croissance, l'entreprise s'est fixé l'objectif de recruter plus de 10 000 ingénieurs spécialisés en robotique sur la même période. Ce lancement signale une mutation structurelle dans l'industrie robotique chinoise : le marché ne se limite plus à la fabrication et à la vente de robots, il génère désormais une demande de services après-vente à l'échelle industrielle. Pour les intégrateurs et les opérateurs B2B qui déploient des flottes humanoïdes ou quadrupèdes, l'absence d'infrastructure de maintenance fiable reste l'un des principaux freins à l'adoption. En positionnant une offre de service centralisée et multi-marques, JD.com comble un vide réel, tout en consolidant sa position de plateforme logistique dans l'écosystème robot. C'est aussi un signal que le volume de robots déployés en conditions réelles est désormais suffisant pour justifier une économie de la maintenance. JD.com n'est pas un acteur robotique au sens strict : c'est un opérateur logistique qui utilise des robots dans ses propres entrepôts depuis des années, et qui capitalise maintenant sur cette expertise opérationnelle pour en faire un service tiers. Les partenariats annoncés avec Unitree Robotics, Songyan Dynamics, Deep Robotics et AGIBOT, tous des acteurs majeurs du marché humanoïde et quadrupède chinois, donnent au service une couverture multi-constructeurs crédible. Aucun équivalent de cette échelle n'existe à ce jour en Europe, où des acteurs comme Enchanted Tools ou Wandercraft opèrent encore sans réseau de service structuré. La prochaine étape déclarée est l'extension internationale, dont le calendrier précis reste à confirmer.

UEJD.com ayant déjà amorcé des opérations dans certains pays européens, ce service crée une pression compétitive sur les intégrateurs européens et signale un vide structurel dans l'offre de maintenance de flottes robotiques en Europe.