RechercheInteresting Engineering 17 juin 2026

La peau de la trompe d'éléphant, un modèle à double zone pour les pinces robotiques avancées

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs menée par Lucia Beccai a cartographié avec une précision inédite l'architecture microscopique de la peau de trompe d'éléphant, en vue d'en extraire des principes directement applicables à la robotique souple. L'étude, publiée dans PNAS Nexus, s'appuie sur 35 échantillons de tissu prélevés sur un unique spécimen adulte d'éléphant d'Asie (Elephas maximus) mort de causes naturelles au zoo de Zurich, en Suisse, en 2020. Les chercheurs ont combiné tests biomécaniques, histologie, imagerie multi-technique et modélisation par éléments finis pour caractériser la peau de la trompe en détail. Résultat central : la peau ne présente pas une composition homogène, mais se divise en deux zones mécaniques distinctes. La face supérieure, exposée aux frottements lors du transport de rondins ou du creusage du sol, affiche une rigidité 3,14 fois supérieure à celle de la face inférieure. Cette dernière, au contraire, est flexible et hypersensible : sa faible rigidité lui permet d'envelopper précisément la surface de chaque objet saisi, maximisant la surface de contact sans force musculaire excessive. Sous cette face inférieure, les chercheurs ont identifié des structures en dôme appelées papilles dermiques, dont la modélisation révèle qu'elles fonctionnent comme une lentille mécanique : elles concentrent et amplifient les contraintes à l'exacte position des terminaisons nerveuses sensorielles, transformant de faibles signaux tactiles en informations exploitables.

Ce résultat a des implications directes pour les concepteurs de préhenseurs robotiques souples. La combinaison protection mécanique et sensibilité tactile reste l'un des défis les plus persistants du domaine : les capteurs assez fins pour détecter une texture de surface sont généralement les composants les plus vulnérables à l'abrasion et aux contacts répétés. La trompe d'éléphant résout ce problème sans compromis, via une architecture à gradient de rigidité continu et une géométrie sous-cutanée qui amplifie les signaux avant qu'ils n'atteignent les récepteurs. Pour les ingénieurs, cela valide concrètement une approche multi-matériaux biomimétique : fabriquer des préhenseurs en couches à rigidité délibérément variable, la couche externe protégeant et amplifiant simultanément les signaux vers des capteurs positionnés en profondeur. L'étude reste une caractérisation biomécanique, pas une démonstration robotique, mais elle fournit des paramètres exploitables (ratio de rigidité de 3,14:1, géométrie précise des papilles dermiques) que des équipes de conception pourraient intégrer directement dans des simulations ou des prototypes.

La recherche en préhension souple d'inspiration biologique est active depuis plusieurs années, avec des travaux sur les doigts de pieuvre, les pattes de gecko ou les coussinets de primates, mais les mécanismes cutanés précis de la trompe restaient mal caractérisés. Des laboratoires comme le Soft Robotics Toolkit de Harvard ou le BioRobotics Lab de l'EPFL de Lausanne travaillent sur des préhenseurs à sensibilité tactile intégrée. Du côté européen, des acteurs comme Enchanted Tools à Paris, qui développe des plateformes humanoïdes expressives, ou Wandercraft, spécialisé dans les exosquelettes et la mobilité, pourraient s'appuyer sur ce type de solution pour les membres préhenseurs de leurs systèmes. Aucun déploiement industriel n'est encore annoncé en lien avec ce travail spécifique, et la transition de la biologie à un composant industrialisable reste un chemin non trivial. Les prochaines étapes logiques sont une validation sur matériaux synthétiques (élastomères à rigidité graduée, silicones composites) puis des tests de discrimination tactile sur prototypes, avant tout horizon de commercialisation.

Impact France/UE

L'EPFL de Lausanne et des entreprises françaises comme Enchanted Tools et Wandercraft sont mentionnés comme bénéficiaires potentiels de cette architecture biomimétique, mais aucune collaboration directe ni déploiement lié à ce travail n'est annoncé.

Dans nos dossiers

Wandercraft Enchanted Tools — Mirokaï Exosquelettes

À lire aussi

1arXiv cs.RO

MotuBrain : un modèle du monde avancé pour le contrôle robotique

MotuBrain est un modèle génératif multimodal unifié pour le contrôle robotique, présenté dans un preprint arXiv (identifiant 2604.27792) publié en avril 2026. Le modèle adopte une formulation UniDiffuser couplée à une architecture Mixture-of-Transformers à trois flux, lui permettant de modéliser conjointement les séquences vidéo et les actions motrices au sein d'un même réseau. Un seul modèle supporte cinq modes d'inférence distincts : apprentissage de politique, modélisation du monde, génération vidéo, dynamique inverse, et prédiction conjointe vidéo-action. Il est conçu pour s'adapter à des données hétérogènes, incluant des vidéos sans annotations d'action et des données issues de plateformes robotiques différentes (cross-embodiment). Sur le plan de l'inférence, les auteurs annoncent un gain de vitesse supérieur à 50x par rapport à des architectures comparables, ouvrant la voie à un déploiement temps réel. L'approche s'attaque à une limitation structurelle bien documentée des VLA purs comme RT-2 ou OpenVLA : leur forte généralisation sémantique masque souvent une modélisation insuffisante des dynamiques physiques fines, ce qui génère des erreurs sur des tâches de manipulation précises. En intégrant la génération vidéo comme supervision implicite des dynamiques du monde, MotuBrain s'inscrit dans la tendance des World Action Models (WAMs), dont l'hypothèse centrale est que prédire ce qui va se passer visuellement améliore la qualité des actions produites. Le support cross-embodiment est particulièrement structurant pour les intégrateurs industriels, car il réduit le coût de réentraînement lors d'un changement de plateforme matérielle. Le speedup annoncé de 50x reste à confirmer sur des benchmarks publics, le preprint ne précisant pas les configurations matérielles de référence utilisées pour cette mesure. Ce travail s'inscrit dans une compétition dense autour des modèles fondationnels pour la robotique généraliste. Physical Intelligence a mis en production Pi-0 début 2025, NVIDIA a présenté GR00T N2 avec support multi-embodiment, et Google DeepMind avance sur ses modèles RT-X et GROOT. L'affiliation institutionnelle des auteurs de MotuBrain n'est pas précisée dans l'abstract du preprint. Comme pour tout travail soumis à arXiv sans revue par les pairs, l'absence d'expériences robotiques réelles documentées en détail invite à la prudence avant d'extrapoler les performances annoncées à un contexte de déploiement industriel.

RechercheOpinion

1 source

2arXiv cs.RO

DSWAM : un modèle fondation à double système pour la manipulation robotique fine

Des chercheurs publient sur arXiv (référence 2607.04927v1) DSWAM, un nouveau modèle "Dual-System World Action Model" destiné à la manipulation robotique fine. Le système combine deux composants : un exécuteur System 1 basé sur un World Action Model (WAM), qui reste le chemin de contrôle par défaut, et un planificateur System 2 de type vision-langage, activé seulement quand une tâche nécessite une décomposition en sous-tâches. Ce planificateur prédit des sous-tâches exécutables à partir d'un court historique visuel et d'une consigne globale, tandis que l'exécuteur WAM génère les actions en tenant compte du contexte du monde observé. Contrairement aux WAM classiques, DSWAM ne génère pas de vidéo future à l'inférence : il prédit directement des séquences d'actions ("action chunks"), tout en étant entraîné avec une co-supervision vidéo. Pour un déploiement temps réel sur robot physique, les auteurs ajoutent une accélération TensorRT, une exécution asynchrone et un mécanisme de "real-time chunking" (RTC) afin que les requêtes du modèle ne bloquent pas le contrôle moteur. Le système est évalué sur le protocole DeMaVLA, dédié à la manipulation d'objets déformables, avec plateforme robotique, données de pré-entraînement et post-entraînement identiques à celles utilisées pour comparer aux politiques VLA. L'intérêt principal de ce travail est méthodologique autant que technique : jusqu'ici, la comparaison entre approches VLA (Vision-Language-Action) et WAM souffrait d'un manque de protocole équitable, chaque camp utilisant ses propres données, robots et critères d'évaluation. En imposant un cadre contrôlé (DeMaVLA), DSWAM cherche à trancher un débat central du secteur robotique : les modèles WAM, réputés plus ancrés physiquement mais moins doués pour planifier des instructions complexes en langage naturel, peuvent-ils combler cet écart via un module de planification optionnel, sans sacrifier la vitesse d'exécution nécessaire au contrôle temps réel ? Ce travail s'inscrit dans la lignée des VLA génériques comme Pi-0 ou GR00T N2, qui ont démontré la viabilité de politiques apprises à grande échelle mais peinent parfois sur des tâches multi-étapes complexes typiques des environnements domestiques. En positionnant explicitement le System 2 comme optionnel plutôt que systématique, DSWAM propose une architecture hybride que d'autres laboratoires pourraient reprendre pour arbitrer entre réactivité et capacité de planification, un compromis clé pour la manipulation fine à l'approche de déploiements domestiques réels.

RechercheActu

1 source

3New Atlas Robotics

Robot en trompe d'éléphant : une caméra interne pour un sens du toucher

Les chercheurs du Japan Advanced Institute of Science and Technology (JAIST) ont développé un nouveau type de pince robotique souple baptisée EleTac, dont la conception s'inspire directement de l'extrémité préhensile de la trompe d'éléphant. Contrairement aux pinces industrielles classiques équipées de capteurs de force externes, EleTac intègre une caméra miniature directement à l'intérieur de sa structure souple en silicone. Cette caméra observe en continu les déformations internes du matériau lorsque celui-ci entre en contact avec un objet, permettant au système de reconstituer, par traitement d'image, la forme, la texture et la fermeté de ce qu'il saisit, un peu comme le fait un vrai appendice d'éléphant grâce à ses terminaisons nerveuses. Le dispositif s'inscrit dans la famille des capteurs tactiles dits "vision-based", une approche déjà popularisée par des systèmes comme GelSight, mais appliquée ici à un actionneur souple et non à un doigt rigide. Pour l'industrie robotique, cette approche confirme une tendance de fond: remplacer des réseaux de capteurs de force coûteux et fragiles par une simple caméra interne couplée à du traitement d'image, ce qui réduit le coût et la complexité de câblage tout en conservant une sensibilité fine au toucher. Pour les intégrateurs travaillant sur la préhension d'objets fragiles, irréguliers ou déformables (fruits, textiles, composants électroniques), un tel gripper biomimétique promet une manipulation plus adaptative que les pinces rigides classiques, sans nécessiter de modèle physique complexe de l'objet saisi. Cette recherche s'inscrit dans une lignée plus large de robotique bio-inspirée, où l'on retrouve aussi des robots capables de s'enrouler comme des tatous pour se protéger. EleTac reste à ce stade un prototype de laboratoire; les prochaines étapes attendues concernent la validation sur des tâches de préhension réelles et une possible intégration à des bras robotiques industriels ou des systèmes AMR.

RecherchePaper

1 source

4arXiv cs.RO

IA physique : des modèles du monde aux modèles d'action, un tutoriel concis pour la robotique

Un article publié sur arXiv (2607.00836) dresse un état des lieux conceptuel des "world models" utilisés en robotique et en simulation générative, un terme dont le périmètre varie fortement selon les communautés de recherche. Les auteurs proposent une définition unifiée : un modèle du monde est un système conditionné par l'action qui prédit l'évolution future des observations ou des états pertinents pour une tâche donnée. Ils distinguent deux grandes familles : les modèles dans l'espace des observations, qui prédisent des images ou vidéos brutes, et les modèles dans l'espace des états, qui travaillent sur des représentations compactes. Chaque approche est comparée selon quatre critères : fidélité visuelle, structuration spatiale, interprétabilité physique et facilité d'usage pour le contrôle. Le papier introduit ensuite les "world action models", qui relient ces prédictions du futur à des actions robotiques exécutables, avec quatre paradigmes identifiés : imaginer puis exécuter, prédiction d'action conditionnée par des features vidéo, modélisation conjointe vidéo-action, et prédiction vidéo auxiliaire pour l'apprentissage de politiques. Cette clarification terminologique a une portée pratique pour les équipes qui développent des politiques robotiques : elle aide à choisir entre un modèle générateur de pixels, coûteux en calcul mais riche visuellement, et un modèle d'état plus léger, plus proche du contrôle temps réel mais moins interprétable. Elle formalise aussi un débat de fond du secteur : les modèles de génération vidéo produisent des démonstrations spectaculaires, mais leur utilité réelle pour piloter un bras ou un humanoïde reste à prouver, faute de garanties physiques strictes, ce qui rejoint les critiques récurrentes sur l'écart entre démo et déploiement réel. En distinguant explicitement l'approche "imaginer puis exécuter" des méthodes qui apprennent directement une politique conjointe vidéo-action, le tutoriel donne aux intégrateurs une grille de lecture pour évaluer les annonces commerciales selon ce qu'elles modélisent vraiment, plutôt que sur la seule qualité de leurs vidéos. Ce travail arrive alors que les world models occupent une place croissante dans la course aux modèles vision-langage-action, portée par des systèmes comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui combinent tous, à des degrés divers, prédiction du futur et génération d'actions. Sans analyser directement ces produits commerciaux, la taxonomie proposée offre un cadre académique pour resituer ces systèmes les uns par rapport aux autres, à un moment où la recherche universitaire tente de structurer conceptuellement un domaine dont la vitesse de publication industrielle a largement dépassé la théorie.

RecherchePaper

1 source