RecherchearXiv cs.RO2h

TacEvo : découverte d'architectures auto-évolutives pour la perception tactile robotique via une recherche qualité-diversité pilotée par LLM

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie TacEvo (arXiv:2606.30109), un framework de découverte autonome d'architectures neuronales pour la perception tactile robotique. Les capteurs tactiles visuels comme le ViTacTip convertissent les déformations de surface en images pour inférer des forces de contact et des textures fines inaccessibles à la vision conventionnelle, mais les architectures réseau efficaces restent hautement spécifiques au capteur et à la physique du contact, imposant une itération manuelle intensive par des experts. TacEvo utilise un LLM pour générer des mutations et croisements au niveau du code, couplé à une boucle MAP-Elites (algorithme de qualité-diversité) qui maintient une population d'architectures élites diversifiées tout en privilégiant les prompts ayant produit les meilleures améliorations. Deux descripteurs comportementaux guident l'exploration : Architectural Diversity et Efficiency Ratio. Sur le ViTacTip, en régression de force et classification de réseaux de rainures, TacEvo atteint un taux de génération d'architectures entraînables de 96,0 % et 94,5 %, et améliore la fitness de validation de 56,1 % et 96,1 % sur 20 générations. Dans une évaluation haute-fidélité à 20 seeds, le framework atteint la parité avec la baseline expert en prédiction de force et la surpasse en classification fine de textures.

Le résultat le plus significatif est la fiabilité de la génération autonome à plus de 94 %, prérequis non trivial pour industrialiser l'approche. Pour les équipes R&D travaillant sur des capteurs tactiles propriétaires comme Digit, GelSight ou XELA, la promesse est d'automatiser la phase d'exploration architecturale sans définir à l'avance un espace de recherche restreint, là où les NAS classiques comme DARTS ou ENAS restent contraints par leurs primitives prédéfinies.

TacEvo s'inscrit dans un courant de NAS guidé par LLM initié notamment par FunSearch (DeepMind) et EvoPrompting, qui cherche à remplacer les espaces de recherche hand-crafted par une exploration ouverte au niveau du code. Le capteur ViTacTip utilisé comme banc d'essai est développé à l'Université de Bristol, acteur académique européen central sur la tactilité robotique. L'article est un preprint non encore soumis à peer-review, et les résultats restent à confirmer sur des capteurs et tâches variés ; les prochaines étapes naturelles seraient un benchmark multi-capteurs et une intégration dans des pipelines de manipulation dextre.

Impact France/UE

Les équipes R&D européennes spécialisées en capteurs tactiles pourraient bénéficier du framework TacEvo pour automatiser l'exploration architecturale, le capteur de référence ViTacTip étant développé à l'Université de Bristol (UK).

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper

1 source

2arXiv cs.RO

Percevoir le toucher par le mouvement : une politique visuo-tactile unifiée avec corrélation tactile-mouvement

Une équipe de recherche publie sur arXiv (référence 2606.29941, juin 2026) une approche inédite pour améliorer la perception tactile des robots manipulateurs en environnements à contact riche. Les capteurs tactiles optiques, qui filment la déformation d'une surface en gel élastique via une caméra interne pour inférer les forces de contact, offrent une résolution spatiale élevée, mais souffrent d'un problème de fond : les méthodes existantes représentent l'information tactile soit par images brutes, soit par champs de mouvement cumulatifs. Ces deux approches génèrent de l'ambiguïté perceptive, des états de contact distincts produisant des patterns visuellement similaires. Les chercheurs montrent qu'en corrélant le mouvement transitoire (instantané) et le mouvement cumulatif du gel, il devient possible de discriminer explicitement ces états fins. Sur cette base, ils proposent une représentation tactile dite "motion-aware" et une politique visuo-tactile unifiée reposant sur une architecture Mixture-of-Transformers (MoT), conçue pour capturer les interactions cross-modal tout en préservant les propriétés propres à chaque modalité. L'enjeu industriel est concret : la manipulation à contact riche, assemblage de précision, insertion de connecteurs, manipulation d'objets déformables, reste l'un des murs techniques les plus durs pour le déploiement de bras robotiques autonomes. L'incapacité à distinguer des variations subtiles de contact force les intégrateurs à sur-contraindre les pièces ou à limiter les tolérances, ce qui réduit la flexibilité des lignes. La contribution clé ici n'est pas le capteur lui-même mais le traitement du signal : exploiter la dynamique temporelle du gel plutôt que son état statique ou agrégé. L'approche MoT évite également le compromis habituel entre fusion cross-modal et préservation des features spécifiques à chaque modalité, un problème que ni la concaténation brute de features ni les architectures parallèles séparées ne résolvent proprement. Les capteurs tactiles optiques (GelSight de MIT, DIGIT de Meta, BioTac de SynTouch) ont connu une montée en charge dans les labos ces cinq ans, mais leur intégration dans des politiques d'apprentissage robustes reste un sujet ouvert. Ce papier s'inscrit dans un courant actif qui inclut des travaux de Berkeley, CMU et Stanford sur les politiques visuomotrices enrichies par le toucher. Aucune entreprise n'est mentionnée, et aucun partenaire industriel n'est cité : il s'agit d'un preprint académique non encore évalué par les pairs, sans démonstration matérielle publiée ni benchmark standardisé communiqué. Les prochaines étapes naturelles seront la validation sur des tâches réelles d'assemblage et la comparaison quantitative avec les baselines de référence du domaine.

RecherchePaper

1 source

3arXiv cs.RO

Vers une récupération d'architecture assistée par LLM pour les systèmes ROS 2 réels : approche multi-niveaux à base d'agents pour la reconstruction de structure hiérarchique

Des chercheurs ont publié sur arXiv (arXiv:2605.20055) une approche basée sur des agents LLM pour reconstruire automatiquement l'architecture logicielle hiérarchique de systèmes robotiques développés sous ROS 2. Le pipeline, dit "blueprint-guided", intègre deux améliorations majeures par rapport à une version antérieure : un raffinement du prompting pour améliorer la cohérence et la contrôlabilité de la synthèse architecturale, et une stratégie de récupération par étapes s'appuyant sur des représentations intermédiaires multi-niveaux, incluant la liste des nœuds ROS atomiques et les dépendances entre fichiers de lancement. L'approche a été évaluée sur un système réel de désassemblage automatisé de produits, basé sur des bras robotiques coopératifs et des artefacts ROS 2 hétérogènes, présentant une complexité d'intégration nettement supérieure au cas d'étude précédent. L'enjeu est concret pour les équipes robotique en production : dans un système ROS 2, la structure logicielle est rarement documentée explicitement. Elle est fragmentée entre le code source, les fichiers de lancement et les paramètres de configuration, rendant la maintenance, l'audit de sécurité et l'évolution du système coûteux. Les outils existants se limitent généralement à la cartographie des nœuds et des topics (niveau "câblage"), sans restituer la décomposition fonctionnelle hiérarchique que les architectes logiciels utilisent réellement. Cette approche LLM propose de franchir ce saut d'abstraction, avec des résultats jugés améliorés en consistance structurelle et en robustesse, bien que les auteurs signalent eux-mêmes des limites persistantes sur la sémantique d'intégration dynamique dans les déploiements à grande échelle, un point de fragilité non négligeable pour des systèmes en production. ROS 2, successeur de ROS 1 maintenu par la Open Robotics Foundation, est devenu le middleware de référence pour les robots industriels et de recherche, avec une adoption croissante chez des intégrateurs comme Clearpath, Boston Dynamics ou Universal Robots. La récupération d'architecture logicielle (architecture recovery) est un problème classique du génie logiciel, mais son application aux systèmes cyber-physiques distribués comme ROS 2 reste un chantier ouvert. Ce travail s'inscrit dans un effort académique plus large visant à automatiser la documentation des systèmes robotiques complexes, en complément d'approches d'analyse statique comme ros2doctor ou roslaunch-analyzer. La prochaine étape naturelle serait de tester la méthode sur des systèmes ROS 2 de plus grande envergure, notamment dans des environnements d'entrepôts ou de lignes de production, pour valider la tenue à l'échelle revendiquée.

RecherchePaper

1 source

4arXiv cs.RO

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique

Une équipe de chercheurs publie SeedPolicy, une nouvelle méthode d'apprentissage par imitation (IL) pour la manipulation robotique, dans un preprint arXiv (2503.05117). L'innovation centrale est SEGA (Self-Evolving Gated Attention), un module temporel qui maintient un état latent évolutif via de l'attention à porte (gated attention), permettant des mises à jour récurrentes qui accumulent le contexte à long terme tout en filtrant les informations temporelles non pertinentes. Intégré à la Diffusion Policy (DP), le modèle résultant, SeedPolicy, est évalué sur le benchmark RoboTwin 2.0 avec 50 tâches de manipulation distinctes. Les résultats, moyennés sur des backbones CNN et Transformer : +36,8 % d'amélioration relative par rapport à la DP standard en conditions propres, et +169 % en conditions aléatoires et perturbées. Face à RDT, un modèle vision-langage-action (VLA) de 1,2 milliard de paramètres, SeedPolicy obtient de meilleures performances en conditions propres avec un à deux ordres de grandeur de moins en taille de modèle. Le problème de la manipulation à long horizon, enchaîner des séquences d'actions sur des périodes étendues, constitue un goulot d'étranglement persistant en IL. La Diffusion Policy standard se dégrade lorsqu'on empile davantage d'horizons d'observation, perdant la capacité à maintenir le contexte temporel. SEGA règle ce problème sans le coût computationnel des grands VLAs. Le +169 % en conditions perturbées (contre +36,8 % en conditions propres) est le chiffre le plus significatif : il indique une meilleure généralisation sous perturbation, critique pour tout déploiement réel. L'argument d'efficacité paramétrique conteste directement l'hypothèse selon laquelle la mise à l'échelle serait nécessaire pour la manipulation complexe. La Diffusion Policy est issue des travaux de Columbia University (Chi et al., 2023) et constitue aujourd'hui une baseline de référence en robot learning. Le domaine s'est depuis bifurqué : un camp mise sur les modèles de fondation et les VLAs (RDT, Pi-0 de Physical Intelligence, OpenVLA, Octo), l'autre sur la modélisation temporelle efficiente à moindre coût. SeedPolicy s'inscrit résolument dans le second. À noter : l'ensemble des résultats est obtenu en simulation sur RoboTwin 2.0, sans démonstration de transfert sim-to-réel, ce qui reste l'épreuve déterminante pour les intégrateurs industriels. Le code est disponible sous dépôt anonyme, ce qui suggère un article en cours de révision par les pairs. Aucun déploiement industriel ni calendrier commercial n'est annoncé.

RechercheOpinion

1 source