RecherchearXiv cs.RO 17 juin 2026

EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs présentent EAGG (Embodiment-Aligned Grasp Generation via Geometry-Aware Graph Conditioning), un modèle de génération de prises robotiques multi-effecteur publié en prépublication sur arXiv (arXiv:2506.18092). L'architecture représente chaque effecteur terminal via un graphe topologique et un espace de contrôle bas-dimensionnel propre à chaque morphologie, qu'il s'agisse de pinces parallèles classiques ou de mains dextères à plusieurs doigts. Un module backbone figé convertit l'état articulé courant en tokens géométriques réutilisables, qui sont rafraîchis de façon itérative tout au long du processus d'échantillonnage via un mécanisme baptisé iterative geometry injection. Sur le benchmark MultiGripperGrasp, EAGG atteint 56,17 % de taux de succès moyen sur six effecteurs d'entraînement, soit un écart de seulement 1,10 point de pourcentage par rapport à des modèles spécialisés entraînés séparément pour chaque préhenseur. L'injection géométrique itérative réduit par ailleurs la distance médiane de contact de 0,239 cm à 0,189 cm. Le code est disponible en open source sur GitHub.

Ce résultat s'attaque à l'un des verrous les plus concrets pour les intégrateurs industriels : la nécessité de réentraîner ou d'affiner un modèle de saisie à chaque changement de préhenseur. L'approche dominante consiste aujourd'hui soit à entraîner un modèle par géométrie d'effecteur (coûteux en données et en compute), soit à encoder l'identité de l'effecteur via un descripteur statique, ce qui dégrade le transfert dès que la topologie ou le couplage d'actionnement diverge significativement. EAGG montre qu'encoder explicitement la structure morphologique dans un générateur partagé, plutôt que de masquer les différences inter-effecteurs, améliore à la fois la performance générale et la transférabilité zero-shot vers des préhenseurs non vus lors de l'entraînement. C'est un argument de poids pour les équipes robotiques cherchant à mutualiser les politiques de saisie sur une flotte multi-effecteurs.

Ce travail s'inscrit dans la dynamique plus large de politiques robotiques universelles que poursuivent simultanément Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec Helix, tous confrontés au même défi de transfert inter-morphologie. EAGG se concentre sur le sous-problème de la saisie et propose une solution fondée sur les graphes, là où d'autres approches misent sur des encodages continus ou des plongements latents partagés. Il s'agit pour l'instant d'une contribution académique sans déploiement industriel annoncé ni partenariat applicatif déclaré, et les chiffres de performance sont à lire dans le cadre contrôlé du benchmark MultiGripperGrasp, ce qui laisse ouverte la question du sim-to-real gap en conditions réelles.

Dans nos dossiers

Figure NVIDIA GR00T Physical Intelligence — π0 Manipulation robotique

À lire aussi

1arXiv cs.RO

GraspGraphNet : génération de préhensions dextériques multi-embodiment par graphe structuré

Trois chercheurs (le papier ne précise pas l'affiliation dans le résume) publient GraspGraphNet, un framework de génération de prises dexteres capable de fonctionner sur plusieurs mains robotiques différentes a partir d'un seul modèle. Chaque main est représentée comme un graphe cinématique dérivé directement de son fichier URDF, ce qui permet au système de générer directement des poses de paume et des configurations articulaires exécutables, sans étape de retargeting ni de résolution de cinématique inverse en post-traitement. L'architecture combine un encodage hiérarchique de la surface de l'objet, une cinématique directe différentiable et un mécanisme de message passing dynamique sur les arêtes reliant robot et objet, le tout pilote par du conditional flow matching applique directement dans l'espace des poses et des états articulaires. Entraine conjointement sur trois mains aux morphologies très différentes (Barrett Hand, Allegro Hand, Shadow Hand), le modèle partage atteint un taux de réussite moyen de 83,48% sur un benchmark de 40 objets, avec un temps d'inférence de seulement 40 millisecondes par prise. L'intérêt principal tient a la généralisation inter-mains sans reentrainement: applique sans adaptation a des variantes de mains avec des doigts retires, le même modèle conserve 72,70% de réussite. Pour l'industrie de la manipulation robotique, cela s'attaque a un vrai point de friction: la génération de prises est aujourd'hui largement spécifique a chaque main, obligeant intégrateurs et laboratoires a entrainer ou retarger un modèle par type de pince ou de main dexterement différente. Un modèle unique capable de s'adapter a la topologie cinématique réduirait le cout d'ingénierie a chaque changement de matériel. Ces chiffres restent toutefois issus d'un benchmark contrôle en simulation ou en laboratoire, pas d'un déploiement industriel réel, et méritent d'être confirmes a plus grande échelle et sur du matériel varie. Le problème adresse ici, la différence de topologie cinématique, de dimensions d'actionnement et d'espaces de commande natifs entre mains robotiques, est un frein connu a la généralisation en manipulation dexterement, un peu comme les modèles VLA généralistes (Pi-0, GR00T N2, Helix) cherchent a généraliser le contrôle corps entier plutôt que la seule prise. GraspGraphNet se positionne comme une brique complémentaire, focalisée sur la prise plutôt que sur la politique complète, et les auteurs annoncent une page projet pour la suite des travaux, sans calendrier de déploiement précise a ce stade.

RecherchePaper

1 source

2arXiv cs.RO

VISTA : navigation visuelle à l'échelle par conditionnement sur l'historique d'actions

VISTA, un nouveau modèle de navigation visuelle présenté en preprint (arXiv:2606.17294), s'attaque à une faille structurelle identifiée dans les Vision Navigation Foundation Models (VNMs) actuels : la normalisation des actions prédites. Lorsqu'un VNM produit des trajectoires normalisées, l'application d'un facteur d'échelle différent selon le robot ou l'environnement déforme la géométrie physique de la trajectoire, ce qui dégrade les performances de navigation et augmente les risques de collision. Pour corriger cela, VISTA conditionne ses prédictions sur l'historique normalisé des actions exécutées, en parallèle des observations visuelles, offrant au modèle un contexte explicite sur la relation entre ses sorties et le déplacement physique réel du robot. Le modèle intègre également un encodeur DINOv3, dont les représentations plus riches permettent de mieux discriminer les environnements visuellement répétitifs (couloirs, entrepôts) où les VNMs classiques peinent à se localiser. En déploiement zéro-shot dans trois environnements réels (extérieur, forêt, bureau), VISTA affiche 100 % de précision dans la prédiction des objectifs et un taux moyen de 95 % de points de passage atteints. Ce résultat éclaire un angle mort largement sous-estimé dans le déploiement des politiques de navigation généralisées : l'invariance à l'échelle. Un modèle entraîné sur une flotte homogène peut échouer sur un robot dont la calibration diffère légèrement, sans qu'aucun défaut de l'architecture ne soit en cause. VISTA propose une correction légère mais systémique, applicable sans ré-entraînement, ce qui représente un avantage concret pour les intégrateurs qui déploient des politiques de navigation sur des flottes hétérogènes. Les résultats à 100 % méritent toutefois d'être nuancés : ils portent sur trois environnements seulement, et le terme "zéro-shot" désigne ici l'absence de fine-tuning spécifique aux sites de test, non une absence totale de données d'entraînement supervisé. VISTA s'inscrit dans la montée en puissance des modèles de navigation généraux, portée ces deux dernières années par des travaux comme NoMaD (CMU/Berkeley, 2023) ou GNFactor, qui cherchent tous à produire une politique de déplacement transférable sans adaptation manuelle. L'usage de DINOv3 suit une tendance nette : les encodeurs de la famille DINOv2/v3 (Meta FAIR) s'imposent progressivement comme backbone de référence pour les tâches nécessitant une compréhension géométrique fine de l'environnement. Le preprint ne mentionne ni partenaires industriels ni timeline de commercialisation ; il s'agit à ce stade d'une contribution académique, sans annonce de déploiement à grande échelle.

RechercheOpinion

1 source

3arXiv cs.RO

Modèles de génération de graphes de scènes 2D géométriques

Une équipe de recherche propose une nouvelle méthode pour générer automatiquement des graphes de scène représentant les relations d'assemblage entre composants, sans recourir à des données sémantiques annotées et en fonctionnant avec un jeu de données très restreint. Le pipeline s'appuie d'abord sur un modèle Faster R-CNN pour détecter les composants et produire des représentations géométriques de leur position et de leur forme. Ces représentations passent ensuite par une architecture transformer chargée de générer une matrice d'adjacence, qui sert à son tour d'entrée à un réseau siamois. Ce dernier utilise un mécanisme de passage de messages fondé sur un réseau convolutionnel de graphe attentionnel (aGCN) pour caractériser précisément la nature des connexions entre pièces. La méthode a été validée sur un jeu de données d'étude composé de pièces de modèles réduits assemblables en véhicules de transport (type maquettes jouets). Pour la robotique d'assemblage, ce travail répond à un problème très concret : un bras robotique ne peut planifier ni exécuter un montage sans comprendre comment les pièces s'articulent entre elles, et les approches classiques de génération de graphes de scène reposent généralement sur de lourdes bases sémantiques annotées, coûteuses à constituer pour chaque nouveau produit industriel. En s'appuyant uniquement sur la géométrie détectée visuellement et en tolérant de petits volumes de données d'entraînement, cette approche vise à réduire le travail d'annotation nécessaire pour déployer un système de compréhension d'assemblage sur une nouvelle chaîne de production ou un nouveau produit, ce qui intéresse directement les intégrateurs et les équipes R&D en robotique industrielle. Ce travail s'inscrit dans la lignée des recherches sur la génération de graphes de scène (scene graph generation), initialement développée pour la compréhension d'images en vision par ordinateur, mais ici réorientée vers un cas d'usage industriel précis : la planification d'assemblage robotique. La combinaison Faster R-CNN plus transformer plus réseau siamois à base de aGCN constitue une architecture hybride originale, distincte des approches purement sémantiques dominantes dans ce domaine. Publiée sur arXiv, cette contribution reste à ce stade une preuve de concept testée sur un jeu de données jouet ; sa généralisation à des composants industriels réels, à des géométries plus complexes ou à des scènes encombrées reste une étape à valider.

RecherchePaper

1 source

4arXiv cs.RO

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper

1 source