Aller au contenu principal
EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe
RecherchearXiv cs.RO3h

EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent EAGG (Embodiment-Aligned Grasp Generation via Geometry-Aware Graph Conditioning), un modèle de génération de prises robotiques multi-effecteur publié en prépublication sur arXiv (arXiv:2506.18092). L'architecture représente chaque effecteur terminal via un graphe topologique et un espace de contrôle bas-dimensionnel propre à chaque morphologie, qu'il s'agisse de pinces parallèles classiques ou de mains dextères à plusieurs doigts. Un module backbone figé convertit l'état articulé courant en tokens géométriques réutilisables, qui sont rafraîchis de façon itérative tout au long du processus d'échantillonnage via un mécanisme baptisé iterative geometry injection. Sur le benchmark MultiGripperGrasp, EAGG atteint 56,17 % de taux de succès moyen sur six effecteurs d'entraînement, soit un écart de seulement 1,10 point de pourcentage par rapport à des modèles spécialisés entraînés séparément pour chaque préhenseur. L'injection géométrique itérative réduit par ailleurs la distance médiane de contact de 0,239 cm à 0,189 cm. Le code est disponible en open source sur GitHub.

Ce résultat s'attaque à l'un des verrous les plus concrets pour les intégrateurs industriels : la nécessité de réentraîner ou d'affiner un modèle de saisie à chaque changement de préhenseur. L'approche dominante consiste aujourd'hui soit à entraîner un modèle par géométrie d'effecteur (coûteux en données et en compute), soit à encoder l'identité de l'effecteur via un descripteur statique, ce qui dégrade le transfert dès que la topologie ou le couplage d'actionnement diverge significativement. EAGG montre qu'encoder explicitement la structure morphologique dans un générateur partagé, plutôt que de masquer les différences inter-effecteurs, améliore à la fois la performance générale et la transférabilité zero-shot vers des préhenseurs non vus lors de l'entraînement. C'est un argument de poids pour les équipes robotiques cherchant à mutualiser les politiques de saisie sur une flotte multi-effecteurs.

Ce travail s'inscrit dans la dynamique plus large de politiques robotiques universelles que poursuivent simultanément Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec Helix, tous confrontés au même défi de transfert inter-morphologie. EAGG se concentre sur le sous-problème de la saisie et propose une solution fondée sur les graphes, là où d'autres approches misent sur des encodages continus ou des plongements latents partagés. Il s'agit pour l'instant d'une contribution académique sans déploiement industriel annoncé ni partenariat applicatif déclaré, et les chiffres de performance sont à lire dans le cadre contrôlé du benchmark MultiGripperGrasp, ce qui laisse ouverte la question du sim-to-real gap en conditions réelles.

À lire aussi

VISTA : navigation visuelle à l'échelle par conditionnement sur l'historique d'actions
1arXiv cs.RO 

VISTA : navigation visuelle à l'échelle par conditionnement sur l'historique d'actions

VISTA, un nouveau modèle de navigation visuelle présenté en preprint (arXiv:2606.17294), s'attaque à une faille structurelle identifiée dans les Vision Navigation Foundation Models (VNMs) actuels : la normalisation des actions prédites. Lorsqu'un VNM produit des trajectoires normalisées, l'application d'un facteur d'échelle différent selon le robot ou l'environnement déforme la géométrie physique de la trajectoire, ce qui dégrade les performances de navigation et augmente les risques de collision. Pour corriger cela, VISTA conditionne ses prédictions sur l'historique normalisé des actions exécutées, en parallèle des observations visuelles, offrant au modèle un contexte explicite sur la relation entre ses sorties et le déplacement physique réel du robot. Le modèle intègre également un encodeur DINOv3, dont les représentations plus riches permettent de mieux discriminer les environnements visuellement répétitifs (couloirs, entrepôts) où les VNMs classiques peinent à se localiser. En déploiement zéro-shot dans trois environnements réels (extérieur, forêt, bureau), VISTA affiche 100 % de précision dans la prédiction des objectifs et un taux moyen de 95 % de points de passage atteints. Ce résultat éclaire un angle mort largement sous-estimé dans le déploiement des politiques de navigation généralisées : l'invariance à l'échelle. Un modèle entraîné sur une flotte homogène peut échouer sur un robot dont la calibration diffère légèrement, sans qu'aucun défaut de l'architecture ne soit en cause. VISTA propose une correction légère mais systémique, applicable sans ré-entraînement, ce qui représente un avantage concret pour les intégrateurs qui déploient des politiques de navigation sur des flottes hétérogènes. Les résultats à 100 % méritent toutefois d'être nuancés : ils portent sur trois environnements seulement, et le terme "zéro-shot" désigne ici l'absence de fine-tuning spécifique aux sites de test, non une absence totale de données d'entraînement supervisé. VISTA s'inscrit dans la montée en puissance des modèles de navigation généraux, portée ces deux dernières années par des travaux comme NoMaD (CMU/Berkeley, 2023) ou GNFactor, qui cherchent tous à produire une politique de déplacement transférable sans adaptation manuelle. L'usage de DINOv3 suit une tendance nette : les encodeurs de la famille DINOv2/v3 (Meta FAIR) s'imposent progressivement comme backbone de référence pour les tâches nécessitant une compréhension géométrique fine de l'environnement. Le preprint ne mentionne ni partenaires industriels ni timeline de commercialisation ; il s'agit à ce stade d'une contribution académique, sans annonce de déploiement à grande échelle.

RechercheOpinion
1 source
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
2arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel
3arXiv cs.RO 

Politique de dérive implicite : génération d'actions en une étape via la géométrie d'expert conditionnel

Un article de recherche déposé sur arXiv le 2 juin 2026 (identifiant 2606.01098) introduit l'Implicit Drifting Policy (IDP), une méthode d'apprentissage par imitation en une seule étape pour le contrôle robotique à haute fréquence. Les politiques génératives basées sur la diffusion ou le flow matching excellent en clonage de comportement, mais leur échantillonnage itératif génère une latence incompatible avec un contrôle à 50 Hz ou plus. Les approches one-step existantes réduisent cette latence au prix de la correction dynamique de trajectoire. IDP contourne ce compromis en extrayant une géométrie d'expert conditionnelle depuis les variations locales d'actions d'experts observationnellement proches, en la comparant à une géométrie de référence globale, et en pondérant un objectif de potentiel scalaire via cette structure, sans estimer explicitement un champ de vecteurs de dérive, approche directe mathématiquement mal posée en raison de la très faible densité des démonstrations conditionnelles. Les évaluations sur des tâches de manipulation en 2D, 3D et en conditions réelles montrent qu'IDP surpasse les méthodes de dérive explicite et reste compétitif face aux meilleures baselines one-step, tout en maintenant une meilleure adhérence aux variétés d'action valides (action manifolds). Pour un intégrateur ou un COO industriel, le bénéfice est concret : une seule passe d'inférence réduit les exigences en calcul embarqué, un verrou réel pour les déploiements à grande échelle de robots apprenants. Ce résultat valide aussi l'idée que la supervision géométrique implicite peut se substituer à des formulations itératives plus coûteuses sans sacrifier la robustesse. La recherche sur les politiques de diffusion en robotique s'est intensifiée depuis Diffusion Policy (Chi et al., Columbia, 2023) et ses dérivés, notamment π₀ de Physical Intelligence (2024) et les VLA de Google DeepMind. IDP s'inscrit dans la lignée des méthodes de distillation one-step (consistency models, DDIM) mais adopte une formulation géométrique implicite plutôt que la distillation directe d'un champ de dérive. Il s'agit d'un preprint non encore évalué par les pairs, testé uniquement en environnements de laboratoire ; sa transférabilité à des déploiements industriels à grande échelle reste à démontrer. Physical Intelligence, Figure AI, CMU et Google DeepMind poursuivent des travaux comparables sur la latence et la robustesse de leurs modèles VLA.

RechercheOpinion
1 source
Reconstruction couture-vers-graphe pour l'alignement de configuration de vêtements
4arXiv cs.RO 

Reconstruction couture-vers-graphe pour l'alignement de configuration de vêtements

Un réseau de neurones dédié à la détection des coutures de vêtements vient d'être proposé dans un preprint arXiv (référence 2606.15171, juin 2026), avec pour application directe le chargement automatisé de vêtements sur une platine de sérigraphie. Le système, baptisé Seam-to-Graph, s'appuie sur des réseaux de neurones à graphes (GNN) couplés à des mécanismes d'attention pour transformer des observations partielles de coutures en un graphe squelette encodant la topologie du vêtement. Ce graphe alimente en temps réel un estimateur d'état, même lorsque les coutures ne sont que partiellement visibles, condition fréquente en manipulation robotique. À partir de cette estimation, un contrôleur d'asservissement visuel hiérarchique, sensible aux déformations du tissu, aligne le vêtement sur la configuration cible. Des expériences sur un robot bimanuel réel démontrent une précision comparable au niveau humain, avec une variance d'erreur réduite, et une robustesse confirmée sur plusieurs types de vêtements. Ce travail s'attaque à l'une des problématiques les plus résistantes de la robotique industrielle : les objets déformables non rigides. Les coutures constituent des primitives structurelles physiquement stables, présentes sur quasiment tout vêtement, et leur topologie reflète l'architecture globale de la pièce, là où une estimation de pose classique échoue. La démonstration sur une tâche industrielle concrète, la sérigraphie, est un signal positif. Toutefois, l'abstract ne publie aucun chiffre absolu sur les taux de réussite ni sur les temps de cycle, ce qui rend la comparaison avec les benchmarks industriels existants difficile. La manipulation de vêtements par robot est un domaine actif depuis plus d'une décennie, avec des travaux notables à UC Berkeley, ETH Zurich et Imperial College, mais peu de déploiements industriels réels faute d'estimateurs d'état fiables sur objets déformables. Parmi les acteurs positionnés sur la manipulation textile automatisée, la startup allemande Sewts (linge industriel) et le britannique Dextrous Robotics explorent des approches vision, mais aucun n'a publié d'approche graphe de coutures à ce stade. Les suites naturelles seraient une validation sur un parc de vêtements plus large, des tests à cadence industrielle, et une évaluation sur occultations sévères.

UELa startup allemande Sewts, active sur la manipulation de linge industriel, est la concurrente européenne la plus directement concernée par cette avancée en estimation d'état sur objets textiles déformables.

RecherchePaper
1 source