Aller au contenu principal
RecherchearXiv cs.RO3h

GRAFT : transfert d'affordances à base de graphes par correspondance de parties

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (identifiant 2606.25241) GRAFT, un cadre de transfert d'affordance par correspondance de parties pour la manipulation robotique d'objets inconnus. Le principe : à partir d'un seul exemple par objet stocké dans un buffer de démonstrations, GRAFT permet à un robot de manipuler des instances qu'il n'a jamais vues, sans réentraînement. Chaque objet est représenté sous forme de graphe structuré par parties fonctionnelles, avec deux niveaux de descripteurs : des descripteurs au niveau des parties pour retrouver l'instance la plus proche fonctionnellement et géométriquement dans le buffer, puis des descripteurs au niveau des sommets pour localiser les points de contact précis à propager sur le nouvel objet.

Ce que GRAFT apporte de concret, c'est la prise en compte explicite de la géométrie, là où les approches précédentes de transfert d'affordance s'appuyaient uniquement sur la similarité sémantique. Retrouver qu'une cafetière et une théière appartiennent à la même catégorie ne suffit pas si leurs anses diffèrent morphologiquement : le point de préhension optimal change, et un robot guidé uniquement par sémantique rate la saisie. En combinant alignement fonctionnel et correspondance géométrique fine des parties, GRAFT vise à réduire les échecs sur les variantes d'un même objet. Pour des intégrateurs en cellule flexible ou des équipes de bin-picking, cela signifie théoriquement moins de démonstrations à collecter pour couvrir la diversité d'un flux de pièces réel.

La généralisation à de nouveaux objets avec peu d'exemples est un frein majeur en manipulation depuis des années : les méthodes d'imitation classiques requièrent typiquement des dizaines à des centaines de démonstrations par objet. Des approches récentes comme AnyGrasp, GraspNet ou les méthodes par affordance visuelle fondées sur CLIP (F3RM, CLIP-Fields) cherchent à réduire ce coût via des fondations vision-langage. GRAFT prend le pari inverse, en misant sur la correspondance structurelle de parties plutôt que sur le langage. Il s'agit d'une pré-publication arXiv sans institution mentionnée dans l'abstract et sans résultats quantitatifs accessibles sans lire le papier complet : les benchmarks de référence (YCB, OCID, RLBench) et les comparaisons avec les baselines restent à consulter dans le corps du travail avant toute conclusion sur les performances réelles.

À lire aussi

Correspondance de flux action-à-action
1arXiv cs.RO 

Correspondance de flux action-à-action

Des chercheurs proposent dans un preprint arXiv (arXiv:2506.07322v2, mis à jour en 2026) une nouvelle architecture de politique robotique baptisée A2A (Action-to-Action Flow Matching), qui remplace le point de départ aléatoire habituel des modèles de diffusion par une initialisation ancrée dans l'action proprioceptive précédente du robot. Concrètement, au lieu de générer une trajectoire d'action à partir d'un bruit gaussien pur, A2A encode une séquence d'états proprioceptifs historiques (positions articulaires, vitesses, couples) dans un espace latent de haute dimension, et utilise ce vecteur comme point de départ du processus de flow matching. Le résultat le plus saillant : A2A produit des actions de haute qualité en une seule étape d'inférence, contre plusieurs dizaines d'étapes pour les politiques par diffusion standard, ce qui réduit drastiquement la latence au moment de l'exécution. Les auteurs rapportent également une meilleure robustesse aux perturbations visuelles (changements d'éclairage, objets parasites) et une généralisation supérieure à des configurations non vues durant l'entraînement. L'enjeu industriel est direct : la latence d'inférence est l'un des principaux verrous à l'adoption des politiques diffusion pour le contrôle temps-réel sur des manipulateurs ou des humanoïdes. Les architectures comme Diffusion Policy (Chi et al., 2023) ou Pi-0 de Physical Intelligence ont démontré une expressivité remarquable, mais leur coût computationnel par pas de contrôle reste prohibitif à haute fréquence. En ramenant l'inférence à un seul pas, A2A ouvre la voie à des boucles de contrôle plus rapides sans sacrifier la qualité des trajectoires, une contrainte particulièrement critique pour les tâches de manipulation dextre ou les robots mobiles en environnement dynamique. Le fait que la méthode tire parti de la continuité temporelle du mouvement, plutôt que de l'ignorer comme une condition statique, représente un changement de paradigme dans la modélisation des politiques robotiques. A2A s'inscrit dans la continuité des travaux sur le flow matching (Lipman et al., 2022), une alternative au processus de diffusion de Langevin qui permet des trajectoires plus droites dans l'espace latent et donc moins d'étapes d'intégration. Les politiques par diffusion pour la robotique ont émergé comme standard de facto entre 2023 et 2025, portées par des travaux comme ACT, Diffusion Policy et plus récemment GR00T N2 de NVIDIA ou Pi-0. A2A se positionne comme une optimisation d'inférence sur ce paradigme plutôt qu'une rupture architecturale. Les auteurs étendent également la méthode à la génération vidéo, suggérant une applicabilité au-delà du contrôle moteur pur. Le projet dispose d'un site public, mais aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'une contribution académique à valider sur des benchmarks plus larges avant toute intégration en production.

RechercheOpinion
1 source
AffordGen : génération de démonstrations variées pour la manipulation d'objets généralisable par correspondance d'affordances
2arXiv cs.RO 

AffordGen : génération de démonstrations variées pour la manipulation d'objets généralisable par correspondance d'affordances

Des chercheurs présentent AffordGen, un framework conçu pour résoudre l'un des goulets d'étranglement centraux de l'apprentissage par imitation en robotique : la rareté et le manque de diversité géométrique des données d'entraînement. Le système combine des modèles génératifs 3D à grande échelle avec des vision foundation models (VFMs) pour produire automatiquement de nouvelles trajectoires de manipulation. Le mécanisme repose sur la correspondance sémantique de keypoints fonctionnels (les affordances) entre des maillages 3D issus de bibliothèques volumineuses : AffordGen localise les points pertinents (prise, contact, pivot) sur un objet de référence, puis les transpose à de nouvelles géométries pour générer des démonstrations synthétiques variées. Ce dataset affordance-aware entraîne ensuite une politique visuomotrice en boucle fermée qui combine généralisation sémantique et robustesse réactive de l'apprentissage de bout en bout. Des expériences en simulation et dans le monde réel rapportent des taux de réussite élevés et, surtout, une capacité de généralisation zero-shot à des objets réellement inédits lors de l'entraînement. L'enjeu industriel est direct. Collecter manuellement des démonstrations robotiques reste coûteux, lent et difficile à diversifier sur des variantes géométriques d'objets. AffordGen génère cette diversité de façon programmatique, sans requérir de téléopération supplémentaire. La généralisation zero-shot représente un indicateur fort de viabilité en déploiement réel, car les environnements industriels exposent en permanence des objets non anticipés. Le fait que la politique reste en boucle fermée la distingue des approches open-loop souvent fragiles hors laboratoire. Ces résultats renforcent l'hypothèse que le "data gap" de la manipulation peut être partiellement comblé par génération synthétique, à condition que les affordances soient correctement modélisées, ce que les auteurs n'ont toutefois démontré que sur un périmètre de tâches restreint. AffordGen s'inscrit dans un courant de recherche visant à augmenter les données de manipulation sans démonstrations humaines massives, aux côtés de MimicGen (NVIDIA), RoboAgent ou RoboGen. La diffusion policy et ACT (Action Chunking Transformer) ont démontré la puissance de l'imitation learning conditionnée à un volume de données suffisant ; AffordGen attaque précisément ce prérequis amont. Le papier est disponible sur arXiv (arXiv:2604.10579v2, version mise à jour). Les prochaines étapes naturelles concernent la scalabilité sur des tâches de manipulation multi-étapes et l'intégration dans des stacks industrielles telles que celles de 1X Technologies, Boston Dynamics ou Apptronik, qui restent tributaires de la diversité des données pour déployer des politiques robustes hors des environnements contrôlés.

RecherchePaper
1 source
SGM-SLAM : correspondance de graphes de scène pour un SLAM distribué efficace en données
3arXiv cs.RO 

SGM-SLAM : correspondance de graphes de scène pour un SLAM distribué efficace en données

Une équipe de chercheurs publie SGM-SLAM (arXiv:2606.16881, juin 2026), un framework de cartographie et localisation simultanées (SLAM) distribué, conçu pour des flottes de robots équipés de LiDAR, caméras et capteurs inertiels. Sa singularité revendiquée : c'est, selon les auteurs, la première approche de mise en correspondance de graphes de scènes opérant uniquement à partir de labels d'objets et de centroïdes, sans descripteurs de features bas niveau. Le système génère deux couches de représentation à partir de nuages de points RGB-LiDAR fusionnés : une couche de segmentation sémantique et une couche d'objets délimités discrets, accompagnant les trajectoires estimées de chaque robot. Ces graphes sont échangés entre robots voisins via un protocole multi-étapes conçu pour limiter la bande passante consommée. Les expériences couvrent simulation et collecte terrain sur robots à pattes, en environnements intérieurs et extérieurs. Pour les intégrateurs de flottes robotiques, le goulot d'étranglement habituel du SLAM distribué est précisément la bande passante : partager des descripteurs visuels ou LiDAR entre robots génère des volumes de données élevés, problématiques dans les environnements RF dégradés typiques de l'industrie (entrepôts métalliques, sous-sols, sites en chantier). En réduisant l'échange à des métadonnées sémantiques légères (classe d'objet + position centroïde), SGM-SLAM affiche un coût de communication structurellement inférieur aux méthodes feature-based. La validation sur robots à pattes, réputés plus difficiles à stabiliser dynamiquement que les AMR à roues, renforce la portée pratique des résultats. Si les performances se maintiennent à l'échelle en nombre de robots et en taille d'environnement, le framework pourrait changer le calcul de faisabilité pour les opérations multi-robots en connectivité limitée. Le SLAM distribué multi-robots est un chantier actif depuis plus d'une décennie. Des systèmes comme Kimera-Multi (MIT SPARK Lab), DiSCo-SLAM et Swarm-SLAM ont progressivement amélioré la précision tout en réduisant les échanges de données, mais aucun n'avait jusqu'ici poussé l'abstraction au niveau objet seul. SGM-SLAM s'inscrit dans la tendance plus large des graphes de scènes sémantiques, héritée de la compréhension de scènes 3D et de la robotique de manipulation, et l'applique ici à l'exploration collective. Les plateformes à pattes testées correspondent aux types Boston Dynamics Spot ou ANYmal, très présentes dans l'inspection industrielle et la réponse aux catastrophes. L'article, en pré-publication sur arXiv, ne mentionne pas de disponibilité de code open-source ni de timeline de déploiement applicatif.

UETechnologie potentiellement utile pour les équipes européennes déployant des flottes d'inspection en environnements RF dégradés, mais aucun acteur FR/EU impliqué et aucun code open-source disponible à ce stade.

RecherchePaper
1 source
Agent à base d'affordances : orchestration de compétences avec vérification intégrée
4arXiv cs.RO 

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

Un préprint publié sur arXiv le 1er mai 2026 (identifiant 2605.00663) présente l'Affordance Agent Harness, un système d'orchestration de modules d'IA conçu pour résoudre l'un des problèmes les plus coriaces de la robotique de manipulation : l'affordance grounding, c'est-à-dire la capacité d'un agent à identifier précisément où et comment interagir avec un objet dans une scène réelle. Le défi est que les zones d'action pertinentes sont souvent petites, partiellement occultées, réfléchissantes ou visuellement ambiguës. L'architecture proposée est un système en boucle fermée qui chaîne plusieurs modules spécialisés, détection, segmentation, imagination d'interaction, via un composant baptisé Router, capable de sélectionner et de paramétrer dynamiquement les modules selon la difficulté de chaque instance. Un module Verifier évalue ensuite la fiabilité des preuves accumulées à partir de trois critères : cohérence interne du système, stabilité multi-échelle, et suffisance des évidences. Si ces seuils ne sont pas atteints, des tentatives ciblées sont relancées avant qu'un module final fusionne l'ensemble pour produire la prédiction. Les expériences sur plusieurs benchmarks d'affordance montrent une meilleure frontière de Pareto précision-coût que les pipelines fixes, avec moins d'appels de modules et une latence réduite, bien que l'article ne fournisse pas de chiffres absolus dans le résumé. L'intérêt de cette approche tient à son principe de vérification avant engagement : là où les pipelines fixes traitent toutes les images de la même façon et accumulent les erreurs en cascade, l'Affordance Agent Harness décide en temps réel si les preuves collectées sont suffisantes pour se commettre. C'est une réponse directe au problème dit du "demo-to-reality gap" en robotique : les systèmes qui fonctionnent bien en conditions contrôlées échouent face à l'ambiguïté réelle. La mémoire épisodique intégrée permet en outre de capitaliser sur les objets récurrents, ce qui est pertinent dans des environnements industriels répétitifs. Pour un intégrateur ou un COO industriel, cela signifie moins d'interventions humaines pour les cas limites et un coût d'inférence maîtrisé, deux contraintes centrales pour le passage à l'échelle. Ce travail s'inscrit dans une tendance forte depuis 2024 : combiner des modèles fondationnels de vision (VLMs, SAM-type pour la segmentation) dans des architectures d'agents modulaires pour la perception robotique. Des systèmes concurrents comme RoboPoint, SpatialVLM ou les approches VLA (Vision-Language-Action) de Physical Intelligence (Pi-0) cherchent également à résoudre l'ancrage spatial pour la manipulation. La différence revendiquée ici est le contrôle explicite du coût d'inférence et la capacité de récupération ciblée en cas d'erreur intermédiaire, plutôt qu'un modèle bout-en-bout. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce préprint, il s'agit à ce stade d'une contribution de recherche, avec une page projet publique. Les prochaines étapes naturelles seraient une validation sur des robots physiques en conditions non structurées, ce que l'article ne documente pas encore.

RecherchePaper
1 source