Aller au contenu principal
Agent à base d'affordances : orchestration de compétences avec vérification intégrée
RecherchearXiv cs.RO7sem

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Un préprint publié sur arXiv le 1er mai 2026 (identifiant 2605.00663) présente l'Affordance Agent Harness, un système d'orchestration de modules d'IA conçu pour résoudre l'un des problèmes les plus coriaces de la robotique de manipulation : l'affordance grounding, c'est-à-dire la capacité d'un agent à identifier précisément où et comment interagir avec un objet dans une scène réelle. Le défi est que les zones d'action pertinentes sont souvent petites, partiellement occultées, réfléchissantes ou visuellement ambiguës. L'architecture proposée est un système en boucle fermée qui chaîne plusieurs modules spécialisés, détection, segmentation, imagination d'interaction, via un composant baptisé Router, capable de sélectionner et de paramétrer dynamiquement les modules selon la difficulté de chaque instance. Un module Verifier évalue ensuite la fiabilité des preuves accumulées à partir de trois critères : cohérence interne du système, stabilité multi-échelle, et suffisance des évidences. Si ces seuils ne sont pas atteints, des tentatives ciblées sont relancées avant qu'un module final fusionne l'ensemble pour produire la prédiction. Les expériences sur plusieurs benchmarks d'affordance montrent une meilleure frontière de Pareto précision-coût que les pipelines fixes, avec moins d'appels de modules et une latence réduite, bien que l'article ne fournisse pas de chiffres absolus dans le résumé.

L'intérêt de cette approche tient à son principe de vérification avant engagement : là où les pipelines fixes traitent toutes les images de la même façon et accumulent les erreurs en cascade, l'Affordance Agent Harness décide en temps réel si les preuves collectées sont suffisantes pour se commettre. C'est une réponse directe au problème dit du "demo-to-reality gap" en robotique : les systèmes qui fonctionnent bien en conditions contrôlées échouent face à l'ambiguïté réelle. La mémoire épisodique intégrée permet en outre de capitaliser sur les objets récurrents, ce qui est pertinent dans des environnements industriels répétitifs. Pour un intégrateur ou un COO industriel, cela signifie moins d'interventions humaines pour les cas limites et un coût d'inférence maîtrisé, deux contraintes centrales pour le passage à l'échelle.

Ce travail s'inscrit dans une tendance forte depuis 2024 : combiner des modèles fondationnels de vision (VLMs, SAM-type pour la segmentation) dans des architectures d'agents modulaires pour la perception robotique. Des systèmes concurrents comme RoboPoint, SpatialVLM ou les approches VLA (Vision-Language-Action) de Physical Intelligence (Pi-0) cherchent également à résoudre l'ancrage spatial pour la manipulation. La différence revendiquée ici est le contrôle explicite du coût d'inférence et la capacité de récupération ciblée en cas d'erreur intermédiaire, plutôt qu'un modèle bout-en-bout. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce préprint, il s'agit à ce stade d'une contribution de recherche, avec une page projet publique. Les prochaines étapes naturelles seraient une validation sur des robots physiques en conditions non structurées, ce que l'article ne documente pas encore.

À lire aussi

GRAFT : transfert d'affordances à base de graphes par correspondance de parties
1arXiv cs.RO 

GRAFT : transfert d'affordances à base de graphes par correspondance de parties

Des chercheurs ont publié sur arXiv (identifiant 2606.25241) GRAFT, un cadre de transfert d'affordance par correspondance de parties pour la manipulation robotique d'objets inconnus. Le principe : à partir d'un seul exemple par objet stocké dans un buffer de démonstrations, GRAFT permet à un robot de manipuler des instances qu'il n'a jamais vues, sans réentraînement. Chaque objet est représenté sous forme de graphe structuré par parties fonctionnelles, avec deux niveaux de descripteurs : des descripteurs au niveau des parties pour retrouver l'instance la plus proche fonctionnellement et géométriquement dans le buffer, puis des descripteurs au niveau des sommets pour localiser les points de contact précis à propager sur le nouvel objet. Ce que GRAFT apporte de concret, c'est la prise en compte explicite de la géométrie, là où les approches précédentes de transfert d'affordance s'appuyaient uniquement sur la similarité sémantique. Retrouver qu'une cafetière et une théière appartiennent à la même catégorie ne suffit pas si leurs anses diffèrent morphologiquement : le point de préhension optimal change, et un robot guidé uniquement par sémantique rate la saisie. En combinant alignement fonctionnel et correspondance géométrique fine des parties, GRAFT vise à réduire les échecs sur les variantes d'un même objet. Pour des intégrateurs en cellule flexible ou des équipes de bin-picking, cela signifie théoriquement moins de démonstrations à collecter pour couvrir la diversité d'un flux de pièces réel. La généralisation à de nouveaux objets avec peu d'exemples est un frein majeur en manipulation depuis des années : les méthodes d'imitation classiques requièrent typiquement des dizaines à des centaines de démonstrations par objet. Des approches récentes comme AnyGrasp, GraspNet ou les méthodes par affordance visuelle fondées sur CLIP (F3RM, CLIP-Fields) cherchent à réduire ce coût via des fondations vision-langage. GRAFT prend le pari inverse, en misant sur la correspondance structurelle de parties plutôt que sur le langage. Il s'agit d'une pré-publication arXiv sans institution mentionnée dans l'abstract et sans résultats quantitatifs accessibles sans lire le papier complet : les benchmarks de référence (YCB, OCID, RLBench) et les comparaisons avec les baselines restent à consulter dans le corps du travail avant toute conclusion sur les performances réelles.

RecherchePaper
1 source
AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques
2arXiv cs.RO 

AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques

Des chercheurs ont déposé en mai 2026 sur arXiv (arXiv:2605.17517) un papier présentant AffordVLA, un framework qui améliore la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le problème central: les VLA actuels encodent l'apparence globale des objets mais peinent à localiser les zones d'interaction fonctionnelle, les affordances, telles que le point de préhension ou la surface de contact optimale. AffordVLA injecte ces représentations d'affordance directement dans les couches visuelles intermédiaires du VLA via un alignement implicite, sans annotation supplémentaire ni module de perception externe. Un "teacher" d'affordance zero-shot extrait des cartes fonctionnelles conditionnées par l'instruction en langage naturel, puis les aligne avec les représentations internes du modèle pendant l'entraînement. Les expériences en simulation et en environnement réel rapportent des performances supérieures aux baselines, avec un taux de succès en manipulation amélioré, sans que l'abstract ne publie de métriques absolues chiffrées. Ce gap entre apparence globale et localisation fonctionnelle est l'un des facteurs limitants du sim-to-real gap en manipulation non structurée: les systèmes réussissent en laboratoire contrôlé mais échouent dès que l'éclairage, le fond ou la pose de l'objet varient. En internalisant la perception d'affordance dans le VLA lui-même, AffordVLA évite les erreurs en cascade des architectures hybrides couplant un VLA à un module de segmentation externe, et n'alourdit pas le temps d'inférence, un critère déterminant pour les déploiements industriels en temps réel. La suppression de la dépendance aux masques annotés réduit également le coût de mise en données pour les intégrateurs, ce qui élargit la portée pratique de l'approche. AffordVLA s'inscrit dans l'accélération des travaux académiques autour des VLA depuis RT-2 (Google DeepMind, 2023), dans un secteur aujourd'hui dominé par des systèmes propriétaires comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). Ce courant cherche à améliorer le grounding spatial sans refonte architecturale complète, une approche plus accessible pour les laboratoires sans les moyens de Physical Intelligence ou de Figure. Le papier reste un preprint non peer-reviewed; aucun partenariat industriel ni déploiement terrain n'est mentionné. La suite logique serait une validation sur des benchmarks standardisés comme BridgeV2 ou OpenX-Embodiment, et une intégration dans des pipelines open-source comme LeRobot ou OpenVLA.

RechercheOpinion
1 source
VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique
3arXiv cs.RO 

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

Des chercheurs ont publié sur arXiv (identifiant 2606.05395) un framework nommé VASO, pour "Verification-guided Self-evolution of LLM-generated robot skill contracts", qui vise à rendre les compétences robotiques générées par des grands modèles de langage à la fois réutilisables et formellement vérifiables. L'idée centrale : chaque compétence n'est plus un simple script exécutable mais un contrat sémantique à double interface, une interface formelle qui aligne états du robot, observations et commandes de contrôle avec des propositions logiques pour le model checking, et une interface orientée planificateur qui guide la génération de comportements exécutables. Lorsqu'un plan généré échoue à la vérification, VASO traduit la trace de contre-exemple en un gradient textuel qui met à jour le contrat de compétence réutilisable, sans toucher aux poids du modèle de fondation. Sur des plateformes Clearpath Jackal et PX4 (quadrocoptère), le framework atteint 97,2 % de conformité aux spécifications temporelles formelles en moins de 100 échantillons d'optimisation, surpassant les baselines de feedback d'exécution, d'optimisation de prompt et de fine-tuning. Le problème adressé est précis et rarement traité : les boucles d'évolution de compétences existantes, retour d'exécution, tests unitaires, récompenses d'environnement, auto-critique LLM, ne fournissent que des preuves au niveau de la trace. Elles montrent qu'une compétence a fonctionné sur des exécutions échantillonnées, pas qu'elle satisfait des contrats de sécurité temporelle dans des conditions non testées. Pour un intégrateur ou un COO industriel, c'est la différence entre une démo convaincante en lab et un déploiement certifiable en production. Le fait que VASO maintienne les poids du modèle gelés est également notable sur le plan économique : pas de fine-tuning, pas de GPU dédié à la mise à jour du modèle. Ce travail s'inscrit dans la tendance des "physical AI agents" où les LLM orchestrent des comportements robotiques à long horizon depuis des instructions en langage naturel. Les compétences réutilisables sont devenues les unités de base de ces architectures, mais leur fiabilité formelle reste un angle mort notable. Des approches concurrentes comme les VLA (Vision-Language-Action models) ou les frameworks d'optimisation de prompts comme OPRO ne ferment pas cette boucle vérification-évolution. VASO affirme être le premier à le faire explicitement. Il s'agit néanmoins d'un preprint sans validation industrielle publiée, et les résultats obtenus sur deux plateformes relativement simples devront être confirmés sur des environnements plus complexes et des chaînes de compétences plus longues avant d'envisager un déploiement en conditions réelles.

RecherchePaper
1 source
CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents
4arXiv cs.RO 

CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents

Des chercheurs proposent CompassAD, un benchmark et une architecture (CompassNet) pour adresser un angle mort des systèmes robotiques actuels : choisir le bon objet parmi plusieurs qui partagent la même affordance. Le cas prototype est simple : face à l'instruction "coupe le gâteau", un robot doit identifier le couteau plutôt que des ciseaux posés à côté, bien que les deux permettent de couper. Le benchmark comprend 30 paires d'objets confusables, 16 types d'affordances, 6 422 compositions de scènes et plus de 88 000 paires requête-réponse. CompassNet repose sur deux modules : l'Instance-bounded Cross Injection (ICI), qui confine l'alignement langage-géométrie aux limites de chaque instance d'objet pour éviter toute fuite sémantique entre objets voisins, et le Bi-level Contrastive Refinement (BCR), qui renforce la discrimination entre surfaces cibles et confusables à deux niveaux de granularité. Le système produit un masque d'affordance point-par-point sur le bon objet dans un nuage de points multi-objets, conditionné par une instruction en langage naturel implicite. Une validation sur bras manipulateur réel est présentée comme preuve de transfert physique. L'intérêt est que la quasi-totalité des méthodes d'affordance 3D existantes évaluent des objets isolés avec le nom de catégorie fourni explicitement dans la requête. CompassAD impose une contrainte plus proche du déploiement réel : une intention formulée en langage naturel, sans étiquette d'objet prédéfinie. Pour un intégrateur ou un décideur industriel, cela vise des systèmes capables de raisonner sur le contexte de tâche sans pipeline de labellisation rigide. La nuance s'impose cependant : 30 paires d'objets et un environnement de laboratoire constituent une base étroite. La robustesse en scènes industrielles denses, avec occlusions et objets multiples non contrôlés, reste à démontrer. L'affordance grounding en robotique s'est structuré autour de travaux comme Where2Act (2021) ou LASO, qui opèrent sur objets isolés avec requêtes explicites. Les architectures vision-langage-action (VLA) des grands labos comme DeepMind, Meta ou Stanford intègrent progressivement la résolution d'ambiguïtés contextuelles, mais sans benchmark dédié aux scènes multi-objets confusables. CompassAD comble en partie ce vide méthodologique. La publication, déposée sur arXiv (2604.02060v2) en version révisée, n'implique pas d'acteur industriel ou FR/EU visible. Les prochaines étapes logiques seraient une extension à des scènes plus denses et une évaluation sur plateformes mobiles manipulatrices, au-delà du bras fixe utilisé dans les expériences publiées.

RecherchePaper
1 source