Aller au contenu principal
RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation
RecherchearXiv cs.RO3h

RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 26 mai 2026 sur arXiv (2605.25495) RepSAM, un cadre d'adaptation à l'efficacité paramétrique (PEFT) conçu pour transférer les capacités de SAM (Segment Anything Model) vers la perception robotique en environnements non structurés. Le diagnostic de départ est précis : les couches superficielles du transformeur subissent un écart de représentation important entre données génériques et données robotiques (CKA inférieur à 0,7), tandis que les couches profondes restent stables (CKA supérieur à 0,7). RepSAM exploite cette asymétrie via une allocation de rang guidée par la CKA (Centered Kernel Alignment) pour concentrer les paramètres entraînables là où le décalage est effectivement significatif. Le résultat : 89,0 % de mIoU contre 90,9 % pour le fine-tuning complet, soit 97,9 % des performances, avec seulement 4,0 millions de paramètres entraînables sur 632 millions totaux, une réduction de 158 fois. L'entraînement tient en 4 heures sur un seul GPU A100, contre 384 heures-GPU pour le fine-tuning intégral, et surpasse DoRA de 7,9 points de mIoU sur six benchmarks. En manipulation robotique, le gain atteint 12 points absolus de taux de succès par rapport à la baseline LoRA RGB, avec une significativité statistique p inférieur à 0,01.

L'enjeu industriel est direct : le gouffre entre les modèles de vision généralistes et les conditions réelles de la robotique (objets transparents, scènes encombrées, éclairage variable) reste l'un des principaux blocages pour les intégrateurs. RepSAM démontre qu'un adapter bien ciblé, informé par la structure interne du réseau plutôt qu'appliqué uniformément, peut quasiment égaler un fine-tuning complet à une fraction du coût de calcul. Pour un responsable technique déployant des bras manipulateurs ou des systèmes de picking, cela signifie qu'il devient réaliste d'adapter un modèle de fondation sur du matériel standard, sans infrastructure de calcul dédiée ni données massives.

SAM, développé par Meta AI et publié en 2023, s'est imposé comme référence pour la segmentation zero-shot, mais ses performances se dégradent hors distribution, notamment en robotique industrielle. Les méthodes PEFT comme LoRA et DoRA avaient déjà tenté ce pont, avec des gains limités faute d'adaptation différenciée par couche. RepSAM s'inscrit dans la continuité de travaux sur l'analyse de représentation pour guider le fine-tuning (CKA comme outil de diagnostic, popularisé depuis 2019). La prochaine étape logique est la validation sur des robots réels en conditions industrielles ; l'article se limite pour l'instant à des benchmarks simulés et des tâches de manipulation contrôlées, ce qui laisse ouvert le sim-to-real gap à grande échelle.

Impact France/UE

Les intégrateurs européens de bras manipulateurs et systèmes de picking pourraient adapter des modèles de vision fondation sur du matériel GPU standard, réduisant la barrière à l'IA perceptive sans infrastructure de calcul dédiée.

À lire aussi

MorphIt : approximation sphérique flexible de la morphologie robotique pour l'adaptation guidée par représentation
1arXiv cs.RO 

MorphIt : approximation sphérique flexible de la morphologie robotique pour l'adaptation guidée par représentation

Une équipe de chercheurs présente MorphIt (arXiv:2507.14061), un cadre d'approximation sphérique conçu pour rendre adaptable la représentation morphologique d'un robot, plutôt que de la traiter comme une contrainte fixe. Le système décompose la géométrie d'un bras ou d'un corps robotique en ensembles de sphères dont la résolution est pilotée par descente de gradient, avec des paramètres ajustables permettant de naviguer entre précision géométrique et coût computationnel. Les auteurs rapportent des temps de génération jusqu'à 100 fois inférieurs aux méthodes existantes, tout en maintenant une fidélité géométrique supérieure avec un nombre de sphères réduit, face aux deux baselines testées : VSSA (Variational Sphere Set Approximation) et AMAA (Adaptive Medial-Axis Approximation). Les gains sont validés sur des tâches de détection de collisions, de simulation d'interactions en contact et de navigation en espace contraint. L'enjeu dépasse la seule accélération de calcul. Actuellement, la quasi-totalité des pipelines robotiques impose une représentation géométrique unique pour toutes les tâches, qu'il s'agisse de planification à haute cadence ou de manipulation fine en contact. Ce compromis dégrade soit la précision, soit le temps de cycle. MorphIt traite cette représentation comme une ressource modulable en temps réel : un même robot pourrait opérer en mode grossier pour l'évitement d'obstacles et en mode haute résolution pour l'assemblage de précision, sans reconfiguration matérielle. Le framework s'intègre avec l'infrastructure robotique existante, ce qui limite les frictions d'adoption pour les intégrateurs. Les méthodes d'approximation sphérique comme VSSA et AMAA existent depuis plusieurs années, mais ont été conçues principalement pour la visualisation, pas pour le calcul embarqué temps réel. MorphIt s'inscrit dans un mouvement plus large vers des représentations géométriques différentiables et optimisables, un principe déjà exploré dans le sim-to-real pour les modèles VLA (Vision-Language-Action). Les résultats présentés restent expérimentaux : le paper est un preprint sans validation en déploiement réel à grande échelle. Les suites naturelles incluent l'intégration avec des planificateurs de mouvement différentiables et des tests sur des plateformes hardware comme des bras collaboratifs ou des humanoïdes.

RecherchePaper
1 source
MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage
2arXiv cs.RO 

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

Des chercheurs ont publié MARVL (Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models, arXiv:2602.15872), une méthode visant à automatiser la conception de fonctions de récompense dense pour l'apprentissage par renforcement (RL) appliqué à la manipulation robotique. L'approche repose sur l'affinage (fine-tuning) d'un modèle de vision-langage (VLM) pour améliorer sa cohérence spatiale et sémantique, puis décompose chaque tâche en sous-tâches séquentielles. Un mécanisme dit de projection de direction de trajectoire (task direction projection) renforce la sensibilité du signal de récompense aux progrès réels de l'agent. Évalué sur le benchmark Meta-World, référence standard pour les tâches de manipulation à récompenses éparses, MARVL surpasse les méthodes VLM-reward existantes en efficacité d'échantillonnage et en robustesse. La contribution centrale de MARVL est de corriger trois défauts chroniques des approches naïves de récompense par VLM : le désalignement entre signal de récompense et avancement réel de la tâche, la faiblesse du grounding spatial, et la compréhension insuffisante de la sémantique d'une tâche robotique. Pour les équipes de recherche en RL robotique, l'enjeu est concret : la conception manuelle de fonctions de récompense dense est coûteuse, non scalable, et constitue un goulot d'étranglement majeur dans le déploiement de nouveaux comportements. Si la méthode confirme ses performances sur des benchmarks plus larges, elle représenterait un pas vers l'automatisation du cycle de reward design, réduisant la dépendance aux ingénieurs spécialisés et accélérant l'itération expérimentale. Les VLMs utilisés comme superviseurs pour le RL robotique constituent un axe de recherche actif depuis 2023, porté notamment par des travaux comme EUREKA (OpenAI/NVIDIA) ou VLP. MARVL se distingue par son affinage ciblé du VLM et sa décomposition multi-étapes, là où EUREKA s'appuie sur un LLM pour générer du code de récompense sans fine-tuning préalable. La validation se limite pour l'instant à Meta-World, un environnement entièrement simulé ; aucun résultat sur robot physique n'est rapporté dans cette version, ce qui laisse ouverte la question du sim-to-real gap. Les suites naturelles incluront une évaluation sur des plateformes matérielles et des benchmarks plus récents comme RLBench ou ManiSkill.

RechercheOpinion
1 source
AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques
3arXiv cs.RO 

AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques

Des chercheurs ont déposé en mai 2026 sur arXiv (arXiv:2605.17517) un papier présentant AffordVLA, un framework qui améliore la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le problème central: les VLA actuels encodent l'apparence globale des objets mais peinent à localiser les zones d'interaction fonctionnelle, les affordances, telles que le point de préhension ou la surface de contact optimale. AffordVLA injecte ces représentations d'affordance directement dans les couches visuelles intermédiaires du VLA via un alignement implicite, sans annotation supplémentaire ni module de perception externe. Un "teacher" d'affordance zero-shot extrait des cartes fonctionnelles conditionnées par l'instruction en langage naturel, puis les aligne avec les représentations internes du modèle pendant l'entraînement. Les expériences en simulation et en environnement réel rapportent des performances supérieures aux baselines, avec un taux de succès en manipulation amélioré, sans que l'abstract ne publie de métriques absolues chiffrées. Ce gap entre apparence globale et localisation fonctionnelle est l'un des facteurs limitants du sim-to-real gap en manipulation non structurée: les systèmes réussissent en laboratoire contrôlé mais échouent dès que l'éclairage, le fond ou la pose de l'objet varient. En internalisant la perception d'affordance dans le VLA lui-même, AffordVLA évite les erreurs en cascade des architectures hybrides couplant un VLA à un module de segmentation externe, et n'alourdit pas le temps d'inférence, un critère déterminant pour les déploiements industriels en temps réel. La suppression de la dépendance aux masques annotés réduit également le coût de mise en données pour les intégrateurs, ce qui élargit la portée pratique de l'approche. AffordVLA s'inscrit dans l'accélération des travaux académiques autour des VLA depuis RT-2 (Google DeepMind, 2023), dans un secteur aujourd'hui dominé par des systèmes propriétaires comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). Ce courant cherche à améliorer le grounding spatial sans refonte architecturale complète, une approche plus accessible pour les laboratoires sans les moyens de Physical Intelligence ou de Figure. Le papier reste un preprint non peer-reviewed; aucun partenariat industriel ni déploiement terrain n'est mentionné. La suite logique serait une validation sur des benchmarks standardisés comme BridgeV2 ou OpenX-Embodiment, et une intégration dans des pipelines open-source comme LeRobot ou OpenVLA.

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source