Aller au contenu principal
AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement
IA physiquearXiv cs.RO4h

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2604.10432v3) un framework baptisé AnySlot, conçu pour permettre à des politiques de contrôle robotique de type Vision-Language-Action (VLA) de placer des objets avec précision dans des emplacements discrets, dits "slots", à partir d'instructions en langage naturel. L'approche introduit un objectif visuel intermédiaire : plutôt que de passer directement de la commande textuelle au mouvement moteur, le système génère d'abord un marqueur spatial rendu sur l'image, indiquant l'emplacement cible exact, puis confie l'exécution à une politique VLA conditionnée par ce but visuel. Cette architecture hiérarchique découple la compréhension sémantique de l'instruction et la précision géométrique de l'exécution. Les auteurs introduisent également SlotBench, un benchmark de simulation structuré autour de neuf catégories de tâches, destiné à évaluer le raisonnement spatial dans des scénarios de placement à l'échelle centimétrique. Les expériences montrent qu'AnySlot surpasse les baselines VLA plates et les méthodes de grounding modulaire en conditions zero-shot.

Ce travail s'attaque à l'un des verrous les plus concrets des VLA généralistes : la précision de placement sous contraintes compositionnelles. Les politiques end-to-end peinent à combiner compréhension du langage et précision millimétrique, ce qui freine leur utilisation dans des applications industrielles comme l'assemblage, le tri ou la mise en casier. L'introduction d'un "but visuel" explicite comme couche intermédiaire est une réponse architecturale directe au gap sémantique-géométrique, et les résultats zero-shot suggèrent une meilleure généralisation que les approches purement end-to-end ou modulaires. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire le coût de spécification des tâches de placement sans sacrifier la fiabilité.

Le contexte est celui d'une intense activité autour des VLA depuis les travaux fondateurs de RT-2 (Google DeepMind, 2023) et des politiques récentes comme pi0 de Physical Intelligence ou OpenVLA. La difficulté du slot-level placement restait un angle mort de ces approches, qui performent mieux sur des tâches de saisie que de dépose précise. AnySlot ne provient pas d'un labo académique nommé explicitement dans l'abstract, et les résultats sont pour l'instant limités à la simulation via SlotBench, sans validation sur robot réel publiée. Les prochaines étapes naturelles seraient des expériences physiques et une comparaison avec des systèmes comme RoboPoint ou SpatialVLA, qui explorent des approches proches du grounding spatial. Ce preprint restera à suivre avant toute intégration industrielle.

À lire aussi

Guidance stable par le langage pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

Des chercheurs publient sur arXiv (arXiv:2605.09410) RePO-VLA, un framework d'optimisation de politique pour modèles VLA (Vision-Language-Action) conçu pour améliorer la robustesse en manipulation bimanuelle sur des tâches longues et à fort contact. Le problème central identifié: les pipelines d'entraînement classiques exploitent uniquement les trajectoires réussies, abandonnant les épisodes ratés et rendant les modèles fragiles à la moindre perturbation d'exécution. RePO-VLA introduit trois mécanismes distincts: la Recovery-Aware Initialization (RAI), qui isole les segments de récupération et réinitialise l'historique d'état pour que les actions correctives s'ancrent dans l'état adverse courant plutôt que dans l'enchaînement d'erreurs précédent; la Progress-Aware Semantic Value Function (PAS-VF), qui attribue une valeur aux préfixes utiles des trajectoires échouées via un mécanisme de "reliability decay"; et le Value-Conditioned Refinement (VCR), qui entraîne la politique à sélectionner les actions à haute progression. Les auteurs introduisent également FRBench, un benchmark standardisé d'injection d'erreurs orienté récupération. Sur des tâches bimanuelle simulées et réelles, le taux de succès en conditions adverses passe de 20% à 75% en moyenne, et jusqu'à 80% lors d'essais réels à grande échelle. Ce résultat marque une rupture avec les pipelines dominants. Physical Intelligence (Pi-0, Pi-0.5), Figure AI et la quasi-totalité des approches VLA académiques s'entraînent exclusivement sur des trajectoires réussies, sacrifiant l'information contenue dans les épisodes ratés. RePO-VLA démontre que ces données sont exploitables à condition d'être labélisées en fonction de leur degré de progression vers l'objectif. Autre avantage pour le déploiement industriel: à l'inférence, aucun détecteur de défaillance en ligne n'est requis. Un simple paramètre fixe (v=1.0) suffit à biaiser les actions vers le manifold de succès appris, ce qui simplifie considérablement l'intégration en production sur des tâches de manipulation répétitive longue durée. Les VLA sont en 2025-2026 l'un des axes de recherche les plus actifs en robotique manipulatrice, portés par Physical Intelligence, Figure AI, et des laboratoires comme Berkeley, Stanford et CMU. La manipulation bimanuelle en contact représente l'échelon de difficulté le plus élevé: elle concentre les problèmes de sim-to-real gap, de gestion du contact imprédictible et de dérive d'exécution sur de longues séquences. RePO-VLA reste pour l'instant un article arXiv sans annonce de déploiement ni partenariat industriel associé. FRBench pourrait toutefois s'imposer comme référence communautaire pour évaluer la robustesse en récupération d'erreur, critère aujourd'hui absent des benchmarks standards comme LIBERO ou RoboSuite.

IA physiqueOpinion
1 source
ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv en mai 2026 ECHO (Experience Consolidation and Hierarchical Organization), un framework mémoire pour modèles Vision-Language-Action (VLA) ciblant les tâches de manipulation longue durée. L'approche centrale repose sur un autoencodeur hyperbolique qui projette les états internes du VLA dans un espace hiérarchique continu, organisant les expériences passées en arbre sémantique plutôt qu'en liste linéaire d'embeddings. Un mécanisme de consolidation en arrière-plan raffine cet arbre par interpolation géométrique et fragmentation structurelle, permettant la synthèse de mémoires virtuelles. Intégré au modèle de fondation π0 (Physical Intelligence) et évalué sur le benchmark de simulation LIBERO, ECHO affiche un gain absolu de 12,8 points sur LIBERO-Long ainsi qu'une meilleure généralisation compositionnelle sur des suites de tâches non vues à l'entraînement. Des expériences en environnement réel sont mentionnées comme "préliminaires", sans métriques quantitatives publiées. Ce résultat pointe un verrou sous-estimé dans la course aux VLA : la mémoire. Les architectures actuelles (OpenVLA, Octo, π0 en baseline) traitent l'expérience passée comme un buffer plat, sans structure sémantique. Les tâches industrielles réelles, qu'il s'agisse d'assemblage multi-étapes ou de gestion d'exceptions en ligne de production, exigent précisément une récupération contextuelle efficace sur des horizons longs et la capacité à composer des séquences inédites. Le gain de 12,8% reste une métrique en simulation ; l'écart simulation-réalité n'est pas encore évalué rigoureusement, et la sélection des démos vidéo dans ce type de preprint mérite toujours une lecture prudente. Néanmoins, le cadre conceptuel ouvre une direction distincte du simple retrieval k-NN à plat ou de l'augmentation brute de contexte. ECHO s'inscrit dans l'effervescence autour des VLA généralistes depuis fin 2023, portée par π0 (Physical Intelligence, novembre 2024), OpenVLA (Berkeley/Stanford, 2024) et GR00T N1/N2 (NVIDIA, 2025). Physical Intelligence, la startup spécialisée dans les politiques robotiques génératives, fait de π0 sa plateforme de fondation ; ECHO s'y greffe comme module mémoire externe. Aucun code public ni timeline de déploiement industriel n'est annoncé dans le preprint, et aucun acteur français ou européen n'est impliqué. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks physiques (RoboSuite, RT-2-X) et la publication de résultats terrain complets.

IA physiqueOpinion
1 source