Aller au contenu principal

Dossier OpenVLA / RT-X — page 3

642 articles · page 3 sur 13

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine
101arXiv cs.RO RecherchePaper

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

Une équipe de chercheurs a publié sur arXiv (identifiant 2606.25503) un système de complétion de profondeur baptisé AISPO, destiné à améliorer la fiabilité de la perception 3D lors de la manipulation robotique d'objets à surfaces non-lambertiennes, c'est-à-dire transparents (verres, flacons, plastiques) ou fortement spéculaires (pièces métalliques polies). Ces matériaux posent un problème structurel aux capteurs RGB-D : les mesures de profondeur y sont systématiquement corrompues ou absentes, car ces surfaces ne diffusent pas la lumière infrarouge de façon prévisible. AISPO combine une fusion multi-échelle de caractéristiques RGB-D avec un prior de forme affine-invariant, qui impose une cohérence géométrique locale et corrige les défaillances de profondeur avant qu'elles ne se propagent au planificateur de mouvement et ne génèrent des poses de préhension invalides. L'intérêt industriel est direct : les objets non-lambertiens sont omniprésents en logistique pharmaceutique, en agroalimentaire et en assemblage électronique. La plupart des méthodes de complétion de profondeur existantes sont optimisées pour la précision moyenne sur des benchmarks standardisés, sans garantir la plausibilité physique des cartes de profondeur produites, ce qui suffit pour la reconstruction 3D mais pas pour générer des trajectoires de grasping exécutables. AISPO se distingue en priorisant l'intégrité structurelle des prédictions plutôt que la métrique globale. Les expériences de préhension réelle montrent une amélioration des taux de succès sur objets transparents, bien que l'article ne quantifie pas précisément cet écart, un manque de rigueur notable pour un travail qui se positionne sur la fiabilité. AISPO s'inscrit dans un champ de recherche actif autour de la perception d'objets difficiles à mesurer, aux côtés de travaux comme ClearGrasp (Google Research, 2019) et des jeux de données TransCG et DREDS. La contribution clé est le prior de forme affine-invariant, qui permet une généralisation à des objets et scènes non vus à l'entraînement, un enjeu central du sim-to-real gap. Aucune entreprise industrielle ni laboratoire européen n'est associé à ce travail, qui reste un préprint arXiv sans évaluation par les pairs. Les prochaines étapes naturelles seraient une intégration dans des pipelines de manipulation existants comme OpenVLA ou Pi-0 de Physical Intelligence, et une comparaison quantitative plus rigoureuse sur des benchmarks comme GraspNet-1B.

1 source
Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information
102arXiv cs.RO 

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.19998), une méthode appelée Tri-Info (Triple Information-theoretic signals) pour détecter automatiquement les défaillances des modèles VLA (Vision-Language-Action) avant qu'ils ne causent des dommages irréversibles dans des environnements physiques. Testée sur six modèles VLA distincts et trois environnements de benchmark, Tri-Info atteint 83 % de précision sur des tâches en conditions réelles, là où les détecteurs existants s'effondrent au niveau du hasard. La méthode repose sur trois signaux dérivés de la théorie de l'information : la diversité des actions générées par le modèle, leur cohérence temporelle, et leur couplage aux transitions d'état observées dans l'environnement. Cruciale pour les déploiements industriels, Tri-Info ne nécessite aucun réentraînement pour fonctionner sur de nouvelles architectures ou dans de nouveaux environnements, y compris lors du passage simulation-vers-réel (sim-to-real). Ce résultat est directement pertinent pour les intégrateurs qui déploient des robots manipulateurs ou humanoïdes pilotés par des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). L'opacité de ces modèles constitue un risque opérationnel concret : un VLA peut échouer silencieusement, entraînant une collision, une chute d'objet ou l'interruption d'un cycle de production. Tri-Info ajoute une couche de supervision interprétable capable de distinguer trois classes de défaillances (manque de diversité, incohérence temporelle, découplage état-action), ce qui facilite le diagnostic post-incident. Sa transférabilité sans réentraînement est stratégiquement importante : elle permet d'intégrer la détection sur des systèmes déjà déployés sans modifier le pipeline existant. Ce travail s'inscrit dans une course à l'industrialisation des VLA accélérée depuis fin 2024 avec les sorties de Pi-0 et d'OpenVLA, et les travaux de Google DeepMind sur RT-2 et ses successeurs. Le sim-to-real gap reste l'un des principaux freins à leur généralisation, la plupart des systèmes de détection entraînés en simulation perdant leur efficacité en conditions réelles. Tri-Info est à ce stade un preprint non encore revu par les pairs, et ses performances n'ont pas été reproduites de manière indépendante. Si elles se confirment, la méthode pourrait s'imposer comme une brique de sécurité standard dans les pipelines de déploiement robotique fondés sur des VLA.

RechercheOpinion
1 source
Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde
103arXiv cs.RO 

Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde

Une équipe de recherche a publié sur arXiv (arXiv:2606.19297) un protocole d'évaluation baptisé Act2Answer, conçu pour mesurer objectivement combien de connaissances de sens commun et de savoirs factuels les modèles Vision-Language-Action (VLA) conservent après leur fine-tuning sur des données robotiques. Le protocole transforme les benchmarks classiques d'évaluation de modèles de langage visuels (VLM) en épisodes tabulaires courts : l'agent doit répondre à une question en plaçant physiquement un objet parmi plusieurs candidats sur une surface, ce qui ancre l'évaluation dans une action réelle plutôt que dans un output textuel. L'étude couvre 7 modèles VLA et 9 modèles VLM de référence, testés sur une suite de scénarios couvrant plusieurs catégories de connaissances. À cela s'ajoute une technique de sondage couche par couche (layerwise intent probing) pour localiser où l'information pertinente à la réponse est encodée dans le backbone VLM et la tête d'action. Les résultats révèlent une dégradation systématique, mais inégale, des connaissances après adaptation robotique. Les VLA maintiennent des performances solides sur les concepts simples, mais accusent des écarts significatifs sur les catégories sémantiquement plus riches par rapport à leurs VLM d'origine. Autrement dit, le fine-tuning robotique érode préférentiellement les représentations de haut niveau, celles qui portent le raisonnement nuancé. Le probing couche par couche montre que les signaux pertinents culminent dans les couches intermédiaires du réseau, puis s'atténuent dans les couches supérieures, ce qui suggère que la tête d'action interfère avec la propagation des connaissances sémantiques. Fait notable : l'entraînement conjoint avec des données VQA (Visual Question Answering) est associé à une meilleure rétention des connaissances, ouvrant une piste concrète pour les architectures futures. L'outil résout aussi un problème méthodologique persistant : il devient difficile de distinguer un échec dû à une connaissance absente d'un échec de contrôle moteur de bas niveau. Act2Answer s'inscrit dans un débat plus large sur le sim-to-real gap et la robustesse des VLA en déploiement industriel. Les modèles VLA actuels, comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de modèles comme LLaVA et Qwen-VL, héritent de VLMs préentraînés sur des corpus massifs, puis sont spécialisés sur des datasets robotiques relativement restreints. La question de la rétention des connaissances est directement pertinente pour les intégrateurs qui misent sur ces modèles pour des tâches impliquant une compréhension contextuelle du monde réel, au-delà du simple pick-and-place. Aucun acteur européen n'est mentionné dans l'étude. Le code et les environnements Act2Answer sont disponibles publiquement, ce qui permettra à d'autres équipes de compléter les comparaisons avec d'autres architectures et de tester l'impact de stratégies d'entraînement alternatives.

UELes équipes de recherche et les intégrateurs européens travaillant sur les VLA peuvent exploiter le benchmark Act2Answer (code public) pour évaluer la rétention de connaissances de leurs modèles et tester la stratégie d'entraînement conjoint VQA.

RechercheOpinion
1 source
IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement
104arXiv cs.RO 

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

Les modèles Vision-Language-Action (VLA) souffrent d'un défaut structurel bien documenté : en aplatissant les patches d'image en une séquence 1D de tokens, ils perdent les repères spatiaux 2D nécessaires à la manipulation précise d'objets. Des chercheurs ont publié sur arXiv (référence 2601.16207v2) IVRA, une méthode d'inférence légère et sans réentraînement qui corrige ce problème en exploitant des signaux d'affinité déjà présents dans l'encodeur visuel natif du modèle. Ces signaux sont injectés sélectivement dans une couche du modèle de langage où résident les caractéristiques au niveau des instances, réalignant les interactions entre tokens visuels et préservant mieux la structure géométrique sans modifier aucun paramètre. Appliqué à trois architectures distinctes, LLaRA, OpenVLA et FLOWER, IVRA a été évalué sur les benchmarks VIMA (manipulation 2D) et LIBERO (manipulation 3D), ainsi que sur des tâches en environnement physique réel. Sur VIMA en régime de faibles données, il améliore le taux de succès moyen de +4,2 % par rapport à la baseline LLaRA. Sur LIBERO 3D, les gains restent cohérents même proches de la saturation (96,3 % vers 97,1 %). L'intérêt industriel est direct : un intégrateur qui a déjà déployé un VLA peut appliquer IVRA à l'inférence sans réentraînement, sans capteur supplémentaire, sans encodeur externe. C'est un avantage immédiat en time-to-value pour des systèmes en production. Le fait que la méthode fonctionne même à 96,3 % de baseline suggère qu'elle améliore la précision géométrique locale plutôt que la compréhension globale de scène, précisément le point de défaillance des VLA sur des tâches de manipulation fine (saisie d'objets proches, tri par forme, assemblage). Pour la recherche, IVRA valide l'hypothèse que les encodeurs visuels embarqués contiennent des informations spatiales latentes exploitables sans supervision supplémentaire, une direction "training-free adapter" qui mérite davantage d'exploration. La perte de structure spatiale dans les VLA est connue depuis les premières publications sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley/Stanford, 2024). Les réponses habituelles consistent à modifier l'architecture ou à ajouter des flux de données supplémentaires (depth, point clouds), augmentant la complexité de déploiement. Physical Intelligence avec pi-0 et NVIDIA avec GR00T N2 misent sur des architectures propriétaires plus lourdes ; IVRA propose une correction orthogonale applicable sur des modèles ouverts, en compétition directe avec les méthodes de spatial token resampling et d'attention guidée comme RoboFlamingo. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (RLBench, BridgeData v2) et sur des manipulateurs industriels à 6 DOF ou plus en conditions réelles, là où la précision spatiale est critique.

IA physiqueOpinion
1 source
X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA
105arXiv cs.RO 

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.14752) les résultats de X-Tokenizer, une architecture légère de type encodeur-SRQ-décodeur conçue pour améliorer la couche d'interface entre le raisonnement visio-linguistique et le contrôle moteur continu des bras robotiques. Le système introduit une technique appelée Semantic Residual Quantization (SRQ), une variante asymétrique de la quantification vectorielle résiduelle classique : le premier niveau est entraîné via un mécanisme de Masked Action Modeling (MAM) pour former un "langage d'actions" discret capturant l'intention de mouvement à gros grain, tandis que les niveaux suivants restent orientés reconstruction pour préserver les détails fins. X-Tokenizer a été pré-entraîné sur 2,4 millions de trajectoires, soit 2,0 milliards de frames d'actions, couvrant des bras robotiques d'embodiments variés. Une fois gelé, il se branche comme signal de supervision dans un VLA hybride discret-continu. Les résultats rapportés sur RoboTwin 2.0 et sur des benchmarks réels montrent des performances de premier rang en agrégat, avec +13,5 % de grounding multimodal et +8,25 points sur les tâches long-horizon par rapport au tokenizer FAST, référence actuelle du domaine. L'enjeu central est ce qu'on appelle le "demo-to-deployment gap" dans les modèles Vision-Language-Action : des VLA comme pi-0, GR00T N2 ou OpenVLA apprennent à raisonner en langage naturel mais peinent à traduire ce raisonnement en commandes motrices précises et stables. Les tokenizers d'action existants se contentent de comprimer les trajectoires pour les reconstruire fidèlement, sans ancrer les codes discrets dans la sémantique du backbone visio-linguistique. Ce que démontre X-Tokenizer, c'est qu'il est possible de faire des tokens d'action des objets sémantiquement cohérents avec le reste du modèle, en ajoutant un alignement contrastif vers l'espace de représentation d'un modèle fondationnel et une prédiction de features visio-linguistiques sur la frame suivante. L'impact pour les intégrateurs et les chercheurs est direct : un tokenizer partagé, gelé et interchangeable entre embodiments réduit le coût de fine-tuning par robot tout en améliorant la robustesse sur les tâches multi-étapes. Du côté du contexte compétitif, la tokenisation d'actions est devenue un verrou clé dans la course aux VLA généralistes depuis 2024. FAST (Fourier Action Sequence Tokenizer, DeepMind) s'est imposé comme baseline de référence en représentation fréquentielle des trajectoires. Des approches comme ACT (Action Chunking with Transformers) ou GROOT ont montré des gains sur des tâches courtes, mais les tâches longues restent difficiles faute de supervision sémantique cohérente. X-Tokenizer se positionne explicitement comme une alternative à FAST sur ce point précis. À noter que les gains annoncés (+13,5 %, +8,25) sont mesurés sur des benchmarks spécifiques et sur une sélection de tâches ; la généralisation à des environnements industriels non structurés reste à démontrer. Aucune timeline de déploiement ni partenaire industriel n'est mentionné dans le papier, ce qui situe ce travail clairement dans la phase recherche, non dans celle du produit expédié.

IA physiqueOpinion
1 source
APEX : exécution adaptative de politiques pour la manipulation de précision
106arXiv cs.RO 

APEX : exécution adaptative de politiques pour la manipulation de précision

Une équipe de chercheurs a publié sur arXiv (référence 2606.16504) un framework baptisé APEX, Adaptive Policy Execution, conçu pour combler le fossé d'exécution qui dégrade les performances des robots manipulateurs pilotés par des politiques d'imitation. Dans les benchmarks rapportés, APEX réduit l'erreur de suivi induite par le contrôleur de 41,2 % sur la relecture de démonstrations, et améliore le taux de succès en manipulation de 4,8 à 25,8 points de pourcentage selon la classe de politique testée, visuomoteur ou VLA (Vision-Language-Action). Ces résultats couvrent quatre familles de politiques distinctes, ce qui constitue une base de comparaison plus large que la plupart des papiers du genre. Le problème que APEX adresse est structurel dans le domaine : les politiques d'imitation modernes génèrent des références d'action de haut niveau (positions cibles, trajectoires) que des contrôleurs bas niveau exécutent ensuite. Or ces politiques sont entraînées sans modéliser la dynamique du contrôleur sous-jacent, ce qui crée un écart systématique entre les actions commandées et les actions réalisées, un problème particulièrement critique pour les tâches de manipulation de précision (assemblage, insertion, saisie fine). Les approches existantes nécessitaient soit de modifier l'architecture de la politique pré-entraînée, soit de reprogrammer le contrôleur bas niveau. APEX se positionne comme une couche intermédiaire plug-and-play, traitant la politique et le contrôleur comme des boîtes noires inaccessibles. Il reconstruit une référence dynamiquement faisable à partir des sorties de la politique, puis s'adapte en temps réel via le feedback d'état bas niveau. Les auteurs fournissent une garantie formelle de convergence, ce qui est notable dans un champ souvent dominé par des résultats empiriques sans fondement théorique. Le contexte est celui d'une course intense au déploiement des VLA dans des environnements industriels réels : des modèles comme pi0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) affichent des résultats impressionnants en simulation ou en laboratoire, mais peinent à translater leurs performances sur des robots physiques en raison précisément de ce sim-to-real gap d'exécution. APEX s'inscrit dans une tendance émergente, sans toucher aux poids du modèle, améliorer l'exécution physique, qui concurrence les approches de fine-tuning sur robot réel. La publication ne mentionne pas de partenaires industriels ni de timeline de déploiement ; il s'agit d'une contribution de recherche, pas d'un produit annoncé. L'enjeu pour les intégrateurs est direct : si le framework tient ses promesses à plus grande échelle, il pourrait devenir un composant standard entre n'importe quelle politique foundation et n'importe quel bras robot commercial, sans nécessiter d'accès au code source de l'un ou de l'autre.

IA physiqueOpinion
1 source
SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné
107arXiv cs.RO 

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

SAPS (Shared Autonomy for Policy Steering, arXiv:2606.15568) est un framework qui combine en temps réel les commandes d'un opérateur humain avec les actions d'un modèle Vision-Language-Action (VLA) préentraîné, au niveau de l'action elle-même. Sans réentraînement, sans modèle auxiliaire, sans modification architecturale, SAPS introduit trois stratégies d'arbitrage dont une basée sur la similarité cosinus: cet indice mesure l'accord géométrique entre la commande humaine et celle du modèle pour distribuer le contrôle de façon dynamique. Testé sur les benchmarks de simulation LIBERO, LIBERO-PRO et CALVIN, et sur du matériel réel, le framework améliore le taux de succès des tâches jusqu'à 82 % par rapport à l'exécution autonome seule, réduit les interventions humaines par rapport à la télé-opération pure, et raccourcit les temps de complétion dans les deux cas. Ce résultat touche au défaut structurel des VLA généralistes: leur fragilité face aux perturbations hors-distribution, qu'il s'agisse d'un objet déplacé de quelques centimètres ou d'une scène atypique. SAPS n'exige pas de modifier le modèle existant, ce qui est l'argument commercial central pour un intégrateur industriel: le framework se greffe indifféremment sur Pi-0, GR00T N2, OpenVLA ou tout autre VLA disponible. La réduction de charge cognitive par rapport à la télé-opération pure est également significative pour des applications d'assistance aux personnes à mobilité réduite et pour la collecte de données d'imitation, où chaque heure d'opérateur est coûteuse. Les métriques présentées sont issues d'un preprint non relu par des pairs, et les vidéos de démonstration réelles restent à évaluer avec prudence. L'autonomie partagée est un champ établi, mais son application agnostique au modèle au niveau action sur des VLA modernes est une voie distincte des approches concurrentes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et HuggingFace (LeRobot) misent sur la robustification des politiques par distillation et augmentation de données; SAPS propose une couche d'intervention humaine plug-and-play plutôt qu'un meilleur modèle. Le preprint n'annonce ni déploiement industriel ni partenariat commercial. Les extensions naturelles visent les plateformes humanoïdes (Figure 03, Unitree G1) et un usage dans des boucles de fine-tuning continu. Aucun acteur français ou européen n'est impliqué dans ce travail.

RechercheOpinion
1 source
Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon
108arXiv cs.RO 

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

Des chercheurs ont soumis le 16 juin 2026 sur arXiv (2606.16178) une architecture transformer nommée PRISM, conçue pour doter les politiques visuomotrices entraînées par imitation learning d'une mémoire à court terme effective. Le système combine deux mécanismes : une attention filtrée (gated attention) qui supprime les corrélations parasites entre l'historique sensoriel et la prédiction d'action, et une architecture hiérarchique qui compresse les informations locales en tokens compacts pour capturer des dépendances temporelles étendues. PRISM maintient ainsi une mémoire opérationnelle sur environ deux minutes. Ses performances : 5 à 12 % de gains absolus sur les baselines les plus solides, et 11 à 15 % de mieux que sa variante sans mémoire sur RoboCasa et LIBERO, dépassant des modèles VLA fine-tunés comme GR00T-N1-3B (NVIDIA) et OpenVLA, sans aucun pré-entraînement à grande échelle. Les auteurs publient aussi ReMemBench, un benchmark de huit tâches de manipulation domestique couvrant quatre catégories mémorielles. La quasi-totalité des politiques visuomotrices actuelles n'exploitent que l'entrée sensorielle instantanée, les rendant incapables de gérer des tâches impliquant des objets temporairement occultés ou des actions à déclencher après un délai défini. PRISM démontre qu'une architecture mémoire soigneusement conçue peut surpasser des VLA massivement pré-entraînés, remettant en question l'hypothèse dominante selon laquelle la taille du corpus de pré-entraînement prime sur les choix architecturaux. Pour les intégrateurs et les décideurs industriels, ce résultat ouvre la voie à des politiques de manipulation longue séquence plus accessibles en calcul. PRISM s'inscrit dans un débat actif entre approches récurrentes (LSTM, Mamba) et architectures transformer pour les politiques de manipulation robotique. Les benchmarks RoboCasa et LIBERO font référence en simulation pour ce type de tâches, et des modèles comme GR00T-N1 de NVIDIA (3B paramètres) ou OpenVLA ont misé sur un pré-entraînement multimodal massif pour y performer. PRISM se positionne comme une alternative architecturale plus légère et sans pré-entraînement. Il faut toutefois souligner que tous les résultats sont obtenus en simulation : aucun transfert sim-to-real ni déploiement physique n'est annoncé, laissant ouverte la question de la robustesse sur robot réel.

RechercheOpinion
1 source
Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel
109arXiv cs.RO 

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Des chercheurs proposent, dans un preprint déposé en juin 2026 sur arXiv (2606.15285), un cadre asynchrone baptisé "semantic-action decoupling" qui découple l'inférence sémantique de la génération d'actions au sein des modèles Vision-Language-Action (VLA). L'architecture divise le VLA en deux modules distincts: un module de compréhension à basse fréquence qui met à jour de manière asynchrone des conditions sémantiques réutilisables, et un module d'action à haute fréquence qui produit en continu des commandes de contrôle sans relancer l'intégralité du modèle. Testée sur le benchmark LIBERO avec les modèles π₀.₅ (Physical Intelligence) et UniVLA, ainsi que sur un robot réel avec UniVLA, la méthode atteint un débit d'inférence côté serveur allant jusqu'à 35,6 Hz pour le seul module d'action. Pour compenser le décalage temporel entre des représentations sémantiques potentiellement périmées et l'état d'exécution courant, les auteurs introduisent deux mécanismes additionnels: le conditionnement sur l'historique des actions passées, et un entraînement explicite à la désynchronisation temporelle (time-misalignment training). Ce résultat s'attaque à l'un des verrous centraux du déploiement industriel des VLA: leur coût computationnel élevé les contraint aujourd'hui à des fréquences de contrôle trop basses pour des tâches de manipulation rapide ou réactive. Atteindre 35,6 Hz sans modifier le backbone vision-langage ni introduire un planificateur externe est non trivial, car cela signifie qu'un intégrateur peut greffer cette optimisation sur un VLA existant sans refonte architecturale. Le travail apporte une réponse partielle au "demo vs. reality gap" souvent reproché aux VLA: en maintenant un contrôle en boucle fermée à haute fréquence, le système peut absorber des perturbations que des architectures synchrones rateraient. Il reste que les métriques publiées correspondent à un throughput serveur, et non à une latence de bout en bout sur un système embarqué, ce qui nuance la portée opérationnelle immédiate. Les VLA sont devenus l'architecture dominante en robotique de manipulation depuis π₀ (Physical Intelligence, 2024) et les travaux de Google DeepMind sur RT-2, OpenVLA et leurs successeurs. UniVLA, lui, est issu de travaux récents visant à unifier les modalités de commande dans un modèle unique. La problématique de la fréquence de contrôle est traitée en parallèle par plusieurs équipes: Physical Intelligence avec π₀.₅, mais aussi des approches par distillation ou par action chunking (ACT, Diffusion Policy). Ce preprint ne présente pas encore de déploiement industriel ni de timeline commerciale, mais il ouvre une voie d'optimisation compatible avec des VLA open-source, ce qui pourrait accélérer l'adoption par des intégrateurs disposant d'une infrastructure GPU serveur sans retraîner leurs modèles de base.

RechercheOpinion
1 source
LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques
110arXiv cs.RO 

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

Des chercheurs ont proposé LaST₀ (Latent Spatio-Temporal Chain-of-Thought), un framework pour modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique, publié en janvier 2026 sur arXiv (2601.05248, v4). Évalué sur 10 tâches réelles couvrant la manipulation sur table, la manipulation sur base mobile et la manipulation dextre, le système améliore le taux de succès moyen de respectivement 13 %, 14 % et 14 % par rapport aux meilleures méthodes VLA actuelles. L'architecture repose sur un design Mixture-of-Transformers dual : un "expert raisonnement" opérant à basse fréquence pour l'inférence latente, et un "expert action" générant des commandes motrices à haute fréquence, les deux modules fonctionnant à des cadences hétérogènes pour permettre un basculement adaptatif. Le raisonnement intermédiaire s'effectue dans un espace latent compact encodant la dynamique visuelle future, la structure 3D de la scène et les états proprioceptifs du robot, sans passer par du texte en langage naturel. L'enjeu central est le compromis latence/raisonnement qui freine le déploiement industriel des VLA. Les approches qui génèrent des traces de raisonnement en langage naturel avant d'agir, comme certaines variantes de Pi-0 (Physical Intelligence) ou OpenVLA, introduisent une latence d'inférence incompatible avec les cycles rapides de la manipulation robotique. LaST₀ court-circuite ce goulot en déplaçant le raisonnement dans un espace latent plus dense informationnellement, plus rapide à générer, et capable de capturer des attributs physiques difficiles à verbaliser comme la friction ou la compliance des objets. Les gains mesurés sur des environnements réels, et non en simulation, constituent un signal notable : le sim-to-real gap n'est pas le seul obstacle, et la représentation interne du raisonnement importe autant que la qualité des données d'entraînement. Les VLA ont émergé comme architecture dominante pour la généralisation en robotique depuis les travaux de Google sur RT-2 (2023), puis se sont accélérés avec Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI en 2025. Le débat structurant du secteur oppose raisonnement explicite de type LLM et politiques réactives de type diffusion. LaST₀ propose une troisième voie, un système dual à fréquences hétérogènes combinant les deux sans les latences du premier ni les limites de généralisation du second. La publication reste pour l'instant purement académique, sans pilote industriel annoncé, mais l'architecture est directement transposable aux manipulateurs commerciaux et aux plateformes humanoïdes existantes.

IA physiqueOpinion
1 source
Modèle d'action géométrique pour l'apprentissage de politiques robotiques
111arXiv cs.RO 

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Des chercheurs ont déposé le 16 juin 2026 sur arXiv (arXiv:2606.17046) le Geometric Action Model (GAM), une politique de manipulation robotique conditionnée par le langage naturel. L'architecture réutilise un modèle fondamental géométrique (GFM) pré-entraîné en le scindant en deux segments : les couches superficielles encodent les observations visuelles, tandis qu'un prédicteur causal inséré à la jonction génère des tokens latents futurs conditionnés sur les instructions textuelles, la proprioception et l'historique d'actions du robot. Les blocs restants du GFM décodent ensuite simultanément la géométrie future de la scène et les actions à exécuter via un backbone unique partagé. Sur une suite de benchmarks en simulation et sur robot réel incluant des tâches de manipulation en contact riche, GAM affiche selon ses auteurs une précision, une robustesse, une vitesse d'inférence et une compacité supérieures aux baselines VLA à large échelle actuellement en référence. Le problème central qu'adresse ce travail est le décalage entre les représentations 2D dominantes dans les VLA (vision-language-action models) et la nature tridimensionnelle des interactions physiques. Des systèmes comme Pi-0 et Pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) ou les modèles RT-X (Google DeepMind) opèrent principalement sur des espaces latents dérivés d'images 2D, ce qui les handicape pour les tâches de saisie précise, d'assemblage et de dépose sur surfaces contraintes. Ancrer la prédiction d'actions directement dans un espace géométrique 3D, avec une modification minimale du modèle fondamental sous-jacent, constitue le pari architectural de GAM. Si ces résultats résistent à une reproductibilité indépendante, ils valideraient l'hypothèse que des priors géométriques explicites améliorent la généralisation des politiques généralistes face au gap sim-to-real. Cette publication s'inscrit dans une course aux VLA généralistes lancée depuis RT-2 (Google DeepMind, 2023), où la majorité des acteurs industriels, dont Figure (Helix), Agility Robotics, 1X et Physical Intelligence, misent sur des transformers multimodaux sans encodage 3D explicite. En parallèle, plusieurs laboratoires académiques (Berkeley, Stanford, CMU) explorent l'intégration de représentations géométriques comme le Gaussian Splatting dans les politiques robotiques. GAM s'inscrit dans cette seconde tendance avec une proposition architecturale minimaliste. À ce stade, il s'agit d'un preprint arXiv non peer-reviewed, sans déploiement industriel ni partenariat hardware annoncé ; une validation sur des plateformes commerciales standards (UR, Franka) en dehors du laboratoire reste à démontrer.

IA physiqueOpinion
1 source
Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA
112arXiv cs.RO 

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2606.14375) une nouvelle méthode appelée Elastic Queries Reinforcement Learning (EQRL), conçue pour rendre l'exécution des modèles VLA (Vision-Language-Action) adaptative plutôt que rigide. Dans les systèmes actuels, ces modèles qui pilotent la manipulation robotique s'exécutent selon des plannings d'inférence fixes : même fréquence de requête, même budget de débruitage, même longueur de chunk d'actions, quelle que soit la complexité de l'état courant. EQRL introduit un adaptateur léger qui sélectionne dynamiquement, pour chaque requête, trois paramètres : l'entrée latente, le budget de débruitage, et la longueur du chunk à exécuter en boucle ouverte. La méthode entraîne un critique sur l'espace joint et dérive un signal de difficulté d'état via le désaccord entre un ensemble de critiques (critic ensemble disagreement), guidant le calcul vers les états difficiles sans modifier les poids du modèle VLA sous-jacent. Sur bancs de simulation et en manipulation sur robot réel, les auteurs rapportent une réduction du coût d'inférence amorti avec un taux de succès préservé ou amélioré. L'enjeu concret concerne directement le coût de déploiement des politiques fondées sur des modèles de diffusion, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Ces architectures souffrent d'un goulot d'étranglement identique : le nombre d'évaluations de fonction (NFE) du processus de débruitage est fixe, qu'on soit sur une prise de contact incertaine ou un simple transit en espace libre. EQRL démontre qu'il est possible d'allouer dynamiquement ce budget de calcul selon la difficulté estimée, sans retraining du modèle de base. Pour un intégrateur ou un COO, la promesse est directe : même capacité de manipulation, moins de GPU sur les états faciles, meilleure scalabilité sur flotte. Le travail s'inscrit dans une course à l'efficacité d'inférence pour les VLA, accélérée par la publication de Pi-0 fin 2024 et les modèles de diffusion successifs (Octo, OpenVLA, GR00T N2, Helix de Figure AI). Des approches parallèles comme FAST ou DiT-Policy attaquent le même problème sous d'autres angles : compression de trajectoire, distillation, ou batch adaptatif. EQRL se distingue en opérant au-dessus du modèle sans le modifier et en intégrant un signal de difficulté appris par RL. Les auteurs annoncent des résultats positifs en simulation et sur robot réel, mais les métriques précises et les conditions expérimentales restent à examiner dans le corps du papier : la validité des gains annoncés dépendra de la représentativité des benchmarks choisis.

UELes équipes R&D européennes développant ou déployant des politiques de manipulation sur modèles de diffusion (VLA) pourraient appliquer EQRL pour réduire leurs coûts GPU d'inférence sans retraining, mais aucun acteur français ou européen n'est directement impliqué.

RechercheOpinion
1 source
PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique
113arXiv cs.RO 

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2606.13886, juin 2026) PhysVLA, un module d'inférence plug-and-play conçu pour corriger en temps réel les actions générées par n'importe quel modèle VLA (Vision-Language-Action) existant, sans rétro-entraînement ni accès aux poids. Le système intercepte les commandes produites par le backbone VLA et applique deux couches de correction successives : une machine à états finis sensible à la phase de la tâche (approche, saisie, transport, dépôt), puis un filtre sélectif basé sur les équations d'Euler-Lagrange qui ne s'active que lorsqu'un oracle de dynamique détecte une incohérence cinodynamique. Le surcoût de calcul est inférieur à 1 ms par pas de contrôle. Évalué sur quatre architectures distinctes (OpenVLA, OpenVLA-OFT, Force-VLA, Generalist-VLA) sur le benchmark LIBERO-Spatial avec un bras Franka Panda 7-DOF, PhysVLA améliore le taux de succès absolu jusqu'à 17 points, la stabilité jusqu'à 19 points, et l'efficacité de trajectoire jusqu'à 15 %, sans régression sur aucune tâche. Sur un sweep cross-simulateur (Robosuite Lift), la robustesse au jerk de trajectoire progresse d'un facteur 10. La validation sur un bras physique Agilex Piper (tâche pick-and-place réelle) confirme le transfert sim-to-real sans rétro-entraînement, avec une amélioration du taux de succès allant jusqu'à 50 %. L'intérêt industriel de cette approche tient à son caractère composable et backbone-agnostique. Les VLA actuels apprennent à imiter des démonstrations comportementales sans contraindre explicitement la physique des corps rigides ni les contacts, ce que les chercheurs nomment un "physics gap". Les correcteurs temporels classiques (temporal smoothing) masquent le problème sans le résoudre, et introduisent leurs propres échecs. PhysVLA propose une solution d'intégration légère pour les équipes qui déploient des VLA existants en production : pas de réentraînement, pas d'accès aux poids, un wrapper autour du modèle gelé. Pour un intégrateur ou un OEM, cela signifie potentiellement améliorer des systèmes déjà en ligne sans toucher aux pipelines de formation, ce qui réduit le risque et le coût de mise à niveau. PhysVLA s'inscrit dans la montée en puissance des approches de contrôle physique fondé pour les VLA généralistes, une problématique que des laboratoires comme Physical Intelligence (avec π0), Stanford (OpenVLA) ou Google DeepMind travaillent activement. Le papier positionne explicitement son framework comme complémentaire à ces backbones plutôt que concurrent. Il reste à ce stade un prototype de recherche validé en laboratoire sur deux plateformes matérielles (Franka Panda et Agilex Piper) ; aucun déploiement industriel ni partenariat commercial n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges (RoboMimic, DROID) et sur des robots à plus haute cinématique, notamment des humanoïdes où la gestion des contacts et de la dynamique des corps rigides est critique.

UELes équipes R&D et intégrateurs européens déployant des VLA en production peuvent directement tester ce wrapper plug-and-play sans rétro-entraînement, mais aucun acteur ou déploiement européen n'est impliqué dans ce travail de recherche.

RechercheOpinion
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
114arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

IA physiqueOpinion
1 source
EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
115arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

IA physiqueOpinion
1 source
Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs
116arXiv cs.RO 

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

Une équipe de recherche a publié en juin 2026 un preprint arXiv (2606.12910) présentant GRASP (Grounded Reasoning and Symbolic Planning), un framework de manipulation tabulaire à vocabulaire ouvert pour robots. Le système repose sur un Vision-Language Model (VLM) pré-entraîné qui traduit des requêtes en langage naturel -- par exemple "pose l'objet sur l'étagère du haut" -- en états-buts neuro-symboliques, ancrés dans l'espace physique via un pipeline de détection par bounding boxes. Sur 90 essais en conditions réelles, à trois niveaux de difficulté progressifs, GRASP atteint un taux de succès global de 73,3 %. Aucun entraînement spécifique à la tâche n'est requis : le modèle fonctionne en zero-shot, sans fine-tuning. Ce résultat interpelle parce qu'il propose une alternative crédible aux deux approches dominantes en Task and Motion Planning (TAMP) piloté par VLM : les pipelines lourds computationnellement (type SayCan ou RT-2) et les méthodes data-hungry qui exigent des milliers de démonstrations supervisées. En substituant des coordonnées de bounding boxes à des listes de couleurs codées en dur ou à des repères fixes, GRASP permet d'interpréter des concepts spatiaux abstraits sans recalibrage. Pour un intégrateur industriel ou un laboratoire travaillant sur des cobots, la valeur est directe : réduire le coût d'onboarding d'une nouvelle tâche de manipulation non structurée. Le 73,3 % reste un chiffre à contextualiser -- les auteurs ne détaillent pas les temps de cycle ni les types d'objets testés, et les vidéos de démonstration sélectionnées dans les preprints arXiv ne constituent pas une validation déployée en production. Le contexte de cette publication s'inscrit dans une course dense autour des VLA (Vision-Language-Action models) et du grounding symbolique. Des travaux concurrents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les architectures Open-X-Embodiment misent sur l'entraînement à grande échelle pour généraliser ; GRASP parie à l'inverse sur la légèreté architecturale et la planification symbolique. Aucune entreprise industrielle n'est associée à ce preprint, qui semble issu d'un groupe académique non encore identifié publiquement. Les prochaines étapes naturelles seraient une extension au-delà de la manipulation tabulaire (scènes 3D complexes, objets articulés), une évaluation comparative rigoureuse face aux baselines VLA actuelles, et une validation sur des plateformes robotiques standardisées comme le Franka Research 3 ou le UR5.

RechercheOpinion
1 source
GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable
117arXiv cs.RO 

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

Des chercheurs ont publié GAE (Generalizable Action Expert), un modèle généraliste conçu pour découpler la planification cognitive des modèles de vision-langage (VLM) de la génération d'actions robotiques précises. L'architecture repose sur une interface géométrique parcimonieuse : le VLM prédit des waypoints 3D discrets codant l'intention de haut niveau, tandis que GAE traduit ces repères en trajectoires d'action continues en s'appuyant sur des observations en nuage de points en temps réel. Le module est pré-entraîné sur un corpus de 150 000 trajectoires issues à la fois de simulations et de robots réels, via un schéma baptisé APPF (Action Pre-training, Pointcloud Fine-tuning), qui sépare explicitement l'apprentissage de la dynamique d'action du grounding géométrique. Une fois pré-entraîné, GAE est gelé et réutilisé tel quel sur de nouvelles tâches, seul le VLM amont nécessitant un fine-tuning léger. L'enjeu architectural est le découplage raisonnement-action, un point de friction documenté dans les approches VLA bout-en-bout comme Pi-0 de Physical Intelligence ou OpenVLA, où raisonner et agir partagent les mêmes poids et contraignent mutuellement la généralisation. En faisant de GAE un expert réutilisable et figé, les auteurs réduisent le coût d'adaptation à de nouveaux domaines visuels, angles de caméra et instructions en langage naturel. Les résultats rapportés vont dans ce sens, bien que le protocole d'évaluation comparatif reste à préciser dans la version finale, et que les expériences soient menées en laboratoire sans déploiement industriel annoncé. Cet article s'inscrit dans une vague de recherche post-RT-2 qui cherche à dépasser les limites des architectures monolithiques vision-langage-action. Les approches concurrentes incluent Pi-0 et Pi-0.5 (Physical Intelligence), Octo (UC Berkeley), RoboFlamingo, OpenVLA et RoboVLMs. La représentation intermédiaire par waypoints 3D rappelle des travaux sur les keyposes ou UniPi, mais étendue aux nuages de points pour une robustesse accrue aux variations de point de vue. La préprint arXiv:2510.03896, déposé en octobre 2024 et mis à jour en v2, n'est associé ni à un partenariat industriel ni à un produit commercialisé : il s'agit d'une contribution de recherche académique, pas d'un système shipé.

RechercheOpinion
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
118arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
119arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
120arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention
121arXiv cs.RO 

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques. Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine. Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

IA physiqueOpinion
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
122arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde
123arXiv cs.RO 

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

Une équipe de chercheurs a publié sur arXiv (2606.12217) une analyse d'une limitation fondamentale des World Action Models (WAMs), architecture émergente pour la manipulation robotique. Les WAMs combinent un modèle de génération vidéo, chargé de prédire l'évolution future de la scène, avec un décodeur d'actions qui traduit ces prédictions en commandes motrices. Les auteurs constatent empiriquement qu'un modèle produisant des séquences visuelles plausibles ne génère pas nécessairement des actions précises. Par des analyses d'attention sur la tête d'action et des interventions causales, ils identifient un "mismatch" de représentations : les états cachés du modèle de diffusion vidéo sont optimisés pour la reconstruction visuelle, pas pour le contrôle moteur à bas niveau. Le décodeur d'actions peine à se focaliser sur les zones d'interaction pertinentes et reste sensible aux perturbations dans les régions non pertinentes de la scène. En réponse, les auteurs proposent AGRA (Action-Grounded Representation Alignment), un objectif de régularisation qui aligne les features intermédiaires de la diffusion vidéo avec des représentations sémantiques spatialement cohérentes issues d'un encodeur visuel de fondation. Les tests sur des tâches de manipulation réelles montrent une meilleure localisation d'objets, une compréhension accrue des affordances, et une robustesse améliorée face aux perturbations hors distribution. Ce résultat pointe un problème structurel rarement formalisé dans la littérature WAM : le gradient d'entraînement de la génération vidéo ne suffit pas à organiser les représentations internes de façon utile pour le contrôle moteur. C'est une distinction critique pour les équipes R&D investissant dans les architectures VLA (Vision-Language-Action) ou world-model-based, car posséder un bon simulateur interne ne garantit pas une bonne politique. AGRA démontre qu'un alignement explicite entre features du monde et sémantique spatiale améliore simultanément les performances en distribution et la généralisation hors distribution, un double bénéfice difficile à obtenir et précieux pour les déploiements industriels où les variations d'environnement sont inévitables. Les WAMs s'inscrivent dans une lignée de recherches incluant Dreamer (DeepMind) et les architectures world-model appliquées à la navigation et la manipulation. AGRA se distingue en ajoutant un objectif de régularisation à l'interface monde-action sans modifier l'architecture de base, ce qui le rend potentiellement applicable à d'autres variantes de WAMs. Dans l'espace de la manipulation robotique, les approches concurrentes comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA contournent le problème en n'utilisant pas de génération vidéo explicite, ce qui place AGRA comme une réponse directe aux faiblesses spécifiques des architectures à modèle du monde. Il s'agit à ce stade d'une contribution académique arXiv sans déploiement industriel ni code public annoncé.

IA physiqueOpinion
1 source
GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique
124arXiv cs.RO 

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper
1 source
CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA
125arXiv cs.RO 

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2508.13446, juin 2025) une méthode appelée CAST, Counterfactual Augmentation for Semantic Tracking, qui cible l'un des angles morts majeurs des modèles VLA (Vision-Language-Action) : leur incapacité à suivre des instructions linguistiques fines. L'approche ne nécessite aucune collecte de nouvelles données robot. Elle s'appuie sur des modèles de vision-langage (VLM) pour reannoter automatiquement les trajectoires existantes avec des labels contrefactuels, c'est-à-dire des descriptions alternatives de ce qui aurait pu se passer si l'instruction avait été différente. Les modèles entraînés sur ces données augmentées sont évalués sur des tâches de navigation visuo-linguistique dans trois environnements distincts (intérieur et extérieur) ainsi que sur des tâches de manipulation avec distracteurs. Le résultat clé : doublement du taux de succès par rapport aux VLAs entraînés sur les données brutes non augmentées, avec des performances dépassant les méthodes de l'état de l'art sur des commandes référentielles complexes. Ce résultat est significatif parce qu'il attaque directement le problème du language grounding dans les datasets robotiques actuels, jugé pauvre en diversité sémantique pour des observations similaires. Le fait d'obtenir ces gains sans collecte additionnelle réduit drastiquement le coût d'amélioration des politiques robot, un levier critique pour les équipes qui opèrent avec des budgets de téléopération limités. Plus structurellement, CAST valide l'hypothèse que la qualité du signal de supervision linguistique pèse autant que le volume de données brutes, une nuance souvent sous-estimée dans la course au scaling des VLAs. Les VLAs de type généraliste ont émergé comme paradigme dominant depuis 2023-2024, portés par des systèmes comme OpenVLA (Stanford), pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind). Tous partagent la même tension : un corpus de démonstrations robot coûteux à collecter, annotées en langage naturel souvent trop homogène. CAST s'inscrit dans un courant de recherche sur l'augmentation synthétique des annotations, concurrent des approches basées sur la simulation procédurale ou le re-labeling par LLM pur. Il s'agit d'un preprint arXiv, pas encore d'un système déployé, les résultats restent à confirmer sur des robots physiques à grande échelle.

RechercheOpinion
1 source
VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action
126arXiv cs.RO 

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

Un préprint déposé sur arXiv le 10 juin 2026 (identifiant 2606.10568) présente VeriSpace, un vérificateur d'actions tridimensionnel conçu pour renforcer la fiabilité des modèles VLA (Vision-Language-Action) en robotique de manipulation. Ces modèles interprètent une scène visuelle et un objectif en langage naturel pour générer des commandes motrices, mais souffrent d'une limite structurelle : la prédiction se fait en un seul coup, sans réévaluation avant exécution. La moindre imprécision sur la position de préhension peut provoquer un échec de saisie, une collision ou une progression erronée dans la tâche. VeriSpace propose une vérification au moment du test (test-time verification) : le système génère plusieurs actions candidates que le vérificateur évalue avant d'en sélectionner une pour exécution. Il s'appuie sur deux composants : un encodage de scène à double chemin intégrant la géométrie 3D explicite (Dual-Path 3D-Injected Scene Encoding), et un raisonnement spatial sur les relations géométriques, la validité de chaque action et sa progression attendue vers l'objectif. Les expériences couvrent des benchmarks publics et des tâches de manipulation réelles, avec des gains rapportés en distribution et hors distribution, bien que les valeurs précises ne figurent pas dans le résumé du preprint. Cette approche répond à une fragilité bien documentée : les VLA, malgré les progrès de modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), restent vulnérables dès que la scène présente une ambiguïté géométrique subtile. La vérification au test-time n'est pas une idée nouvelle, mais VeriSpace la rend opérationnelle sur des scènes 3D réelles, là où les approches précédentes peinent à distinguer des actions candidates géométriquement proches aux conséquences pourtant très différentes. Son mode d'intégration plug-in, compatible avec les politiques VLA existantes sans modification, facilite l'adoption dans des pipelines déjà déployés. Pour les équipes robotique industrielle, c'est un mécanisme potentiellement utile pour réduire les taux d'échec sans requalifier les modèles sous-jacents. Le contexte est celui d'une compétition intense autour de la robustesse des VLA. Physical Intelligence, Google DeepMind (RT-2), NVIDIA et plusieurs équipes académiques de Berkeley, Stanford et CMU investissent massivement dans la généralisation et la réduction du sim-to-real gap. La vérification d'actions au test-time est une direction en émergence, distincte du fine-tuning continu ou de l'augmentation de données d'entraînement. VeriSpace reste pour l'instant au stade de préprint académique, sans annonce de déploiement industriel ni partenariat commercial associé. Les prochaines étapes naturelles seraient une évaluation chiffrée sur des benchmarks standardisés comme RoboSuite ou Open X-Embodiment, et une intégration dans des pipelines open-source pour validation par la communauté.

IA physiqueOpinion
1 source
SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique
127arXiv cs.RO 

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA
128arXiv cs.RO 

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

Des chercheurs ont entraîné des Sparse Autoencoders (SAE) sur les activations de couches cachées de modèles Vision-Language-Action (VLA) pour sonder mécanistiquement leurs représentations internes. Les SAE apprennent des dictionnaires épars sur ces activations, révélant des directions interprétables dans l'espace de représentation du modèle. L'équipe a identifié des features correspondant à des primitives de mouvement et à des concepts sémantiques, subdivisées selon une métrique proposée en deux catégories : les primitives générales transférables entre tâches, et les mémorisations épisodiques propres à un contexte particulier. Ces features se révèlent causalement pilotables : amplifier une feature générale induit des comportements cohérents avec sa sémantique, tandis que l'ablater dégrade significativement les performances du modèle. Les expériences ont été conduites sur le benchmark de simulation LIBERO et sur du matériel réel DROID, ce qui distingue ce travail de nombreuses contributions purement synthétiques. L'enjeu central est de comprendre quand et pourquoi un VLA généralise à de nouveaux objets, scènes ou instructions, une question que les benchmarks de performance bruts ne permettent pas de trancher. La distinction primitives-générales/mémorisations-épisodiques fournit aux développeurs un outil diagnostique pour évaluer ce qu'un modèle a réellement internalisé après entraînement, plutôt que de se fier à des métriques de réussite de tâche. Plus significatif encore, le steering par SAE ouvre une voie de contrôle orthogonale au prompting textuel : le robot peut être guidé dans des directions comportementales impossibles à exprimer via des instructions en langage naturel, sans réentraînement du modèle. Ce travail s'inscrit dans la continuité des recherches en interprétabilité mécanistique qui ont d'abord ciblé les grands modèles de langage, notamment les travaux publiés par Anthropic sur les SAE appliqués aux LLM, et tente de transposer cette méthodologie aux modèles agissants multimodaux. Les VLA dominent aujourd'hui la manipulation robotique généraliste, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA (UC Berkeley), de GR00T N2 (NVIDIA) ou des architectures de Google DeepMind, et tous font face au même déficit d'interprétabilité interne. La validation sur DROID, benchmark réel à forte diversité de scènes et de manipulations, renforce la portée des résultats au-delà du sim-to-real classique. Les suites naturelles incluent l'intégration de ces outils dans des pipelines de fine-tuning ciblé ou de sélection de données d'entraînement, voire dans des systèmes de supervision comportementale en production.

RechercheOpinion
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
129arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques
130arXiv cs.RO 

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Une équipe de recherche publie sur arXiv (2606.08107) les résultats d'Ego-Pi, une méthode de fine-tuning de modèle VLA (Vision-Language-Action) conçue pour exploiter des données égocentristes humaines dans l'entraînement de robots manipulateurs. L'étude prend comme fondation le modèle π₀.₅ de Physical Intelligence et cible des robots humanoïdes équipés de mains à cinq doigts dextres. Le résultat central : des données de manipulation filmées du point de vue humain permettent au robot d'apprendre de nouvelles sémantiques de tâches et de composer des compétences existantes en comportements inédits, sans nécessiter de données robot équivalentes pour ces mêmes tâches. Ce résultat adresse directement l'un des verrous les plus cités en robotique : la rareté des données d'entraînement à grande échelle. Contrairement au NLP ou à la vision, il n'existe pas de corpus internet pour la manipulation robotique. La démonstration qu'une capture égocentrique humaine, collectée plus facilement, à moindre coût et à plus grande échelle, peut servir de substitut partiel représente un changement de paradigme potentiel pour les pipelines de données. Cela valide aussi l'hypothèse du transfert inter-embodiment : un VLA peut généraliser entre morphologies humaine et robotique si le point de vue reste cohérent. Physical Intelligence, startup californienne fondée en 2023 et à l'origine des modèles π₀ et π₀.₅, positionne ainsi sa fondation comme un socle cross-embodiment viable. Ses concurrents directs, notamment NVIDIA avec GR00T N2 et Google DeepMind avec RT-2, explorent également l'apprentissage multi-source. Il faut souligner qu'Ego-Pi est un preprint non encore évalué par les pairs, sans benchmark industriel ni déploiement réel annoncé à ce stade.

UERésultats potentiellement utiles aux équipes européennes (CEA-List, INRIA) travaillant sur des VLA, mais aucun acteur ni déploiement européen directement impliqué.

IA physiqueOpinion
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
131arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée
132arXiv cs.RO 

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

Un article soumis en juin 2026 sur arXiv (2606.08520) propose une méthode graduée pour convertir des modèles de vision-langage généralistes (VLMs) en politiques de contrôle robotique (VLAs). Les auteurs identifient un double fossé qui explique les échecs du fine-tuning direct : un fossé visuel (les VLMs sont entraînés sur des images internet, pas sur des scènes de manipulation robot) et un fossé d'objectif (passer de la compréhension de texte à la prédiction de commandes motrices). Pour combler ces deux ruptures progressivement, ils introduisent les "embodied trajectory-coupled data" (ETC), des paires vision-langage extraites des mêmes trajectoires et environnements visuels que ceux utilisés pour l'entraînement à l'action, mais conservant un objectif de supervision en langage naturel. La recette d'entraînement se déroule en trois étapes séquentielles : Distribution Bridging (adaptation sémantique au domaine incarné), Objective Bridging (transition progressive vers la prédiction d'action), puis Retentive Adaptation (spécialisation au domaine de déploiement cible). Les expériences sont validées en simulation et sur robot réel, sans que l'abstract ne précise le matériel ni les benchmarks utilisés. La contribution centrale n'est pas un nouveau modèle mais une stratégie de curriculum d'entraînement qui conteste une hypothèse répandue dans la communauté : que le fine-tuning direct sur données d'action suffit, comme cela fonctionne pour d'autres domaines (vision médicale, OCR). Le papier montre expérimentalement que ce raccourci provoque une dégradation des généralisations acquises en préentraînement, phénomène particulièrement prononcé dans les architectures multimodales. Pour les intégrateurs, l'enjeu est concret : les ETC data peuvent être générées depuis des trajectoires déjà enregistrées sans coût de collecte supplémentaire, et les mélanger avec une faible quantité de données d'action permettrait de généraliser à de nouvelles conditions visuelles et linguistiques sans démonstrations supplémentaires, ce qui adresse directement le problème du long-tail en déploiement industriel. Ce travail s'inscrit dans la dynamique ouverte par RT-2 (Google DeepMind, 2023) qui a lancé la course aux VLAs, avec des modèles comme pi-zéro (Physical Intelligence), OpenVLA, ou RoboFlamingo comme repères concurrents. Le coût des données d'action robotique reste le noeud central pour des acteurs comme Figure AI, 1X Technologies ou Agility Robotics, qui financent massivement la collecte en déploiement réel. L'approche ETC propose une voie complémentaire en valorisant les trajectoires déjà existantes, sans nécessairement passer par de nouvelles sessions de télé-opération. Au stade de la soumission, les auteurs n'ont annoncé ni code public ni implémentation open-source.

IA physiqueOpinion
1 source
VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long
133arXiv cs.RO 

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

Une équipe de chercheurs publie sur arXiv (référence 2606.07723, juin 2026) un système appelé VoLoAgent, conçu pour piloter des robots sur des séquences d'actions longues à partir d'instructions en langage naturel ouvert. Le principe : un modèle vision-langage (VLM) joue le rôle d'orchestrateur et coordonne des capacités hétérogènes, notamment un modèle vision-langage-action (VLA) couplé à un module de manipulation bras entier (WAM), des primitives d'action et des modèles de vision, traités comme des outils interruptibles que le VLM peut reprendre en main en cours d'exécution. Pour évaluer ces capacités, les auteurs introduisent RoboVoLo, un benchmark haute fidélité qui couvre quatre dimensions : sens commun, suivi d'état et mémoire, références complexes dans la scène, et connaissance du monde, avec des métriques de succès par tâche et un diagnostic par type de défaillance. Des validations sur robot réel complètent les expériences en simulation, bien que les chiffres de performance précis ne figurent pas dans l'abstract publié. L'apport conceptuel central est ce que les auteurs nomment la "Physical Orchestration" : contrairement aux agents IA virtuels, un robot ne peut pas mettre le monde en pause pendant qu'il raisonne, ce qui fait du timing des décisions et des appels d'outils une contrainte de premier ordre. VoLoAgent y répond par une boucle fermée dans laquelle le VLM surveille en continu l'exécution et déclenche corrections ou récupérations en cas d'échec, sans attendre la fin de l'action en cours. Cette approche adresse directement l'un des angles morts des VLA actuels : leur rigidité face aux défaillances intermédiaires dans des séquences longues. Les résultats indiquent que VoLoAgent surpasse significativement les systèmes à VLA unique, à VLM unique, et les architectures purement basées sur des outils, une affirmation qui reste à vérifier sur des scénarios industriels hors laboratoire. Ce travail s'inscrit dans un courant très actif autour des VLA, porté par Google DeepMind (RT-2, RT-X), Physical Intelligence (pi0) et Stanford (Mobile ALOHA). L'architecture "orchestrateur sur boucle fermée" partage des bases avec les agents à outils de type ReAct ou Voyager, mais les transpose à la contrainte temps-réel de la manipulation physique. Le projet est hébergé sur GitHub via une page académique (chicychen.github.io/VoLo), sans affiliation industrielle explicite mentionnée dans l'abstract. La prochaine étape naturelle serait la validation sur des manipulateurs commerciaux (UR, Franka, ou équipements semi-structurés en entrepôt) pour mesurer le transfert hors conditions de laboratoire contrôlées.

IA physiqueOpinion
1 source
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
134arXiv cs.RO 

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper
1 source
ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active
135arXiv cs.RO 

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Des chercheurs ont publié ActiveMimic (arXiv:2606.06194, juin 2026), un framework de pré-entraînement robotique qui exploite des vidéos égocentrées humaines captées par une simple caméra RGB portée sur le corps. La contribution technique centrale : plutôt que de traiter les mouvements de caméra comme du bruit, comme le font les pipelines standards, ActiveMimic récupère des trajectoires synchronisées de la caméra et du poignet depuis ce seul flux vidéo, puis modélise le déplacement de la caméra comme une "action de point de vue" à part entière. Le framework apprend ainsi simultanément la perception active et la manipulation à partir de vidéos humaines capturées en conditions réelles, avant d'être adapté à un robot cible via fine-tuning. Sur plusieurs tâches de manipulation impliquant des degrés variés de perception active, les expériences en conditions réelles montrent qu'ActiveMimic surpasse les baselines pré-entraînées sur vidéo humaine classique et atteint les performances des modèles pré-entraînés sur données robotiques. Ce résultat est notable car la vidéo égocentrée humaine est disponible à grande échelle sans nécessiter de robot, mais les modèles qui en étaient issus sous-performaient systématiquement face à ceux entraînés sur données robotiques. ActiveMimic identifie le signal manquant : la perception active, soit le comportement naturel par lequel un humain repositionne continuellement son point de vue pendant une manipulation. Ce mécanisme, invisible pour les pipelines qui traitent la motion de caméra comme artefact, s'avère être le facteur clé pour extraire la valeur de ces vidéos. Les expériences indiquent en outre que la capacité de perception active émerge du pré-entraînement sur vidéo humaine et non du fine-tuning robot-spécifique, ce qui suggère une transférabilité potentielle à d'autres architectures et morphologies. Ce travail s'inscrit dans une compétition dense autour des modèles vision-action (VLA) pour la manipulation robotique généraliste. Physical Intelligence avec Pi-0, Google DeepMind avec RT-2, et les équipes de Figure AI exploitent des architectures VLA pré-entraînées, mais s'appuient majoritairement sur des données de téléopération robotique, coûteuses et lentes à collecter. Si l'approche d'ActiveMimic se confirme sur des benchmarks indépendants et des environnements non contrôlés, elle pourrait réduire significativement ce goulot d'étranglement en substituant une partie des données robotiques par de la vidéo humaine abondante. Les prochaines étapes naturelles incluent la validation industrielle, l'extension à des morphologies variées, et l'évaluation de la scalabilité avec des volumes de vidéo égocentrée plus importants.

RechercheOpinion
1 source
LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées
136arXiv cs.RO 

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

LDA-1B est un modèle fondation pour la robotique à 1 milliard de paramètres, présenté dans un preprint arXiv (2602.12215v2, "replace", donc une version révisée). Ses auteurs introduisent ce qu'ils appellent une "ingestion universelle de données incarnées" : plutôt que le clonage comportemental classique, qui se borne à imiter des actions expertes en ignorant la connaissance des dynamiques physiques, LDA-1B entraîne simultanément un modèle de dynamiques, une politique d'action et un module de prévision visuelle. Pour opérer à cette échelle, les chercheurs ont constitué EI-30k, un jeu de données standardisé regroupant plus de 30 000 heures de trajectoires humaines et robotiques dans un format unifié. La prédiction s'effectue dans l'espace latent structuré de DINO (modèle de vision auto-supervisé de Meta), évitant la modélisation redondante au niveau pixel. L'architecture repose sur un transformeur de diffusion multimodal gérant des flux vidéo et d'action asynchrones. En simulation et en conditions réelles, LDA-1B dépasse π0.5 de Physical Intelligence de 21 % sur les tâches à contacts intenses, 48 % sur les tâches de dextérité, et 23 % sur les tâches à long horizon. Résultat contre-intuitif : en réintégrant 30 % de trajectoires de faible qualité habituellement écartées, le modèle gagne 10 % de performance supplémentaire. Ce travail s'attaque à une limite structurelle des modèles robotiques actuels : le clonage comportemental traite comme déchets toutes les données sans annotation action-état précise, vidéos téléopérées approximatives, démonstrations ratées, captations partielles. En assignant des rôles distincts selon la qualité des données, LDA-1B récupère de la valeur dans ces corpus dégradés. Pour les intégrateurs et décideurs industriels, l'implication est concrète : si des trajectoires sous-optimales contribuent positivement à l'entraînement, le coût de constitution des jeux de données de référence diminue sensiblement. Les gains de 48 % sur la dextérité, talon d'Achille historique des robots manipulateurs, sont particulièrement significatifs, même si ces chiffres proviennent d'un preprint non encore évalué par les pairs, et que les conditions exactes des benchmarks méritent une lecture critique avant généralisation. LDA-1B s'inscrit dans une course aux modèles fondation robotiques qui s'intensifie depuis 2024. Physical Intelligence (Pi), dont π0 puis π0.5 font référence sur les benchmarks manipulation, est le principal étalon ici. Google DeepMind pousse RT-2 et ses successeurs, tandis que des modèles open-source comme OpenVLA et Octo peinent à franchir le cap du milliard de paramètres avec des données hétérogènes. La formulation UWM (Unified World Model), que LDA-1B exploite et étend, tentait déjà de valoriser des données non-action (vidéos, interactions humaines), mais les tentatives précédentes manquaient d'échelle et de standardisation. EI-30k, avec ses 30 000 heures normalisées, est l'une des bases d'interaction incarnée les plus vastes publiées à ce jour. Ce preprint n'annonce ni produit commercial ni déploiement terrain, c'est de la recherche académique avec expériences en simulation et quelques validations réelles. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une intégration sur des plateformes humanoïdes comme Unitree H1 ou G1.

RechercheOpinion
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
137arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

IA physiqueOpinion
1 source
GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA
138arXiv cs.RO 

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

GeoAlign, une architecture présentée le 3 juin 2026 sur arXiv (référence 2606.03240), aborde un angle mort persistant des modèles Vision-Langage-Action (VLA) : leur incapacité à raisonner avec précision sur la géométrie locale d'une scène. Les VLA actuels sont principalement entraînés pour le grounding sémantique, ce qui suffit pour identifier des objets ou interpréter des instructions, mais pas pour exécuter des mouvements de manipulation précis. GeoAlign introduit une branche RGB post-entraînée avec supervision RGB-D dans le domaine robotique, qui génère des features appelées GEP (Geometry-Enhanced Post-Trained) sans nécessiter de caméra de profondeur au déploiement. L'état proprioceptif du robot, c'est-à-dire la position de ses articulations à chaque instant, interroge dynamiquement cette grille de features pour produire des tokens géométriques adaptés à la phase courante du mouvement. Les résultats annoncés sont 99,0 % sur le benchmark LIBERO, 85,3 % sur trois tâches SimplerEnv-Fractal, et 78,8 % sur huit tâches réelles "geometry-critical" sur plateforme bi-manuelle ALOHA. Ce travail cible un problème bien identifié par les intégrateurs industriels : les VLA produisent des trajectoires sémantiquement cohérentes mais qui échouent lors du contact ou de la saisie fine, faute de modélisation géométrique locale. L'approche de GeoAlign est pragmatique, elle exploite la supervision RGB-D à l'entraînement sans alourdir le pipeline de déploiement qui reste en RGB pur. Le score de 78,8 % sur des tâches réelles est notable, mais le périmètre demeure étroit avec seulement huit tâches sur une seule plateforme, et la généralisation à d'autres morphologies ou environnements industriels n'est pas encore démontrée. Les ablations confirment l'apport des deux composantes, post-formation géométrique et requêtage guidé par l'état proprioceptif, ce qui renforce la crédibilité de l'architecture au-delà du simple ajustement de paramètres. Les VLA se sont imposés comme paradigme dominant depuis RT-2 de Google DeepMind en 2023, et se retrouvent au cœur de systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. La tendance de fond depuis 2024 est à l'augmentation des capacités spatiales de ces modèles, avec SpatialVLA et d'autres architectures 3D-aware qui s'attaquent au même problème. La plateforme ALOHA, développée à Stanford et UC Berkeley, est aujourd'hui commercialisée par Trossen Robotics et AgileX, ce qui donne une certaine représentativité aux évaluations en conditions réelles. GeoAlign reste pour l'instant un preprint non relu par les pairs : sa reproductibilité sur d'autres plateformes et dans des contextes industriels variés déterminera si elle s'intègre effectivement dans les pipelines VLA de production.

IA physiqueOpinion
1 source
Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration
139arXiv cs.RO 

Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration

Une équipe de chercheurs a publié le 3 juin 2026 sur arXiv (2606.03335) une méthodologie pour construire des benchmarks d'apprentissage par renforcement multi-tâches sur GPU, et l'a instanciée sous le nom MT-Libero, en s'appuyant sur les assets et prédicats de tâches de LIBERO dans l'environnement de simulation Isaac Lab de NVIDIA. Le benchmark permet d'entraîner simultanément des politiques sur des suites de tâches hétérogènes de manipulation, avec rendu parallèle, randomisation physique, et support des entrées par état ou par caméra. En parallèle, les auteurs proposent DGPO (Demonstration Guided Policy Optimization), une méthode on-policy qui combine PPO pondéré par importance avec un clonage comportemental adaptatif sur des actions de démonstration appariées, permettant de doser l'influence des données de démo sur la politique apprise. L'intérêt de cette contribution est double. D'abord, elle s'attaque à un goulot d'étranglement structurel du domaine : la plupart des pipelines RL actuels en robotique entraînent une politique spécialisée par tâche, ce qui explose les coûts de calcul et limite la généralisation. Passer à un entraînement multi-tâches sur GPU en parallèle change fondamentalement l'économie de la simulation. Ensuite, DGPO résout un problème pratique récurrent : avec des signaux de récompense parcimonieux et peu de données de démonstration, les méthodes RL pures peinent à converger. Les auteurs montrent que leur approche surpasse à la fois le RL sans démonstration et les méthodes existantes à base de démonstration, tout en conservant la stabilité caractéristique de PPO on-policy et sa capacité d'amélioration continue en ligne. Le benchmark LIBERO, développé par des équipes académiques, est devenu une référence pour évaluer le transfert et la généralisation en manipulation robotique. Isaac Lab, le simulateur physique de NVIDIA, est de plus en plus utilisé pour le sim-to-real à grande échelle, notamment par Physical Intelligence (pi0), Figure AI et 1X Technologies. La problématique multi-tâches est au coeur des travaux actuels sur les VLA (Vision-Language-Action models) et les foundation models pour la robotique, où des acteurs comme DeepMind (RT-2, RT-X), Stanford et Berkeley (RoboAgent) cherchent à mutualiser l'apprentissage entre tâches. MT-Libero et DGPO sont publiés en preprint et n'ont pas encore été validés par un processus de peer-review ; les résultats restent à confirmer sur hardware réel.

RechercheOpinion
1 source
Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
140arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source
Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA
141arXiv cs.RO 

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

Des chercheurs ont publié sur arXiv (réf. 2508.20072, quatrième révision) Discrete Diffusion VLA, une architecture de politique robot qui intègre la diffusion discrète directement au sein du backbone transformeur unifié d'un modèle Vision-Language-Action (VLA). Sur le benchmark LIBERO, le système atteint 96,4 % de taux de réussite moyen, 71,2 % de correspondance visuelle sur SimplerEnv-Fractal et 54,2 % sur SimplerEnv-Bridge. Des évaluations en conditions réelles ont été conduites sur la plateforme AgileX Cobot Magic, un bras collaboratif de l'équipementier chinois du même nom. Le mécanisme central est un décodage adaptatif par ordre de confiance : le modèle résout d'abord les éléments d'action à haute certitude, puis revisite les prédictions incertaines via un re-masquage secondaire, permettant une correction d'erreur itérative sans générer une séquence de gauche à droite. L'enjeu architectural est concret. Les VLA actuels souffrent de deux compromis : la génération autorégressive classique (ordre fixe gauche-à-droite) affiche des performances limitées, tandis que les architectures à tête de diffusion continue externe, comme celle de Pi-0 de Physical Intelligence, fragmentent les flux d'information entre backbone et module d'action. En maintenant la diffusion à l'intérieur du backbone, cette approche préserve les représentations visuelles et linguistiques pré-entraînées. Le résultat chiffré est parlant : seulement 0,8 % de dégradation sur les tâches hors-distribution en langage, contre 8,0 % pour le décodage parallèle conventionnel, et 20,4 % en vision contre 29,0 % pour la diffusion continue. Pour un intégrateur ou un responsable technique évaluant une stack de manipulation généraliste, c'est un signal que la robustesse hors-distribution peut être préservée sans compromis sur la scalabilité. Les VLA se sont imposés comme paradigme dominant pour la manipulation généraliste, portés par OpenVLA, Octo, puis Pi-0 qui a popularisé la diffusion continue comme tête de décodage séparée, précisément l'architecture remise en question ici. La diffusion discrète, mieux connue dans le domaine du texte (MDLM, DMDM), est ici appliquée aux séquences d'actions robotiques, un transfert non trivial. La quatrième révision du preprint signale un travail en maturation active. Les prochaines étapes probables incluent le scaling sur des datasets larges de type Open X-Embodiment et l'évaluation sur des plateformes humanoïdes, où la gestion de l'incertitude en temps réel sera le vrai critère discriminant.

IA physiqueOpinion
1 source
PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts
142arXiv cs.RO 

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Des chercheurs ont publié sur arXiv (référence 2506.00515) PaCo-VLA, un framework qui comble le fossé entre les modèles Vision-Language-Action et le contrôle de contact haute fréquence. Le problème est structurel : les VLAs génèrent une sortie à quelques hertz seulement, alors que la régulation de dynamiques de contact exige des boucles à plusieurs kilohertz. PaCo-VLA requalifie le rôle du réseau neuronal : plutôt que de produire des commandes moteur directes, le VLA émet des "proposals de compliance", à savoir des engagements sémantiques, des étapes de tâche et des paramètres d'admittance. Un bouclier de passivité haute fréquence, indépendant du modèle, filtre ces proposals via une comptabilité d'énergie (energy-tank accounting) et des contrôles aux frontières, bloquant toute prédiction invalide ou périmée avant qu'elle n'atteigne la physique de contact. Les expériences d'insertion de connecteurs, en simulation et en conditions réelles, montrent une précision supérieure aux baselines VLA non protégées, avec zéro violation de passivité même sous perturbations adversariales de compliance. L'enjeu dépasse la performance brute. La passivité est une propriété de sécurité prouvable : elle garantit que le système ne génère pas d'énergie mécanique non désirée, ce qui est critique pour les assemblages de précision où une force mal régulée peut détruire la pièce ou l'actionneur. L'architecture découplée permet aussi une évaluation causale du VLA, isolant ce que le modèle contribue réellement en termes de raisonnement sémantique par opposition aux raccourcis géométriques que les réseaux exploitent souvent sans compréhension réelle. Pour un intégrateur ou un responsable industriel, PaCo-VLA propose un contrat d'interface formel, le "sampled-passive runtime contract at the admittance port", qui pourrait constituer un argument solide dans un dossier de certification pour environnement réglementé. Cette publication s'inscrit dans une problématique centrale de 2025-2026 : comment déployer des modèles de fondation tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google DeepMind sur des robots industriels sans compromettre la sécurité de contact ? La manipulation contact-riche, insertion de connecteurs, vissage, assemblage, reste le point faible des VLAs actuels qui excellent en manipulation en espace libre mais peinent dès que la force devient une variable critique. PaCo-VLA est encore au stade de preprint et n'a pas été validé à l'échelle industrielle ; les résultats publiés portent sur des tâches d'insertion en contexte contrôlé, loin d'un benchmark d'assemblage général. La prochaine étape naturelle serait une validation sur des chaînes de production réelles, où la variabilité des pièces et des tolérances mettrait véritablement à l'épreuve la robustesse du bouclier passif.

UEImpact indirect : le contrat d'interface formel proposé (passivité prouvable) pourrait alimenter les dossiers de certification pour déploiements VLA industriels en environnement réglementé EU, notamment dans le contexte de l'AI Act, mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source
Factorisation tâche-monde pour l'apprentissage robotique
143arXiv cs.RO 

Factorisation tâche-monde pour l'apprentissage robotique

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.02027) un framework d'apprentissage robotique baptisé "World-Task Factorization", dont le principe central est de séparer structurellement ce qui relève du monde physique de ce qui relève de la tâche à accomplir. Les facteurs "monde" regroupent les propriétés du corps du robot et de son environnement, indépendamment de toute intention ; les facteurs "tâche" encodent la logique de ce que le monde autorise à faire. Pour instancier cette séparation, les auteurs couplent un module analytique nommé AICON, un graphe différentiable d'estimateurs récursifs compositionnels opérant sans données spécifiques à la tâche, à une politique apprise compacte qui module les chemins de gradient. Ce mécanisme est testé sur trois familles de problèmes impliquant des robots hétérogènes, des modalités sensorimotrices variées et des logiques de tâche distinctes ; le framework surpasse les baselines bout-en-bout et les heuristiques analytiques dans tous les scénarios, et les auteurs rapportent un transfert vers du matériel réel sans réentraînement. L'intérêt industriel de cette approche tient à ce qu'elle adresse directement le problème de généralisation, obstacle majeur à la commercialisation des robots polyvalents. En factorisant explicitement monde et tâche, le framework promet de réduire le volume de données nécessaire au réentraînement lors d'un changement de contexte, de coéquipier ou de contrainte, là où les architectures bout-en-bout actuelles exigent de recollecterdes données à chaque variation. La capacité annoncée de généralisation zero-shot à des configurations hors distribution reste toutefois à valider à plus grande échelle : les expériences rapportées, bien que convaincantes sur trois domaines, demeurent de portée laboratoire, sans chiffres de volume de déploiement ni métriques de cycle time dans des contextes industriels réels. Sur le plan académique, ce travail s'inscrit dans un débat structurant du domaine : faut-il laisser la structure émerger du passage à l'échelle des données (approche des VLA de type Pi-0, GR00T N2 ou OpenVLA), ou l'encoder explicitement via des hiérarchies ou des bibliothèques de compétences ? Le framework proposé prend une troisième voie, fondée sur la théorie bayésienne (evidence du modèle, rasoir d'Occam) pour justifier la factorisation. Il se positionne ainsi face aux travaux de Physical Intelligence (Pi-0), de Boston Dynamics, et des laboratoires académiques comme Berkeley (RT-2, RoboAgent) ou Stanford (Mobile ALOHA). Les auteurs n'annoncent pas de partenariat industriel ni de calendrier de commercialisation ; l'étape suivante naturelle serait une validation sur des manipulateurs ou des humanoïdes dans des environnements semi-structurés, avec des métriques de robustesse publiées.

RecherchePaper
1 source
Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA
144arXiv cs.RO 

Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA

Des chercheurs ont publié le 2 juin 2026 sur arXiv (réf. 2606.02486) AHEAD, un module d'anticipation conçu pour corriger un angle mort majeur des modèles Vision-Language-Action : leur incapacité à saisir des objets en mouvement. Les VLA actuels, dont OpenVLA (7 milliards de paramètres), capturent une observation instantanée et génèrent une action en supposant que la scène restera immobile, ce qui introduit une latence incompatible avec toute dynamique réelle. AHEAD (Anticipatory Horizon Extrapolation with Adaptive Dynamics) greffe un modèle de monde latent de seulement 4,9 millions de paramètres sur le VLA gelé : ce module prédit l'état futur de la scène dans l'espace de features du VLA, en s'appuyant sur les champs de vitesse et d'accélération par token extraits par flux optique, puis filtre les patchs pertinents via un masque combinant saillance linguistique et cinématique. Le décodeur d'action reçoit ces tokens futurs en lieu et place des tokens présents. En simulation, AHEAD atteint 79 à 97 % de succès sur 20 scénarios dynamiques, contre 31 à 58 % pour le meilleur concurrent. Sur robot physique (UFactory xArm 7), le système réussit 29 à 30 essais sur 30 pour des tâches de tapis roulant et de balle roulante, 23/30 pour l'interception de pagaie, et 19/30 pour l'interception de projectile, là où tous les baselines atteignent 0/30. Ce résultat est notable car il démontre un transfert sim-to-real fonctionnel sur des tâches dynamiques, un écueil historique des approches VLA : non seulement la prédiction dans l'espace latent se généralise à du matériel réel, mais le module léger (4,9 M de paramètres) n'impose aucune modification du modèle de base, ce qui ouvre la voie à une adoption modulaire sur n'importe quel VLA existant. Pour un intégrateur industriel, cela signifie qu'un bras robotisé équipé d'un VLA standard pourrait, sans réentraînement complet, traiter des pièces sur convoyeur ou dans des environnements non structurés, un verrou majeur pour la robotisation flexible de lignes d'assemblage ou de tri. Les VLA ont émergé comme paradigme dominant en manipulation robotique depuis 2023, portés par des travaux comme RT-2 (Google DeepMind) et la série OpenVLA (Berkeley). La manipulation statique étant désormais largement résolue par ces modèles, le front de recherche se déplace vers le dynamique, le déformable et l'incertain. AHEAD s'inscrit dans cette tendance, en compétition implicite avec des approches comme ACT (Action Chunking Transformer) ou les méthodes de replanning rapide à base de diffusion. L'article reste un preprint de laboratoire académique sans déploiement industriel annoncé, et les conditions de test physique (30 essais par tâche, environnement contrôlé) restent loin d'une validation en conditions de production ; les performances sur projectile (19/30) méritent un regard critique. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme RoboSuite ou une collaboration avec un partenaire industriel pour valider la robustesse hors-labo.

UEAucun acteur européen impliqué ; les intégrateurs industriels EU travaillant sur la robotisation de lignes de convoyage ou de tri pourraient à terme bénéficier de cette approche modulaire compatible avec tout VLA existant, sans réentraînement du modèle de base.

IA physiqueOpinion
1 source
Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique
145arXiv cs.RO 

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion
1 source
BOKBO : abstention calibrée pour les politiques de modèles vision-langage-action (VLA)
146arXiv cs.RO 

BOKBO : abstention calibrée pour les politiques de modèles vision-langage-action (VLA)

Une équipe de chercheurs publie BOKBO (Best of K Bad Options), décrit comme la première couche d'abstention conforme pour l'inférence VLA à K échantillons. Le problème adressé est précis : les méthodes de scaling à l'inférence telles que RoboMonkey, SEAL, MG-Select et V-GPS génèrent K chunks d'actions candidates et exécutent celle validée comme la meilleure par un vérificateur. Mais lorsque les K candidates sont toutes non sûres, le système en exécute une sans aucun avertissement. BOKBO s'interpose en amont pour garantir, sans hypothèse sur la distribution des données, un taux maximal de violations exécutées. Deux variantes sont proposées : une globale et une par tâche dite Mondrian, cette dernière étant plus robuste sur les tâches les plus difficiles. Évalué sur le benchmark LIBERO avec OpenVLA-OFT à un seuil de risque ε=0,05, le bound conditionnel CRC tient sur 86% des splits bootstrap, avec une couverture de 78% et un taux de réussite nette de 70%. La variante Mondrian-BOKBO relève la fraction minimale de tenue conditionnelle par tâche de 0,71 à 0,93, sur 5 graines d'entraînement. Le résultat le plus saillant n'est pas la méthode elle-même mais l'échec structurel qu'elle expose. Les scores de non-conformité internes aux politiques VLA, utilisés comme proxies de sécurité dans les approches existantes, corrèlent à 0,98 avec l'hyperparamètre de bruit d'action σ, et pratiquement pas avec les violations réelles. Autrement dit, les filtres de sécurité actuels mesurent un réglage de bruit, non un risque réel. Pour les intégrateurs industriels et les équipes d'homologation, c'est un signal d'alarme : les garanties de sécurité des pipelines VLA déployés en production reposent peut-être sur un proxy invalide. Les auteurs montrent que l'échec est partiellement atténué avec un sampling stochastique au niveau des tokens plutôt que perturbation-based, mais le problème reste mécanisme-spécifique. Ils corrigent aussi un biais méthodologique courant : des seuils de force fixés globalement bien en dessous des forces typiques d'un expert humain gonflent artificiellement les taux de violation jusqu'à un facteur 5. Sur le plan du contexte, les VLA comme OpenVLA-OFT et π₀-FAST, testés tous deux dans l'étude, incarnent la convergence entre foundation models et contrôle robotique temps réel. Le benchmark LIBERO, utilisé comme terrain d'évaluation, est devenu une référence dans l'espace manipulation. BOKBO s'inscrit dans la théorie de la prédiction conforme, appliquée ici pour la première fois à l'abstention calibrée dans ce contexte. Les prochaines étapes logiques seraient une validation sur des environnements réels et des tâches hors distribution plus sévères, LIBERO restant un benchmark simulé aux distributions relativement contrôlées. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade.

UELes équipes d'homologation et intégrateurs industriels européens déployant des pipelines VLA en production devraient auditer leurs mécanismes de sécurité : cette étude montre que les scores de non-conformité utilisés comme proxies de sécurité mesurent un réglage de bruit, pas un risque réel.

RechercheActu
1 source
HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action
147arXiv cs.RO 

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion
1 source
AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement
148arXiv cs.RO 

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

Des chercheurs ont publié sur arXiv (référence 2604.10432v3) un framework baptisé AnySlot, conçu pour permettre à des politiques de contrôle robotique de type Vision-Language-Action (VLA) de placer des objets avec précision dans des emplacements discrets, dits "slots", à partir d'instructions en langage naturel. L'approche introduit un objectif visuel intermédiaire : plutôt que de passer directement de la commande textuelle au mouvement moteur, le système génère d'abord un marqueur spatial rendu sur l'image, indiquant l'emplacement cible exact, puis confie l'exécution à une politique VLA conditionnée par ce but visuel. Cette architecture hiérarchique découple la compréhension sémantique de l'instruction et la précision géométrique de l'exécution. Les auteurs introduisent également SlotBench, un benchmark de simulation structuré autour de neuf catégories de tâches, destiné à évaluer le raisonnement spatial dans des scénarios de placement à l'échelle centimétrique. Les expériences montrent qu'AnySlot surpasse les baselines VLA plates et les méthodes de grounding modulaire en conditions zero-shot. Ce travail s'attaque à l'un des verrous les plus concrets des VLA généralistes : la précision de placement sous contraintes compositionnelles. Les politiques end-to-end peinent à combiner compréhension du langage et précision millimétrique, ce qui freine leur utilisation dans des applications industrielles comme l'assemblage, le tri ou la mise en casier. L'introduction d'un "but visuel" explicite comme couche intermédiaire est une réponse architecturale directe au gap sémantique-géométrique, et les résultats zero-shot suggèrent une meilleure généralisation que les approches purement end-to-end ou modulaires. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire le coût de spécification des tâches de placement sans sacrifier la fiabilité. Le contexte est celui d'une intense activité autour des VLA depuis les travaux fondateurs de RT-2 (Google DeepMind, 2023) et des politiques récentes comme pi0 de Physical Intelligence ou OpenVLA. La difficulté du slot-level placement restait un angle mort de ces approches, qui performent mieux sur des tâches de saisie que de dépose précise. AnySlot ne provient pas d'un labo académique nommé explicitement dans l'abstract, et les résultats sont pour l'instant limités à la simulation via SlotBench, sans validation sur robot réel publiée. Les prochaines étapes naturelles seraient des expériences physiques et une comparaison avec des systèmes comme RoboPoint ou SpatialVLA, qui explorent des approches proches du grounding spatial. Ce preprint restera à suivre avant toute intégration industrielle.

IA physiqueOpinion
1 source
TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques
149arXiv cs.RO 

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Des chercheurs de l'UCLA Mobility Lab ont publié fin février 2026 TIC-VLA (Think-in-Control VLA), un framework de contrôle robotique qui adresse explicitement le décalage temporel entre raisonnement sémantique et action en temps réel. Le modèle introduit une interface "delayed semantic-control" : au lieu de supposer que la sortie du module vision-langage est synchrone avec l'action motrice, TIC-VLA conditionne la génération d'action sur des états sémantiques retardés et sur des métadonnées de latence explicites, en plus des observations courantes. Le pipeline d'entraînement, dit "latency-consistent", injecte des délais de raisonnement réels pendant l'apprentissage par imitation et le reinforcement learning en ligne, alignant ainsi les conditions d'entraînement sur celles du déploiement. Pour l'évaluation, l'équipe présente également DynaNav, une suite de simulation physiquement précise et photoréaliste dédiée à la navigation guidée par langage naturel dans des environnements avec présence humaine. Les expériences couvrent à la fois la simulation et un robot réel, avec des latences de raisonnement pouvant dépasser plusieurs secondes. L'enjeu sous-jacent est structural dans le champ des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures dérivées de RT-2 supposent implicitement que l'inférence sémantique et le contrôle moteur sont cadencés de manière cohérente. En pratique, les LLM embarqués dans ces architectures introduisent des délais incompressibles de 0,5 à plusieurs secondes, incompatibles avec une boucle de contrôle à 10-20 Hz dans un environnement dynamique. TIC-VLA propose une solution au niveau de l'architecture plutôt qu'au niveau matériel, ce qui est potentiellement plus portable. Les résultats annoncés indiquent une surperformance systématique par rapport aux VLA antérieurs tout en maintenant un contrôle robuste sous latence. Il faut toutefois noter que les benchmarks proviennent en grande partie de DynaNav, un environnement simulé développé par les auteurs eux-mêmes, ce qui appelle une validation indépendante. La problématique de l'asynchronisme VLA n'est pas nouvelle : des travaux comme GROOT ou des approches à architecture duale (slow planner / fast controller) cherchent à séparer les horizons temporels. TIC-VLA se distingue en modélisant la latence comme un paramètre de condition plutôt qu'en la masquant par une architecture hiérarchique. Le projet est porté par le groupe UCLA Mobility Lab, connu pour ses travaux sur la navigation autonome urbaine. La page projet est accessible, mais aucune annonce de déploiement industriel ou de partenariat commercial n'est mentionnée pour l'instant. Les prochaines étapes naturelles seraient une évaluation sur des plateformes standardisées comme le benchmark Open-X Embodiment, et une confrontation avec des architectures concurrentes sur des tâches de manipulation en environnement mixte homme-robot.

IA physiqueOpinion
1 source
Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA
150arXiv cs.RO 

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA

Une équipe de chercheurs propose Hide-and-Seek (arXiv 2605.30834), un cadre de surveillance en temps réel des modèles VLA (Vision-Language-Action). Ces modèles permettent aux robots d'exécuter des instructions en langage naturel sur des tâches variées, mais ils restent sujets à des défaillances en cours d'exécution difficiles à intercepter. Hide-and-Seek reformule la détection de ces échecs comme un problème d'apprentissage supervisé à granularité grossière : en combinant des objectifs contrastifs inter-trajectoires et intra-trajectoires, il localise les actions responsables d'un échec à partir de labels de trajectoire uniquement, sans annotation pas-à-pas. La méthode a été évaluée sur les benchmarks LIBERO et VLABench ainsi que sur une plateforme robotique réelle, avec trois politiques VLA représentatives : OpenVLA, π₀ et π₀.₅ de Physical Intelligence. Pour les intégrateurs de robots pilotés par VLA, la détection fiable des défaillances en exécution est un prérequis non résolu pour tout déploiement industriel. Les approches existantes ont deux limitations majeures : le rééchantillonnage des actions est trop coûteux en calcul pour la production, et la propagation uniforme de labels de trajectoire à chaque pas de temps efface les signaux d'échec localisés dans le temps. Hide-and-Seek contourne cela en induisant des signaux temporellement structurés sans annotation fine, réduisant le coût d'étiquetage des données d'entraînement. Sous prédiction conforme (conformal prediction, qui offre des garanties statistiques sur le taux de faux positifs), la méthode atteint l'état de l'art en détection multi-tâche avec un compromis praticable entre précision et réactivité, et généralise à des tâches non vues à l'entraînement. Ce travail s'inscrit dans la montée en puissance des VLA depuis 2023-2024, portée par OpenVLA (UC Berkeley), la famille π₀/π₀.₅ de Physical Intelligence et RT-2 de Google DeepMind, et dans la question plus large du "demo-to-deployment gap". À mesure que ces modèles migrent des labos vers les lignes de production, un mécanisme de monitoring devient aussi critique que le modèle lui-même. Les benchmarks académiques utilisés facilitent les comparaisons avec les travaux concurrents, mais ne préjugent pas des performances en environnement industriel réel. La prochaine étape logique est l'intégration de Hide-and-Seek comme couche de supervision dans des pipelines de manipulation ou de déploiement humanoïde, où un échec non détecté peut engendrer des dommages matériels ou des arrêts de ligne coûteux.

IA physiqueOpinion
1 source