Aller au contenu principal
AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique
IA physiquearXiv cs.RO6sem

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose AttenA+, un framework d'entraînement pour modèles de fondation robotiques publié sur arXiv (2605.13548) en mai 2026. Le constat de départ est simple : les modèles Vision-Language-Action (VLA) et World-Action Models (WAM) actuels héritent du paradigme d'entraînement des LLMs, qui traite chaque token -- ici chaque action -- avec le même poids dans la fonction de perte. Or une trajectoire de manipulation robotique n'est pas homogène : les segments à faible vitesse (préhension précise, insertion, contact fin) conditionnent le succès de la tâche, tandis que les phases à haute vitesse (transitions entre positions) tolèrent l'erreur. AttenA+ corrige ce déséquilibre en repondérant dynamiquement la loss d'entraînement via un champ de vitesse inverse, sans modifier l'architecture ni ajouter de paramètres. Sur le benchmark Libero, le modèle OpenVLA-OFT passe de 97,1 % à 98,6 % (+1,5 points) ; FastWAM atteint 92,4 % sur RoboTwin 2.0 (+0,6 points). Des validations sur bras Franka en conditions réelles confirment la généralisation inter-tâches.

L'enjeu dépasse les chiffres de benchmark. Le domaine robotique investit massivement dans le scaling -- plus de données, plus de paramètres, plus de compute -- comme levier principal de performance. AttenA+ suggère qu'une partie du plafond actuel des VLA n'est pas liée à la taille du modèle mais à un biais structurel d'optimisation, ignorant la physique de la manipulation. Pour un intégrateur ou un équipementier qui déploie des bras dans des lignes d'assemblage, cela signifie potentiellement de meilleures performances sur des gestes précis (vissage, pick-and-place serré) sans coût de réentraînement supplémentaire -- le framework se greffe sur les backbones existants en plug-and-play.

Les VLA ont connu une accélération notable depuis pi0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), mais la majorité des gains publiés reposaient sur l'augmentation de données ou de paramètres. AttenA+ s'inscrit dans une tendance émergente : exploiter les priors structurels des séquences d'action plutôt que brute-forcer le scaling. Les benchmarks utilisés -- Libero et RoboTwin 2.0 -- restent des environnements simulés, et l'expérimentation Franka décrite dans le papier est limitée. La robustesse à des environnements industriels moins contrôlés reste à démontrer. Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans ce preprint académique.

À lire aussi

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques
1Robotics Business Review 

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

La startup sud-coréenne RLWRLD a présenté la semaine dernière RLDX-1, un modèle de fondation conçu spécifiquement pour les mains robotiques à haut nombre de degrés de liberté (DoF). L'architecture multi-flux couvre les configurations single-arm, dual-arm et humanoïde, et intègre l'ensemble du cycle robotique : collecte de données, entraînement et déploiement. RLWRLD structure ses travaux autour d'un benchmark maison, DexBench, qui organise les défis industriels en cinq régimes de dextérité : diversité de préhension, précision spatiale, précision temporelle, précision de contact, et conscience du contexte. Pour chaque régime, un module dédié : un VLM (vision language model) fin-tuné sur des questions-réponses spatiales pour la localisation précise des contacts ; un module de mouvement extrayant des correspondances visuelles spatio-temporelles pour anticiper les objets en déplacement sur convoyeur ; un module physique qui traite couple et force tactile comme des flux séparés, permettant de prédire les transitions de contact avant qu'elles n'arrivent. Les données d'entraînement combinent téleopération synthétique et démonstrations humaines pour couvrir la manipulation en main (in-hand dexterity) inaccessible à la téléopération standard. L'enjeu est concret : les robots échouent encore sur des tâches en apparence banales comme verser du café depuis une cafetière qui s'allège, attraper un objet en mouvement sur un convoyeur, ou visser un écrou hexagonal avec des doigts. Ce "dernier kilomètre" de l'automatisation industrielle est précisément la cible de RLDX-1. L'architecture multi-flux, où chaque modalité (couple haute fréquence, frames vidéo, mémoire d'état) dispose de sa propre capacité gradient, répond à un problème réel d'optimisation : dans un transformer classique, la modalité dominante absorbe toute la capacité au détriment des autres. Cela dit, les affirmations de RLWRLD sur des performances "état de l'art" restent à valider indépendamment -- les vidéos de démonstration ne constituent pas des métriques de taux de succès en conditions industrielles réelles, et aucun cycle time chiffré n'est communiqué. RLWRLD s'inscrit dans une vague de startups cherchant à combler le fossé entre modèles d'action généralistes et déploiements industriels réels. Elle affronte des acteurs aux ressources bien supérieures : Physical Intelligence avec son modèle pi0 (fondée par d'anciens de Google et Stanford, 400 M$ levés en 2024), Figure AI avec son humanoïde Figure 03, ou encore Agility Robotics et 1X. En Europe, des acteurs comme Enchanted Tools (humanoïde Mirokaï) ou Wandercraft se positionnent sur la mobilité et l'assistance plutôt que sur la manipulation haute-dextérité, laissant ce créneau industriel quasi exclusivement aux acteurs américains et asiatiques. Aucun déploiement pilote chez un client industriel n'a été annoncé à ce stade par RLWRLD.

IA physiqueOpinion
1 source
Modèle d'action géométrique pour l'apprentissage de politiques robotiques
2arXiv cs.RO 

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Des chercheurs ont déposé le 16 juin 2026 sur arXiv (arXiv:2606.17046) le Geometric Action Model (GAM), une politique de manipulation robotique conditionnée par le langage naturel. L'architecture réutilise un modèle fondamental géométrique (GFM) pré-entraîné en le scindant en deux segments : les couches superficielles encodent les observations visuelles, tandis qu'un prédicteur causal inséré à la jonction génère des tokens latents futurs conditionnés sur les instructions textuelles, la proprioception et l'historique d'actions du robot. Les blocs restants du GFM décodent ensuite simultanément la géométrie future de la scène et les actions à exécuter via un backbone unique partagé. Sur une suite de benchmarks en simulation et sur robot réel incluant des tâches de manipulation en contact riche, GAM affiche selon ses auteurs une précision, une robustesse, une vitesse d'inférence et une compacité supérieures aux baselines VLA à large échelle actuellement en référence. Le problème central qu'adresse ce travail est le décalage entre les représentations 2D dominantes dans les VLA (vision-language-action models) et la nature tridimensionnelle des interactions physiques. Des systèmes comme Pi-0 et Pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) ou les modèles RT-X (Google DeepMind) opèrent principalement sur des espaces latents dérivés d'images 2D, ce qui les handicape pour les tâches de saisie précise, d'assemblage et de dépose sur surfaces contraintes. Ancrer la prédiction d'actions directement dans un espace géométrique 3D, avec une modification minimale du modèle fondamental sous-jacent, constitue le pari architectural de GAM. Si ces résultats résistent à une reproductibilité indépendante, ils valideraient l'hypothèse que des priors géométriques explicites améliorent la généralisation des politiques généralistes face au gap sim-to-real. Cette publication s'inscrit dans une course aux VLA généralistes lancée depuis RT-2 (Google DeepMind, 2023), où la majorité des acteurs industriels, dont Figure (Helix), Agility Robotics, 1X et Physical Intelligence, misent sur des transformers multimodaux sans encodage 3D explicite. En parallèle, plusieurs laboratoires académiques (Berkeley, Stanford, CMU) explorent l'intégration de représentations géométriques comme le Gaussian Splatting dans les politiques robotiques. GAM s'inscrit dans cette seconde tendance avec une proposition architecturale minimaliste. À ce stade, il s'agit d'un preprint arXiv non peer-reviewed, sans déploiement industriel ni partenariat hardware annoncé ; une validation sur des plateformes commerciales standards (UR, Franka) en dehors du laboratoire reste à démontrer.

IA physiqueOpinion
1 source
SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique
3arXiv cs.RO 

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
4TechNode 

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion
1 source