Aller au contenu principal
IA physiquearXiv cs.RO2h

OneVLA : un cadre unifié pour les tâches d'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié fin mai 2026 sur arXiv (référence 2606.01241) un modèle baptisé OneVLA, présenté comme une architecture unifiée Vision-Langage-Action (VLA) capable de gérer à la fois la navigation autonome et la manipulation d'objets au sein d'un seul et même réseau. Le principe central repose sur une tête d'action commune qui génère des commandes de déplacement et des gestes de manipulation sans module séparé ni variante spécialisée selon la tâche. L'entraînement suit une stratégie progressive en plusieurs étapes, avec construction de jeux de données curés et un fine-tuning par Chain-of-Thought (CoT) visant à créer un transfert positif entre les deux domaines. Les expériences rapportées couvrent des environnements simulés et réels, et les auteurs affirment surpasser les modèles spécialisés à tâche unique ainsi que les approches cross-task existantes. Le code source et les poids du modèle sont annoncés comme devant être rendus publics, sans date précisée.

L'enjeu est structurel pour le secteur : la quasi-totalité des VLA actuellement déployés ou publiés restent monolithiques par domaine. Pi-0 de Physical Intelligence excelle en manipulation dextère, GR00T N2 de NVIDIA intègre des capacités de navigation mais avec des têtes d'action distinctes, et la plupart des agents issus des travaux RT-X ou OpenVLA ne combinent pas les deux modalités de façon cohérente. Un modèle qui transfère positivement entre navigation et manipulation éviterait aux équipes d'intégration de maintenir deux pipelines d'inférence séparés, un coût opérationnel significatif en production. Le CoT appliqué à la planification motrice est également notable : il indique que le raisonnement symbolique peut renforcer la généralisation comportementale, une hypothèse jusqu'ici difficile à valider à l'échelle réelle.

Ce travail s'inscrit dans une tendance de fond amorcée depuis 2024 vers les architectures dites "fondation" pour la robotique généraliste. Les limitations à signaler : il s'agit d'un preprint sans revue par les pairs, les benchmarks précis de performance (taux de succès par scénario, temps de cycle, conditions d'éclairage ou de charge) ne sont pas détaillés dans l'abstract, et aucune institution commerciale ni déploiement industriel n'est mentionné. Les prochaines étapes naturelles seraient la publication du code pour permettre une évaluation indépendante, ainsi qu'une validation sur plateformes humanoïdes réelles, là où la fusion navigation-manipulation est la plus critique pour des cas d'usage entrepôt ou logistique.

À lire aussi

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée
1arXiv cs.RO 

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Des chercheurs ont publié sur arXiv (arXiv:2604.16903) un framework de collecte de données pour robots embodied basé sur Unity, qui exploite la réalité virtuelle et les mécaniques de jeu vidéo pour contourner le goulet d'étranglement majeur du domaine : obtenir des démonstrations humaines en quantité suffisante. Le système combine génération procédurale de scènes, téléopération d'un robot humanoïde en VR, évaluation automatique des tâches et journalisation de trajectoires. Un prototype concret a été développé et validé : une tâche de pick-and-place de déchets, dans laquelle l'opérateur incarne le robot via un casque VR pour saisir et trier des objets dans des environnements générés aléatoirement. Les résultats expérimentaux montrent que les démonstrations collectées couvrent largement l'espace état-action, et que l'augmentation de la difficulté de la tâche entraîne une intensité de mouvement plus élevée ainsi qu'une exploration plus étendue de l'espace de travail du bras. Ce travail s'attaque à un problème structurel de l'intelligence embodied : les interfaces de téléopération classiques (manettes, bras maître-esclave, exosquelettes) sont coûteuses, peu accessibles et difficiles à déployer à grande échelle. En gamifiant la collecte, le framework ouvre la possibilité de recruter des opérateurs non spécialisés via des interfaces VR grand public, réduisant potentiellement le coût marginal par démonstration. La couverture large de l'espace état-action est un signal positif pour l'entraînement de politiques robustes, notamment les VLA (Vision-Language-Action models) qui dépendent de la diversité des trajectoires. Il faut toutefois nuancer : le prototype reste une tâche simple (ramassage d'objet), et les auteurs ne fournissent pas de métriques de transfert vers un robot physique réel, la question du sim-to-real gap reste entière. Ce type d'approche s'inscrit dans une tendance plus large de recours aux environnements synthétiques pour l'entraînement robotique, portée notamment par Physical Intelligence (pi0), Google DeepMind (RoboVQA, RT-2) et NVIDIA (GROOT). La génération procédurale de scènes est également au coeur des pipelines de simulation massive comme IsaacLab. L'originalité ici est l'angle "jeu vidéo" assumé, qui rapproche la collecte de données des méthodes de crowdsourcing humain utilisées en NLP. Les prochaines étapes naturelles seraient un benchmark sur robot physique, une extension à des tâches bimanuelle, et une évaluation de la qualité des politiques entraînées sur ces données face à des baselines téléopérées classiques.

IA physiqueActu
1 source
Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action
2arXiv cs.RO 

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

Une équipe de recherche a publié Pelican-Unified 1.0 (arXiv 2605.15153), un modèle de fondation incarné qui intègre dans un seul checkpoint quatre capacités habituellement confiées à des modules distincts : compréhension visuelle, raisonnement, imagination et génération d'actions robotiques. L'architecture repose sur un unique VLM (Vision-Language Model) qui encode scènes, instructions et historiques d'actions dans un espace sémantique partagé. Ce même VLM génère en un seul forward pass des chaînes de pensée orientées tâche, projetées dans une variable latente dense. Un module baptisé Unified Future Generator (UFG) conditionne ensuite sur cette latente pour produire simultanément vidéos futures et séquences d'actions via deux têtes de sortie dans le même processus de débruitage (denoising). Les performances annoncées : 64,7 sur huit benchmarks VLM standards (meilleur parmi les modèles de taille comparable), 66,03 sur WorldArena (premier rang) et 93,5 sur RoboTwin (deuxième meilleure moyenne parmi les méthodes comparées). L'article est déposé en preprint, sans validation par les pairs à ce stade. L'enjeu architectural est direct : les systèmes robotiques avancés actuels reposent quasi universellement sur des experts spécialisés distincts pour percevoir, raisonner, planifier et exécuter. Ce papier cherche à démontrer qu'un modèle unique, optimisé conjointement sur des pertes de langage, vidéo et action, peut égaler ces spécialistes sans compromis de performance. Si ces résultats se confirment hors simulation, l'impact pour les intégrateurs est double : un seul checkpoint à maintenir et une meilleure généralisation inter-tâches. Le couplage imagination-action dans le même processus de débruitage rappelle l'approche de Physical Intelligence avec Pi-0.5, mais l'intégration du raisonnement textuel dans la même passe constitue un degré d'unification plus poussé. Le score sur RoboTwin reste néanmoins un indicateur sim-to-real à valider en conditions réelles. La course aux modèles VLA (Vision-Language-Action) s'est accélérée en 2024-2025 avec Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA, et les modèles RT-X de Google DeepMind, chacun maintenant des composants partiellement séparés pour la planification et la génération motrice. Pelican-Unified 1.0 se positionne comme une alternative radicalement unifiée, mais reste au stade académique : aucun déploiement, aucun partenariat industriel annoncé, et l'équipe auteure n'est pas identifiée dans le résumé public, ce qui limite l'évaluation de la crédibilité institutionnelle. La revendication de "premier modèle unifié" mérite d'être nuancée, plusieurs architectures combinant déjà compréhension et action. Les prochaines étapes naturelles passent par une validation sur des benchmarks en conditions réelles et une soumission à CoRL ou ICRA.

IA physiqueOpinion
1 source
IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA
3arXiv cs.RO 

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Une équipe de chercheurs a publié le 1er mai 2026 (arXiv:2605.00321) un travail introduisant deux outils de diagnostic pour les politiques de type Vision-Langage-Action (VLA) : l'Interventional Significance Score (ISS) et le Nuisance Mass Ratio (NMR). L'ISS est une procédure de masquage interventionnel qui estime l'influence causale de régions visuelles spécifiques sur les prédictions d'action d'un agent robotique. Le NMR est une métrique scalaire qui quantifie dans quelle mesure un modèle s'appuie sur des caractéristiques visuelles non pertinentes pour la tâche plutôt que sur des causes réelles. La méthode reformule l'attribution visuelle comme un problème d'estimation interventionnelle, au sens de la causalité de Pearl, et non comme une simple corrélation statistique. Des expériences sur des tâches de manipulation variées confirment que le NMR prédit le comportement de généralisation, et que l'ISS produit des attributions plus fidèles que les méthodes d'interprétabilité existantes. À noter : le preprint ne publie ni code ni benchmark public, et les métriques de performance sur tâches spécifiques restent peu détaillées dans l'abstract. L'enjeu est direct pour les intégrateurs et les décideurs industriels : les modèles VLA actuellement déployés, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Sanctuary AI, échouent régulièrement hors de leur distribution d'entraînement. Jusqu'ici, identifier pourquoi restait largement empirique. ISS et NMR offrent un test diagnostique pré-déploiement : un NMR élevé signale que le modèle prend ses décisions sur la base de corrélations visuelles parasites (couleur de fond, éclairage, texture du sol) plutôt que sur la structure causale de la tâche. C'est une avancée concrète vers l'analyse formelle du sim-to-real gap, l'un des verrous les plus cités par les équipes d'intégration robotique industrielle, et cela ouvre la voie à des critères de certification hors-distribution avant mise en production. Le problème de l'interprétabilité des politiques robotiques apprises restait largement ouvert. Les méthodes existantes, cartes de saillance par gradient ou rollout d'attention, reposent sur des observations corrélationnelles et ont tendance à surestimer l'importance de features visuelles non causales. Ce travail se positionne explicitement contre ces approches en adoptant un cadre interventionnel rigoureux. Aucune affiliation institutionnelle n'est mentionnée dans le preprint. Les suites naturelles incluent l'application systématique de ces métriques sur des architectures établies comme OpenVLA, Octo ou RoboVLMs, et potentiellement leur intégration comme signal de régularisation pendant l'entraînement. Le papier arrive au moment où Figure AI, 1X Technologies et Agility Robotics intensifient leurs déploiements en environnements industriels réels, rendant la robustesse hors-distribution critique pour la crédibilité commerciale du secteur.

UECes outils de diagnostic pourraient aider les intégrateurs industriels européens à évaluer la robustesse hors-distribution des modèles VLA avant déploiement, et à terme nourrir des critères de certification conformes à l'AI Act.

IA physiquePaper
1 source
Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots
4arXiv cs.RO 

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Des chercheurs ont publié sur arXiv (2510.03599v2) un cadre unifié d'apprentissage de politiques pour la locomotion et la manipulation robotique multi-tâches, fondé sur une représentation dite "contact-explicite". Le principe central consiste à définir chaque tâche non pas par des trajectoires articulaires spécifiques, mais par une séquence d'objectifs de contact: positions de contact souhaitées, timings, et effecteurs actifs. Une politique unique, entraînée par apprentissage par renforcement (RL) conditionné aux objectifs, prend ces plans de contact en entrée et les exécute. Le framework a été validé sur plusieurs morphologies robotiques: un quadrupède exécutant différentes allures (trot, galop, etc.), un humanoïde réalisant des locomotions bipèdes et quadrupèdes, et ce même humanoïde effectuant des tâches de manipulation bimanuelles d'objets. Dans les trois cas, une seule politique gère l'ensemble des comportements. L'intérêt industriel est direct: l'approche contact-explicite améliore significativement la généralisation à des scénarios non vus pendant l'entraînement, ce qui s'attaque frontalement au "sim-to-real gap" qui pénalise la plupart des politiques entraînées en simulation. Pour un intégrateur ou un OEM robotique, cela signifie moins de politiques spécialisées à maintenir, moins de re-training à chaque variante de tâche, et une architecture potentiellement plus robuste aux variations de terrain ou d'objet. Le fait qu'une seule politique puisse couvrir à la fois locomotion et manipulation (loco-manipulation) dans un cadre commun réduit également la complexité d'orchestration en production. Les résultats présentés semblent solides en simulation, mais les auteurs n'annoncent pas de déploiement physique à l'échelle, ce qui invite à distinguer démonstration de recherche et produit shipé. Les approches classiques traitent locomotion et manipulation comme deux sous-problèmes séparés, avec des planificateurs et des politiques dédiées. L'espace des politiques générales est aujourd'hui dominé par des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui s'appuient sur de larges datasets visuels et du transfert de fondation. La contribution ici prend le parti inverse: une représentation géométrique structurée des contacts, plus frugale en données mais plus contrainte en hypothèses. Dans le domaine de la locomotion quadrupède unifiée, les groupes de l'ETH Zurich (ANYmal), de CMU et de Berkeley restent les références. La suite logique de ces travaux serait d'interfacer la planification de contacts avec un module de compréhension du langage naturel, pour permettre des instructions de haut niveau, une direction déjà explorée par plusieurs laboratoires académiques et startups de la robotique incarnée.

IA physiquePaper
1 source