Guava : un cadre efficace et universel pour la…

Pyramide de données pour la manipulation incarnée

49

1arXiv cs.RO

Pyramide de données pour la manipulation incarnée

Une équipe de recherche publie sur arXiv (2607.24744) une revue structurant l'écosystème des données pour l'apprentissage robotique en une "pyramide" à cinq niveaux : données réelles issues de robots physiques, données de type UMI (capture de démonstrations humaines avec interface portable), vidéos égocentriques et exocentriques, données de simulation, et données vision-langage générales issues du web. Les auteurs organisent cette pyramide autour d'un compromis central entre scalabilité et alignement robotique, et évaluent chaque source selon quatre critères : qualité, diversité, réutilisabilité et fidélité physique. Ils passent ensuite en revue les modèles fondation récents pour la robotique, qu'il s'agisse de modèles de "cerveau" incarné, de modèles vision-langage-action (VLA) ou de modèles monde-action, en analysant comment chacun sélectionne, aligne et mélange ces différentes sources lors du pré-entraînement, et comment ce choix conditionne leurs capacités de perception, de raisonnement, de planification et de prédiction. Cette cartographie répond à un problème identifié depuis plusieurs années dans le secteur : contrairement aux modèles de langage ou de vision, qui s'entraînent sur la quasi-totalité du contenu textuel et visuel disponible sur internet, les agents incarnés ne peuvent pas se contenter de données passives puisqu'ils doivent apprendre le couplage entre observation, état physique et action. C'est ce goulot d'étranglement qui explique pourquoi des modèles comme Pi-0, GR00T N2 ou Helix combinent systématiquement plusieurs sources de données plutôt qu'une seule, et pourquoi des plateformes comme Figure 03 ou Optimus Gen 3 misent autant sur la collecte de données réelles en usine que sur la simulation. Les auteurs terminent par six chantiers non résolus : constituer des jeux de données tactiles à grande échelle, capturer des séquences d'échec et de récupération, développer des pipelines de collecte scalables, aligner les actions entre différentes morphologies de robots, exploiter les données égocentriques pour la manipulation dextre, et concevoir des recettes de données principielles plutôt qu'empiriques, autant de points de friction qui continuent de freiner le passage de la démonstration au déploiement industriel fiable.

RecherchePaper

1 source

MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée

38

2arXiv cs.RO

MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée

Une équipe de chercheurs a publié MALLVI (Multi-Agent Large Language and Vision Interface), un framework d'orchestration multi-agents pour la manipulation robotique généraliste, dont la cinquième révision vient d'être déposée sur arXiv (2602.16898). Le système prend en entrée une instruction en langage naturel et une image de la scène, puis génère des actions atomiques exécutables pour un bras manipulateur. L'architecture coordonne quatre agents spécialisés: un Decomposer chargé de découper la tâche en sous-étapes, un Localizer pour la détection et la localisation visuelle, un Thinker pour le raisonnement et la planification de haut niveau, et un Reflector dédié à la détection d'erreurs et à la récupération ciblée. Un cinquième agent optionnel, le Descriptor, maintient une mémoire visuelle de l'état initial de l'environnement. La boucle fermée est pilotée par un modèle de vision-langage (VLM) qui évalue les retours environnementaux après chaque action et décide si l'étape doit être rejouée ou si le robot peut passer à la suivante. Les expériences en simulation et en environnement réel indiquent des gains de taux de réussite sur des tâches de manipulation zero-shot par rapport aux approches classiques en boucle ouverte. Ce que MALLVI cherche à résoudre est un problème structurel bien documenté de la manipulation pilotée par LLM: les systèmes open-loop, qui n'interrogent pas l'état réel du monde après chaque action, accumulent les erreurs sans possibilité de correction en cours d'exécution. L'apport du Reflector est notable sur ce point, puisque plutôt que de déclencher une replanification complète en cas d'échec, il identifie les agents pertinents à réactiver, limitant la latence et la consommation de tokens. Pour les intégrateurs et les équipes R&D, l'intérêt réside dans la capacité zero-shot du système, sans fine-tuning ni prompt engineering spécifique à chaque tâche. Toutefois, les métriques de taux de succès restent difficiles à contextualiser faute d'indications précises sur le nombre de DOF du bras utilisé, la complexité des scènes de test, ou les conditions d'occultation. Le framework s'inscrit dans un courant très actif depuis 2023 autour de l'utilisation des grands modèles pour la planification robotique, avec des travaux fondateurs comme SayCan (Google DeepMind) et Code-as-Policies, et des architectures VLA (Vision-Language-Action) récentes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La spécificité de MALLVI est son découpage en agents modulaires plutôt qu'un modèle monolithique, une approche qui facilite le débogage et la spécialisation par composant. Le code source est disponible publiquement sur GitHub (iman1234ahmadi/MALLVI). Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade, ce qui en fait pour l'instant une contribution académique à suivre davantage qu'un produit opérationnel.

RechercheOpinion

1 source

DexVerse : un référentiel modulaire pour la manipulation dextre multi-tâche et multi-incarnation

42

3arXiv cs.RO

DexVerse : un référentiel modulaire pour la manipulation dextre multi-tâche et multi-incarnation

Un consortium de chercheurs présente DexVerse, un benchmark modulaire à grande échelle pour la manipulation dextre multi-tâches et multi-embodiments. L'ensemble couvre 100 tâches réparties sur des compétences variées : saisie et déplacement d'objets, interaction avec des objets articulés, usage fonctionnel d'outils, coordination bimanuelle, contrôle non préhensile, comportements riches en contact, exécution multi-objectifs et tâches longues à plusieurs étapes. Le système prend en charge 3 bras robotiques et 6 mains dextres différentes, et reste extensible à de nouvelles tâches, de nouveaux actifs et de nouveaux embodiments. Pour tester la généralisation visuomotrice, DexVerse propose des variations visuelles paramétrables (textures, arrière-plans, éclairage, points de vue caméra). Les auteurs fournissent aussi une interface de téléopération en réalité virtuelle ainsi que 3 180 démonstrations avec observations synchronisées : données proprioceptives, images RGB, profondeur, nuages de points et états. Quatre méthodes représentatives ont été évaluées sur 19 tâches : Diffusion Policy, DP3, OpenVLA et π0.5. Les résultats révèlent des difficultés importantes de généralisation entre tâches et de robustesse visuomotrice, même pour ces politiques d'apprentissage jugées à la pointe. Pour l'industrie robotique, ce constat vient nuancer l'enthousiasme actuel autour des modèles VLA (vision-langage-action) présentés comme des solutions généralistes prêtes à l'échelle : DexVerse montre que la performance chute nettement dès que les conditions visuelles ou la nature de la tâche s'écartent du contexte d'entraînement. C'est un signal utile pour les intégrateurs et décideurs B2B qui évaluent des politiques de manipulation dextre avant déploiement industriel : la démonstration en laboratoire ne garantit pas la robustesse en conditions réelles variables. DexVerse s'inscrit dans une lignée de benchmarks robotiques cherchant à dépasser les évaluations sur tâche isolée, un manque identifié dans les jeux d'essai existants, limités en diversité de tâches, de couverture d'embodiments ou de variation visuelle contrôlable. En couvrant simultanément plusieurs bras, plusieurs mains et un large éventail de conditions, il se positionne comme un terrain d'essai de référence pour comparer des approches comme Diffusion Policy ou les modèles de la famille π face à des architectures VLA telles qu'OpenVLA. La page du projet est disponible à l'adresse ycyao216.github.io/DexVerse.site, laissant présager de futures évaluations élargies et l'ajout d'autres méthodes et tâches.

RecherchePaper

1 source

Cortex : un cadre d'agent incarné à alignement bidirectionnel pour la manipulation à long horizon

37

4arXiv cs.RO

Cortex : un cadre d'agent incarné à alignement bidirectionnel pour la manipulation à long horizon

Cortex, présenté dans un article arXiv publié début juillet 2026 (arXiv:2607.05377), est un nouveau framework d'agent incarné destiné aux tâches de manipulation robotique à long horizon. Le problème qu'il cible: les modèles Vision-Language-Action (VLA) actuels, de par leur nature markovienne, ne s'appuient que sur l'observation courante et peinent sur les séquences longues, tandis que les approches hiérarchiques à double système existantes souffrent d'un décalage entre la sémantique du planning haut niveau et la cinématique d'exécution bas niveau. Cortex introduit une interface de planification qui traduit les plans du VLM haut niveau en sous-tâches exécutables pour le VLA bas niveau, en standardisant les manipulations en 32 primitives de compétences canoniques. Les chercheurs ont ainsi pu annoter automatiquement plus de 4 000 heures de vidéos open-source et générer 30 heures de données de simulation, avec une stratégie d'échantillonnage équilibré par événements pour affiner l'entraînement sur les transitions ambiguës entre sous-tâches. Sur le plan des résultats, Cortex dépasse les baselines monolithiques de 3,1% sur le benchmark Libero-long et de 4,1% sur RoboTwin, en évaluation à la fois open-loop (VLM) et closed-loop (système complet). Plus notable pour l'industrie: le VLM généraliste de Cortex permet de réaliser en zero-shot des tâches réelles inédites à long horizon, comme des expériences de chimie en plusieurs étapes, simplement en le couplant à un VLA fine-tuné, une capacité que le fine-tuning d'un VLA seul n'atteint pas. Cela suggère qu'une architecture correctement pontée entre planification et exécution peut combler l'écart simulation-réel mieux qu'un unique modèle monolithique, un argument qui intéresse directement les intégrateurs cherchant à généraliser au-delà des tâches d'entraînement. Ce travail s'inscrit dans la lignée des architectures duales explorées par des modèles comme Pi-0, GR00T N2 ou Helix, qui tentent chacun de résoudre la même tension entre raisonnement sémantique et contrôle moteur. Cortex reste à ce stade une contribution de recherche évaluée sur benchmarks académiques et non un système déployé en production, mais son approche par primitives standardisées et annotation automatique à grande échelle pourrait influencer la prochaine génération de frameworks d'agents robotiques génécralistes.

RechercheActu

1 source

Guava : un cadre efficace et universel pour la manipulation incarnée

À lire aussi

Pyramide de données pour la manipulation incarnée

MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée

DexVerse : un référentiel modulaire pour la manipulation dextre multi-tâche et multi-incarnation

Cortex : un cadre d'agent incarné à alignement bidirectionnel pour la manipulation à long horizon