Aller au contenu principal

Dossier OpenVLA / RT-X — page 4

627 articles · page 4 sur 13

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur
151arXiv cs.RO RecherchePaper

Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur

Des chercheurs ont soumis mi-juin 2026 un article préliminaire (preprint arXiv 2606.20272) portant sur la génération de données d'entraînement synthétiques liées à des scènes réelles pour les systèmes de vision IA appliqués à la robotique cognitive. Le travail couvre plusieurs familles de méthodes : l'analyse sémantique d'environnement, l'estimation de pose 6D et l'estimation de pose de préhension (grasping pose estimation), deux capacités centrales pour permettre à un robot de localiser et saisir des objets dans des scènes non contrôlées. L'objectif déclaré est de réduire le fossé de domaine (domain gap) entre les environnements de simulation utilisés pour générer des données d'entraînement et les conditions du monde réel, en liant explicitement les deux lors de la phase de génération. Les auteurs présentent ce travail comme en cours ("work in progress") et ne publient pas encore de résultats quantitatifs ni de benchmarks comparatifs. Le domain gap est l'un des verrous techniques les plus structurants pour le déploiement industriel de robots perceptifs. Les modèles de vision entraînés uniquement sur des données synthétiques tendent à échouer en environnements réels à cause des variations d'éclairage, de texture et de géométrie non reproduites en simulation. Une approche qui ancre la génération synthétique dans des scènes réelles captées (par exemple via reconstruction 3D ou relevé de profondeur) pourrait réduire ce biais sans le coût prohibitif de l'annotation manuelle à grande échelle, un goulot d'étranglement bien documenté pour les pipelines de vision industrielle. Si cette méthode est validée à l'échelle, elle représente un levier de productivité concret pour les intégrateurs déployant des solutions de pick-and-place ou de navigation en environnements variés. Le sim-to-real transfer mobilise depuis plusieurs années les principaux acteurs du secteur : NVIDIA a structuré sa plateforme Isaac Sim précisément pour produire des données synthétiques photoréalistes à grande échelle, Google DeepMind y investit dans ses travaux sur les modèles Vision-Language-Action comme RT-2, et Physical Intelligence a publié des résultats notables sur la généralisation en environnements réels avec π0. L'article soumis s'inscrit dans ce courant, mais reste à un stade amont : aucune implémentation publiée, aucun code disponible, aucun jeu de données de référence cité. La version finale, si elle présente des résultats sur des benchmarks reconnus comme le BOP Challenge, YCB-V ou LINEMOD, sera plus déterminante pour évaluer la contribution réelle de cette approche.

1 source
SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente
152arXiv cs.RO 

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Une équipe de chercheurs a publié fin juin 2026 SC3-Eval (arXiv:2606.18610), un cadre d'évaluation des politiques de manipulation robotique basé sur la génération vidéo cohérente. Le principe : plutôt que de rouler une politique en conditions réelles, un modèle fondamental vidéo pré-entraîné simule les trajectoires du robot et prédit si la tâche aboutit. SC3-Eval repose sur trois mécanismes de cohérence complémentaires. La cohérence dynamique avant-inverse entraîne simultanément le modèle à prédire les images à partir des actions et à récupérer les actions à partir des images, ancrant les rollouts à un espace d'action physiquement plausible. La cohérence multi-vue oblige le modèle à reconstruire chaque caméra depuis les autres, maintenant la cohérence spatiale sur de longs épisodes. Enfin, à l'inférence, un signal d'incertitude par chunk d'actions interrompt les rollouts dont les images générées divergent des actions demandées. Évalué sur sept politiques vision-langage-action (VLA) réelles, SC3-Eval atteint une corrélation de Pearson de 0,929 avec les résultats terrain et un MMRV de 0,119, surpassant trois baselines vidéo existantes. Ce résultat a une portée pratique immédiate : évaluer une politique de manipulation en conditions réelles est coûteux, lent et difficile à paralléliser. Un corrélat simulé à 0,929 constitue un substitut crédible pour filtrer les candidats politiques avant déploiement physique, réduisant potentiellement les cycles d'itération de plusieurs semaines à quelques heures. Fait notable, SC3-Eval reproduit fidèlement les modes d'échec observés en réel, permettant un diagnostic fin au niveau tâche plutôt qu'un classement agrégé, ce qui est plus actionnable pour un intégrateur. Le cadre se généralise par ailleurs à des tâches hors distribution d'entraînement, un point critique pour les équipes qui développent des politiques généralistes. Ce travail s'inscrit dans la vague d'adoption des modèles VLA commerciaux et de recherche, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix, OpenVLA, dont l'évaluation standardisée reste un goulot d'étranglement reconnu. Les approches alternatives passent par des simulateurs physiques classiques (MuJoCo, Isaac Sim) ou des rollouts réels coûteux ; les world models vidéo comme UniSim ou IRASim avaient amorcé cette direction mais se heurtaient à la dérive autorégressiveet à l'incohérence multi-caméras que SC3-Eval adresse directement. Le code et les données ne sont pas encore publiés au moment de la préprint, ce qui limite l'adoption immédiate. La prochaine étape logique sera de valider la méthode sur des plateformes humanoïdes à plus haute dimensionnalité, où le coût d'évaluation réelle est encore plus prohibitif.

RechercheOpinion
1 source
L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines
153arXiv cs.RO 

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

Une équipe de chercheurs a publié un cadre d'entraînement basé sur des actions latentes permettant de former des modèles VLA (Vision-Language-Action) généralistes à partir de vidéos égocentriques humaines non annotées, sous l'identifiant arXiv:2606.18955. L'architecture centrale, baptisée Hybrid Disentangled VQ-VAE, décompose les dynamiques de mouvement des arrière-plans environnementaux via des masques physiques et construit un codebook d'actions multi-embodiment. Pré-entraîné exclusivement sur des vidéos humaines sans étiquettes d'action, le modèle ne requiert que 50 trajectoires robotiques annotées pour s'adapter à un embodiment cible, contre des milliers généralement exigés par les approches concurrentes. Les résultats, validés en simulation et en environnement réel, affichent des performances comparables aux meilleurs modèles VLA entraînés sur des jeux de données massifs et entièrement annotés. Une stratégie de découplage intention-perception complète l'architecture : le backbone VLM prédit l'intention d'action tandis qu'un encodeur visuel gelé distinct fournit les caractéristiques propres à l'état courant à un module expert d'action, réduisant ainsi les hallucinations d'action. Ce travail s'attaque directement au principal goulot d'étranglement du domaine : la rareté des données robotiques avec annotations de haute fidélité. Les vidéos humaines égocentriques, abondantes sur internet et capturant une grande diversité environnementale, restaient jusqu'ici inexploitables dans les paradigmes d'entraînement classiques faute de labels d'action. Descendre à 50 trajectoires pour l'adaptation aval représente un changement d'ordre de grandeur pour les intégrateurs industriels qui n'ont ni la logistique ni le budget pour constituer des datasets robotiques à grande échelle. Le codebook cross-embodiment ouvre en outre la voie à des modèles fondamentaux transférables entre différentes morphologies de robots, ce qui répond à l'un des reproches récurrents faits aux approches VLA : leur faible généralisation inter-plateforme. Le contexte concurrentiel est dense. Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA visent tous à former des modèles VLA généralistes, mais s'appuient principalement sur des datasets robotiques annotés comme OpenX-Embodiment ou des jeux propriétaires. Des travaux antérieurs comme UniSim ou des approches de pré-entraînement sur vidéo internet avaient déjà exploré cette direction sans atteindre ce niveau de frugalité en données. Ce preprint arXiv reste à ce stade une contribution de recherche : pas de déploiement industriel annoncé, pas de partenariat déclaré. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une validation sur une palette plus large de morphologies robotiques réelles.

RechercheOpinion
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
154arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA
155arXiv cs.RO 

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

Pré-publiée sur arXiv en juin 2026 (identifiant 2606.17200), ACE-EGO-0 est un cadre de pretraining pour modèles Vision-Langage-Action (VLA) qui exploite conjointement 4 530 heures de données robotiques et de simulation, et 1 480 heures de vidéos égocentrées humaines converties en pseudo-trajectoires robot. Le pipeline automatise la transformation de vidéos à la première personne en séquences d'actions au format démonstration téléopérée, en représentant les mouvements dans l'espace caméra plutôt que dans un référentiel corporel. Pour atténuer le bruit inhérent à ces pseudo-labels, un objectif d'entraînement reliability-aware concentre la supervision sur les segments les plus fiables via une perte auxiliaire dédiée. Évalué sur RoboCasa GR1 TableTop (robot humanoïde GR1 de Fourier Intelligence) et RoboTwin 2.0, ACE-EGO-0 atteint les meilleures performances publiées sur les deux benchmarks et démontre, selon les auteurs, un transfert vers la manipulation bimanuelle en conditions réelles. L'apport central est la résolution d'un problème structurel : les divergences d'espaces d'action, de morphologie et de dynamiques temporelles entre humains et robots rendaient jusqu'ici l'entraînement conjoint instable ou contre-productif. En unifiant la représentation via des actions caméra-space et un time-aligned action chunking avec morphology conditioning, les auteurs montrent que des jeux de données égocentrés existants comme Ego4D ou EPIC-Kitchens peuvent fournir un signal complémentaire valide à grande échelle. Pour les équipes R&D en robotique, l'implication pratique est directe : réduire significativement le coût de collecte de trajectoires robot, l'un des principaux goulots d'étranglement du déploiement VLA à l'échelle industrielle. La course aux politiques robotiques généralisables s'est accélérée depuis Pi-0 de Physical Intelligence (novembre 2024), OpenVLA et RT-2 de Google DeepMind. Des travaux antérieurs comme Dobb-E ou Human2Robot avaient déjà exploré les données humaines égocentrées comme supervision complémentaire, mais sans framework unifié à cette échelle ni évaluation systématique. ACE-EGO-0 propose une recette reproductible évaluée sur deux benchmarks de référence, dont RoboTwin 2.0, particulièrement pertinent car la manipulation bimanuelle reste un défi ouvert pour les humanoïdes commerciaux tels que Figure 03, Optimus Gen 3 ou Unitree H1. La prépublication ne mentionne ni partenaire industriel ni déploiement annoncé : ACE-EGO-0 est pour l'instant une contribution de recherche, pas un produit livrable.

IA physiqueOpinion
1 source
Pré-entraînement contrastif action-image pour le contrôle visuomoteur
156arXiv cs.RO 

Pré-entraînement contrastif action-image pour le contrôle visuomoteur

Des chercheurs ont publié CAIP (Contrastive Action-Image Pre-training), un encodeur visuel pour la robotique qui exploite 32 041 heures de vidéo égocentrique humaine, complétées par seulement 88 heures de données de manipulation robotique. Le principe central consiste à extraire les poses 3D des mains humaines depuis des vidéos filmées en vue subjective, et à les utiliser comme signal de substitution pour les actions d'effecteur terminal, un proxy qui s'aligne naturellement avec les espaces d'action des bras robotiques. Via un objectif d'apprentissage contrastif, CAIP apprend une représentation unifiée liant images et actions. Évalué sur deux mains dextres réelles (Dexmate Vega et Sharpa Wave), le modèle affiche des gains supérieurs à 30% sur des tâches de manipulation précise : pliage de tissu, versage de liquide, et manipulations en dextérité fine. Ce résultat touche directement un verrou bien connu dans la communauté : la pénurie de données robotiques étiquetées freine la pré-formation de grands encodeurs visuels, là où le NLP ou la vision généraliste disposent de milliards d'exemples. CAIP propose une voie de passage scalable sans collecter davantage de trajectoires robot, en exploitant la vidéo humaine disponible à l'échelle d'Internet comme source implicite de signaux d'action. En surpassant DINOv2, SigLIP, MVP et R3M sur des benchmarks en conditions réelles (et non en simulation), l'approche renforce l'hypothèse que le sim-to-real gap peut être partiellement contourné en ancrant la représentation visuelle dans des dynamiques d'action humaine, plutôt qu'en augmentant les données robot brutes. Ce travail s'inscrit dans un courant de recherche actif autour des politiques visuomotrices apprenant depuis la vidéo humaine. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et les approches issues d'OpenVLA croisent des signaux similaires, bien que depuis des angles différents. CAIP se distingue en isolant le signal de pose 3D des mains comme modalité intermédiaire explicite, plutôt que d'ingérer du langage ou des représentations d'action latentes. Le code et les modèles ne sont pas encore publiés au moment de la soumission (arXiv:2606.17256, juin 2026). La prochaine étape naturelle serait de tester la généralisation à des morphologies robotiques plus variées et à des tâches bimanuelles, domaine où les pipelines VLA (Vision-Language-Action) peinent encore à démontrer une robustesse hors laboratoire.

RechercheOpinion
1 source
MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique
157arXiv cs.RO 

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Des chercheurs présentent ce mois-ci MuseVLA (arXiv:2606.17598, juin 2026), un modèle Vision-Language-Action capable d'intégrer des capteurs non-RGB comme entrées de perception active lors de tâches de manipulation robotique. Sur un robot à main dextre testée en conditions réelles, MuseVLA atteint un taux de succès moyen de 80,6 % sur trois familles de tâches : saisie guidée par la température, recherche d'objet par signal audio, et récupération d'objet dissimulé assistée par radar. L'architecture repose sur un mécanisme en deux temps : le modèle génère d'abord un "sensor token" qui sélectionne dynamiquement la modalité sensorielle pertinente pour la tâche en cours, puis convertit la mesure capteur en une "grounded sensor image", une représentation intermédiaire unifiée fusionnée avec le flux RGB classique avant la génération d'action. Les auteurs introduisent également un pipeline de synthèse de données qui augmente des datasets RGB existants avec des images capteur simulées, contournant ainsi le coût prohibitif de la collecte de données multisensorielles réelles. L'apport principal est architectural plutôt que purement empirique : le découplage entre le traitement capteur spécifique et le backbone VLA permet d'intégrer de nouveaux capteurs sans réentraîner le modèle de base, un principe analogue aux "tool calls" dans les LLM. Cette modularité répond à une limite structurelle des VLA actuels, dont Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA), qui opèrent quasi exclusivement sur RGB. La capacité de zéro-shot sur des tâches non vues lors de l'entraînement est notable, même si les conditions expérimentales restent celles d'un laboratoire, sans déploiement industriel rapporté. Les métriques de cycle time ou de robustesse en environnement non contrôlé ne sont pas fournies, ce qui limite l'interprétation du 80,6 % en contexte réel. Le papier s'inscrit dans une effervescence autour des VLA généralistes depuis mi-2024, avec des acteurs comme Physical Intelligence, 1X Technologies, Enchanted Tools côté européen, et les équipes de Google DeepMind ou Carnegie Mellon qui multiplient les approches de fusion multimodale. MuseVLA reste pour l'instant un preprint sans code ni dataset publié, et la question de la généralisation à des capteurs industriels standards (LiDAR, force/torque) n'est pas traitée. Les prochaines étapes naturelles seraient un benchmark comparatif sur des plateformes connues type Franka ou UR, et une validation hors labo pour confirmer la thèse du sim-to-real sur les données capteur synthétiques.

UELes acteurs européens comme Enchanted Tools opèrent dans le même segment VLA généraliste, mais ce preprint n'implique aucune institution ou entreprise française ou européenne.

IA physiqueOpinion
1 source
Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques
158arXiv cs.RO 

Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques

Des chercheurs ont publié le 17 juin 2026 un preprint arXiv (2606.18247) présentant VERITAS, un cadre de type générateur-vérificateur destiné aux politiques robots généralistes. Le principe : une politique robot pré-entraînée joue le rôle de "générateur" et est couplée à un "vérificateur visuel" sans gradient qui évalue les actions produites au moment de l'inférence, c'est-à-dire pendant le déploiement réel. Les résultats rapportés indiquent que ce steering à l'inférence surpasse systématiquement la politique généraliste de base sans nécessiter de données de démonstration supplémentaires. Plus significatif encore, les trajectoires auto-générées et validées par le vérificateur servent ensuite de supervision pour un fine-tuning offline : selon les auteurs, ce post-training atteint une efficacité comparable à celle obtenue avec des démonstrations d'experts humains, et ce sans aucune intervention humaine dans la boucle. L'enjeu industriel est direct : l'un des freins majeurs au déploiement à grande échelle de robots généralistes est le coût d'annotation humaine pour maintenir ou améliorer les performances après mise en service. VERITAS propose un mécanisme d'auto-amélioration autonome où le robot apprend de sa propre pratique, ce qui, si les résultats se confirment sur du matériel physique à l'échelle, réduirait structurellement le coût d'intégration pour les opérateurs industriels et les intégrateurs. La distinction entre "steering à l'inférence" (amélioration immédiate sans retraining) et "amélioration offline" (fine-tuning asynchrone sur rollouts vérifiés) est pertinente pour les décideurs B2B qui doivent planifier des cycles de mise à jour. Il faut cependant noter que le papier ne documente pas de métriques de déploiement sur des sites de production réels, ce qui tempère les conclusions. Cette approche s'inscrit dans une tendance forte issue des LLMs : transposer le "test-time compute scaling" au domaine robotique. Des politiques généralistes comme pi-0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) ont démontré la faisabilité du transfert multi-tâches, mais butent sur la dégradation en conditions réelles non vues à l'entraînement. VERITAS tente de combler ce fossé sans recourir à des méthodes coûteuses comme DAgger ou RLHF classique. Aucun partenaire industriel ni calendrier de validation sur plateforme physique n'est mentionné dans le preprint ; les prochaines étapes attendues sont une évaluation sur robots physiques (humanoïdes ou manipulateurs) dans des environnements non contrôlés.

RechercheOpinion
1 source
RLRC : l'apprentissage par renforcement au service de la récupération des modèles vision-langage-action compressés
159arXiv cs.RO 

RLRC : l'apprentissage par renforcement au service de la récupération des modèles vision-langage-action compressés

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2506.17639) RLRC, un pipeline de compression en trois étapes pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique complexe. Face au constat que ces architectures multimodales dépassent généralement plusieurs milliards de paramètres et génèrent des latences d'inférence incompatibles avec un déploiement embarqué, la méthode combine élagage structurel (structured pruning), récupération des performances par fine-tuning supervisé (SFT) et apprentissage par renforcement (RL), puis quantification. L'étape RL intègre un warm-up du critique et une régularisation par perte de clonage comportemental (BC loss) pour stabiliser l'entraînement et préserver le comportement de la politique. Les mesures sur plusieurs architectures VLA indiquent une réduction mémoire jusqu'à 8x, un gain d'inférence de 2,3x et un taux de succès aux tâches maintenu au niveau du modèle non compressé. Les auteurs rapportent que RLRC surpasse les baselines de compression existantes, bien que ces résultats restent à ce stade auto-déclarés dans un preprint. L'enjeu est concret pour les intégrateurs robotiques : les VLA de nouvelle génération comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les dérivés d'OpenVLA requièrent aujourd'hui un GPU serveur pour l'inférence temps réel, ce qui complique leur embarquement sur un robot mobile ou un manipulateur autonome. RLRC propose une voie pour franchir ce seuil matériel sans dégrader les capacités de manipulation. L'apport différenciant est l'utilisation du RL en phase de récupération post-élagage : contrairement à un SFT seul, il corrige les dégradations comportementales induites par la compression, notamment sur des tâches à longue séquence ou à faible marge d'erreur. Le message implicite est que le goulot d'étranglement du déploiement VLA n'est plus uniquement le sim-to-real, mais aussi le compute-to-edge. Les VLA se sont imposés comme standard de facto pour la manipulation généraliste depuis RT-2 de Google DeepMind en 2023, et leur adoption s'est accélérée avec Pi-0 de Physical Intelligence en 2024. La compression de ces modèles reste un angle peu exploré : la littérature sur le pruning et la quantification cible majoritairement les LLM conversationnels comme LLaMA ou Mistral, pas les architectures action-conditionnées. RLRC vise explicitement les plateformes embarquées (NPU, SoC robotique) pour affranchir le déploiement d'une dépendance cloud. Un site projet est disponible à rlrc-vla.github.io, mais aucun partenariat industriel ni calendrier de commercialisation n'est annoncé à ce stade : il s'agit d'un résultat de recherche académique, pas d'un produit expédié.

UELes laboratoires européens (INRIA, CEA-List) et équipes R&D travaillant sur le déploiement embarqué de VLA pourraient appliquer ces techniques de compression, mais aucun acteur français ni réglementation européenne n'est directement impliqué.

IA physiqueOpinion
1 source
ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique
160arXiv cs.RO 

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

Une équipe de chercheurs a publié sur arXiv (réf. 2606.17937, juin 2026) ThinkingVLA, un modèle VLA (Vision-Language-Action) conçu pour la manipulation robotique sur des séquences longues. L'architecture, de type Mixture-of-Transformers, intercale raisonnement textuel et visuel dans un unique processus génératif. Un Chain-of-Thought "forward" identifie le sous-objectif suivant et prédit l'état visuel cible correspondant ; un CoT "inverse" prend ensuite cette image générée comme entrée et infère les commandes motrices nécessaires pour l'atteindre. L'action finale est générée conditionnée sur ce contexte de raisonnement complet. Sur des benchmarks en simulation et en conditions réelles, ThinkingVLA surpasse les baselines de l'état de l'art, avec les gains les plus marqués sur les tâches à horizon temporel long. La grande majorité des modèles VLA actuels, notamment Pi-0 de Physical Intelligence ou OpenVLA, projettent directement observations vers actions sans raisonnement explicite, ce qui les pénalise sur les séquences longues nécessitant planification spatiale et décomposition en sous-étapes. ThinkingVLA adresse ce "reasoning gap" en forçant le modèle à anticiper visuellement l'état du monde avant de dériver les commandes. Cette boucle d'inverse dynamics grounding visuel est, si elle se confirme à l'échelle sur des objets et environnements variés, une piste sérieuse pour réduire le fossé persistant entre démonstrations en laboratoire et robustesse opérationnelle hors domaine. Les modèles VLA ont connu une accélération nette depuis 2024 avec RT-2 de Google DeepMind, Pi-0 de Physical Intelligence (lancé fin 2024), GR00T N2 de NVIDIA et Helix de Figure AI. L'ajout de CoT textuel dans les VLA est une tendance consolidée, mais ThinkingVLA se distingue par un CoT visuel explicite, soit la génération d'une image intermédiaire comme étape de raisonnement, ce qui implique une architecture bimodale plus coûteuse à l'inférence. Le travail est soumis en pre-print sans revue par les pairs à ce stade, sans partenariat industriel annoncé. Les prochains défis identifiés par le domaine concernent la généralisation hors distribution et la réduction du coût d'inférence pour un déploiement embarqué en temps réel.

RechercheOpinion
1 source
Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention
161arXiv cs.RO 

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

Des chercheurs publient APOLLO, un cadre hybride pour le rangement personnalisé d'objets ménagers par robot, soumis le 17 juin 2026 sur arXiv. Le système couple un modèle d'embedding personnalisé (PEM), léger, entièrement sur CPU, entraîné par paire utilisateur-environnement à partir d'une poignée de démonstrations, à un LLM activé sélectivement uniquement quand le PEM signale une incertitude élevée. APOLLO introduit l'abstention comme comportement de premier ordre : le robot peut décider de ne pas déplacer un objet faute d'information suffisante, une capacité absente de la plupart des approches actuelles. Pour évaluer ce comportement, les auteurs publient également APOR, un dataset synthétique généré par LLM couvrant des environnements multi-meubles, des profils organisationnels variés, des cas d'abstention explicites et des scènes partiellement bruitées. Sur les benchmarks PARSEC et APOR, APOLLO améliore les performances par rapport aux baselines LLM pures tout en réduisant substantiellement le nombre d'appels au modèle. Le code est disponible sur GitHub (PaInt-Lab/APOLLO). Les résultats restent à ce stade préliminaires, les auteurs eux-mêmes parlant de "preuves initiales" en environnement simulé, sans validation sur hardware réel. Ce résultat pointe un angle mort systématique : les méthodes existantes supposent des observations propres et une actionabilité complète, deux hypothèses rarement vérifiées dans un vrai foyer encombré. L'architecture hybride répond aussi à des contraintes de déploiement concret : le PEM sur CPU préserve la vie privée et réduit la latence, le LLM étant réservé aux décisions vraiment ambiguës. C'est une direction pragmatique pour des assistants domestiques embarqués sur du matériel non-spécialisé, où le recours systématique au cloud n'est ni acceptable ni viable à l'échelle. APOLLO s'inscrit dans un effort plus large pour rendre les politiques VLA (Vision-Language-Action) robustes à l'incertitude et aux données partielles, un problème central du déploiement hors environnements contrôlés. Les travaux concurrents de Physical Intelligence (π0), des équipes RT-2 ou OpenVLA s'attaquent à la généralisation en scènes non structurées, mais l'abstention explicite reste rare dans la littérature. Aucun acteur français ou européen n'est directement impliqué dans cette publication. Les prochaines étapes naturelles incluent une validation sur hardware réel et une évaluation avec de vrais utilisateurs sur la pertinence des décisions de non-action.

RecherchePaper
1 source
DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée
162arXiv cs.RO 

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée

DemoDiffusion est une méthode de robotique présentée dans un preprint arXiv (2506.20668) permettant à un robot manipulateur d'imiter une démonstration humaine unique, sans entraînement spécifique à la tâche ni données appariées humain-robot. Le pipeline repose sur deux étapes successives : d'abord, le mouvement de la main humaine est converti en trajectoire approximative pour l'effecteur terminal du robot par recalibrage cinématique (kinematic retargeting), produisant une motion en boucle ouverte. Ensuite, une politique de diffusion généraliste pré-entraînée (diffusion policy) corrige cette trajectoire pour qu'elle reste dans la distribution des actions robotiques plausibles, sans fine-tuning. Sur 8 tâches de manipulation variées en conditions réelles, DemoDiffusion atteint un taux de succès moyen de 83,8 %, contre 52,5 % pour le seul recalibrage cinématique et 13,8 % pour la politique généraliste utilisée sans guidance. La méthode réussit même sur des tâches où la politique généraliste échoue totalement. Ce résultat conteste une hypothèse structurante du secteur : l'idée que l'adaptation à de nouvelles tâches requiert soit des jeux de données appariées humain-robot coûteux à collecter, soit du reinforcement learning en ligne avec ses longs cycles d'entraînement. DemoDiffusion montre qu'une démonstration unique suffit, ce qui réduit drastiquement le coût d'intégration pour les intégrateurs industriels. L'écart entre 83,8 % et 52,5 % illustre concrètement que le recalibrage cinématique seul reste fragile hors de son domaine de calibration, et que la politique de diffusion joue un rôle correcteur décisif, une forme de sim-to-real soft sans réentraînement. Sur les tâches à 0 % pour la baseline, le gain est absolu. L'approche s'inscrit dans la vague des politiques de diffusion généralistes issues de travaux comme Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence, qui cherchent à capitaliser sur des modèles pré-entraînés pour éviter la spécialisation coûteuse par tâche. Les concurrents directs sur le segment "one-shot imitation" incluent des méthodes basées sur ACT, VIMA ou les VLA visuomoteurs (OpenVLA, RoboVLMs), qui exigent généralement plusieurs dizaines à centaines de démonstrations. DemoDiffusion reste au stade preprint sans déploiement industriel ni partenaire commercial annoncé ; les prochaines étapes naturelles seraient une évaluation sur manipulateurs commerciaux (UR, Franka Robotics) et des tâches impliquant contact forcé ou objets déformables.

UELes intégrateurs industriels européens (dont Franka Robotics, entreprise allemande citée comme cible d'évaluation future) pourraient bénéficier d'une réduction des coûts de collecte de données, mais aucun acteur français ou européen n'est impliqué dans ces travaux au stade preprint.

IA physiqueOpinion
1 source
RHO : votre agent de code est secrètement un roboticien
163arXiv cs.RO 

RHO : votre agent de code est secrètement un roboticien

Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils. Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique. Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.

IA physiqueOpinion
1 source
ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes
164arXiv cs.RO 

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes

Une équipe de chercheurs a publié fin juin 2026 ROVE (Reinforcement learning for humanoid VLA post-training with imperfect human interventions), un framework de renforcement dédié à l'amélioration des modèles Vision-Language-Action (VLA) sur robots humanoïdes à partir d'interventions humaines imparfaites. Le principe : un opérateur prend la main sur le robot lors des phases d'échec, générant des trajectoires correctives qui servent ensuite à affiner le modèle. Le problème bien identifié par les auteurs est que ces interventions humaines sont souvent hésitantes, sous-optimales, voire erronées, ce qui rend l'imitation naïve contre-productive. ROVE introduit deux mécanismes centraux : un pipeline human-in-the-loop capable de collecter simultanément des données de déploiement autonome et d'intervention, et une méthode d'estimation de valeur dite "optimiste" (Optimistic Value Estimation, OVE) qui filtre les comportements à haute valeur depuis des trajectoires de qualité mixte. Le framework intègre également des vidéos d'expériences humaines cross-embodiment pour enrichir la supervision sur les modes de défaillance et de récupération rares. Sur des tâches réelles de manipulation à contact-riche et fine-grained, ROVE surpasse les baselines par apprentissage par expérience et s'améliore de manière consistante à chaque itération rollout-intervention. L'enjeu central ici est la scalabilité du déploiement humanoïde en conditions réelles. Les modèles VLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont démontré des capacités de généralisation remarquables, mais leur post-training sur hardware humanoïde reste un goulot d'étranglement : la cinématique whole-body et le contrôle de mains dextères compliquent radicalement la collecte de données téléopérées de qualité. ROVE invalide l'hypothèse selon laquelle l'intervention humaine doit être experte pour être utile : OVE permet d'extraire un signal d'avantage informatif même depuis des démonstrations imparfaites, ce qui signifie qu'on peut utiliser des opérateurs non-spécialistes pour améliorer continûment le modèle en production. C'est un changement de paradigme potentiellement significatif pour les intégrateurs : la qualité du déploiement n'est plus bornée par la disponibilité d'experts en téléopération. Ce travail s'inscrit dans une vague de recherches sur le RLHF appliqué à la robotique physique, après les travaux pionniers sur l'imitation par intervention (HATO, HITL-TAMER) et les approches par feedback correctif. Les humanoïdes ciblés restent non précisés dans l'abstract (preprint arXiv, les détails hardware seront à vérifier dans le papier complet), mais les résultats sur tâches contact-rich suggèrent une applicabilité aux plateformes type Figure 03, Unitree H1/G1 ou Agility Digit. Le positionnement concurrentiel est clair : là où Physical Intelligence mise sur la qualité des données téléopérées en amont, ROVE parie sur la rectification en boucle fermée en aval. Les prochaines étapes probables incluent des tests à plus grande échelle et une évaluation sur plusieurs architectures VLA, mais en l'état de preprint, aucun déploiement commercial n'est annoncé.

IA physiqueOpinion
1 source
Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel
165arXiv cs.RO 

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Des chercheurs proposent, dans un preprint déposé en juin 2026 sur arXiv (2606.15285), un cadre asynchrone baptisé "semantic-action decoupling" qui découple l'inférence sémantique de la génération d'actions au sein des modèles Vision-Language-Action (VLA). L'architecture divise le VLA en deux modules distincts: un module de compréhension à basse fréquence qui met à jour de manière asynchrone des conditions sémantiques réutilisables, et un module d'action à haute fréquence qui produit en continu des commandes de contrôle sans relancer l'intégralité du modèle. Testée sur le benchmark LIBERO avec les modèles π₀.₅ (Physical Intelligence) et UniVLA, ainsi que sur un robot réel avec UniVLA, la méthode atteint un débit d'inférence côté serveur allant jusqu'à 35,6 Hz pour le seul module d'action. Pour compenser le décalage temporel entre des représentations sémantiques potentiellement périmées et l'état d'exécution courant, les auteurs introduisent deux mécanismes additionnels: le conditionnement sur l'historique des actions passées, et un entraînement explicite à la désynchronisation temporelle (time-misalignment training). Ce résultat s'attaque à l'un des verrous centraux du déploiement industriel des VLA: leur coût computationnel élevé les contraint aujourd'hui à des fréquences de contrôle trop basses pour des tâches de manipulation rapide ou réactive. Atteindre 35,6 Hz sans modifier le backbone vision-langage ni introduire un planificateur externe est non trivial, car cela signifie qu'un intégrateur peut greffer cette optimisation sur un VLA existant sans refonte architecturale. Le travail apporte une réponse partielle au "demo vs. reality gap" souvent reproché aux VLA: en maintenant un contrôle en boucle fermée à haute fréquence, le système peut absorber des perturbations que des architectures synchrones rateraient. Il reste que les métriques publiées correspondent à un throughput serveur, et non à une latence de bout en bout sur un système embarqué, ce qui nuance la portée opérationnelle immédiate. Les VLA sont devenus l'architecture dominante en robotique de manipulation depuis π₀ (Physical Intelligence, 2024) et les travaux de Google DeepMind sur RT-2, OpenVLA et leurs successeurs. UniVLA, lui, est issu de travaux récents visant à unifier les modalités de commande dans un modèle unique. La problématique de la fréquence de contrôle est traitée en parallèle par plusieurs équipes: Physical Intelligence avec π₀.₅, mais aussi des approches par distillation ou par action chunking (ACT, Diffusion Policy). Ce preprint ne présente pas encore de déploiement industriel ni de timeline commerciale, mais il ouvre une voie d'optimisation compatible avec des VLA open-source, ce qui pourrait accélérer l'adoption par des intégrateurs disposant d'une infrastructure GPU serveur sans retraîner leurs modèles de base.

RechercheOpinion
1 source
TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés
166arXiv cs.RO 

TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés

TRACE (TRAjectory-routed Causal Evidence) est un framework mémoire pour les politiques visuomotrices d'imitation, présenté dans un preprint arXiv publié en juin 2026 (arXiv:2606.14551) par une équipe de l'Université Zhejiang. Le problème central : lorsqu'un robot opère en autonomie sur une séquence longue, certains indices visuels critiques (couleur d'un objet, panneau de direction, marquage au sol) disparaissent du champ de vision avant que la décision correspondante doive être prise. Ces situations dites de "preuve différée" (delayed-evidence) créent une ambiguïté directe : deux observations visuellement identiques peuvent exiger des actions opposées selon ce que le robot a perçu plus tôt. TRACE y répond en maintenant une mémoire latente de taille fixe, indexée non par le temps brut ni par des étiquettes de tâche fournies manuellement, mais par des "signatures de trajectoire" (path signatures), des descripteurs compacts et ordonnés de la trajectoire d'état cinématique du robot. Ces signatures servent de clés pour écrire et récupérer les preuves visuelles stockées au moment où l'indice était encore visible. Le système s'intègre via des adaptateurs légers sans modifier le backbone, la tête d'action ni l'objectif d'imitation. L'enjeu pratique est réel pour les systèmes de manipulation longue durée. La quasi-totalité des politiques visuomotrices actuelles, qu'elles soient basées sur des Diffusion Policies, des transformers ou des modèles VLA (Vision-Language-Action), supposent implicitement que l'observation courante constitue un état suffisant pour le contrôle. TRACE démontre expérimentalement, sur des tâches réelles de manipulation avec des points de branchement visuellement ambigus, que cette hypothèse échoue dès qu'une décision dépend d'un indice passé. Les résultats surpassent les baselines concurrentes, dont les politiques à historique court et les mémoires récurrentes classiques (LSTM, GRU), sur deux métriques : sélection correcte de branche et taux de succès global. La mémoire à taille bornée évite par ailleurs l'accumulation qui pénalise les architectures à attention sur contexte long lors d'épisodes étendus. Ce travail s'inscrit dans un débat actif sur la mémoire épisodique pour robots manipulateurs. Les approches existantes incluent les RNN embarquées dans la politique, les mécanismes d'attention sur l'historique visuel exploités dans RT-2 et pi-0 (Physical Intelligence), et les Memory-Augmented Neural Networks. TRACE se distingue par son découplage entre l'indice visuel (stocké comme vecteur latent) et la clé de récupération (signature cinématique pure), ce qui le rend robuste aux variations d'apparence tout en restant sensible au chemin parcouru. Il s'agit d'une contribution de recherche fondamentale sans déploiement industriel annoncé ; les suites naturelles incluent l'intégration à des politiques de référence comme ACT ou Diffusion Policy, et la validation sur des horizons plus longs en environnement non structuré.

RechercheOpinion
1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
167arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
168arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
169arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines
170arXiv cs.RO 

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Une équipe de recherche a déposé le 10 juin 2026 sur arXiv (réf. 2606.10614) un framework baptisé Dexterous Point Policy (DPP), capable d'apprendre des politiques de manipulation dextère directement à partir de vidéos humaines, sans aucune démonstration sur robot. Le système extrait des points-clés 3D (keypoints) des objets de la tâche et des mains humaines, en ciblant spécifiquement les poignets et les bouts de doigts, puis entraîne un transformer autorégressif sur ces représentations unifiées. Sur un banc d'essai réel couvrant la saisie-dépôt (pick-and-place) et la manipulation d'outils, DPP atteint 75,0 % de succès, contre seulement 1,0 % pour le meilleur baseline de type VLA (Vision-Language-Action model) disponible. La méthode généralise également à des scénarios non vus pendant l'entraînement, notamment des environnements multi-objets et de nouvelles catégories d'objets. L'apport principal est d'éliminer le goulet d'étranglement le plus coûteux du cycle d'apprentissage robotique: la collecte de données en téléopération. Les auteurs rappellent que téléopérer une main multi-doigts pour une seule tâche atomique peut mobiliser plusieurs jours de travail humain, ce qui rend le fine-tuning classique des modèles de fondation sur données robotiques particulièrement onéreux à l'échelle. L'intuition centrale de DPP est que, au niveau des keypoints (poignets et bouts de doigts), les comportements humains et robotiques s'alignent suffisamment pour permettre un transfert direct de politique sans adaptation supplémentaire. Avec un écart de performance de 75x par rapport au baseline VLA, le résultat contredit l'idée selon laquelle combler l'embodiment gap entre humain et robot exige obligatoirement des données proprioceptives ou d'actionnement robotique. Ce travail s'inscrit dans le courant des modèles de fondation robotiques pré-entraînés sur vidéos humaines, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA sont des représentants récents, qui butaient tous sur ce même problème de transfert au déploiement réel. DPP propose une réponse architecturale en choisissant une représentation intermédiaire qui abstrait la morphologie spécifique de chaque effecteur, rendant la politique agnostique à la géométrie exacte de la main robotique. Il s'agit pour l'instant d'un preprint non relu par les pairs, sans affiliation institutionnelle précisée dans le résumé public, et les tests restent limités à des tâches de complexité modérée. Les étapes naturelles seraient une validation sur des mains multi-doigts plus variées et des manipulations de plus haute complexité, comme l'assemblage de précision ou la manipulation d'outils déformables, pour confirmer la scalabilité réelle de l'approche.

RecherchePaper
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
171arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
172arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA
173arXiv cs.RO 

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ReCoVLA (Reward Compilation for VLA recovery) est un framework de récupération d'erreurs présenté dans un preprint arXiv publié le 9 juin 2026, conçu pour pallier la fragilité des politiques VLA (Vision-Language-Action) face aux états hors-nominal. Le principe : maintenir une politique VLA pré-entraînée gelée (frozen), déléguer à un modèle vision-langage externe (VLM) l'inférence du mode de défaillance et du stade de récupération, puis compiler une récompense structurée pour entraîner une politique résiduelle corrective en simulation. Cette politique résiduelle est ensuite déployée en zéro-shot sur robot réel sans réentraînement. Sur des tâches de manipulation couvrant des horizons courts, longs et des contacts riches, ReCoVLA fait passer le taux de succès moyen de 36,7 % (baseline π0.5 fine-tuné) à 66,7 % en simulation, et atteint 61,7 % en déploiement physique zéro-shot sim-to-réel. L'apport conceptuel central est de ne pas utiliser le VLM pour générer des actions ou des récompenses directement, mais comme un sélecteur sémantique de récompenses : il prédit un descripteur de récupération et un masque de récompense parmi des composants prédéfinis liés à la tâche. Cette séparation entre compréhension sémantique de haut niveau et contrôle correctif de bas niveau adresse un angle mort bien documenté des architectures VLA actuelles : elles offrent de bons priors pour la manipulation conditionnée au langage, mais s'effondrent dès qu'elles rencontrent un état non prévu à l'entraînement. Le framework se veut agnostique à la politique VLA sous-jacente, ce qui le rendrait compatible avec différents modèles de base. Le travail s'inscrit dans une compétition intense autour des politiques génératives pour la manipulation robotique. Des modèles comme π0 et π0.5 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA ont démontré la faisabilité des VLA à grande échelle, mais la robustesse aux défaillances reste un problème ouvert. ReCoVLA propose une réponse modulaire qui n'exige pas de réentraîner la politique de base, ce qui réduit théoriquement les coûts d'adaptation. Il convient toutefois de noter que ce preprint ne fait pas état d'un déploiement industriel : les expériences physiques restent en contexte laboratoire, avec un périmètre de tâches limité. Les prochaines étapes naturelles concernent la généralisation à d'autres architectures VLA et l'évaluation sur des chaînes causales plus longues.

RechercheOpinion
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
174arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

IA physiqueOpinion
1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
175arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

IA physiqueOpinion
1 source
RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde
176arXiv cs.RO 

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

Une équipe de recherche a publié RynnVLA-002, un modèle unifié combinant Vision-Language-Action (VLA) et world model, présenté en preprint sur arXiv (2511.17502v3). L'architecture couple deux composantes interdépendantes : le world model prédit des états visuels futurs à partir des actions et observations courantes, apprenant ainsi la physique implicite de l'environnement ; le modèle VLA génère en retour les actions suivantes depuis des observations visuelles brutes. Ce couplage bidirectionnel vise un apprentissage conjoint de la dynamique environnementale et de la planification motrice. Sur le benchmark de simulation LIBERO, RynnVLA-002 atteint 97,4 % de taux de succès sans pré-entraînement. En conditions réelles, dans des expériences conduites avec le framework open-source LeRobot de Hugging Face, l'intégration du world model améliore le taux de succès global de 50 % par rapport au modèle VLA seul. L'intérêt de cette architecture tient dans la mutualisation de deux paradigmes historiquement distincts. Les world models ont longtemps servi d'outils de planification offline ou de data augmentation, tandis que les VLA visent la génération d'actions en temps réel depuis des observations brutes. RynnVLA-002 cherche à démontrer leur renforcement mutuel : le world model corrige la génération d'actions en anticipant leurs conséquences visuelles, ce qui réduit la dépendance aux données d'entraînement dans des zones peu couvertes. Le gain de 50 % en real-world est significatif, mais le preprint reste peu disert sur la diversité des tâches testées et les conditions expérimentales précises, ce qui rend une évaluation indépendante prématurée. Pour les équipes confrontées au sim-to-real gap, l'idée d'ancrer une VLA dans une représentation physique anticipatrice constitue néanmoins une direction crédible. Les VLA sont devenus un terrain de compétition dense depuis Pi-0 de Physical Intelligence, OpenVLA, et les approches RoboVLMs, qui exploitent des backbones vision-langage pré-entraînés pour produire des politiques généralisables. Côté world models, des travaux comme Dreamer (DeepMind) et UniSim ont popularisé la prédiction vidéo comme supervision indirecte pour la robotique. RynnVLA-002 cherche à unifier explicitement ces deux lignes, se différenciant ainsi des architectures à modules séparés. À sa troisième version de preprint, le travail est en itération active, mais aucune affiliation institutionnelle claire ni partenariat industriel n'est mentionné dans l'abstract, ce qui limite l'évaluation de sa maturité réelle. Les prochaines étapes logiques incluront une validation sur des benchmarks plus exigeants comme CALVIN ou RLBench, et idéalement une publication des poids du modèle pour permettre une réplication indépendante.

UEL'utilisation de LeRobot (framework open-source de HuggingFace, entreprise française) comme cadre expérimental de référence valide l'écosystème robotique open-source porté par un acteur français, sans impact direct sur le marché ou la R&D en France/UE.

RechercheOpinion
1 source
Voir, Planifier, Revenir en arrière : des modèles VLA sensibles à la progression pour une manipulation robotique robuste
177arXiv cs.RO 

Voir, Planifier, Revenir en arrière : des modèles VLA sensibles à la progression pour une manipulation robotique robuste

Une équipe de chercheurs propose SPR (See, Plan, Rewind), un framework de type vision-language-action (VLA) conçu pour rendre la manipulation robotique plus robuste face aux échecs d'exécution. Publié sur arXiv (arXiv:2506.09292v2), le système découpe chaque tâche en sous-objectifs spatiaux intermédiaires, puis opère en boucle fermée selon trois étapes : observer l'état courant et le prochain jalon, planifier une trajectoire vers le waypoint 2D suivant, et rembobiner vers un état récupérable si la progression stagne. Sur le benchmark LIBERO, SPR dépasse la ligne de base MolmoAct de 5 points de pourcentage. Sur LIBERO-Plus, une variante plus exigeante qui introduit des instructions et des états initiaux inédits, SPR affiche la plus faible dégradation de performance parmi les modèles testés, surpassant OpenVLA-OFT et UniVLA sur les scénarios hors-distribution. Ce que SPR apporte concrètement, c'est un mécanisme de récupération d'erreur intégré qui ne nécessite ni données d'entraînement supplémentaires, ni modèle auxiliaire dédié. C'est un point non trivial : la plupart des systèmes VLA actuels échouent silencieusement quand la séquence d'actions diverge, sans capacité à détecter le blocage et à se repositionner. La mesure explicite du progrès par jalons intermédiaires permet ici au modèle de savoir où il en est dans la tâche, ce qui adresse directement l'un des verrous principaux du déploiement industriel : la robustesse à l'imprévu. Les résultats sur LIBERO-Plus constituent une validation partielle de la résistance hors-distribution, même si les benchmarks simulés restent éloignés des contraintes physiques réelles. Le domaine des VLA pour la robotique de manipulation connaît une accélération marquée depuis 2023, avec des modèles comme RT-2 (Google DeepMind), OpenVLA (Berkeley), et plus récemment UniVLA et les variantes OFT d'OpenVLA. SPR se positionne dans ce paysage en ajoutant une couche de monitoring de progression là où ses concurrents restent en boucle ouverte ou délèguent la récupération à des modules séparés. Aucun déploiement physique ni partenariat industriel n'est mentionné dans ce preprint : il s'agit d'une contribution de recherche académique, avec des validations entièrement en simulation. La prochaine étape naturelle serait une évaluation sur robot physique pour quantifier le sim-to-real gap que les chiffres LIBERO ne permettent pas de mesurer.

RechercheOpinion
1 source
GIFT : transfert fonctionnel induit par la géométrie pour la manipulation d'objets par catégorie
178arXiv cs.RO 

GIFT : transfert fonctionnel induit par la géométrie pour la manipulation d'objets par catégorie

Des chercheurs ont publié sur arXiv (2503.15371v2) un framework de transfert de compétences robotiques baptisé GIFT (Geometry-Induced Functional Transfer), conçu pour permettre à un robot de reproduire des manipulations complexes à partir d'une seule démonstration humaine. Le système s'appuie sur le cadre des Cartes Fonctionnelles (Functional Maps, FMC), une technique issue de la géométrie computationnelle, pour extraire des représentations centrées sur les interactions objet-environnement. Une fois ces fonctions d'interaction cartographiées, le robot peut les transférer à des objets de topologie similaire, même si leurs formes diffèrent significativement. Pour générer des trajectoires fluides respectant les contraintes de la démonstration, GIFT intègre l'interpolation par vis (ScLERP, Screw Linear Interpolation). Aucun réentraînement n'est requis : le système s'adapte à de nouveaux environnements directement à l'inférence, validé sur des configurations réelles sans données supplémentaires. L'enjeu industriel est concret. La manipulation d'objets inconnus reste l'un des principaux goulots d'étranglement de la robotique de service et de logistique : chaque nouvelle catégorie d'objet exige aujourd'hui des données d'entraînement supplémentaires ou une reprogrammation manuelle, ce qui alourdit considérablement le coût de déploiement. Un framework one-shot capable de généraliser à travers des catégories d'objets sans réentraînement réduirait le temps de mise en production de façon significative. GIFT s'attaque à ce problème en prouvant qu'une représentation géométrique bien choisie peut absorber la variabilité de forme, offrant une alternative aux approches Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou RT-2 de Google DeepMind, qui nécessitent des volumes de données considérables. Les Functional Maps sont une technique mature en traitement de surfaces 3D, mais leur application au transfert de compétences robotiques reste récente. Ce travail s'inscrit dans un mouvement plus large visant à réduire le data gap de la manipulation, aux côtés d'approches comme ACT (Stanford), DexCap ou UMI, qui explorent également le few-shot learning pour des tâches de manipulation fine. La publication est à ce stade un preprint arXiv (soumis en mars 2025, v2 en remplacement), sans partenaire industriel annoncé ni métrique de cycle time publiée. L'absence de comparatifs quantitatifs avec des baselines VLA laisse ouverte la question de la robustesse à grande échelle.

RecherchePaper
1 source
PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes
179arXiv cs.RO 

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

IA physiquePaper
1 source
SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double
180arXiv cs.RO 

SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double

Une équipe de chercheurs a publié, début juin 2026 sur arXiv, les travaux sur SpaceTools, un modèle de vision-langage (VLM) entraîné à coordonner plusieurs outils de perception spatiale via un nouveau cadre d'apprentissage par renforcement baptisé DIRL (Double Interactive Reinforcement Learning). Le système s'appuie sur des outils standards de perception robotique comme les estimateurs de profondeur, les modèles de segmentation et les estimateurs de pose, que le VLM apprend à orchestrer de manière autonome sans pipeline fixe. La validation expérimentale porte sur trois benchmarks de compréhension spatiale, RoboSpatial-Home, BLINK et BOP-ASK, où SpaceTools atteint l'état de l'art, avec des gains de +12 points de pourcentage sur RoboSpatial par rapport à un fine-tuning supervisé standard (SFT) et +16 points par rapport à un RL mono-outil de référence. Les tests en manipulation réelle ont été conduits sur un bras robotique à 7 degrés de liberté (7-DOF). L'enjeu central adressé par ces travaux est le fossé entre la compréhension visuelle qualitative des VLMs actuels et la précision métrique exigée par les applications embarquées. Les VLMs savent décrire une scène, mais peinent à répondre à des questions du type "à quelle distance exacte se trouve cet objet" ou "quel est l'angle de rotation optimal pour saisir cette pièce", ce qui bloque leur intégration dans des systèmes de manipulation industrielle. DIRL résout ce problème en deux phases : une phase d'enseignement qui combine des démonstrations issues d'un spécialiste mono-outil et des traces générées par un modèle frontier utilisant tous les outils disponibles, suivie d'une phase d'exploration où le modèle affine lui-même la coordination multi-outils par RL interactif. Ce résultat contredit l'hypothèse selon laquelle le multi-tool reasoning via RL serait inaccessible en raison de l'explosion combinatoire de l'espace de recherche. Ces travaux s'inscrivent dans la dynamique plus large d'intégration des VLMs dans la robotique embodied, un axe de recherche en forte croissance depuis les travaux SayCan (Google, 2022) et RT-2 (DeepMind, 2023). Sur le front concurrent, des approches comme ToolkenGPT ou des pipelines handcrafted restent prisonniers de séquences d'outils prédéfinies, tandis que SpaceTools apprend à choisir dynamiquement ses outils. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé, et les vidéos de manipulation sur le bras 7-DOF restent des démonstrations lab-controlled dont la généralisation en conditions réelles reste à confirmer. Le code et les détails sont accessibles via la page projet spacetools.github.io.

RechercheOpinion
1 source
Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire
181arXiv cs.RO 

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Une équipe de chercheurs a publié début 2026 sur arXiv (réf. 2602.21013, version révisée) une approche augmentant les modèles VLA (Vision-Language-Action) d'un module de mémorisation textuelle appelé "scratchpad", littéralement un bloc-notes interne. Le principe : pendant l'exécution d'une tâche, le modèle peut écrire des notes intermédiaires en langage naturel, notamment les positions d'objets détectées, l'état d'avancement du plan et les sous-objectifs restants à accomplir. Les auteurs ont évalué cette méthode sur deux benchmarks spécialisés, ClevrSkills et MemoryBench, ainsi que sur une tâche réelle de pick-and-place. Résultat annoncé : le scratchpad améliore significativement la généralisation sur ces tâches, aussi bien pour les architectures récurrentes que non récurrentes. La problématique adressée est structurelle. La majorité des VLA actuels opèrent de façon "sans état" (stateless) : ils traitent chaque instant de décision de manière indépendante, sans mémoire explicite des étapes précédentes. Or de nombreuses tâches de manipulation dextère sont non-markoviennes par nature, ce qui signifie que la décision optimale à l'instant t dépend de ce qui s'est passé avant t. Ce travail défend qu'un mécanisme aussi simple qu'un bloc-notes textuel suffit à combler une partie de ce gap, sans modifier l'architecture fondamentale du modèle. Pour les équipes R&D développant des solutions sur longue séquence (assemblage multi-étapes, tri conditionnel, manipulation avec gestion d'état), c'est une piste légère compatible avec les VLA open-source existants, à condition que les résultats sur ClevrSkills et MemoryBench se confirment dans des environnements industriels réels plus bruités. Les VLA ont connu une accélération majeure depuis 2023 avec RT-2 de Google DeepMind, OpenVLA de UC Berkeley, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, tous construits sur le principe de la compréhension sémantique à grande échelle transférée au geste robotique. La limite "sans mémoire" était connue des praticiens mais peu formalisée dans la littérature récente. Ce travail s'inscrit dans une tendance visant à doter les VLA de capacités de raisonnement à long horizon, en parallèle d'autres approches comme les architectures récurrentes ou les planificateurs hybrides symbolique-neuraux. Il s'agit d'un preprint académique sans déploiement ni partenariat industriel annoncé, et les benchmarks utilisés (ClevrSkills, MemoryBench) restent des environnements relativement contrôlés dont la transférabilité au terrain est encore à démontrer.

IA physiqueOpinion
1 source
Les modèles VLA aériens peuvent-ils coopérer ? Évaluation de la coordination air-sol en boucle fermée avec CARLA-Air
182arXiv cs.RO 

Les modèles VLA aériens peuvent-ils coopérer ? Évaluation de la coordination air-sol en boucle fermée avec CARLA-Air

Des chercheurs ont publié sur arXiv (arXiv:2605.31066) une évaluation systématique des modèles vision-langage-action (VLA) aériens dans des scénarios de coopération air-sol. L'étude introduit CARLA-Air, un environnement de simulation mono-processus qui fusionne CARLA et AirSim au sein d'un même runtime Unreal Engine. Cette architecture unifiée permet de partager un état physique commun, un tick de physique synchronisé et un pipeline de capteurs cohérent entre un drone (UAV) et un robot terrestre (UGV), garantissant ainsi une mesure précise de la latence de coordination effective et de l'alignement temporel entre les agents. Deux tâches de diagnostic complémentaires ont été retenues : l'atterrissage sur plateforme mobile et l'escorte avec récupération d'occlusion, deux scénarios qui exigent une action jointe continue en boucle fermée. Les résultats révèlent un écart notable entre compétence individuelle et comportement coopératif stable. Les modèles VLA aériens testés parviennent souvent à suivre ou à pister un partenaire sol, mais échouent à convertir cette aptitude mono-agent en coordination fiable. L'ajout de prompts d'état explicites (state prompting) n'apporte qu'un bénéfice limité, et l'interaction bidirectionnelle naïve ne stabilise pas les performances, elle amplifie même les erreurs pour la majorité des baselines évaluées. Ce constat soulève une question structurelle pour les intégrateurs et décideurs industriels qui envisagent des flottes hétérogènes : les VLA actuels, conçus pour des missions autonomes mono-agent, ne sont pas directement transposables à la coopération multi-robot sans ingénierie supplémentaire sur l'interface de communication et la gestion d'objectifs partagés. L'étude s'inscrit dans un momentum fort autour des VLA embarqués (modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA), majoritairement optimisés pour des robots manipulateurs ou des plateformes terrestres. La robotique aérienne coopérative reste un angle peu couvert. Les auteurs identifient trois prérequis manquants pour le zero-shot air-sol : un ancrage explicite de l'état du partenaire, une coordination d'action à faible latence, et un alignement sur un objectif d'équipe partagé. Le code de CARLA-Air est disponible publiquement sur GitHub, ce qui ouvre la voie à des benchmarks reproductibles dans un domaine encore dépourvu de standards d'évaluation communs.

RechercheActu
1 source
Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial
183arXiv cs.RO 

Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial

Une équipe de chercheurs a publié sur arXiv (identifiant 2605.31387) une étude évaluant les capacités des modèles vision-langage (VLM) dans des tâches de reconstruction collaborative en plusieurs tours de dialogue. Le protocole repose sur un cadre multi-agents où deux VLMs communiquent via le langage pour reconstruire une structure cible à partir d'entrées visuelles et textuelles. Les chercheurs ont testé des modèles open-weight et des modèles propriétaires selon plusieurs paramètres : modalités d'entrée, représentations d'image (entières ou décomposées), et formats de description de la cible. Résultat principal : les VLMs peinent à raisonner spatialement sur des représentations visuelles, et les gains obtenus grâce au dialogue multi-tours restent modestes. Le titre lui-même ne cache pas l'ambivalence : "improves VLM performance... but only barely". Ce résultat est significatif pour les équipes qui intègrent des pipelines VLM ou VLA (Vision-Language-Action) dans des systèmes robotiques. La recherche confirme que la compréhension spatiale visuelle, pourtant centrale pour des robots opérant en environnements non structurés, reste un point faible structurel des VLMs actuels. Fait notable pour les intégrateurs : les représentations textuelles détaillées de la structure cible surpassent systématiquement les représentations purement visuelles, quelle que soit la modalité testée. Autrement dit, pour une tâche d'assemblage collaboratif, une description sémantique structurée s'avère plus fiable que de laisser le modèle interpréter une image de référence. Les représentations d'images décomposées, où la scène est fragmentée en éléments distincts, améliorent les performances mais ne comblent pas l'écart. Ce travail s'inscrit dans un courant de recherche croissant autour des agents VLM pour la robotique collaborative, stimulé par des architectures comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui font le pari que des VLMs pré-entraînés peuvent généraliser à des tâches robotiques complexes via du fine-tuning ou du prompting. L'étude nuance cet optimisme en exposant les limites actuelles du raisonnement spatial ancré (grounded), particulièrement dans des scénarios de dialogue interactif. Les pistes identifiées incluent l'amélioration des mécanismes de grounding spatial et le raffinement des représentations d'images dans les boucles de dialogue multi-agents, des axes qui intéressent directement les labos travaillant sur la manipulation en environnements non structurés.

RechercheActu
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
184arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
185arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

IA physiqueOpinion
1 source
VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)
186arXiv cs.RO 

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié en mai 2026 VLA-Pro, un framework « plug-and-play » destiné à améliorer la généralisation inter-tâches des modèles Vision-Language-Action (VLA) en robotique manipulatoire. Le principe repose sur le stockage d'adaptateurs LoRA (Low-Rank Adaptation) comme mémoires procédurales paramétriques pendant la phase d'entraînement. À l'inférence, le système récupère dynamiquement les mémoires les plus pertinentes en fonction du contexte multimodal courant (image, langage, contexte scène), puis les fusionne pour générer le prochain action chunk. Les expériences ont été conduites sur trois benchmarks : RoboTwin, RLBench (simulation), et des tâches de manipulation en environnement réel. Le gain en simulation atteint jusqu'à 207 % d'amélioration relative selon les backbones testés. Sur les tâches réelles, le taux de succès passe de 5,8 % à 65,0 %, soit un facteur d'environ onze. Ce résultat pointe un problème structurel des VLA actuels : leur incapacité à transférer une expérience acquise vers une tâche inédite, même lorsque les objets ou les gestes impliqués sont similaires. Le bond de 5,8 % à 65,0 % en monde réel est notable, bien que l'absence de détails sur la sélection et la difficulté des tâches testées invite à interpréter ces chiffres avec prudence. L'atout principal de VLA-Pro pour les intégrateurs est sa modularité : compatible avec plusieurs backbones existants, il s'insère sans refonte du pipeline d'entraînement. Pour un décideur industriel, cela réduit concrètement le coût de requalification d'un robot lors d'un changement de tâche en production. Les modèles VLA constituent aujourd'hui le front principal de la recherche en manipulation généraliste, avec Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (Berkeley) et RT-2 (Google DeepMind) comme références majeures. Leur talon d'Achille commun reste la généralisation out-of-distribution, que VLA-Pro tente d'adresser via un mécanisme de mémoire inspiré des systèmes cognitifs. L'utilisation des LoRA comme vecteurs de mémoire est pragmatique, ces adaptateurs étant déjà présents dans la majorité des pipelines de fine-tuning actuels. Le papier ne mentionne ni partenariat industriel ni déploiement annoncé : il s'agit pour l'instant d'une contribution académique prometteuse dont la validation à l'échelle industrielle reste à démontrer.

RechercheOpinion
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
187arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

IA physiqueOpinion
1 source
LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation
188arXiv cs.RO 

LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation

Des chercheurs ont publié LIBERO-PRO, une extension critique du benchmark LIBERO largement utilisé pour évaluer les modèles Vision-Language-Action (VLA). Disponible sur GitHub (Zxy-MLlab/LIBERO-PRO), le travail, présenté sous forme d'arXiv preprint (arXiv:2510.03827v2), soumet les VLA à des perturbations systématiques selon quatre axes : substitution des objets manipulés, variation des états initiaux, modification des instructions de tâche, et changement d'environnement. Résultat sans appel : les modèles actuels qui atteignent plus de 90 % de succès sur l'évaluation LIBERO standard s'effondrent à 0,0 % dans le cadre généralisé de LIBERO-PRO. Concrètement, un modèle continue d'exécuter une séquence de saisie même lorsque l'objet cible est remplacé par un objet sans rapport, et ses sorties restent inchangées face à des instructions corrompues ou composées de tokens aléatoires. Ce résultat est un signal d'alarme direct pour les équipes qui fondent leurs décisions de recherche ou de déploiement sur les classements LIBERO. Il démontre que les modèles VLA n'ont pas acquis de compréhension générale des tâches ni de perception réelle de l'environnement : ils mémorisent des séquences d'actions et des configurations spatiales vues à l'entraînement. Autrement dit, le gap sim-to-real et le problème de généralisation restent entiers, quelle que soit la performance affichée sur le benchmark. Pour les intégrateurs industriels ou les équipes robotique qui envisagent de déployer des politiques basées sur des VLA, cela signifie que les scores publiés ne sont pas des indicateurs fiables de robustesse opérationnelle. LIBERO, introduit pour standardiser l'évaluation des politiques manipulatrices en langage naturel, est devenu une référence de facto dans la communauté. Mais comme tout benchmark sur-exploité, il a progressivement favorisé l'overfitting plutôt que la généralisation. LIBERO-PRO s'inscrit dans une tendance plus large de remise en question des protocoles d'évaluation VLA, aux côtés d'initiatives comparables sur les benchmarks de navigation et de saisie. La prochaine étape logique serait l'adoption de LIBERO-PRO comme standard par les principaux groupes travaillant sur des modèles comme OpenVLA, Octo ou pi0 (Physical Intelligence), afin de permettre des comparaisons réellement équitables et de pousser le secteur vers des politiques robustes en conditions réelles.

RechercheOpinion
1 source
Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique
189arXiv cs.RO 

Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique

Une équipe de chercheurs a publié sur arXiv (référence 2502.03983) un framework baptisé DySta, conçu pour rendre les modèles Vision-Language-Action (VLA) à la fois plus rapides et plus capables sur des tâches longues. Les VLA sont des architectures qui combinent compréhension visuelle, instructions en langage naturel et génération d'actions motrices pour des robots généralistes. DySta résout deux goulots d'étranglement structurels : la fenêtre de contexte limitée en entrée (qui contraint le nombre de frames exploitables) et la complexité quadratique de l'attention transformeur, aggravée par le grand nombre de paramètres. La solution repose sur une séparation explicite des tokens visuels en deux catégories : les tokens statiques (fond, structure de la scène, éléments invariants) et les tokens dynamiques (objets en mouvement, zones d'intérêt). Une seule copie des tokens statiques est conservée entre les frames, tandis qu'un mécanisme de "recache gate" décide de manière sélective quand rafraîchir le cache clé-valeur (KV cache) associé. Les gains sont mesurables : accélération de l'inférence de 2,0x en simulation (avec +2,3 points de succès) et 2,2x sur des tâches réelles générales (avec +10,6 points de succès), ainsi qu'une amélioration de 23,3 points de taux de réussite absolu sur des tâches réelles nécessitant de la mémoire temporelle. L'enjeu industriel est direct : les VLA déployés en milieu réel doivent aujourd'hui gérer des séquences longues (assemblage multi-étapes, manipulation d'objets variables, navigation conditionnelle) sans exploser le coût computationnel. La réduction du contexte via les tokens statiques répond précisément au compromis mémoire/vitesse qui bloque le passage à l'échelle de modèles comme OpenVLA, Pi-0 ou GR00T N2. Le gain de +10,6 points sur des tâches générales réelles est particulièrement significatif car il valide l'approche hors simulation, où le sim-to-real gap reste un défi non résolu pour la majorité des frameworks VLA actuels. DySta s'inscrit dans une vague de travaux d'efficacité VLA qui incluent des approches comme RoboFlamingo, SpatioTemporal Token Compression, ou les techniques de KV cache adaptatif venues du domaine NLP. Les VLA de première génération (RT-2, OpenVLA) ignoraient largement la redondance temporelle des frames visuelles ; DySta formalise ce problème et propose une solution modulaire intégrable à différentes architectures VLM de base. Le papier introduit également un benchmark dédié à l'évaluation de l'intégration multi-frames, comblant un angle mort méthodologique du domaine. Les prochaines étapes logiques incluent l'intégration à des modèles fondationnels ouverts (Llama-based VLAs) et l'évaluation sur des plateformes matérielles contraintes type Jetson, où le rapport latence/performance est critique pour la commercialisation.

💬 Séparer les tokens statiques des dynamiques, c'est une de ces idées qui paraissent évidentes après coup, et ça me plaît pour ça. Le gain de dix points sur des tâches réelles hors simulation, c'est ce qui compte vraiment, pas les chiffres en sim. Si tu développes des VLA sur du matériel embarqué contraint, ce framework vaut le coup d'être lu maintenant.

IA physiqueOpinion
1 source
X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps
190arXiv cs.RO 

X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps

Des chercheurs ont publié le 26 mai 2026 sur arXiv un nouveau modèle d'action robotique baptisé X-DiffVLA, conçu pour opérer sur plusieurs morphologies de robots sans nécessiter de réentraînement complet par plateforme. L'architecture repose sur un modèle de type VLA (Vision-Language-Action) combiné à une tête d'action par diffusion unifiée, capable de piloter des robots partageant une base commune mais équipés d'effecteurs distincts, pinces classiques ou mains dexteères à plusieurs doigts. Les évaluations rapportent des gains de 15,3 % sur le benchmark RoboCasa et de 12,5 % sur Isaac Gym par rapport aux méthodes de l'état de l'art, avec des validations en environnement réel confirmant la tenue des performances hors simulation. Le défi central que X-DiffVLA tente de résoudre est le goulot d'étranglement du fine-tuning spécifique à chaque embodiment : aujourd'hui, les modèles VLA préentraînés sur de larges corpus doivent être adaptés séparément pour chaque configuration robotique, ce qui fragmente la capitalisation des données et freine le transfert de connaissances entre plateformes similaires. Les auteurs introduisent deux mécanismes pour contourner cela. L'« Embodiment Forcing » est une technique de guidage sans classificateur (classifier-free guidance, inspirée des modèles de diffusion générative) qui oriente implicitement la génération d'actions vers les composantes fonctionnelles propres à chaque effecteur, sans supervision explicite. La « Morphological Tree Diffusion » structure les corrélations comportementales entre effecteurs hétérogènes en exploitant leur parenté morphologique, maximisant ainsi le transfert de démonstrations entre configurations. Ce travail s'inscrit dans une compétition intense autour des politiques robotiques universelles : Physical Intelligence (pi.) avec Pi-0, Google DeepMind avec RT-2 et ses successeurs, ainsi que des équipes académiques comme celles derrière OpenVLA, explorent tous des approches de généralisation cross-embodiment. X-DiffVLA se distingue par son ancrage diffusion plutôt qu'autorégressif, une tendance confirmée par des travaux récents montrant que les modèles de diffusion capturent mieux la multimodalité des distributions d'actions robotiques. Les résultats restent pour l'instant confinés à des benchmarks simulés et à quelques validations réelles non détaillées quantitativement dans l'abstract ; la robustesse à l'échelle industrielle reste à démontrer.

IA physiqueActu
1 source
Débruitage par priorité d'action pour un découpage fluide en temps réel
191arXiv cs.RO 

Débruitage par priorité d'action pour un découpage fluide en temps réel

Une équipe de chercheurs a publié le 26 mai 2026 sur arXiv (réf. 2605.25537) une méthode baptisée Soft RTC (Soft Real-Time Chunking), visant à rendre les politiques d'action par blocs plus fluides lorsqu'elles opèrent sous délai d'inférence. Le problème de départ est concret : les politiques de type diffusion génèrent les commandes motrices en « chunks » (séquences d'actions), mais l'inférence prend du temps. Le RTC standard résout cela en conditionnant chaque nouveau chunk sur les actions déjà engagées par le précédent, grâce à un masque binaire de préfixe. Soft RTC remplace ce masque binaire par un mécanisme de dénaturation partielle (action-prior denoising) : les tokens de chevauchement entre deux chunks ne partent plus d'un bruit pur, mais d'états partiellement dénaturés, alignés sur le chunk précédent via une règle de mélange par token. Sur les 12 niveaux Kinetix publiés (environnements de simulation de manipulation complexe), un fenêtrage "soft" court atteint un taux de résolution de 0,809 contre 0,815 pour le hard RTC, soit un écart marginal. Un fenêtrage medium réduit quant à lui le delta d'action et le jerk (à-coup) en régime de fort délai de respectivement 9,1 % et 9,6 % par rapport au hard RTC classique. Une étude préliminaire sur robot réel en tri d'objets confirme l'amélioration de la complétion et donne à Soft RTC les meilleures métriques de douceur de commande parmi les politiques testées. L'enjeu pour la robotique industrielle est précis : le jerk élevé, c'est l'usure mécanique, les alarmes de sécurité, et l'impossibilité de travailler en cobotique. Les politiques de diffusion pour la manipulation (pi-0 de Physical Intelligence, ACT, Diffusion Policy) ont démontré des capacités de généralisation impressionnantes, mais leur déploiement en temps réel reste contraint par la latence d'inférence, typiquement plusieurs centaines de millisecondes sur GPU embarqué. Hard RTC avait déjà attaqué ce problème ; Soft RTC prouve qu'on peut gagner significativement en douceur de mouvement sans sacrifier ni le taux de succès ni le coût computationnel, les deux variantes conservent un overhead « quasi-naïf » à l'inférence, sans guidance coûteuse au déploiement. Ce résultat contredit l'idée que fluidité et performance sont nécessairement en tension dans les politiques diffusion pour la manipulation. La problématique du délai d'inférence dans les politiques d'action par diffusion est active depuis que ces architectures ont montré leur supériorité en manipulation dextère, notamment avec les travaux de Stanford (Diffusion Policy, 2023) et de Physical Intelligence (pi-0, 2024). Le hard RTC de référence avait établi une baseline robuste mais au prix de transitions sèches entre chunks. Côté acteurs, Physical Intelligence, Unitree, Figure AI et les équipes de Google DeepMind (GR00T, RT-2) travaillent tous sur des politiques à base de diffusion pour leurs humanoïdes et bras manipulateurs. Soft RTC s'inscrit dans la couche d'inférence basse latence de ces systèmes, indépendamment de l'architecture VLA sous-jacente. Aucun partenaire industriel ni timeline de déploiement n'est mentionné, il s'agit d'une contribution de recherche, avec code et niveaux Kinetix publiés, mais sans implémentation industrielle annoncée à ce stade.

RecherchePaper
1 source
$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée
192arXiv cs.RO 

$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée

Une équipe de recherche publie sur arXiv (2605.23128) π₀-EqM, une variante du modèle de contrôle robotique π₀ de Physical Intelligence qui substitue le décodeur d'actions par flux (flow-matching) à un décodeur par Equilibrium Matching (EqM), sans toucher à la pile VLA en amont. Évalué avec un budget fixé à 300 étapes d'inférence, π₀-EqM progresse de 40,4 % à 50,2 % de taux de réussite moyen sur le benchmark de simulation RoboTwin, couvrant 19 tâches de manipulation, et atteint 87,0 % sur LIBERO-10, l'un des sous-ensembles les plus exigeants de la suite LIBERO. Ces gains sont mesurés en simulation, ce qui en tempère la portée directe avant validation sur hardware réel. Le résultat principal dépasse le score brut : les auteurs mettent en évidence un phénomène qu'ils nomment le "stationarity-executability gap", une relation non monotone entre la profondeur d'inférence résiduelle et le taux de succès, variable selon la tâche. Itérer davantage ne garantit donc pas de meilleures actions, et le budget d'inférence optimal dépend de l'état courant de la scène. Ce constat remet en question l'hypothèse implicite des pipelines VLA actuels, qui utilisent des horizons d'échantillonnage fixes indépendamment du contexte d'exécution. Pour les équipes produit et les intégrateurs, cela ouvre la voie à des politiques adaptatives capables d'allouer dynamiquement la puissance de calcul selon la difficulté perçue de la tâche, réduisant la latence sur les actions simples et renforçant la robustesse sur les cas complexes. π₀ est le modèle de fondation robotique de Physical Intelligence (Pi), startup américaine fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Stanford, dont Sergey Levine et Chelsea Finn. Le flow-matching, popularisé par le π₀ original (arXiv:2410.24164, octobre 2024), est aujourd'hui le paradigme dominant pour le décodage d'actions dans les VLA, en concurrence avec la diffusion (Diffusion Policy) et les sorties autoregressives (OpenVLA, Octo). L'Equilibrium Matching s'inscrit dans la famille des méthodes à énergie implicite, proches des EBM (Energy-Based Models), et offre une profondeur d'inférence adaptable par conception. La prochaine étape logique sera une validation sur robot physique pour quantifier le sim-to-real gap de cette approche.

💬 Le +10 points sur RoboTwin, c'est bien, mais c'est pas là que ça devient intéressant. Le vrai résultat c'est ce qu'ils appellent le stationarity-executability gap : itérer davantage ne garantit pas de meilleures actions, et le budget optimal varie selon la tâche, pas selon un horizon fixe décidé à l'avance. Si ça tient sur hardware réel, ça remet en question la logique de base de tous les pipelines VLA actuels.

IA physiqueOpinion
1 source
V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)
193arXiv cs.RO 

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion
1 source
GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action
194arXiv cs.RO 

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Des chercheurs ont publié GesVLA, un modèle Vision-Language-Action augmenté d'une modalité gestuelle, dans un preprint arXiv soumis en mai 2026 (arXiv:2605.22812). L'architecture repose sur un double VLM (Vision-Language Model) qui encode les features gestuelles directement dans l'espace latent, permettant aux gestes pointés de la main de participer à la fois au raisonnement de haut niveau et à la génération d'actions motrices. Pour l'entraînement, l'équipe a construit un pipeline de génération de données synthétiques en rendant des modèles 3D de mains sur des images de scènes réelles, produisant des annotations de pointage variées tout en réduisant le sim-to-real gap visuel. Le modèle a été évalué sur plusieurs tâches physiques réelles : manipulation contrôlée de blocs et sélection de produits dans des environnements encombrés. Les expériences montrent une amélioration mesurée de la précision de grounding cible et de l'efficacité de l'interaction humain-robot, particulièrement dans des scènes complexes avec objets similaires. L'apport principal de GesVLA est d'adresser une faiblesse connue des VLA actuels : l'ambiguïté spatiale. Quand plusieurs objets similaires sont présents dans la scène, une instruction textuelle seule (type "prends la bouteille") reste ambiguë. Intégrer le geste de pointage comme modalité parallèle au texte offre un ancrage spatial explicite sans modifier l'interface verbale. L'architecture dual-VLM représente un choix architectural non trivial par rapport aux approches qui traitent les modalités de façon séquentielle. Ce n'est pas la première tentative d'incorporer des signaux humains dans les VLA, mais la formalisation du geste comme modalité de premier rang dans l'espace latent, plutôt qu'en post-processing, est une contribution d'architecture à surveiller pour les intégrateurs qui déploient des cobots en environnements de picking désordonnés. GesVLA s'inscrit dans la vague de recherche post-RT-2 et pi-0 qui cherche à rendre les VLA robustes au-delà du régime de laboratoire. Les modèles concurrents comme OpenVLA (Berkeley), Octo ou RoboFlamingo travaillent essentiellement avec du texte et de la vision, sans modalité gestuelle native. Physical Intelligence (pi) avec pi-0 et Google DeepMind avec RT-2/RT-X restent les références industrielles sur la généralisation des VLA à grande échelle. Le preprint ne mentionne pas de partenariat industriel ni de timeline de déploiement commercial. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (LIBERO, Calvin) pour permettre des comparaisons directes, et une intégration sur des plateformes comme Franka ou UR5 au-delà des configurations de démonstration présentées.

IA physiqueOpinion
1 source
VLANeXt : recettes pour construire des modèles VLA performants
195arXiv cs.RO 

VLANeXt : recettes pour construire des modèles VLA performants

Une équipe de chercheurs a publié VLANeXt, un modèle Vision-Language-Action (VLA) qui surpasse l'état de l'art sur les benchmarks LIBERO et LIBERO-plus, deux références standards pour l'évaluation de politiques robotiques généralisables. Le papier (arXiv 2602.18532v2), loin de se limiter à une nouvelle architecture, repose sur une étude systématique de l'espace de conception des VLA, structurée en trois axes: les composants fondamentaux, les éléments de perception, et la modélisation des actions. Partant d'une baseline inspirée de RT-2, les auteurs identifient 12 résultats clés formant une recette reproductible pour construire des modèles VLA performants. Le code est publié en open source sur GitHub pour permettre à d'autres équipes de reproduire les expériences et d'itérer sur cette base commune. L'apport principal de ce travail n'est pas le modèle lui-même, mais la méthode. Le domaine des VLA souffre d'un problème structurel: chaque groupe publie son propre modèle avec des protocoles d'entraînement et des setups d'évaluation incompatibles, rendant toute comparaison rigoureuse impossible. VLANeXt impose un cadre unifié qui permet enfin d'isoler quelles décisions de conception ont un effet mesurable sur les performances. Pour les équipes R&D travaillant sur des politiques robotiques généralisables, les 12 findings donnent des règles pratiques sur le choix du backbone VLM, le traitement des entrées visuelles et la tête de prédiction d'actions. La validation en conditions réelles renforce la crédibilité des résultats, même si les détails des expériences physiques restent parcellaires dans l'abstract. Les VLA émergent de la convergence entre grands modèles multimodaux et robotique incarnée. RT-2 (Google DeepMind, 2023) a été le précurseur, montrant qu'un VLM pré-entraîné pouvait piloter un robot réel après fine-tuning. Une vague de travaux a suivi: pi-0 (Physical Intelligence), OpenVLA, Octo, RoboFlamingo. Face à cette prolifération, VLANeXt propose un point de stabilisation méthodologique plutôt qu'une course aux performances brutes. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un travail académique dont la valeur tient à la rigueur comparative. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus exigeants comme BridgeV2 ou DROID, et une adoption par des équipes travaillant sur des plateformes physiques commerciales.

IA physiqueOpinion
1 source
Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile
196arXiv cs.RO 

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile

Mobile UMI, soumis sur arXiv (arXiv:2605.20894) en mai 2026, présente un framework de collecte de démonstrations sans robot dédié pour l'apprentissage par imitation sur manipulateur mobile. Le dispositif repose sur trois composants: un rig à deux caméras portées par l'opérateur humain (poitrine pour la navigation globale, poignet pour l'interaction locale), une ancre spatiale ChArUco en prise unique qui recale les deux repères visuels-inertiels et découple la trajectoire de manipulation en SE(3) de celle de navigation en SE(2), et un exécuteur asynchrone à horizon glissant (receding-horizon) qui réaligne en temps réel chaque chunk d'actions généré sur la pose physique courante du robot. Sur quatre tâches domestiques longue-séquence évaluées à 100 essais chacune, le système atteint un taux de réussite moyen de 83,8%, devançant les baselines ACT et Diffusion Policy testées dans les mêmes conditions. Ce résultat s'attaque à deux goulots structurels du mobile manipulation: les labels d'action contaminés par la locomotion humaine lors de la collecte, et la latence d'inférence des politiques de diffusion (plusieurs centaines de millisecondes), pendant laquelle la base avance et rend les waypoints planifiés caducs. En découplant cinématiquement la main du torse, les trajectoires d'entraînement deviennent cohérentes indépendamment de la démarche de l'opérateur. L'approche est architecturalement agnostique, ce qui est un point fort concret pour les intégrateurs: aucune modification de la politique sous-jacente n'est requise, et les ablations confirment que le référentiel thoracique seul comble l'essentiel de l'écart de performance, la synchronisation d'état fermant le reste. Mobile UMI étend l'Universal Manipulation Interface (UMI) de Chi et al. (Stanford/Columbia, 2023), interface poignet à bas coût qui a popularisé la collecte téléopérée pour la manipulation sur table. L'extension à la base mobile était un verrou reconnu: les approches dominantes comme RT-2, OpenVLA ou Pi-0 de Physical Intelligence ciblent essentiellement des bras fixes ou des déplacements très contraints. Des acteurs comme Boston Dynamics avec Spot et son bras, ou des projets académiques comme MoMa (Mobile Manipulation), opèrent dans ce même espace concurrentiel. Le travail reste un preprint non évalué, sans déploiement industriel annoncé ni partenaire matériel cité; les conditions précises des essais (charge utile, vitesse de base, surface de test) ne sont pas détaillées dans l'abstract, ce qui limite la comparabilité directe avec d'autres benchmarks publiés.

RechercheOpinion
1 source
PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action
197arXiv cs.RO 

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

Des chercheurs ont publié en mai 2026 sur arXiv (2605.19580) PAPO-VLA, une méthode d'optimisation pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique guidée par le langage naturel. L'observation centrale est qu'une politique VLA opère en boucle fermée : chaque action modifie l'état de la scène et conditionne toutes les décisions suivantes, ce qui rend une erreur de planification particulièrement coûteuse. Les auteurs distinguent donc deux rôles dans une politique VLA : le planificateur, qui prend des décisions orientées tâche susceptibles de rediriger l'exécution, et l'exécuteur, qui les traduit en actions continues denses. PAPO-VLA identifie les "actions de planification" en croisant variation d'action et issue de trajectoire, estime leur importance causale via deux critères formels (suffisance et nécessité causales), puis intègre ces poids dans l'estimation d'avantage du GRPO (Group Relative Policy Optimization), de sorte que les moments critiques reçoivent une emphase d'optimisation plus forte sans abandonner le signal de trajectoire globale. Des améliorations sont rapportées sur plusieurs benchmarks de manipulation robotique, sans chiffres précis disponibles dans le résumé public. L'apport clé est de combler un angle mort des approches existantes : l'imitation de trajectoires et l'optimisation par retour de trajectoire entière traitent toutes les actions avec la même importance, alors que certains instants de décision ont un impact causal disproportionné sur le succès de la tâche. Quantifier cet impact via des métriques causales formelles plutôt qu'heuristiques est une avancée méthodologique notable. Pour les équipes déployant des VLA en environnement réel, sur des plateformes comme pi-0 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA), la méthode promet d'améliorer la fiabilité sans données de démonstration supplémentaires. Depuis RT-2 (Google DeepMind, 2023), le secteur des VLA cherche à combler l'écart entre performance en démonstration contrôlée et robustesse en déploiement réel. Le GRPO, popularisé par DeepSeek-R1 pour le raisonnement en LLM, est ici adapté à la robotique via une pondération causale des actions, dans un axe de recherche croissant autour du renforcement causal appliqué aux robots. PAPO-VLA est un preprint non encore revu par les pairs ; la validation expérimentale complète, avec benchmarks précis et comparaisons contrôlées, reste à confirmer via publication.

RechercheOpinion
1 source
SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation
198arXiv cs.RO 

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

Des chercheurs ont publié sur arXiv (référence 2605.16871) SADP, pour Subgoal-Aware Diffusion Policy, un framework d'apprentissage par imitation conçu pour rendre les robots manipulateurs explicables en cours d'exécution. L'approche repose sur deux mécanismes combinés : l'utilisation de modèles de fondation pour générer automatiquement des démonstrations annotées en sous-objectifs intermédiaires, et l'entraînement d'une politique de diffusion conditionnée simultanément sur la description de la tâche globale et sur chaque sous-objectif. Une tête auxiliaire légère prédit en temps réel l'état de complétion de chaque sous-étape, exposant ainsi la progression interne du robot à un opérateur humain. Les expériences couvrent des simulations dans l'environnement de référence RLBench et une validation en conditions réelles sur un bras UR5e d'Universal Robots. Les résultats affichent des taux de succès supérieurs aux baselines de type diffusion conditionnée uniquement par la tâche, sans sacrifier les performances globales. L'apport principal n'est pas l'explicabilité en soi, déjà abordée par des approches post-hoc, mais son intégration native dans la politique d'action. Pour un intégrateur ou un responsable industriel, cela change l'équation opérationnelle : il devient possible de monitorer l'avancement d'une manipulation longue-distance, de localiser précisément le sous-objectif en échec, et de réduire les temps de diagnostic en production. Le recours aux modèles de fondation pour annoter automatiquement les démonstrations contourne par ailleurs la pénurie chronique de supervision au niveau des sous-tâches dans les datasets robotiques standards, un goulot d'étranglement pratique bien identifié. La coexistence d'interprétabilité et de haute performance remet en question l'hypothèse d'un arbitrage inévitable entre les deux. Les diffusion policies sont devenues un paradigme dominant pour la manipulation dextère depuis les travaux de Chi et al. en 2023, mais leur opacité décisionnelle reste une critique persistante dans les contextes déploiement industriel. Les modèles VLA comme pi-0 (Physical Intelligence), OpenVLA ou les RT-séries de Google DeepMind exploitent les connaissances des modèles de fondation sans pour autant structurer explicitement la progression par sous-objectifs. SADP se positionne à l'intersection des politiques de diffusion et de la décomposition hiérarchique de tâches, dans un espace concurrentiel qui inclut également des approches comme SayCan ou Code-as-Policies. L'utilisation d'un UR5e, cobot industriel standard très répandu, renforce la crédibilité des résultats en conditions réelles. Les suites naturelles incluront probablement la mise à l'échelle vers des tâches plus complexes et des tests en environnements industriels réels.

UEL'utilisation du UR5e d'Universal Robots (fabricant danois, UE) comme plateforme de validation réelle renforce la pertinence industrielle pour les intégrateurs européens, et l'explicabilité native des politiques de diffusion répond directement aux exigences de transparence algorithmique de l'AI Act.

💬 L'explicabilité en robotique, c'est souvent du post-hoc rajouté en bout de chaîne, une couche de justification qui n'influence rien sur l'exécution réelle. Là, c'est intégré dans la politique elle-même, avec une tête auxiliaire qui prédit en temps réel où en est le robot dans la séquence, ce qui change vraiment le diagnostic quand une manipulation foire en production. Et valider ça sur un UR5e plutôt que sur un bras de labo maison, au moment où l'AI Act va forcer les industriels à justifier leurs systèmes, c'est pas anodin.

IA physiquePaper
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
199arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

IA physiqueOpinion
1 source
RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes
200arXiv cs.RO 

RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes

Une équipe de chercheurs a publié RoboMME (Robotic Multi-Memory Evaluation), un benchmark standardisé à grande échelle destiné à évaluer les modèles VLA (vision-language-action) sur des tâches de manipulation robotique nécessitant de la mémoire à long horizon. Le benchmark comprend 16 tâches construites selon une taxonomie en quatre catégories : mémoire temporelle, spatiale, des objets et procédurale, couvrant des scénarios comme le comptage d'actions répétées ou la manipulation d'objets temporairement occultés. Les auteurs ont également développé 14 variantes de VLA augmentées de mémoire, toutes bâties sur le backbone pi0.5 de Physical Intelligence, et les ont évaluées selon différentes stratégies d'intégration mémorielle. L'absence d'un cadre d'évaluation standardisé était jusqu'ici un frein majeur pour la recherche sur la mémoire dans les VLA généralistes : chaque équipe testait ses mécanismes dans des conditions ad hoc, rendant toute comparaison rigoureuse impossible. RoboMME comble ce vide en permettant, pour la première fois, de mesurer systématiquement comment différentes représentations mémorielles (états cachés récurrents, mémoire externe, fenêtre de contexte longue) se comportent sur un spectre de tâches hétérogènes. La conclusion principale est nuancée : l'efficacité d'une architecture mémoire est fortement dépendante de la tâche, chaque approche présentant des avantages distincts selon la catégorie, ce qui remet en cause l'idée qu'une solution universelle serait à portée à court terme. Pour les intégrateurs et les décideurs B2B, cela signifie concrètement que le choix du mécanisme mémoriel devra rester spécifique au cas d'usage, sans recette générique applicable. Ce benchmark s'inscrit dans la montée en puissance des VLA généralistes, portés par des modèles comme pi0 et pi0.5 de Physical Intelligence (levée de 400 millions de dollars en 2024), OpenVLA, Octo ou RoboVLMs, qui cherchent tous à transférer les capacités des grands modèles de langage à la manipulation physique. D'autres benchmarks comme LIBERO, RoboSuite ou MetaWorld couvrent déjà l'évaluation générale des VLA, mais RoboMME se distingue par son focus explicite sur la mémoire à long horizon, un aspect jusqu'ici systématiquement sous-évalué dans ces environnements. Les prochaines étapes probables incluent l'adoption de RoboMME comme référence communautaire dans les pipelines d'évaluation des grands labs robotiques, et le développement d'architectures mémoire capables de généraliser entre catégories de tâches sans sacrifier les performances spécialisées.

RechercheActu
1 source