Aller au contenu principal

Dossier OpenVLA / RT-X — page 4

642 articles · page 4 sur 13

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel
151arXiv cs.RO IA physiqueOpinion

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

1 source
Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur
152arXiv cs.RO 

Lier efficacement scènes réelles et données synthétiques pour la robotique cognitive et la vision par ordinateur

Des chercheurs ont soumis mi-juin 2026 un article préliminaire (preprint arXiv 2606.20272) portant sur la génération de données d'entraînement synthétiques liées à des scènes réelles pour les systèmes de vision IA appliqués à la robotique cognitive. Le travail couvre plusieurs familles de méthodes : l'analyse sémantique d'environnement, l'estimation de pose 6D et l'estimation de pose de préhension (grasping pose estimation), deux capacités centrales pour permettre à un robot de localiser et saisir des objets dans des scènes non contrôlées. L'objectif déclaré est de réduire le fossé de domaine (domain gap) entre les environnements de simulation utilisés pour générer des données d'entraînement et les conditions du monde réel, en liant explicitement les deux lors de la phase de génération. Les auteurs présentent ce travail comme en cours ("work in progress") et ne publient pas encore de résultats quantitatifs ni de benchmarks comparatifs. Le domain gap est l'un des verrous techniques les plus structurants pour le déploiement industriel de robots perceptifs. Les modèles de vision entraînés uniquement sur des données synthétiques tendent à échouer en environnements réels à cause des variations d'éclairage, de texture et de géométrie non reproduites en simulation. Une approche qui ancre la génération synthétique dans des scènes réelles captées (par exemple via reconstruction 3D ou relevé de profondeur) pourrait réduire ce biais sans le coût prohibitif de l'annotation manuelle à grande échelle, un goulot d'étranglement bien documenté pour les pipelines de vision industrielle. Si cette méthode est validée à l'échelle, elle représente un levier de productivité concret pour les intégrateurs déployant des solutions de pick-and-place ou de navigation en environnements variés. Le sim-to-real transfer mobilise depuis plusieurs années les principaux acteurs du secteur : NVIDIA a structuré sa plateforme Isaac Sim précisément pour produire des données synthétiques photoréalistes à grande échelle, Google DeepMind y investit dans ses travaux sur les modèles Vision-Language-Action comme RT-2, et Physical Intelligence a publié des résultats notables sur la généralisation en environnements réels avec π0. L'article soumis s'inscrit dans ce courant, mais reste à un stade amont : aucune implémentation publiée, aucun code disponible, aucun jeu de données de référence cité. La version finale, si elle présente des résultats sur des benchmarks reconnus comme le BOP Challenge, YCB-V ou LINEMOD, sera plus déterminante pour évaluer la contribution réelle de cette approche.

RecherchePaper
1 source
L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines
153arXiv cs.RO 

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

Une équipe de chercheurs a publié un cadre d'entraînement basé sur des actions latentes permettant de former des modèles VLA (Vision-Language-Action) généralistes à partir de vidéos égocentriques humaines non annotées, sous l'identifiant arXiv:2606.18955. L'architecture centrale, baptisée Hybrid Disentangled VQ-VAE, décompose les dynamiques de mouvement des arrière-plans environnementaux via des masques physiques et construit un codebook d'actions multi-embodiment. Pré-entraîné exclusivement sur des vidéos humaines sans étiquettes d'action, le modèle ne requiert que 50 trajectoires robotiques annotées pour s'adapter à un embodiment cible, contre des milliers généralement exigés par les approches concurrentes. Les résultats, validés en simulation et en environnement réel, affichent des performances comparables aux meilleurs modèles VLA entraînés sur des jeux de données massifs et entièrement annotés. Une stratégie de découplage intention-perception complète l'architecture : le backbone VLM prédit l'intention d'action tandis qu'un encodeur visuel gelé distinct fournit les caractéristiques propres à l'état courant à un module expert d'action, réduisant ainsi les hallucinations d'action. Ce travail s'attaque directement au principal goulot d'étranglement du domaine : la rareté des données robotiques avec annotations de haute fidélité. Les vidéos humaines égocentriques, abondantes sur internet et capturant une grande diversité environnementale, restaient jusqu'ici inexploitables dans les paradigmes d'entraînement classiques faute de labels d'action. Descendre à 50 trajectoires pour l'adaptation aval représente un changement d'ordre de grandeur pour les intégrateurs industriels qui n'ont ni la logistique ni le budget pour constituer des datasets robotiques à grande échelle. Le codebook cross-embodiment ouvre en outre la voie à des modèles fondamentaux transférables entre différentes morphologies de robots, ce qui répond à l'un des reproches récurrents faits aux approches VLA : leur faible généralisation inter-plateforme. Le contexte concurrentiel est dense. Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA visent tous à former des modèles VLA généralistes, mais s'appuient principalement sur des datasets robotiques annotés comme OpenX-Embodiment ou des jeux propriétaires. Des travaux antérieurs comme UniSim ou des approches de pré-entraînement sur vidéo internet avaient déjà exploré cette direction sans atteindre ce niveau de frugalité en données. Ce preprint arXiv reste à ce stade une contribution de recherche : pas de déploiement industriel annoncé, pas de partenariat déclaré. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une validation sur une palette plus large de morphologies robotiques réelles.

RechercheOpinion
1 source
SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente
154arXiv cs.RO 

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Une équipe de chercheurs a publié fin juin 2026 SC3-Eval (arXiv:2606.18610), un cadre d'évaluation des politiques de manipulation robotique basé sur la génération vidéo cohérente. Le principe : plutôt que de rouler une politique en conditions réelles, un modèle fondamental vidéo pré-entraîné simule les trajectoires du robot et prédit si la tâche aboutit. SC3-Eval repose sur trois mécanismes de cohérence complémentaires. La cohérence dynamique avant-inverse entraîne simultanément le modèle à prédire les images à partir des actions et à récupérer les actions à partir des images, ancrant les rollouts à un espace d'action physiquement plausible. La cohérence multi-vue oblige le modèle à reconstruire chaque caméra depuis les autres, maintenant la cohérence spatiale sur de longs épisodes. Enfin, à l'inférence, un signal d'incertitude par chunk d'actions interrompt les rollouts dont les images générées divergent des actions demandées. Évalué sur sept politiques vision-langage-action (VLA) réelles, SC3-Eval atteint une corrélation de Pearson de 0,929 avec les résultats terrain et un MMRV de 0,119, surpassant trois baselines vidéo existantes. Ce résultat a une portée pratique immédiate : évaluer une politique de manipulation en conditions réelles est coûteux, lent et difficile à paralléliser. Un corrélat simulé à 0,929 constitue un substitut crédible pour filtrer les candidats politiques avant déploiement physique, réduisant potentiellement les cycles d'itération de plusieurs semaines à quelques heures. Fait notable, SC3-Eval reproduit fidèlement les modes d'échec observés en réel, permettant un diagnostic fin au niveau tâche plutôt qu'un classement agrégé, ce qui est plus actionnable pour un intégrateur. Le cadre se généralise par ailleurs à des tâches hors distribution d'entraînement, un point critique pour les équipes qui développent des politiques généralistes. Ce travail s'inscrit dans la vague d'adoption des modèles VLA commerciaux et de recherche, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix, OpenVLA, dont l'évaluation standardisée reste un goulot d'étranglement reconnu. Les approches alternatives passent par des simulateurs physiques classiques (MuJoCo, Isaac Sim) ou des rollouts réels coûteux ; les world models vidéo comme UniSim ou IRASim avaient amorcé cette direction mais se heurtaient à la dérive autorégressiveet à l'incohérence multi-caméras que SC3-Eval adresse directement. Le code et les données ne sont pas encore publiés au moment de la préprint, ce qui limite l'adoption immédiate. La prochaine étape logique sera de valider la méthode sur des plateformes humanoïdes à plus haute dimensionnalité, où le coût d'évaluation réelle est encore plus prohibitif.

RechercheOpinion
1 source
Pré-entraînement contrastif action-image pour le contrôle visuomoteur
155arXiv cs.RO 

Pré-entraînement contrastif action-image pour le contrôle visuomoteur

Des chercheurs ont publié CAIP (Contrastive Action-Image Pre-training), un encodeur visuel pour la robotique qui exploite 32 041 heures de vidéo égocentrique humaine, complétées par seulement 88 heures de données de manipulation robotique. Le principe central consiste à extraire les poses 3D des mains humaines depuis des vidéos filmées en vue subjective, et à les utiliser comme signal de substitution pour les actions d'effecteur terminal, un proxy qui s'aligne naturellement avec les espaces d'action des bras robotiques. Via un objectif d'apprentissage contrastif, CAIP apprend une représentation unifiée liant images et actions. Évalué sur deux mains dextres réelles (Dexmate Vega et Sharpa Wave), le modèle affiche des gains supérieurs à 30% sur des tâches de manipulation précise : pliage de tissu, versage de liquide, et manipulations en dextérité fine. Ce résultat touche directement un verrou bien connu dans la communauté : la pénurie de données robotiques étiquetées freine la pré-formation de grands encodeurs visuels, là où le NLP ou la vision généraliste disposent de milliards d'exemples. CAIP propose une voie de passage scalable sans collecter davantage de trajectoires robot, en exploitant la vidéo humaine disponible à l'échelle d'Internet comme source implicite de signaux d'action. En surpassant DINOv2, SigLIP, MVP et R3M sur des benchmarks en conditions réelles (et non en simulation), l'approche renforce l'hypothèse que le sim-to-real gap peut être partiellement contourné en ancrant la représentation visuelle dans des dynamiques d'action humaine, plutôt qu'en augmentant les données robot brutes. Ce travail s'inscrit dans un courant de recherche actif autour des politiques visuomotrices apprenant depuis la vidéo humaine. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et les approches issues d'OpenVLA croisent des signaux similaires, bien que depuis des angles différents. CAIP se distingue en isolant le signal de pose 3D des mains comme modalité intermédiaire explicite, plutôt que d'ingérer du langage ou des représentations d'action latentes. Le code et les modèles ne sont pas encore publiés au moment de la soumission (arXiv:2606.17256, juin 2026). La prochaine étape naturelle serait de tester la généralisation à des morphologies robotiques plus variées et à des tâches bimanuelles, domaine où les pipelines VLA (Vision-Language-Action) peinent encore à démontrer une robustesse hors laboratoire.

RechercheOpinion
1 source
ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA
156arXiv cs.RO 

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

Pré-publiée sur arXiv en juin 2026 (identifiant 2606.17200), ACE-EGO-0 est un cadre de pretraining pour modèles Vision-Langage-Action (VLA) qui exploite conjointement 4 530 heures de données robotiques et de simulation, et 1 480 heures de vidéos égocentrées humaines converties en pseudo-trajectoires robot. Le pipeline automatise la transformation de vidéos à la première personne en séquences d'actions au format démonstration téléopérée, en représentant les mouvements dans l'espace caméra plutôt que dans un référentiel corporel. Pour atténuer le bruit inhérent à ces pseudo-labels, un objectif d'entraînement reliability-aware concentre la supervision sur les segments les plus fiables via une perte auxiliaire dédiée. Évalué sur RoboCasa GR1 TableTop (robot humanoïde GR1 de Fourier Intelligence) et RoboTwin 2.0, ACE-EGO-0 atteint les meilleures performances publiées sur les deux benchmarks et démontre, selon les auteurs, un transfert vers la manipulation bimanuelle en conditions réelles. L'apport central est la résolution d'un problème structurel : les divergences d'espaces d'action, de morphologie et de dynamiques temporelles entre humains et robots rendaient jusqu'ici l'entraînement conjoint instable ou contre-productif. En unifiant la représentation via des actions caméra-space et un time-aligned action chunking avec morphology conditioning, les auteurs montrent que des jeux de données égocentrés existants comme Ego4D ou EPIC-Kitchens peuvent fournir un signal complémentaire valide à grande échelle. Pour les équipes R&D en robotique, l'implication pratique est directe : réduire significativement le coût de collecte de trajectoires robot, l'un des principaux goulots d'étranglement du déploiement VLA à l'échelle industrielle. La course aux politiques robotiques généralisables s'est accélérée depuis Pi-0 de Physical Intelligence (novembre 2024), OpenVLA et RT-2 de Google DeepMind. Des travaux antérieurs comme Dobb-E ou Human2Robot avaient déjà exploré les données humaines égocentrées comme supervision complémentaire, mais sans framework unifié à cette échelle ni évaluation systématique. ACE-EGO-0 propose une recette reproductible évaluée sur deux benchmarks de référence, dont RoboTwin 2.0, particulièrement pertinent car la manipulation bimanuelle reste un défi ouvert pour les humanoïdes commerciaux tels que Figure 03, Optimus Gen 3 ou Unitree H1. La prépublication ne mentionne ni partenaire industriel ni déploiement annoncé : ACE-EGO-0 est pour l'instant une contribution de recherche, pas un produit livrable.

IA physiqueOpinion
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
157arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques
158arXiv cs.RO 

Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques

Des chercheurs ont publié le 17 juin 2026 un preprint arXiv (2606.18247) présentant VERITAS, un cadre de type générateur-vérificateur destiné aux politiques robots généralistes. Le principe : une politique robot pré-entraînée joue le rôle de "générateur" et est couplée à un "vérificateur visuel" sans gradient qui évalue les actions produites au moment de l'inférence, c'est-à-dire pendant le déploiement réel. Les résultats rapportés indiquent que ce steering à l'inférence surpasse systématiquement la politique généraliste de base sans nécessiter de données de démonstration supplémentaires. Plus significatif encore, les trajectoires auto-générées et validées par le vérificateur servent ensuite de supervision pour un fine-tuning offline : selon les auteurs, ce post-training atteint une efficacité comparable à celle obtenue avec des démonstrations d'experts humains, et ce sans aucune intervention humaine dans la boucle. L'enjeu industriel est direct : l'un des freins majeurs au déploiement à grande échelle de robots généralistes est le coût d'annotation humaine pour maintenir ou améliorer les performances après mise en service. VERITAS propose un mécanisme d'auto-amélioration autonome où le robot apprend de sa propre pratique, ce qui, si les résultats se confirment sur du matériel physique à l'échelle, réduirait structurellement le coût d'intégration pour les opérateurs industriels et les intégrateurs. La distinction entre "steering à l'inférence" (amélioration immédiate sans retraining) et "amélioration offline" (fine-tuning asynchrone sur rollouts vérifiés) est pertinente pour les décideurs B2B qui doivent planifier des cycles de mise à jour. Il faut cependant noter que le papier ne documente pas de métriques de déploiement sur des sites de production réels, ce qui tempère les conclusions. Cette approche s'inscrit dans une tendance forte issue des LLMs : transposer le "test-time compute scaling" au domaine robotique. Des politiques généralistes comme pi-0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) ont démontré la faisabilité du transfert multi-tâches, mais butent sur la dégradation en conditions réelles non vues à l'entraînement. VERITAS tente de combler ce fossé sans recourir à des méthodes coûteuses comme DAgger ou RLHF classique. Aucun partenaire industriel ni calendrier de validation sur plateforme physique n'est mentionné dans le preprint ; les prochaines étapes attendues sont une évaluation sur robots physiques (humanoïdes ou manipulateurs) dans des environnements non contrôlés.

RechercheOpinion
1 source
RLRC : l'apprentissage par renforcement au service de la récupération des modèles vision-langage-action compressés
159arXiv cs.RO 

RLRC : l'apprentissage par renforcement au service de la récupération des modèles vision-langage-action compressés

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2506.17639) RLRC, un pipeline de compression en trois étapes pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique complexe. Face au constat que ces architectures multimodales dépassent généralement plusieurs milliards de paramètres et génèrent des latences d'inférence incompatibles avec un déploiement embarqué, la méthode combine élagage structurel (structured pruning), récupération des performances par fine-tuning supervisé (SFT) et apprentissage par renforcement (RL), puis quantification. L'étape RL intègre un warm-up du critique et une régularisation par perte de clonage comportemental (BC loss) pour stabiliser l'entraînement et préserver le comportement de la politique. Les mesures sur plusieurs architectures VLA indiquent une réduction mémoire jusqu'à 8x, un gain d'inférence de 2,3x et un taux de succès aux tâches maintenu au niveau du modèle non compressé. Les auteurs rapportent que RLRC surpasse les baselines de compression existantes, bien que ces résultats restent à ce stade auto-déclarés dans un preprint. L'enjeu est concret pour les intégrateurs robotiques : les VLA de nouvelle génération comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les dérivés d'OpenVLA requièrent aujourd'hui un GPU serveur pour l'inférence temps réel, ce qui complique leur embarquement sur un robot mobile ou un manipulateur autonome. RLRC propose une voie pour franchir ce seuil matériel sans dégrader les capacités de manipulation. L'apport différenciant est l'utilisation du RL en phase de récupération post-élagage : contrairement à un SFT seul, il corrige les dégradations comportementales induites par la compression, notamment sur des tâches à longue séquence ou à faible marge d'erreur. Le message implicite est que le goulot d'étranglement du déploiement VLA n'est plus uniquement le sim-to-real, mais aussi le compute-to-edge. Les VLA se sont imposés comme standard de facto pour la manipulation généraliste depuis RT-2 de Google DeepMind en 2023, et leur adoption s'est accélérée avec Pi-0 de Physical Intelligence en 2024. La compression de ces modèles reste un angle peu exploré : la littérature sur le pruning et la quantification cible majoritairement les LLM conversationnels comme LLaMA ou Mistral, pas les architectures action-conditionnées. RLRC vise explicitement les plateformes embarquées (NPU, SoC robotique) pour affranchir le déploiement d'une dépendance cloud. Un site projet est disponible à rlrc-vla.github.io, mais aucun partenariat industriel ni calendrier de commercialisation n'est annoncé à ce stade : il s'agit d'un résultat de recherche académique, pas d'un produit expédié.

UELes laboratoires européens (INRIA, CEA-List) et équipes R&D travaillant sur le déploiement embarqué de VLA pourraient appliquer ces techniques de compression, mais aucun acteur français ni réglementation européenne n'est directement impliqué.

IA physiqueOpinion
1 source
Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention
160arXiv cs.RO 

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

Des chercheurs publient APOLLO, un cadre hybride pour le rangement personnalisé d'objets ménagers par robot, soumis le 17 juin 2026 sur arXiv. Le système couple un modèle d'embedding personnalisé (PEM), léger, entièrement sur CPU, entraîné par paire utilisateur-environnement à partir d'une poignée de démonstrations, à un LLM activé sélectivement uniquement quand le PEM signale une incertitude élevée. APOLLO introduit l'abstention comme comportement de premier ordre : le robot peut décider de ne pas déplacer un objet faute d'information suffisante, une capacité absente de la plupart des approches actuelles. Pour évaluer ce comportement, les auteurs publient également APOR, un dataset synthétique généré par LLM couvrant des environnements multi-meubles, des profils organisationnels variés, des cas d'abstention explicites et des scènes partiellement bruitées. Sur les benchmarks PARSEC et APOR, APOLLO améliore les performances par rapport aux baselines LLM pures tout en réduisant substantiellement le nombre d'appels au modèle. Le code est disponible sur GitHub (PaInt-Lab/APOLLO). Les résultats restent à ce stade préliminaires, les auteurs eux-mêmes parlant de "preuves initiales" en environnement simulé, sans validation sur hardware réel. Ce résultat pointe un angle mort systématique : les méthodes existantes supposent des observations propres et une actionabilité complète, deux hypothèses rarement vérifiées dans un vrai foyer encombré. L'architecture hybride répond aussi à des contraintes de déploiement concret : le PEM sur CPU préserve la vie privée et réduit la latence, le LLM étant réservé aux décisions vraiment ambiguës. C'est une direction pragmatique pour des assistants domestiques embarqués sur du matériel non-spécialisé, où le recours systématique au cloud n'est ni acceptable ni viable à l'échelle. APOLLO s'inscrit dans un effort plus large pour rendre les politiques VLA (Vision-Language-Action) robustes à l'incertitude et aux données partielles, un problème central du déploiement hors environnements contrôlés. Les travaux concurrents de Physical Intelligence (π0), des équipes RT-2 ou OpenVLA s'attaquent à la généralisation en scènes non structurées, mais l'abstention explicite reste rare dans la littérature. Aucun acteur français ou européen n'est directement impliqué dans cette publication. Les prochaines étapes naturelles incluent une validation sur hardware réel et une évaluation avec de vrais utilisateurs sur la pertinence des décisions de non-action.

RecherchePaper
1 source
ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique
161arXiv cs.RO 

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

Une équipe de chercheurs a publié sur arXiv (réf. 2606.17937, juin 2026) ThinkingVLA, un modèle VLA (Vision-Language-Action) conçu pour la manipulation robotique sur des séquences longues. L'architecture, de type Mixture-of-Transformers, intercale raisonnement textuel et visuel dans un unique processus génératif. Un Chain-of-Thought "forward" identifie le sous-objectif suivant et prédit l'état visuel cible correspondant ; un CoT "inverse" prend ensuite cette image générée comme entrée et infère les commandes motrices nécessaires pour l'atteindre. L'action finale est générée conditionnée sur ce contexte de raisonnement complet. Sur des benchmarks en simulation et en conditions réelles, ThinkingVLA surpasse les baselines de l'état de l'art, avec les gains les plus marqués sur les tâches à horizon temporel long. La grande majorité des modèles VLA actuels, notamment Pi-0 de Physical Intelligence ou OpenVLA, projettent directement observations vers actions sans raisonnement explicite, ce qui les pénalise sur les séquences longues nécessitant planification spatiale et décomposition en sous-étapes. ThinkingVLA adresse ce "reasoning gap" en forçant le modèle à anticiper visuellement l'état du monde avant de dériver les commandes. Cette boucle d'inverse dynamics grounding visuel est, si elle se confirme à l'échelle sur des objets et environnements variés, une piste sérieuse pour réduire le fossé persistant entre démonstrations en laboratoire et robustesse opérationnelle hors domaine. Les modèles VLA ont connu une accélération nette depuis 2024 avec RT-2 de Google DeepMind, Pi-0 de Physical Intelligence (lancé fin 2024), GR00T N2 de NVIDIA et Helix de Figure AI. L'ajout de CoT textuel dans les VLA est une tendance consolidée, mais ThinkingVLA se distingue par un CoT visuel explicite, soit la génération d'une image intermédiaire comme étape de raisonnement, ce qui implique une architecture bimodale plus coûteuse à l'inférence. Le travail est soumis en pre-print sans revue par les pairs à ce stade, sans partenariat industriel annoncé. Les prochains défis identifiés par le domaine concernent la généralisation hors distribution et la réduction du coût d'inférence pour un déploiement embarqué en temps réel.

RechercheOpinion
1 source
APEX : exécution adaptative de politiques pour la manipulation de précision
162arXiv cs.RO 

APEX : exécution adaptative de politiques pour la manipulation de précision

Une équipe de chercheurs a publié sur arXiv (référence 2606.16504) un framework baptisé APEX, Adaptive Policy Execution, conçu pour combler le fossé d'exécution qui dégrade les performances des robots manipulateurs pilotés par des politiques d'imitation. Dans les benchmarks rapportés, APEX réduit l'erreur de suivi induite par le contrôleur de 41,2 % sur la relecture de démonstrations, et améliore le taux de succès en manipulation de 4,8 à 25,8 points de pourcentage selon la classe de politique testée, visuomoteur ou VLA (Vision-Language-Action). Ces résultats couvrent quatre familles de politiques distinctes, ce qui constitue une base de comparaison plus large que la plupart des papiers du genre. Le problème que APEX adresse est structurel dans le domaine : les politiques d'imitation modernes génèrent des références d'action de haut niveau (positions cibles, trajectoires) que des contrôleurs bas niveau exécutent ensuite. Or ces politiques sont entraînées sans modéliser la dynamique du contrôleur sous-jacent, ce qui crée un écart systématique entre les actions commandées et les actions réalisées, un problème particulièrement critique pour les tâches de manipulation de précision (assemblage, insertion, saisie fine). Les approches existantes nécessitaient soit de modifier l'architecture de la politique pré-entraînée, soit de reprogrammer le contrôleur bas niveau. APEX se positionne comme une couche intermédiaire plug-and-play, traitant la politique et le contrôleur comme des boîtes noires inaccessibles. Il reconstruit une référence dynamiquement faisable à partir des sorties de la politique, puis s'adapte en temps réel via le feedback d'état bas niveau. Les auteurs fournissent une garantie formelle de convergence, ce qui est notable dans un champ souvent dominé par des résultats empiriques sans fondement théorique. Le contexte est celui d'une course intense au déploiement des VLA dans des environnements industriels réels : des modèles comme pi0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) affichent des résultats impressionnants en simulation ou en laboratoire, mais peinent à translater leurs performances sur des robots physiques en raison précisément de ce sim-to-real gap d'exécution. APEX s'inscrit dans une tendance émergente, sans toucher aux poids du modèle, améliorer l'exécution physique, qui concurrence les approches de fine-tuning sur robot réel. La publication ne mentionne pas de partenaires industriels ni de timeline de déploiement ; il s'agit d'une contribution de recherche, pas d'un produit annoncé. L'enjeu pour les intégrateurs est direct : si le framework tient ses promesses à plus grande échelle, il pourrait devenir un composant standard entre n'importe quelle politique foundation et n'importe quel bras robot commercial, sans nécessiter d'accès au code source de l'un ou de l'autre.

IA physiqueOpinion
1 source
RHO : votre agent de code est secrètement un roboticien
163arXiv cs.RO 

RHO : votre agent de code est secrètement un roboticien

Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils. Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique. Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.

IA physiqueOpinion
1 source
DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée
164arXiv cs.RO 

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée

DemoDiffusion est une méthode de robotique présentée dans un preprint arXiv (2506.20668) permettant à un robot manipulateur d'imiter une démonstration humaine unique, sans entraînement spécifique à la tâche ni données appariées humain-robot. Le pipeline repose sur deux étapes successives : d'abord, le mouvement de la main humaine est converti en trajectoire approximative pour l'effecteur terminal du robot par recalibrage cinématique (kinematic retargeting), produisant une motion en boucle ouverte. Ensuite, une politique de diffusion généraliste pré-entraînée (diffusion policy) corrige cette trajectoire pour qu'elle reste dans la distribution des actions robotiques plausibles, sans fine-tuning. Sur 8 tâches de manipulation variées en conditions réelles, DemoDiffusion atteint un taux de succès moyen de 83,8 %, contre 52,5 % pour le seul recalibrage cinématique et 13,8 % pour la politique généraliste utilisée sans guidance. La méthode réussit même sur des tâches où la politique généraliste échoue totalement. Ce résultat conteste une hypothèse structurante du secteur : l'idée que l'adaptation à de nouvelles tâches requiert soit des jeux de données appariées humain-robot coûteux à collecter, soit du reinforcement learning en ligne avec ses longs cycles d'entraînement. DemoDiffusion montre qu'une démonstration unique suffit, ce qui réduit drastiquement le coût d'intégration pour les intégrateurs industriels. L'écart entre 83,8 % et 52,5 % illustre concrètement que le recalibrage cinématique seul reste fragile hors de son domaine de calibration, et que la politique de diffusion joue un rôle correcteur décisif, une forme de sim-to-real soft sans réentraînement. Sur les tâches à 0 % pour la baseline, le gain est absolu. L'approche s'inscrit dans la vague des politiques de diffusion généralistes issues de travaux comme Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence, qui cherchent à capitaliser sur des modèles pré-entraînés pour éviter la spécialisation coûteuse par tâche. Les concurrents directs sur le segment "one-shot imitation" incluent des méthodes basées sur ACT, VIMA ou les VLA visuomoteurs (OpenVLA, RoboVLMs), qui exigent généralement plusieurs dizaines à centaines de démonstrations. DemoDiffusion reste au stade preprint sans déploiement industriel ni partenaire commercial annoncé ; les prochaines étapes naturelles seraient une évaluation sur manipulateurs commerciaux (UR, Franka Robotics) et des tâches impliquant contact forcé ou objets déformables.

UELes intégrateurs industriels européens (dont Franka Robotics, entreprise allemande citée comme cible d'évaluation future) pourraient bénéficier d'une réduction des coûts de collecte de données, mais aucun acteur français ou européen n'est impliqué dans ces travaux au stade preprint.

IA physiqueOpinion
1 source
ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes
165arXiv cs.RO 

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes

Une équipe de chercheurs a publié fin juin 2026 ROVE (Reinforcement learning for humanoid VLA post-training with imperfect human interventions), un framework de renforcement dédié à l'amélioration des modèles Vision-Language-Action (VLA) sur robots humanoïdes à partir d'interventions humaines imparfaites. Le principe : un opérateur prend la main sur le robot lors des phases d'échec, générant des trajectoires correctives qui servent ensuite à affiner le modèle. Le problème bien identifié par les auteurs est que ces interventions humaines sont souvent hésitantes, sous-optimales, voire erronées, ce qui rend l'imitation naïve contre-productive. ROVE introduit deux mécanismes centraux : un pipeline human-in-the-loop capable de collecter simultanément des données de déploiement autonome et d'intervention, et une méthode d'estimation de valeur dite "optimiste" (Optimistic Value Estimation, OVE) qui filtre les comportements à haute valeur depuis des trajectoires de qualité mixte. Le framework intègre également des vidéos d'expériences humaines cross-embodiment pour enrichir la supervision sur les modes de défaillance et de récupération rares. Sur des tâches réelles de manipulation à contact-riche et fine-grained, ROVE surpasse les baselines par apprentissage par expérience et s'améliore de manière consistante à chaque itération rollout-intervention. L'enjeu central ici est la scalabilité du déploiement humanoïde en conditions réelles. Les modèles VLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont démontré des capacités de généralisation remarquables, mais leur post-training sur hardware humanoïde reste un goulot d'étranglement : la cinématique whole-body et le contrôle de mains dextères compliquent radicalement la collecte de données téléopérées de qualité. ROVE invalide l'hypothèse selon laquelle l'intervention humaine doit être experte pour être utile : OVE permet d'extraire un signal d'avantage informatif même depuis des démonstrations imparfaites, ce qui signifie qu'on peut utiliser des opérateurs non-spécialistes pour améliorer continûment le modèle en production. C'est un changement de paradigme potentiellement significatif pour les intégrateurs : la qualité du déploiement n'est plus bornée par la disponibilité d'experts en téléopération. Ce travail s'inscrit dans une vague de recherches sur le RLHF appliqué à la robotique physique, après les travaux pionniers sur l'imitation par intervention (HATO, HITL-TAMER) et les approches par feedback correctif. Les humanoïdes ciblés restent non précisés dans l'abstract (preprint arXiv, les détails hardware seront à vérifier dans le papier complet), mais les résultats sur tâches contact-rich suggèrent une applicabilité aux plateformes type Figure 03, Unitree H1/G1 ou Agility Digit. Le positionnement concurrentiel est clair : là où Physical Intelligence mise sur la qualité des données téléopérées en amont, ROVE parie sur la rectification en boucle fermée en aval. Les prochaines étapes probables incluent des tests à plus grande échelle et une évaluation sur plusieurs architectures VLA, mais en l'état de preprint, aucun déploiement commercial n'est annoncé.

IA physiqueOpinion
1 source
Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel
166arXiv cs.RO 

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Des chercheurs proposent, dans un preprint déposé en juin 2026 sur arXiv (2606.15285), un cadre asynchrone baptisé "semantic-action decoupling" qui découple l'inférence sémantique de la génération d'actions au sein des modèles Vision-Language-Action (VLA). L'architecture divise le VLA en deux modules distincts: un module de compréhension à basse fréquence qui met à jour de manière asynchrone des conditions sémantiques réutilisables, et un module d'action à haute fréquence qui produit en continu des commandes de contrôle sans relancer l'intégralité du modèle. Testée sur le benchmark LIBERO avec les modèles π₀.₅ (Physical Intelligence) et UniVLA, ainsi que sur un robot réel avec UniVLA, la méthode atteint un débit d'inférence côté serveur allant jusqu'à 35,6 Hz pour le seul module d'action. Pour compenser le décalage temporel entre des représentations sémantiques potentiellement périmées et l'état d'exécution courant, les auteurs introduisent deux mécanismes additionnels: le conditionnement sur l'historique des actions passées, et un entraînement explicite à la désynchronisation temporelle (time-misalignment training). Ce résultat s'attaque à l'un des verrous centraux du déploiement industriel des VLA: leur coût computationnel élevé les contraint aujourd'hui à des fréquences de contrôle trop basses pour des tâches de manipulation rapide ou réactive. Atteindre 35,6 Hz sans modifier le backbone vision-langage ni introduire un planificateur externe est non trivial, car cela signifie qu'un intégrateur peut greffer cette optimisation sur un VLA existant sans refonte architecturale. Le travail apporte une réponse partielle au "demo vs. reality gap" souvent reproché aux VLA: en maintenant un contrôle en boucle fermée à haute fréquence, le système peut absorber des perturbations que des architectures synchrones rateraient. Il reste que les métriques publiées correspondent à un throughput serveur, et non à une latence de bout en bout sur un système embarqué, ce qui nuance la portée opérationnelle immédiate. Les VLA sont devenus l'architecture dominante en robotique de manipulation depuis π₀ (Physical Intelligence, 2024) et les travaux de Google DeepMind sur RT-2, OpenVLA et leurs successeurs. UniVLA, lui, est issu de travaux récents visant à unifier les modalités de commande dans un modèle unique. La problématique de la fréquence de contrôle est traitée en parallèle par plusieurs équipes: Physical Intelligence avec π₀.₅, mais aussi des approches par distillation ou par action chunking (ACT, Diffusion Policy). Ce preprint ne présente pas encore de déploiement industriel ni de timeline commerciale, mais il ouvre une voie d'optimisation compatible avec des VLA open-source, ce qui pourrait accélérer l'adoption par des intégrateurs disposant d'une infrastructure GPU serveur sans retraîner leurs modèles de base.

RechercheOpinion
1 source
TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés
167arXiv cs.RO 

TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés

TRACE (TRAjectory-routed Causal Evidence) est un framework mémoire pour les politiques visuomotrices d'imitation, présenté dans un preprint arXiv publié en juin 2026 (arXiv:2606.14551) par une équipe de l'Université Zhejiang. Le problème central : lorsqu'un robot opère en autonomie sur une séquence longue, certains indices visuels critiques (couleur d'un objet, panneau de direction, marquage au sol) disparaissent du champ de vision avant que la décision correspondante doive être prise. Ces situations dites de "preuve différée" (delayed-evidence) créent une ambiguïté directe : deux observations visuellement identiques peuvent exiger des actions opposées selon ce que le robot a perçu plus tôt. TRACE y répond en maintenant une mémoire latente de taille fixe, indexée non par le temps brut ni par des étiquettes de tâche fournies manuellement, mais par des "signatures de trajectoire" (path signatures), des descripteurs compacts et ordonnés de la trajectoire d'état cinématique du robot. Ces signatures servent de clés pour écrire et récupérer les preuves visuelles stockées au moment où l'indice était encore visible. Le système s'intègre via des adaptateurs légers sans modifier le backbone, la tête d'action ni l'objectif d'imitation. L'enjeu pratique est réel pour les systèmes de manipulation longue durée. La quasi-totalité des politiques visuomotrices actuelles, qu'elles soient basées sur des Diffusion Policies, des transformers ou des modèles VLA (Vision-Language-Action), supposent implicitement que l'observation courante constitue un état suffisant pour le contrôle. TRACE démontre expérimentalement, sur des tâches réelles de manipulation avec des points de branchement visuellement ambigus, que cette hypothèse échoue dès qu'une décision dépend d'un indice passé. Les résultats surpassent les baselines concurrentes, dont les politiques à historique court et les mémoires récurrentes classiques (LSTM, GRU), sur deux métriques : sélection correcte de branche et taux de succès global. La mémoire à taille bornée évite par ailleurs l'accumulation qui pénalise les architectures à attention sur contexte long lors d'épisodes étendus. Ce travail s'inscrit dans un débat actif sur la mémoire épisodique pour robots manipulateurs. Les approches existantes incluent les RNN embarquées dans la politique, les mécanismes d'attention sur l'historique visuel exploités dans RT-2 et pi-0 (Physical Intelligence), et les Memory-Augmented Neural Networks. TRACE se distingue par son découplage entre l'indice visuel (stocké comme vecteur latent) et la clé de récupération (signature cinématique pure), ce qui le rend robuste aux variations d'apparence tout en restant sensible au chemin parcouru. Il s'agit d'une contribution de recherche fondamentale sans déploiement industriel annoncé ; les suites naturelles incluent l'intégration à des politiques de référence comme ACT ou Diffusion Policy, et la validation sur des horizons plus longs en environnement non structuré.

RechercheOpinion
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
168arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
169arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
170arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
171arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
172arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
173arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur
174arXiv cs.RO 

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées. L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain. L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

UELa validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

IA physiqueOpinion
1 source
ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA
175arXiv cs.RO 

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ReCoVLA (Reward Compilation for VLA recovery) est un framework de récupération d'erreurs présenté dans un preprint arXiv publié le 9 juin 2026, conçu pour pallier la fragilité des politiques VLA (Vision-Language-Action) face aux états hors-nominal. Le principe : maintenir une politique VLA pré-entraînée gelée (frozen), déléguer à un modèle vision-langage externe (VLM) l'inférence du mode de défaillance et du stade de récupération, puis compiler une récompense structurée pour entraîner une politique résiduelle corrective en simulation. Cette politique résiduelle est ensuite déployée en zéro-shot sur robot réel sans réentraînement. Sur des tâches de manipulation couvrant des horizons courts, longs et des contacts riches, ReCoVLA fait passer le taux de succès moyen de 36,7 % (baseline π0.5 fine-tuné) à 66,7 % en simulation, et atteint 61,7 % en déploiement physique zéro-shot sim-to-réel. L'apport conceptuel central est de ne pas utiliser le VLM pour générer des actions ou des récompenses directement, mais comme un sélecteur sémantique de récompenses : il prédit un descripteur de récupération et un masque de récompense parmi des composants prédéfinis liés à la tâche. Cette séparation entre compréhension sémantique de haut niveau et contrôle correctif de bas niveau adresse un angle mort bien documenté des architectures VLA actuelles : elles offrent de bons priors pour la manipulation conditionnée au langage, mais s'effondrent dès qu'elles rencontrent un état non prévu à l'entraînement. Le framework se veut agnostique à la politique VLA sous-jacente, ce qui le rendrait compatible avec différents modèles de base. Le travail s'inscrit dans une compétition intense autour des politiques génératives pour la manipulation robotique. Des modèles comme π0 et π0.5 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA ont démontré la faisabilité des VLA à grande échelle, mais la robustesse aux défaillances reste un problème ouvert. ReCoVLA propose une réponse modulaire qui n'exige pas de réentraîner la politique de base, ce qui réduit théoriquement les coûts d'adaptation. Il convient toutefois de noter que ce preprint ne fait pas état d'un déploiement industriel : les expériences physiques restent en contexte laboratoire, avec un périmètre de tâches limité. Les prochaines étapes naturelles concernent la généralisation à d'autres architectures VLA et l'évaluation sur des chaînes causales plus longues.

RechercheOpinion
1 source
Adaptation de politique sans mise à jour du modèle par flux normalisant
176arXiv cs.RO 

Adaptation de politique sans mise à jour du modèle par flux normalisant

Des chercheurs du laboratoire RIPL ont publié sur arXiv (2606.06461) GLOVES, une famille de méthodes d'adaptation fondées sur le flow matching permettant de corriger les actions d'agents robotiques non experts, politiques pré-entraînées, modèles de fondation ou opérateurs humains, sans modifier leurs poids ni leur logique de contrôle. Le principe : plutôt que de remplacer l'agent par un système entièrement autonome, GLOVES "transporte" ses actions vers une distribution cible apprise d'un expert, à partir d'un petit nombre de démonstrations ou de segments de compétences réutilisables. Un mécanisme de score par flux inverse (reverse flow evaluation) sert de portail d'intervention sélective : les actions déjà cohérentes avec la distribution experte passent inchangées, seules les actions anomales ou hors distribution (OOD) sont corrigées. Ce travail répond à un problème concret et croissant dans le déploiement des modèles de fondation robotiques de type VLA (Vision-Language-Action) : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA produisent des comportements génériques qui échouent souvent sur des tâches spécifiques ou dans des environnements non vus à l'entraînement. GLOVES propose une couche d'adaptation légère qui ne nécessite pas de réentraîner le modèle de base, quelques démonstrations suffisent, et les segments de compétences réussis sont réutilisables sur plusieurs tâches. L'intervention conditionnelle préserve l'autonomie de l'agent sous-jacent, ce qui est pertinent pour des déploiements industriels où l'opérateur veut conserver le contrôle sémantique du comportement sans tout reconstruire. GLOVES s'inscrit dans un courant actif de recherche sur la correction de politiques et le contrôle partagé (shared autonomy), distinct de l'imitation learning classique ou de l'IRL. Le flow matching est en forte progression depuis son adoption dans Pi-0 (diffusion policies) ; GLOVES l'applique non à la génération d'actions brutes mais à leur correction post-hoc, ce qui est architecturalement plus modulaire et plus facile à greffer sur un système existant. Le code et les démonstrations sont disponibles à ripl.github.io/GLOVES_web. Les suites naturelles incluent l'intégration dans des pipelines de téléopération augmentée, bien que le preprint n'annonce pas encore de déploiements industriels concrets ni de partenariats commerciaux.

RechercheOpinion
1 source
PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée
177arXiv cs.RO 

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Des chercheurs ont publié PiL-World (arXiv:2606.05773), un modèle de monde (world model) en boucle fermée conçu pour évaluer les politiques VLA (Vision-Language-Action) sans exécution physique continue. Le système fonctionne par blocs d'actions (action chunks) : à chaque itération, la politique VLA génère une séquence d'actions, PiL-World simule les observations multi-vues résultantes, et ces observations alimentent le cycle d'inférence suivant. Évalué sur trois tâches de manipulation bimanuelle réelles, PiL-World réduit l'écart entre le taux de succès mesuré sur robot physique et celui estimé en simulation boucle fermée de 63,2 % à 12,0 % par rapport à la baseline, soit plus de cinq fois moins d'erreur d'évaluation. Le modèle conditionne la génération vidéo sur le mouvement du robot en vue de tête et sur un historique latent encodant le contexte d'exécution de la tâche, et apprend à la fois sur des démonstrations téléopérées réussies et sur des trajectoires d'échec. L'évaluation des politiques VLA en boucle fermée est un goulot d'étranglement critique dans le développement robotique : chaque cycle de test sur hardware coûte du temps, de l'usure mécanique et une supervision humaine. Un écart de 63,2 % entre simulation et réalité rend une baseline en boucle ouverte essentiellement inexploitable pour prédire les performances terrain. Ramené à 12,0 %, ce delta commence à être utilisable pour screener des politiques avant validation physique. Le fait que PiL-World apprenne aussi sur des rollouts d'échec est notable : cela corrige un biais classique des world models entraînés uniquement sur démonstrations positives, et rapproche la distribution simulée de celle des exécutions politiques réelles, qui incluent naturellement des tentatives ratées. La demande pour des boucles d'évaluation sans robot s'intensifie depuis que les VLA, notamment Pi-0 de Physical Intelligence, OpenVLA, ou GR00T N2 de NVIDIA, sont devenues les architectures de référence pour la manipulation généraliste. Les simulateurs physiques classiques comme Isaac Lab ou MuJoCo souffrent du sim-to-real gap pour les tâches de contact fin, d'où l'intérêt croissant pour les world models appris directement sur données réelles. PiL-World rejoint une tendance émergente aux côtés de travaux comme UniSim ou IRASim, qui visent à remplacer partiellement l'exécution physique par des modèles génératifs vidéo conditionnés sur les actions. Les résultats sur trois tâches bimanuelles restent limités en diversité de scènes et de morphologies robotiques, et aucun déploiement industriel ni partenariat n'est annoncé à ce stade, ce qui positionne PiL-World comme une contribution de recherche prometteuse plutôt qu'un outil prêt pour l'intégration.

RechercheOpinion
1 source
L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte
178Pandaily 

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Des chercheurs de l'université du Zhejiang, en collaboration avec Cornell University, la National University of Singapore et Xidian University, ont publié sur arXiv (2605.30011) un système de raisonnement visuel pour robots baptisé VisualThink-VLA. L'approche remplace le raisonnement en chaîne de pensée textuelle, où le robot génère un monologue interne en tokens de langage avant chaque action, par des tokens visuels directs. Résultat mesuré : le temps de traitement par étape passe de 8,377 secondes (approche texte ECoT) à 0,367 secondes, soit un gain de 22,8x. Sur huit benchmarks standardisés, VisualThink-VLA atteint un taux de succès moyen de 92,63 %, contre 85,09 % pour ECoT. Les expériences physiques ont été conduites sur un bras robotique PIPER NERO à 7 degrés de liberté, sur des tâches de préhension multi-objets, de placement sensible aux relations spatiales, de réorientation sous contrainte de contact, et de séquences composées à deux étapes. Le jeu d'entraînement "VisualEvidence-Set" couvre 754 700 instructions de manipulation. L'intérêt industriel de ce résultat tient à la rareté de la combinaison : gain de vitesse ET gain de précision simultanés, alors que les systèmes d'IA échangent habituellement l'un contre l'autre. Pour les intégrateurs et les équipes de déploiement robotique, un temps de cycle sous 400 ms par étape ouvre la voie à des manipulations en environnement dynamique sans supervision humaine rapprochée. L'architecture à quatre canaux visuels, Bounding Box, Edge, Motion, Relation, utilise un mécanisme de routage adaptatif qui sélectionne en moyenne seulement 2,22 canaux par étape, évitant le surcoût computationnel d'une fusion systématique. Le caractère plug-and-play revendiqué par les auteurs est un argument commercial non négligeable : les systèmes VLA existants pourraient être mis à niveau sans refonte de l'architecture sous-jacente, ce qui réduit le coût d'adoption. Cette affirmation reste à vérifier sur des robots de production tiers, les expériences publiées se limitant au PIPER NERO. Le contexte de ce travail s'inscrit dans une compétition intense autour des VLA (Vision-Language-Action models), dominée jusqu'ici par des approches comme OpenVLA, pi0 (Physical Intelligence) ou RoboVLMs, qui traitent toutes la vision et le langage comme co-entrées mais conservent un raisonnement textuel latent. L'université du Zhejiang est l'un des laboratoires les plus productifs en robotique incarnée en Chine, avec plusieurs publications majeures ces deux dernières années sur le sim-to-real et la manipulation dextère. Sur le fond, VisualThink-VLA teste l'hypothèse que le langage est un détour inutile pour la perception motrice, hypothèse que partagent des équipes comme Wayve ou Enchanted Tools côté européen dans leurs architectures world-model. Les prochaines étapes non précisées dans le papier concernent l'extension à des manipulateurs bimanaux et à des environnements non structurés hors laboratoire, deux conditions nécessaires avant tout pilote industriel crédible.

UELes équipes VLA européennes, notamment Enchanted Tools (France) dont l'architecture world-model partage des hypothèses similaires, pourraient s'inspirer de cette approche pour réduire les latences de manipulation sans sacrifier la précision.

IA physiqueOpinion
1 source
IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
179arXiv cs.RO 

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert. Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement. Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.

UELa publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.

RechercheOpinion
1 source
Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage
180arXiv cs.RO 

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

Une équipe de chercheurs a publié début juin 2026 (arXiv:2606.02735) un framework baptisé S2, pour "See Less, Specify More", destiné à améliorer la généralisation des modèles vision-langage-action (VLA). S2 repose sur deux mécanismes complémentaires : "Specify More" reformule chaque trajectoire d'entraînement avec des instructions affinées au niveau de la sous-tâche, tout en préservant l'objectif global original, tandis que "See Less" impose un budget explicite de preuves visuelles, forçant le modèle à agir à partir d'un contexte visuel suffisant pour la tâche plutôt que d'un champ de vision non contraint. Le système a été évalué sur huit tâches réelles de manipulation sur deux plateformes robotiques : le TX-G2, une variante compatible AgiBot G2, et le Toyota HSR. Le résultat principal : le taux de succès moyen par sous-tâche passe de 54,2 % à 79,0 % par rapport au modèle de référence pi0.5 de Physical Intelligence. Ces résultats s'attaquent à l'un des verrous les plus documentés du domaine VLA : la dégradation des performances sous distracteurs visuels, changements d'apparence ou tâches sémantiquement similaires. Le problème identifié est ce que les auteurs nomment "supervision aliasing" : des instructions trop grossières créent une ambiguïté que le modèle doit résoudre seul, dégradant l'apprentissage. S2 contourne ce problème sans annotation de régions ou de masques, ce qui est notable en termes de coût de labellisation. La compatibilité avec des planificateurs VLM standards via le mécanisme d'in-context learning facilite également l'intégration dans des pipelines existants, sans refonte architecturale. S2 s'inscrit dans une course serrée autour des VLA généralisables. pi0.5, développé par Physical Intelligence (ex-startup fondée par des chercheurs de Google DeepMind et Stanford), constitue ici la baseline battue. La plateforme AgiBot G2, produite par la startup chinoise éponyme, gagne en visibilité comme banc d'essai de référence pour la manipulation humanoïde. Les concurrents directs incluent les approches OpenVLA (Stanford), Octo (Berkeley), et les travaux VLA de Google DeepMind autour de RT-2 et ses successeurs. L'absence de déploiement industriel annoncé maintient S2 dans la catégorie "résultat de recherche prometteur" plutôt que "produit embarqué", mais le gain de 25 points de succès sur des tâches réelles justifie une attention soutenue de la part des intégrateurs robotiques.

RechercheOpinion
1 source
RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde
181arXiv cs.RO 

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

Une équipe de recherche a publié RynnVLA-002, un modèle unifié combinant Vision-Language-Action (VLA) et world model, présenté en preprint sur arXiv (2511.17502v3). L'architecture couple deux composantes interdépendantes : le world model prédit des états visuels futurs à partir des actions et observations courantes, apprenant ainsi la physique implicite de l'environnement ; le modèle VLA génère en retour les actions suivantes depuis des observations visuelles brutes. Ce couplage bidirectionnel vise un apprentissage conjoint de la dynamique environnementale et de la planification motrice. Sur le benchmark de simulation LIBERO, RynnVLA-002 atteint 97,4 % de taux de succès sans pré-entraînement. En conditions réelles, dans des expériences conduites avec le framework open-source LeRobot de Hugging Face, l'intégration du world model améliore le taux de succès global de 50 % par rapport au modèle VLA seul. L'intérêt de cette architecture tient dans la mutualisation de deux paradigmes historiquement distincts. Les world models ont longtemps servi d'outils de planification offline ou de data augmentation, tandis que les VLA visent la génération d'actions en temps réel depuis des observations brutes. RynnVLA-002 cherche à démontrer leur renforcement mutuel : le world model corrige la génération d'actions en anticipant leurs conséquences visuelles, ce qui réduit la dépendance aux données d'entraînement dans des zones peu couvertes. Le gain de 50 % en real-world est significatif, mais le preprint reste peu disert sur la diversité des tâches testées et les conditions expérimentales précises, ce qui rend une évaluation indépendante prématurée. Pour les équipes confrontées au sim-to-real gap, l'idée d'ancrer une VLA dans une représentation physique anticipatrice constitue néanmoins une direction crédible. Les VLA sont devenus un terrain de compétition dense depuis Pi-0 de Physical Intelligence, OpenVLA, et les approches RoboVLMs, qui exploitent des backbones vision-langage pré-entraînés pour produire des politiques généralisables. Côté world models, des travaux comme Dreamer (DeepMind) et UniSim ont popularisé la prédiction vidéo comme supervision indirecte pour la robotique. RynnVLA-002 cherche à unifier explicitement ces deux lignes, se différenciant ainsi des architectures à modules séparés. À sa troisième version de preprint, le travail est en itération active, mais aucune affiliation institutionnelle claire ni partenariat industriel n'est mentionné dans l'abstract, ce qui limite l'évaluation de sa maturité réelle. Les prochaines étapes logiques incluront une validation sur des benchmarks plus exigeants comme CALVIN ou RLBench, et idéalement une publication des poids du modèle pour permettre une réplication indépendante.

UEL'utilisation de LeRobot (framework open-source de HuggingFace, entreprise française) comme cadre expérimental de référence valide l'écosystème robotique open-source porté par un acteur français, sans impact direct sur le marché ou la R&D en France/UE.

RechercheOpinion
1 source
PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes
182arXiv cs.RO 

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

IA physiquePaper
1 source
GIFT : transfert fonctionnel induit par la géométrie pour la manipulation d'objets par catégorie
183arXiv cs.RO 

GIFT : transfert fonctionnel induit par la géométrie pour la manipulation d'objets par catégorie

Des chercheurs ont publié sur arXiv (2503.15371v2) un framework de transfert de compétences robotiques baptisé GIFT (Geometry-Induced Functional Transfer), conçu pour permettre à un robot de reproduire des manipulations complexes à partir d'une seule démonstration humaine. Le système s'appuie sur le cadre des Cartes Fonctionnelles (Functional Maps, FMC), une technique issue de la géométrie computationnelle, pour extraire des représentations centrées sur les interactions objet-environnement. Une fois ces fonctions d'interaction cartographiées, le robot peut les transférer à des objets de topologie similaire, même si leurs formes diffèrent significativement. Pour générer des trajectoires fluides respectant les contraintes de la démonstration, GIFT intègre l'interpolation par vis (ScLERP, Screw Linear Interpolation). Aucun réentraînement n'est requis : le système s'adapte à de nouveaux environnements directement à l'inférence, validé sur des configurations réelles sans données supplémentaires. L'enjeu industriel est concret. La manipulation d'objets inconnus reste l'un des principaux goulots d'étranglement de la robotique de service et de logistique : chaque nouvelle catégorie d'objet exige aujourd'hui des données d'entraînement supplémentaires ou une reprogrammation manuelle, ce qui alourdit considérablement le coût de déploiement. Un framework one-shot capable de généraliser à travers des catégories d'objets sans réentraînement réduirait le temps de mise en production de façon significative. GIFT s'attaque à ce problème en prouvant qu'une représentation géométrique bien choisie peut absorber la variabilité de forme, offrant une alternative aux approches Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou RT-2 de Google DeepMind, qui nécessitent des volumes de données considérables. Les Functional Maps sont une technique mature en traitement de surfaces 3D, mais leur application au transfert de compétences robotiques reste récente. Ce travail s'inscrit dans un mouvement plus large visant à réduire le data gap de la manipulation, aux côtés d'approches comme ACT (Stanford), DexCap ou UMI, qui explorent également le few-shot learning pour des tâches de manipulation fine. La publication est à ce stade un preprint arXiv (soumis en mars 2025, v2 en remplacement), sans partenaire industriel annoncé ni métrique de cycle time publiée. L'absence de comparatifs quantitatifs avec des baselines VLA laisse ouverte la question de la robustesse à grande échelle.

RecherchePaper
1 source
Voir, Planifier, Revenir en arrière : des modèles VLA sensibles à la progression pour une manipulation robotique robuste
184arXiv cs.RO 

Voir, Planifier, Revenir en arrière : des modèles VLA sensibles à la progression pour une manipulation robotique robuste

Une équipe de chercheurs propose SPR (See, Plan, Rewind), un framework de type vision-language-action (VLA) conçu pour rendre la manipulation robotique plus robuste face aux échecs d'exécution. Publié sur arXiv (arXiv:2506.09292v2), le système découpe chaque tâche en sous-objectifs spatiaux intermédiaires, puis opère en boucle fermée selon trois étapes : observer l'état courant et le prochain jalon, planifier une trajectoire vers le waypoint 2D suivant, et rembobiner vers un état récupérable si la progression stagne. Sur le benchmark LIBERO, SPR dépasse la ligne de base MolmoAct de 5 points de pourcentage. Sur LIBERO-Plus, une variante plus exigeante qui introduit des instructions et des états initiaux inédits, SPR affiche la plus faible dégradation de performance parmi les modèles testés, surpassant OpenVLA-OFT et UniVLA sur les scénarios hors-distribution. Ce que SPR apporte concrètement, c'est un mécanisme de récupération d'erreur intégré qui ne nécessite ni données d'entraînement supplémentaires, ni modèle auxiliaire dédié. C'est un point non trivial : la plupart des systèmes VLA actuels échouent silencieusement quand la séquence d'actions diverge, sans capacité à détecter le blocage et à se repositionner. La mesure explicite du progrès par jalons intermédiaires permet ici au modèle de savoir où il en est dans la tâche, ce qui adresse directement l'un des verrous principaux du déploiement industriel : la robustesse à l'imprévu. Les résultats sur LIBERO-Plus constituent une validation partielle de la résistance hors-distribution, même si les benchmarks simulés restent éloignés des contraintes physiques réelles. Le domaine des VLA pour la robotique de manipulation connaît une accélération marquée depuis 2023, avec des modèles comme RT-2 (Google DeepMind), OpenVLA (Berkeley), et plus récemment UniVLA et les variantes OFT d'OpenVLA. SPR se positionne dans ce paysage en ajoutant une couche de monitoring de progression là où ses concurrents restent en boucle ouverte ou délèguent la récupération à des modules séparés. Aucun déploiement physique ni partenariat industriel n'est mentionné dans ce preprint : il s'agit d'une contribution de recherche académique, avec des validations entièrement en simulation. La prochaine étape naturelle serait une évaluation sur robot physique pour quantifier le sim-to-real gap que les chiffres LIBERO ne permettent pas de mesurer.

RechercheOpinion
1 source
SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double
185arXiv cs.RO 

SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double

Une équipe de chercheurs a publié, début juin 2026 sur arXiv, les travaux sur SpaceTools, un modèle de vision-langage (VLM) entraîné à coordonner plusieurs outils de perception spatiale via un nouveau cadre d'apprentissage par renforcement baptisé DIRL (Double Interactive Reinforcement Learning). Le système s'appuie sur des outils standards de perception robotique comme les estimateurs de profondeur, les modèles de segmentation et les estimateurs de pose, que le VLM apprend à orchestrer de manière autonome sans pipeline fixe. La validation expérimentale porte sur trois benchmarks de compréhension spatiale, RoboSpatial-Home, BLINK et BOP-ASK, où SpaceTools atteint l'état de l'art, avec des gains de +12 points de pourcentage sur RoboSpatial par rapport à un fine-tuning supervisé standard (SFT) et +16 points par rapport à un RL mono-outil de référence. Les tests en manipulation réelle ont été conduits sur un bras robotique à 7 degrés de liberté (7-DOF). L'enjeu central adressé par ces travaux est le fossé entre la compréhension visuelle qualitative des VLMs actuels et la précision métrique exigée par les applications embarquées. Les VLMs savent décrire une scène, mais peinent à répondre à des questions du type "à quelle distance exacte se trouve cet objet" ou "quel est l'angle de rotation optimal pour saisir cette pièce", ce qui bloque leur intégration dans des systèmes de manipulation industrielle. DIRL résout ce problème en deux phases : une phase d'enseignement qui combine des démonstrations issues d'un spécialiste mono-outil et des traces générées par un modèle frontier utilisant tous les outils disponibles, suivie d'une phase d'exploration où le modèle affine lui-même la coordination multi-outils par RL interactif. Ce résultat contredit l'hypothèse selon laquelle le multi-tool reasoning via RL serait inaccessible en raison de l'explosion combinatoire de l'espace de recherche. Ces travaux s'inscrivent dans la dynamique plus large d'intégration des VLMs dans la robotique embodied, un axe de recherche en forte croissance depuis les travaux SayCan (Google, 2022) et RT-2 (DeepMind, 2023). Sur le front concurrent, des approches comme ToolkenGPT ou des pipelines handcrafted restent prisonniers de séquences d'outils prédéfinies, tandis que SpaceTools apprend à choisir dynamiquement ses outils. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé, et les vidéos de manipulation sur le bras 7-DOF restent des démonstrations lab-controlled dont la généralisation en conditions réelles reste à confirmer. Le code et les détails sont accessibles via la page projet spacetools.github.io.

RechercheOpinion
1 source
Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire
186arXiv cs.RO 

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Une équipe de chercheurs a publié début 2026 sur arXiv (réf. 2602.21013, version révisée) une approche augmentant les modèles VLA (Vision-Language-Action) d'un module de mémorisation textuelle appelé "scratchpad", littéralement un bloc-notes interne. Le principe : pendant l'exécution d'une tâche, le modèle peut écrire des notes intermédiaires en langage naturel, notamment les positions d'objets détectées, l'état d'avancement du plan et les sous-objectifs restants à accomplir. Les auteurs ont évalué cette méthode sur deux benchmarks spécialisés, ClevrSkills et MemoryBench, ainsi que sur une tâche réelle de pick-and-place. Résultat annoncé : le scratchpad améliore significativement la généralisation sur ces tâches, aussi bien pour les architectures récurrentes que non récurrentes. La problématique adressée est structurelle. La majorité des VLA actuels opèrent de façon "sans état" (stateless) : ils traitent chaque instant de décision de manière indépendante, sans mémoire explicite des étapes précédentes. Or de nombreuses tâches de manipulation dextère sont non-markoviennes par nature, ce qui signifie que la décision optimale à l'instant t dépend de ce qui s'est passé avant t. Ce travail défend qu'un mécanisme aussi simple qu'un bloc-notes textuel suffit à combler une partie de ce gap, sans modifier l'architecture fondamentale du modèle. Pour les équipes R&D développant des solutions sur longue séquence (assemblage multi-étapes, tri conditionnel, manipulation avec gestion d'état), c'est une piste légère compatible avec les VLA open-source existants, à condition que les résultats sur ClevrSkills et MemoryBench se confirment dans des environnements industriels réels plus bruités. Les VLA ont connu une accélération majeure depuis 2023 avec RT-2 de Google DeepMind, OpenVLA de UC Berkeley, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, tous construits sur le principe de la compréhension sémantique à grande échelle transférée au geste robotique. La limite "sans mémoire" était connue des praticiens mais peu formalisée dans la littérature récente. Ce travail s'inscrit dans une tendance visant à doter les VLA de capacités de raisonnement à long horizon, en parallèle d'autres approches comme les architectures récurrentes ou les planificateurs hybrides symbolique-neuraux. Il s'agit d'un preprint académique sans déploiement ni partenariat industriel annoncé, et les benchmarks utilisés (ClevrSkills, MemoryBench) restent des environnements relativement contrôlés dont la transférabilité au terrain est encore à démontrer.

IA physiqueOpinion
1 source
Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial
187arXiv cs.RO 

Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial

Une équipe de chercheurs a publié sur arXiv (identifiant 2605.31387) une étude évaluant les capacités des modèles vision-langage (VLM) dans des tâches de reconstruction collaborative en plusieurs tours de dialogue. Le protocole repose sur un cadre multi-agents où deux VLMs communiquent via le langage pour reconstruire une structure cible à partir d'entrées visuelles et textuelles. Les chercheurs ont testé des modèles open-weight et des modèles propriétaires selon plusieurs paramètres : modalités d'entrée, représentations d'image (entières ou décomposées), et formats de description de la cible. Résultat principal : les VLMs peinent à raisonner spatialement sur des représentations visuelles, et les gains obtenus grâce au dialogue multi-tours restent modestes. Le titre lui-même ne cache pas l'ambivalence : "improves VLM performance... but only barely". Ce résultat est significatif pour les équipes qui intègrent des pipelines VLM ou VLA (Vision-Language-Action) dans des systèmes robotiques. La recherche confirme que la compréhension spatiale visuelle, pourtant centrale pour des robots opérant en environnements non structurés, reste un point faible structurel des VLMs actuels. Fait notable pour les intégrateurs : les représentations textuelles détaillées de la structure cible surpassent systématiquement les représentations purement visuelles, quelle que soit la modalité testée. Autrement dit, pour une tâche d'assemblage collaboratif, une description sémantique structurée s'avère plus fiable que de laisser le modèle interpréter une image de référence. Les représentations d'images décomposées, où la scène est fragmentée en éléments distincts, améliorent les performances mais ne comblent pas l'écart. Ce travail s'inscrit dans un courant de recherche croissant autour des agents VLM pour la robotique collaborative, stimulé par des architectures comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui font le pari que des VLMs pré-entraînés peuvent généraliser à des tâches robotiques complexes via du fine-tuning ou du prompting. L'étude nuance cet optimisme en exposant les limites actuelles du raisonnement spatial ancré (grounded), particulièrement dans des scénarios de dialogue interactif. Les pistes identifiées incluent l'amélioration des mécanismes de grounding spatial et le raffinement des représentations d'images dans les boucles de dialogue multi-agents, des axes qui intéressent directement les labos travaillant sur la manipulation en environnements non structurés.

RechercheActu
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
188arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

IA physiqueOpinion
1 source
VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)
189arXiv cs.RO 

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié en mai 2026 VLA-Pro, un framework « plug-and-play » destiné à améliorer la généralisation inter-tâches des modèles Vision-Language-Action (VLA) en robotique manipulatoire. Le principe repose sur le stockage d'adaptateurs LoRA (Low-Rank Adaptation) comme mémoires procédurales paramétriques pendant la phase d'entraînement. À l'inférence, le système récupère dynamiquement les mémoires les plus pertinentes en fonction du contexte multimodal courant (image, langage, contexte scène), puis les fusionne pour générer le prochain action chunk. Les expériences ont été conduites sur trois benchmarks : RoboTwin, RLBench (simulation), et des tâches de manipulation en environnement réel. Le gain en simulation atteint jusqu'à 207 % d'amélioration relative selon les backbones testés. Sur les tâches réelles, le taux de succès passe de 5,8 % à 65,0 %, soit un facteur d'environ onze. Ce résultat pointe un problème structurel des VLA actuels : leur incapacité à transférer une expérience acquise vers une tâche inédite, même lorsque les objets ou les gestes impliqués sont similaires. Le bond de 5,8 % à 65,0 % en monde réel est notable, bien que l'absence de détails sur la sélection et la difficulté des tâches testées invite à interpréter ces chiffres avec prudence. L'atout principal de VLA-Pro pour les intégrateurs est sa modularité : compatible avec plusieurs backbones existants, il s'insère sans refonte du pipeline d'entraînement. Pour un décideur industriel, cela réduit concrètement le coût de requalification d'un robot lors d'un changement de tâche en production. Les modèles VLA constituent aujourd'hui le front principal de la recherche en manipulation généraliste, avec Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (Berkeley) et RT-2 (Google DeepMind) comme références majeures. Leur talon d'Achille commun reste la généralisation out-of-distribution, que VLA-Pro tente d'adresser via un mécanisme de mémoire inspiré des systèmes cognitifs. L'utilisation des LoRA comme vecteurs de mémoire est pragmatique, ces adaptateurs étant déjà présents dans la majorité des pipelines de fine-tuning actuels. Le papier ne mentionne ni partenariat industriel ni déploiement annoncé : il s'agit pour l'instant d'une contribution académique prometteuse dont la validation à l'échelle industrielle reste à démontrer.

RechercheOpinion
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
190arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

IA physiqueOpinion
1 source
LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation
191arXiv cs.RO 

LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation

Des chercheurs ont publié LIBERO-PRO, une extension critique du benchmark LIBERO largement utilisé pour évaluer les modèles Vision-Language-Action (VLA). Disponible sur GitHub (Zxy-MLlab/LIBERO-PRO), le travail, présenté sous forme d'arXiv preprint (arXiv:2510.03827v2), soumet les VLA à des perturbations systématiques selon quatre axes : substitution des objets manipulés, variation des états initiaux, modification des instructions de tâche, et changement d'environnement. Résultat sans appel : les modèles actuels qui atteignent plus de 90 % de succès sur l'évaluation LIBERO standard s'effondrent à 0,0 % dans le cadre généralisé de LIBERO-PRO. Concrètement, un modèle continue d'exécuter une séquence de saisie même lorsque l'objet cible est remplacé par un objet sans rapport, et ses sorties restent inchangées face à des instructions corrompues ou composées de tokens aléatoires. Ce résultat est un signal d'alarme direct pour les équipes qui fondent leurs décisions de recherche ou de déploiement sur les classements LIBERO. Il démontre que les modèles VLA n'ont pas acquis de compréhension générale des tâches ni de perception réelle de l'environnement : ils mémorisent des séquences d'actions et des configurations spatiales vues à l'entraînement. Autrement dit, le gap sim-to-real et le problème de généralisation restent entiers, quelle que soit la performance affichée sur le benchmark. Pour les intégrateurs industriels ou les équipes robotique qui envisagent de déployer des politiques basées sur des VLA, cela signifie que les scores publiés ne sont pas des indicateurs fiables de robustesse opérationnelle. LIBERO, introduit pour standardiser l'évaluation des politiques manipulatrices en langage naturel, est devenu une référence de facto dans la communauté. Mais comme tout benchmark sur-exploité, il a progressivement favorisé l'overfitting plutôt que la généralisation. LIBERO-PRO s'inscrit dans une tendance plus large de remise en question des protocoles d'évaluation VLA, aux côtés d'initiatives comparables sur les benchmarks de navigation et de saisie. La prochaine étape logique serait l'adoption de LIBERO-PRO comme standard par les principaux groupes travaillant sur des modèles comme OpenVLA, Octo ou pi0 (Physical Intelligence), afin de permettre des comparaisons réellement équitables et de pousser le secteur vers des politiques robustes en conditions réelles.

RechercheOpinion
1 source
Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique
192arXiv cs.RO 

Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique

Une équipe de chercheurs a publié sur arXiv (référence 2502.03983) un framework baptisé DySta, conçu pour rendre les modèles Vision-Language-Action (VLA) à la fois plus rapides et plus capables sur des tâches longues. Les VLA sont des architectures qui combinent compréhension visuelle, instructions en langage naturel et génération d'actions motrices pour des robots généralistes. DySta résout deux goulots d'étranglement structurels : la fenêtre de contexte limitée en entrée (qui contraint le nombre de frames exploitables) et la complexité quadratique de l'attention transformeur, aggravée par le grand nombre de paramètres. La solution repose sur une séparation explicite des tokens visuels en deux catégories : les tokens statiques (fond, structure de la scène, éléments invariants) et les tokens dynamiques (objets en mouvement, zones d'intérêt). Une seule copie des tokens statiques est conservée entre les frames, tandis qu'un mécanisme de "recache gate" décide de manière sélective quand rafraîchir le cache clé-valeur (KV cache) associé. Les gains sont mesurables : accélération de l'inférence de 2,0x en simulation (avec +2,3 points de succès) et 2,2x sur des tâches réelles générales (avec +10,6 points de succès), ainsi qu'une amélioration de 23,3 points de taux de réussite absolu sur des tâches réelles nécessitant de la mémoire temporelle. L'enjeu industriel est direct : les VLA déployés en milieu réel doivent aujourd'hui gérer des séquences longues (assemblage multi-étapes, manipulation d'objets variables, navigation conditionnelle) sans exploser le coût computationnel. La réduction du contexte via les tokens statiques répond précisément au compromis mémoire/vitesse qui bloque le passage à l'échelle de modèles comme OpenVLA, Pi-0 ou GR00T N2. Le gain de +10,6 points sur des tâches générales réelles est particulièrement significatif car il valide l'approche hors simulation, où le sim-to-real gap reste un défi non résolu pour la majorité des frameworks VLA actuels. DySta s'inscrit dans une vague de travaux d'efficacité VLA qui incluent des approches comme RoboFlamingo, SpatioTemporal Token Compression, ou les techniques de KV cache adaptatif venues du domaine NLP. Les VLA de première génération (RT-2, OpenVLA) ignoraient largement la redondance temporelle des frames visuelles ; DySta formalise ce problème et propose une solution modulaire intégrable à différentes architectures VLM de base. Le papier introduit également un benchmark dédié à l'évaluation de l'intégration multi-frames, comblant un angle mort méthodologique du domaine. Les prochaines étapes logiques incluent l'intégration à des modèles fondationnels ouverts (Llama-based VLAs) et l'évaluation sur des plateformes matérielles contraintes type Jetson, où le rapport latence/performance est critique pour la commercialisation.

💬 Séparer les tokens statiques des dynamiques, c'est une de ces idées qui paraissent évidentes après coup, et ça me plaît pour ça. Le gain de dix points sur des tâches réelles hors simulation, c'est ce qui compte vraiment, pas les chiffres en sim. Si tu développes des VLA sur du matériel embarqué contraint, ce framework vaut le coup d'être lu maintenant.

IA physiqueOpinion
1 source
Débruitage par priorité d'action pour un découpage fluide en temps réel
193arXiv cs.RO 

Débruitage par priorité d'action pour un découpage fluide en temps réel

Une équipe de chercheurs a publié le 26 mai 2026 sur arXiv (réf. 2605.25537) une méthode baptisée Soft RTC (Soft Real-Time Chunking), visant à rendre les politiques d'action par blocs plus fluides lorsqu'elles opèrent sous délai d'inférence. Le problème de départ est concret : les politiques de type diffusion génèrent les commandes motrices en « chunks » (séquences d'actions), mais l'inférence prend du temps. Le RTC standard résout cela en conditionnant chaque nouveau chunk sur les actions déjà engagées par le précédent, grâce à un masque binaire de préfixe. Soft RTC remplace ce masque binaire par un mécanisme de dénaturation partielle (action-prior denoising) : les tokens de chevauchement entre deux chunks ne partent plus d'un bruit pur, mais d'états partiellement dénaturés, alignés sur le chunk précédent via une règle de mélange par token. Sur les 12 niveaux Kinetix publiés (environnements de simulation de manipulation complexe), un fenêtrage "soft" court atteint un taux de résolution de 0,809 contre 0,815 pour le hard RTC, soit un écart marginal. Un fenêtrage medium réduit quant à lui le delta d'action et le jerk (à-coup) en régime de fort délai de respectivement 9,1 % et 9,6 % par rapport au hard RTC classique. Une étude préliminaire sur robot réel en tri d'objets confirme l'amélioration de la complétion et donne à Soft RTC les meilleures métriques de douceur de commande parmi les politiques testées. L'enjeu pour la robotique industrielle est précis : le jerk élevé, c'est l'usure mécanique, les alarmes de sécurité, et l'impossibilité de travailler en cobotique. Les politiques de diffusion pour la manipulation (pi-0 de Physical Intelligence, ACT, Diffusion Policy) ont démontré des capacités de généralisation impressionnantes, mais leur déploiement en temps réel reste contraint par la latence d'inférence, typiquement plusieurs centaines de millisecondes sur GPU embarqué. Hard RTC avait déjà attaqué ce problème ; Soft RTC prouve qu'on peut gagner significativement en douceur de mouvement sans sacrifier ni le taux de succès ni le coût computationnel, les deux variantes conservent un overhead « quasi-naïf » à l'inférence, sans guidance coûteuse au déploiement. Ce résultat contredit l'idée que fluidité et performance sont nécessairement en tension dans les politiques diffusion pour la manipulation. La problématique du délai d'inférence dans les politiques d'action par diffusion est active depuis que ces architectures ont montré leur supériorité en manipulation dextère, notamment avec les travaux de Stanford (Diffusion Policy, 2023) et de Physical Intelligence (pi-0, 2024). Le hard RTC de référence avait établi une baseline robuste mais au prix de transitions sèches entre chunks. Côté acteurs, Physical Intelligence, Unitree, Figure AI et les équipes de Google DeepMind (GR00T, RT-2) travaillent tous sur des politiques à base de diffusion pour leurs humanoïdes et bras manipulateurs. Soft RTC s'inscrit dans la couche d'inférence basse latence de ces systèmes, indépendamment de l'architecture VLA sous-jacente. Aucun partenaire industriel ni timeline de déploiement n'est mentionné, il s'agit d'une contribution de recherche, avec code et niveaux Kinetix publiés, mais sans implémentation industrielle annoncée à ce stade.

RecherchePaper
1 source
VLANeXt : recettes pour construire des modèles VLA performants
194arXiv cs.RO 

VLANeXt : recettes pour construire des modèles VLA performants

Une équipe de chercheurs a publié VLANeXt, un modèle Vision-Language-Action (VLA) qui surpasse l'état de l'art sur les benchmarks LIBERO et LIBERO-plus, deux références standards pour l'évaluation de politiques robotiques généralisables. Le papier (arXiv 2602.18532v2), loin de se limiter à une nouvelle architecture, repose sur une étude systématique de l'espace de conception des VLA, structurée en trois axes: les composants fondamentaux, les éléments de perception, et la modélisation des actions. Partant d'une baseline inspirée de RT-2, les auteurs identifient 12 résultats clés formant une recette reproductible pour construire des modèles VLA performants. Le code est publié en open source sur GitHub pour permettre à d'autres équipes de reproduire les expériences et d'itérer sur cette base commune. L'apport principal de ce travail n'est pas le modèle lui-même, mais la méthode. Le domaine des VLA souffre d'un problème structurel: chaque groupe publie son propre modèle avec des protocoles d'entraînement et des setups d'évaluation incompatibles, rendant toute comparaison rigoureuse impossible. VLANeXt impose un cadre unifié qui permet enfin d'isoler quelles décisions de conception ont un effet mesurable sur les performances. Pour les équipes R&D travaillant sur des politiques robotiques généralisables, les 12 findings donnent des règles pratiques sur le choix du backbone VLM, le traitement des entrées visuelles et la tête de prédiction d'actions. La validation en conditions réelles renforce la crédibilité des résultats, même si les détails des expériences physiques restent parcellaires dans l'abstract. Les VLA émergent de la convergence entre grands modèles multimodaux et robotique incarnée. RT-2 (Google DeepMind, 2023) a été le précurseur, montrant qu'un VLM pré-entraîné pouvait piloter un robot réel après fine-tuning. Une vague de travaux a suivi: pi-0 (Physical Intelligence), OpenVLA, Octo, RoboFlamingo. Face à cette prolifération, VLANeXt propose un point de stabilisation méthodologique plutôt qu'une course aux performances brutes. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un travail académique dont la valeur tient à la rigueur comparative. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus exigeants comme BridgeV2 ou DROID, et une adoption par des équipes travaillant sur des plateformes physiques commerciales.

IA physiqueOpinion
1 source
Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile
195arXiv cs.RO 

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile

Mobile UMI, soumis sur arXiv (arXiv:2605.20894) en mai 2026, présente un framework de collecte de démonstrations sans robot dédié pour l'apprentissage par imitation sur manipulateur mobile. Le dispositif repose sur trois composants: un rig à deux caméras portées par l'opérateur humain (poitrine pour la navigation globale, poignet pour l'interaction locale), une ancre spatiale ChArUco en prise unique qui recale les deux repères visuels-inertiels et découple la trajectoire de manipulation en SE(3) de celle de navigation en SE(2), et un exécuteur asynchrone à horizon glissant (receding-horizon) qui réaligne en temps réel chaque chunk d'actions généré sur la pose physique courante du robot. Sur quatre tâches domestiques longue-séquence évaluées à 100 essais chacune, le système atteint un taux de réussite moyen de 83,8%, devançant les baselines ACT et Diffusion Policy testées dans les mêmes conditions. Ce résultat s'attaque à deux goulots structurels du mobile manipulation: les labels d'action contaminés par la locomotion humaine lors de la collecte, et la latence d'inférence des politiques de diffusion (plusieurs centaines de millisecondes), pendant laquelle la base avance et rend les waypoints planifiés caducs. En découplant cinématiquement la main du torse, les trajectoires d'entraînement deviennent cohérentes indépendamment de la démarche de l'opérateur. L'approche est architecturalement agnostique, ce qui est un point fort concret pour les intégrateurs: aucune modification de la politique sous-jacente n'est requise, et les ablations confirment que le référentiel thoracique seul comble l'essentiel de l'écart de performance, la synchronisation d'état fermant le reste. Mobile UMI étend l'Universal Manipulation Interface (UMI) de Chi et al. (Stanford/Columbia, 2023), interface poignet à bas coût qui a popularisé la collecte téléopérée pour la manipulation sur table. L'extension à la base mobile était un verrou reconnu: les approches dominantes comme RT-2, OpenVLA ou Pi-0 de Physical Intelligence ciblent essentiellement des bras fixes ou des déplacements très contraints. Des acteurs comme Boston Dynamics avec Spot et son bras, ou des projets académiques comme MoMa (Mobile Manipulation), opèrent dans ce même espace concurrentiel. Le travail reste un preprint non évalué, sans déploiement industriel annoncé ni partenaire matériel cité; les conditions précises des essais (charge utile, vitesse de base, surface de test) ne sont pas détaillées dans l'abstract, ce qui limite la comparabilité directe avec d'autres benchmarks publiés.

RechercheOpinion
1 source
PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action
196arXiv cs.RO 

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

Des chercheurs ont publié en mai 2026 sur arXiv (2605.19580) PAPO-VLA, une méthode d'optimisation pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique guidée par le langage naturel. L'observation centrale est qu'une politique VLA opère en boucle fermée : chaque action modifie l'état de la scène et conditionne toutes les décisions suivantes, ce qui rend une erreur de planification particulièrement coûteuse. Les auteurs distinguent donc deux rôles dans une politique VLA : le planificateur, qui prend des décisions orientées tâche susceptibles de rediriger l'exécution, et l'exécuteur, qui les traduit en actions continues denses. PAPO-VLA identifie les "actions de planification" en croisant variation d'action et issue de trajectoire, estime leur importance causale via deux critères formels (suffisance et nécessité causales), puis intègre ces poids dans l'estimation d'avantage du GRPO (Group Relative Policy Optimization), de sorte que les moments critiques reçoivent une emphase d'optimisation plus forte sans abandonner le signal de trajectoire globale. Des améliorations sont rapportées sur plusieurs benchmarks de manipulation robotique, sans chiffres précis disponibles dans le résumé public. L'apport clé est de combler un angle mort des approches existantes : l'imitation de trajectoires et l'optimisation par retour de trajectoire entière traitent toutes les actions avec la même importance, alors que certains instants de décision ont un impact causal disproportionné sur le succès de la tâche. Quantifier cet impact via des métriques causales formelles plutôt qu'heuristiques est une avancée méthodologique notable. Pour les équipes déployant des VLA en environnement réel, sur des plateformes comme pi-0 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA), la méthode promet d'améliorer la fiabilité sans données de démonstration supplémentaires. Depuis RT-2 (Google DeepMind, 2023), le secteur des VLA cherche à combler l'écart entre performance en démonstration contrôlée et robustesse en déploiement réel. Le GRPO, popularisé par DeepSeek-R1 pour le raisonnement en LLM, est ici adapté à la robotique via une pondération causale des actions, dans un axe de recherche croissant autour du renforcement causal appliqué aux robots. PAPO-VLA est un preprint non encore revu par les pairs ; la validation expérimentale complète, avec benchmarks précis et comparaisons contrôlées, reste à confirmer via publication.

RechercheOpinion
1 source
SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation
197arXiv cs.RO 

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

Des chercheurs ont publié sur arXiv (référence 2605.16871) SADP, pour Subgoal-Aware Diffusion Policy, un framework d'apprentissage par imitation conçu pour rendre les robots manipulateurs explicables en cours d'exécution. L'approche repose sur deux mécanismes combinés : l'utilisation de modèles de fondation pour générer automatiquement des démonstrations annotées en sous-objectifs intermédiaires, et l'entraînement d'une politique de diffusion conditionnée simultanément sur la description de la tâche globale et sur chaque sous-objectif. Une tête auxiliaire légère prédit en temps réel l'état de complétion de chaque sous-étape, exposant ainsi la progression interne du robot à un opérateur humain. Les expériences couvrent des simulations dans l'environnement de référence RLBench et une validation en conditions réelles sur un bras UR5e d'Universal Robots. Les résultats affichent des taux de succès supérieurs aux baselines de type diffusion conditionnée uniquement par la tâche, sans sacrifier les performances globales. L'apport principal n'est pas l'explicabilité en soi, déjà abordée par des approches post-hoc, mais son intégration native dans la politique d'action. Pour un intégrateur ou un responsable industriel, cela change l'équation opérationnelle : il devient possible de monitorer l'avancement d'une manipulation longue-distance, de localiser précisément le sous-objectif en échec, et de réduire les temps de diagnostic en production. Le recours aux modèles de fondation pour annoter automatiquement les démonstrations contourne par ailleurs la pénurie chronique de supervision au niveau des sous-tâches dans les datasets robotiques standards, un goulot d'étranglement pratique bien identifié. La coexistence d'interprétabilité et de haute performance remet en question l'hypothèse d'un arbitrage inévitable entre les deux. Les diffusion policies sont devenues un paradigme dominant pour la manipulation dextère depuis les travaux de Chi et al. en 2023, mais leur opacité décisionnelle reste une critique persistante dans les contextes déploiement industriel. Les modèles VLA comme pi-0 (Physical Intelligence), OpenVLA ou les RT-séries de Google DeepMind exploitent les connaissances des modèles de fondation sans pour autant structurer explicitement la progression par sous-objectifs. SADP se positionne à l'intersection des politiques de diffusion et de la décomposition hiérarchique de tâches, dans un espace concurrentiel qui inclut également des approches comme SayCan ou Code-as-Policies. L'utilisation d'un UR5e, cobot industriel standard très répandu, renforce la crédibilité des résultats en conditions réelles. Les suites naturelles incluront probablement la mise à l'échelle vers des tâches plus complexes et des tests en environnements industriels réels.

UEL'utilisation du UR5e d'Universal Robots (fabricant danois, UE) comme plateforme de validation réelle renforce la pertinence industrielle pour les intégrateurs européens, et l'explicabilité native des politiques de diffusion répond directement aux exigences de transparence algorithmique de l'AI Act.

💬 L'explicabilité en robotique, c'est souvent du post-hoc rajouté en bout de chaîne, une couche de justification qui n'influence rien sur l'exécution réelle. Là, c'est intégré dans la politique elle-même, avec une tête auxiliaire qui prédit en temps réel où en est le robot dans la séquence, ce qui change vraiment le diagnostic quand une manipulation foire en production. Et valider ça sur un UR5e plutôt que sur un bras de labo maison, au moment où l'AI Act va forcer les industriels à justifier leurs systèmes, c'est pas anodin.

IA physiquePaper
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
198arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

IA physiqueOpinion
1 source
D'une seule démonstration à une politique générale pour la manipulation avec contact
199arXiv cs.RO 

D'une seule démonstration à une politique générale pour la manipulation avec contact

Une équipe de recherche publie sur arXiv (réf. 2605.17601, mai 2026) un framework d'apprentissage par démonstration capable de généraliser à partir d'un seul exemple sur des tâches de manipulation impliquant des contacts répétés avec l'environnement. Le système repose sur un pipeline en quatre étapes : abstraction de la démonstration en primitives de contraintes environnementales, exploration autonome pour lever les ambiguïtés, correction ciblée par un opérateur humain pour couvrir les variantes hors-distribution, et enfin récupération en ligne des détails géométriques via interaction compliante. Validé sur sept tâches réelles multi-étapes à contact riche, le framework atteint un taux de succès supérieur à 90 %. Aucune entreprise spécifique ni plateforme robotique n'est mentionnée dans le préprint, qui reste une contribution académique sans déploiement industriel annoncé. Le point central de l'approche est de représenter une tâche non pas comme une trajectoire à imiter, mais comme une séquence de contraintes environnementales à exploiter. Ce changement de paradigme permet au robot de distinguer la structure générale d'une tâche (types de contraintes, transitions entre elles) des détails spécifiques à une instance donnée (poses exactes, géométrie locale). Pour un intégrateur ou un décideur industriel, cela signifie qu'une seule démonstration suffit potentiellement là où les méthodes de behavior cloning classiques en réclament des centaines. Le résultat de 90 %+ sur des tâches à contact riche est notable car ce domaine concentre la majorité des échecs en manipulation robotique réelle, notamment à cause de la sensibilité aux variations de pose et aux dynamiques de contact non modélisées. L'apprentissage par démonstration est un champ très actif depuis une décennie, concurrencé récemment par les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence), les architectures VLA (RT-2, GR00T N2 de NVIDIA) et les méthodes ACT (Action Chunking with Transformers). L'originalité revendiquée ici est de traiter les contraintes environnementales comme biais inductif plutôt que d'augmenter massivement les données d'entraînement ou la puissance du modèle. La limite principale reste l'absence d'évaluation sur des plateformes humanoïdes ou collaboratives standard, ce qui rend difficile la comparaison directe avec les benchmarks du secteur. Les suites naturelles seraient un passage à des environnements ouverts et une validation sur des robots commerciaux comme le Franka Research 3 ou les bras UR.

RecherchePaper
1 source
Pré-entraînement universel sur les poses pour des politiques VLA généralisables
200arXiv cs.RO 

Pré-entraînement universel sur les poses pour des politiques VLA généralisables

Des chercheurs ont publié Pose-VLA (arXiv:2602.19710, 2026), un nouveau paradigme d'entraînement pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'approche sépare l'entraînement en deux phases distinctes: une phase de pré-entraînement qui extrait des prior spatiaux 3D universels dans un espace centré sur la caméra, puis une phase de post-entraînement pour l'alignement propre à l'embodiment du robot cible. Le mécanisme central repose sur l'introduction de "discrete pose tokens", une représentation intermédiaire universelle qui combine des données de grounding spatial issues de datasets 3D hétérogènes avec des trajectoires géométriques issues de démonstrations robotiques. Sur le benchmark RoboTwin 2.0, Pose-VLA revendique l'état de l'art avec 79,5% de taux de succès moyen, et atteint 96,0% sur LIBERO. En conditions réelles, le modèle généralise à des objets variés avec seulement 100 démonstrations par tâche. Le problème structurel que Pose-VLA cherche à résoudre est bien documenté dans la littérature: les backbones VLM classiques, optimisés pour le Visual Question Answering, excellent à identifier sémantiquement des objets mais restent relativement insensibles aux variations 3D fines qui dictent des stratégies de préhension différentes. Ce phénomène, qualifié de "feature collapse" par les auteurs, dégrade l'efficacité d'entraînement et limite la généralisation inter-tâches. En découplant explicitement la perception spatiale 3D de la supervision d'action, l'approche vise à réduire significativement le nombre de démonstrations nécessaires pour adapter une politique à un nouveau contexte, ce qui représente aujourd'hui l'un des principaux freins à l'industrialisation des VLA. À noter que les tâches réelles testées ne sont pas détaillées dans l'article, et les performances sur benchmarks simulés ne préjugent pas du comportement en environnement industriel non contrôlé. Les VLA sont au coeur d'une compétition de recherche intense depuis RT-2 de Google DeepMind en 2023, et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA ont chacun tenté d'adresser le sim-to-real gap et la dépendance aux larges corpus de démonstrations. RoboTwin 2.0 et LIBERO sont devenus des références de facto pour comparer ces politiques en manipulation. Pose-VLA s'inscrit dans une tendance plus large de découplage des phases d'entraînement, parallèlement à des approches comme UniSim ou RoboVLMs. Cette publication reste au stade académique: aucun déploiement industriel, partenariat commercial ni timeline de mise en production ne sont mentionnés, et les expériences réelles se limitent à un contexte laboratoire avec des objets courants.

RechercheOpinion
1 source