EvoScene-VLA : croyances de scène évolutives dans le dé…

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

47

1arXiv cs.RO

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

Des chercheurs ont mis en ligne le 25 juin 2026 sur arXiv (réf. 2606.25985) Action ControlNet (ACNet), un adaptateur léger pour modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. Le problème ciblé : les VLA génèrent des actions par blocs ("chunks"), mais leur latence d'inférence impose une exécution asynchrone, c'est-à-dire que le robot continue à bouger pendant que le modèle calcule le chunk suivant. La jonction entre deux chunks produit alors des discontinuités (jitter d'action, ruptures de trajectoire) qui dégradent les performances, particulièrement dans les tâches en contact (assemblage, insertion). ACNet insère un module adaptateur qui conditionne la prédiction du prochain chunk sur le "motion suffix" déjà exécuté, permettant une transition cohérente avec l'état réel du robot au moment du handoff. Le backbone préentraîné reste figé ; seul l'adaptateur est entraîné, avec peu de paramètres supplémentaires. La méthode est compatible avec les têtes d'action de type diffusion et flow matching. Les évaluations couvrent les simulateurs Kinetix et Meta-World MT50 (50 tâches variées) ainsi qu'un bras réel SO-ARM101 ; ACNet surpasse le chunk stitching direct en fluidité et robustesse sous délai d'inférence, et reste plus léger qu'un réentraînement complet "delay-conditioned". Ce résultat intéresse directement les équipes de déploiement robotique : il propose une correction modulaire de l'asynchronisme sans toucher aux modèles de base. Les VLA de grande taille, notamment Pi-0 (Physical Intelligence), OpenVLA et Octo, souffrent tous du même problème ; une solution par adaptateur plug-in réduit sensiblement le coût d'adaptation. La compatibilité déclarée avec les têtes diffusion et flow matching couvre la majorité des architectures VLA actuelles, ce qui élargit la portée pratique. Nuance à retenir : les tests réels se limitent à un seul bras manipulateur à effecteur unique ; la généralisation à des configurations multi-bras ou à charge variable en environnement industriel reste à démontrer, et les benchmarks simulés ne reproduisent pas la complexité des lignes de production. Le problème de latence d'inférence dans les VLA est documenté depuis RT-2 (Google DeepMind, 2023) et a motivé des travaux comme Diffusion Policy et ACT (Action Chunking with Transformers). Les solutions existantes exigeaient soit un réentraînement complet du modèle avec conditionnement sur le délai, soit une logique de runtime spécifique à chaque architecture, deux contraintes qui freinent l'adoption industrielle. ACNet se positionne comme une alternative plus légère et plus générique. Dans l'écosystème concurrent, Physical Intelligence, Figure AI (Figure 03), 1X Technologies et Agility Robotics travaillent tous sur des pipelines VLA haut débit pour leurs plateformes humanoïdes et manipulateurs ; une intégration dans des frameworks open-source comme Lerobot (Hugging Face) pourrait accélérer le passage de la démonstration au déploiement réel. Ce preprint ne mentionne ni partenariat industriel ni timeline commercial.

UEUne intégration potentielle dans Lerobot (Hugging Face, Paris) pourrait permettre aux équipes R&D robotique européennes d'adopter cette correction d'asynchronisme sans réentraîner leurs modèles VLA de base.

💬 Le jitter entre chunks dans les VLA, tout le monde le subit depuis RT-2, et les fixes existants exigeaient de réentraîner le modèle complet. ACNet contourne ça avec un adaptateur qui conditionne le chunk suivant sur ce que le bras a déjà bougé, sans toucher le backbone. Un seul bras testé en vrai, donc l'industrie attendra, mais si ça rentre dans Lerobot, c'est une correction plug-in que les équipes vont adopter vite.

IA physiqueActu

1 source

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

45

2arXiv cs.RO

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

Des chercheurs ont publié sur arXiv (référence 2606.29384) Event-VLA, un framework combinant des caméras événementielles avec des modèles Vision-Language-Action (VLA) pour rendre la manipulation robotique robuste dans des conditions d'éclairage dégradées. L'approche repose sur l'intégration de flux d'événements, une modalité de capteur neuromorphique qui encode les variations de luminosité pixel par pixel avec une résolution temporelle de l'ordre de la microseconde, contrairement aux caméras RGB classiques qui acquièrent des images complètes à fréquence fixe. L'architecture introduit un mécanisme de routage par requêtes d'action : des requêtes apprenantes extraient la sémantique pertinente à la tâche depuis le raisonnement VLA, puis agrègent sélectivement les tokens événementiels via une cross-attention à portes (gated cross-attention), produisant des représentations d'action sensibles aux conditions lumineuses. Les expériences couvrent des scénarios de simulation et de déploiement réel en faible luminosité, voire en quasi-obscurité. Ce travail s'attaque à une faille structurelle des VLA actuels, Pi-0, OpenVLA, GR00T N2 ou Helix inclus, qui sont entraînés et évalués quasi-exclusivement dans des environnements d'intérieur bien éclairés et stables. Le sim-to-real gap se double ici d'un lighting-to-real gap rarement quantifié dans les benchmarks publiés. Event-VLA démontre qu'on peut greffer une modalité événementielle sans détruire les priors sémantiques RGB-langage préentraînés, ce qui est non trivial : la plupart des fusions multimodales naïves dégradent la performance en conditions normales pour gagner en robustesse marginale. Le fait que le gain soit mesuré sans régression sur éclairage standard constitue le résultat le plus solide à retenir pour les intégrateurs industriels envisageant des déploiements en entrepôt, en extérieur ou en environnement à éclairage variable. Les caméras événementielles (Prophesee, inivation, Sony IMX636) restent onéreuses et peu présentes dans les pipelines robotiques commerciaux, ce qui limite la portée immédiate du framework. Le travail s'inscrit dans un mouvement plus large d'hybridation sensorielle pour les VLA, en parallèle d'approches tactiles (GelSight) ou proprioceptives. Côté concurrent, Boston Dynamics, Figure et Agility travaillent sur la robustesse des politiques en conditions réelles mais publient peu sur la gestion de l'éclairage. Aucun acteur européen n'est mentionné dans ce papier. Les auteurs ne précisent pas de pipeline de déploiement à l'échelle ni de timeline industrielle : il s'agit d'un résultat de recherche, pas d'un produit shipé.

UEProphesee, fabricant français de caméras événementielles, est explicitement cité comme fournisseur matériel clé, ce qui positionne l'écosystème européen du capteur neuromorphique comme brique potentielle des futurs pipelines VLA industriels robustes.

IA physiqueActu

1 source

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

42

3arXiv cs.RO

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper

1 source

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

44

4arXiv cs.RO

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion

1 source

EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs

À lire aussi

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions