MimicIK : cinématique inverse générative en temps…

Sparse ActionGen : accélération de la politique de diffusion par élagage en temps réel

42

1arXiv cs.RO

Sparse ActionGen : accélération de la politique de diffusion par élagage en temps réel

Publiée sur arXiv (identifiant 2601.12894v2), la méthode Sparse ActionGen (SAG) s'attaque au principal frein à l'utilisation en production de la Diffusion Policy : son processus de débruitage multi-étapes, dont la latence est incompatible avec un contrôle visuomoteur temps réel. SAG introduit un mécanisme adaptatif "prune-then-reuse" : à chaque itération du pipeline diffusif, un composant léger conditionné par l'observation courante de l'environnement, le "diffusion pruner", identifie les calculs redondants et les substitue par des activations précédemment mises en cache. La méthode ajoute une stratégie "one-for-all" en zigzag qui mutualise ces caches à la fois sur l'axe des pas de temps et des blocs du réseau. Testée sur plusieurs benchmarks robotiques (non précisés dans le résumé public), SAG annonce une accélération jusqu'à 4x par rapport à la Diffusion Policy standard, sans dégradation de performance mesurée. L'impact potentiel est significatif pour la robotique de manipulation. La Diffusion Policy s'est imposée depuis 2023 comme la méthode de référence pour l'imitation learning à haute précision, grâce à sa capacité à représenter des distributions d'actions multimodales : un robot peut évaluer plusieurs stratégies valides face à une même situation. Mais le débruitage itératif génère une latence qui rend le contrôle en boucle fermée haute fréquence difficile. Les approches existantes (DDIM, consistency models, schedules de cache statiques) contournaient le problème sans s'adapter à la dynamique réelle de l'interaction. La nouveauté de SAG est cet élagage adaptatif au rollout courant. Un facteur 4x sur la vitesse de génération, confirmé sur benchmarks académiques, est un résultat notable, même si les gains restent à valider sur matériel physique en conditions industrielles. La Diffusion Policy a été formalisée par Chi et al. (2023, Columbia University) et intégrée depuis dans des frameworks comme LeRobot de HuggingFace. SAG s'inscrit dans une vague d'optimisations post-entraînement qui cherchent à rendre les politiques génératives compatibles avec le temps réel embarqué sans reprendre un cycle d'entraînement complet, en concurrence avec des approches comme la distillation de consistency models. Aucun partenariat industriel ni déploiement terrain n'est annoncé; la méthode reste au stade de la publication académique, avec une page projet dédiée mais sans code public disponible à ce stade.

UEImpact indirect : HuggingFace (France) intègre la Diffusion Policy dans LeRobot, et une disponibilité future de SAG pourrait accélérer ce framework, mais aucun lien direct ni déploiement européen annoncé à ce stade.

💬 Le problème de latence de la Diffusion Policy, c'était l'éléphant dans la pièce depuis 2023. SAG y répond sans toucher à l'entraînement, juste en élagant les calculs redondants à la volée, et un gain de 4x sur benchmarks c'est pas rien. Reste que le code n'est pas dispo et qu'on n'a aucun test sur matériel réel, donc pour LeRobot et compagnie, c'est à surveiller mais pas encore à intégrer.

IA physiquePaper

1 source

Reflex : contrôle VLA en temps réel par inférence en continu

40

2arXiv cs.RO

Reflex : contrôle VLA en temps réel par inférence en continu

Des chercheurs présentent Reflex, un framework permettant l'inférence en temps réel pour les modèles Vision-Language-Action (VLA) basés sur le flow matching, une technique de contrôle continu prisée pour sa précision mais jusqu'ici incompatible avec la robotique temps réel. Le problème identifié est structurel : l'injection globale du timestep dans le processus de débruitage itératif invalide le KV-caching classique, obligeant à choisir entre un recalcul coûteux en O(N²) ou une réutilisation de cache mathématiquement incorrecte. Reflex exploite ce que les auteurs nomment la "Timestep-Invariance Property", le fait que les encodeurs de perception fonctionnent indépendamment de la boucle de débruitage, pour partitionner le contexte d'attention en régions statique, glissante et dynamique, permettant des mises à jour de cache incrémentales en O(1) sans perte de précision sur les sorties d'attention. Une couche de normalisation adaptative baptisée AdaRMSNorm évite l'effondrement numérique en BFloat16 lors d'inférences continues à haute fréquence, en se calant sur la phase du flux. Un pipeline asynchrone découple encodage visuel et génération d'action, complété par de la fusion d'opérateurs pour réduire l'overhead des kernels. Sur les benchmarks LIBERO et Kinetix, Reflex atteint une accélération d'inférence de 2,58x et un streaming stable à 50Hz, avec une latence de réaction réduite jusqu'à 54%, sans dégradation de performance. Pour l'industrie robotique, ce travail s'attaque à un goulot d'étranglement rarement discuté publiquement : les modèles VLA à flow matching, malgré leurs résultats impressionnants en démonstration, peinent à tourner en boucle fermée à des fréquences compatibles avec un contrôle robotique réactif. Un déploiement stable à 50Hz sans compromis sur la qualité change la donne pour les intégrateurs qui cherchent à faire tourner ces politiques sur du matériel embarqué à budget de calcul limité, plutôt que de dépendre d'un GPU distant surdimensionné. C'est aussi une réponse concrète à l'écart fréquemment pointé entre les métriques de benchmark et la viabilité en conditions réelles de contrôle continu. Ce travail s'inscrit dans la lignée des politiques VLA à diffusion ou flow matching comme Pi-0 ou GR00T N2, qui ont démontré la faisabilité du contrôle continu appris mais restent contraintes par leur coût d'inférence. Reflex ne propose pas un nouveau modèle mais une couche d'infrastructure d'inférence, potentiellement transférable à d'autres architectures de flow matching. Publié sur arXiv (2607.14695), l'article ouvre la voie à des évaluations sur du matériel physique réel, au-delà des environnements simulés LIBERO et Kinetix utilisés pour la validation actuelle.

IA physiqueActu

1 source

Exécution en temps réel avec des politiques autorégressives

46

3arXiv cs.RO

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

IA physiqueOpinion

1 source

Robbyant lance LingBot-World 2.0, avec génération de monde en temps réel sur une heure

35

4Robotics & Automation News

Robbyant lance LingBot-World 2.0, avec génération de monde en temps réel sur une heure

Robbyant, filiale d'IA incarnée du groupe chinois Ant Group, a publié en open source LingBot-World 2.0, surnommé Infinity, la nouvelle génération de son modèle de monde interactif. Cette version ajoute la génération de mondes en temps réel sur une durée d'environ une heure, une sortie en haute définition et des capacités interactives élargies par rapport à la mouture précédente. Selon l'entreprise, il s'agit d'une avancée significative face à LingBot-World 1.0, qui ne maintenait une génération stable que sur quelques minutes : Infinity étendrait cette stabilité à un régime quasi continu, sur une échelle de temps nettement supérieure. Pour l'industrie robotique, un modèle de monde capable de générer des environnements interactifs cohérents sur des durées prolongées représente un outil potentiellement précieux pour l'entraînement d'agents embarqués et de politiques VLA, en offrant des données de simulation à grande échelle sans dépendre entièrement de captures réelles. Cela s'inscrit dans une tendance plus large où les world models cherchent à combler l'écart entre simulation et réalité pour accélérer l'apprentissage robotique. Il faut toutefois rester prudent : l'annonce reste à ce stade une publication de recherche en open source, sans détails indépendants sur la robustesse en conditions réelles, et la formulation « temps réel sur une heure » mérite d'être vérifiée au-delà des démonstrations mises en avant par l'entreprise. Ant Group investit depuis plusieurs trimestres dans l'IA incarnée via Robbyant, dans un contexte où des laboratoires concurrents (World Labs, DeepMind avec Genie, ou encore les initiatives world-model de Nvidia) développent des approches similaires pour générer des environnements simulés destinés à l'entraînement de robots et d'agents autonomes. La publication en open source de LingBot-World 2.0 pourrait accélérer l'adoption par la communauté de recherche, sans qu'un calendrier de déploiement industriel concret n'ait encore été précisé.

IA physiqueActu

1 source

MimicIK : cinématique inverse générative en temps réel par téléopération avec cohérence FK

À lire aussi

Sparse ActionGen : accélération de la politique de diffusion par élagage en temps réel

Reflex : contrôle VLA en temps réel par inférence en continu

Exécution en temps réel avec des politiques autorégressives

Robbyant lance LingBot-World 2.0, avec génération de monde en temps réel sur une heure