Aller au contenu principal
CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache
RecherchearXiv cs.RO6sem

CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié début mai 2026 un preprint sur arXiv (2605.07325) présentant CSR (Cached State Representation) et ASR (Asynchronous State Reconciliation), deux mécanismes visant à déployer des LLMs massifs comme contrôleurs temps réel pour des robots. Le verrou pratique est la latence TTFT (time-to-first-token) : sur un contexte de 120 000 tokens avec un modèle de 235 milliards de paramètres, la baseline standard exige 14,67 secondes avant la première sortie. CSR optimise la réutilisation du cache KV (key-value) pour ramener ce délai à 0,56 seconde, soit un facteur 26. ASR déleste en parallèle l'éviction de la mémoire d'état, éliminant les pics de latence sur 10 cycles d'opération continue. Testé sur un robot physique connecté sans fil à un serveur GPU on-premise, le système dépasse 2 Hz de fréquence de traitement et atteint un rappel de 0,836 sur un benchmark d'IA incarnée, contre 0,459 pour une approche RAG classique.

L'enjeu est structurel pour la robotique incarnée : les approches existantes, RAG (retrieval-augmented generation) et fenêtres glissantes, font toutes deux un compromis, soit sur la cohérence contextuelle globale, soit sur la vitesse de re-calcul. CSR démontre qu'un modèle de 235 milliards de paramètres peut maintenir un horizon de contexte illimité tout en restant utilisable à fréquence robotique. C'est l'une des premières validations publiées de cette hypothèse sur un robot physique réel, et non en simulation. Pour les intégrateurs et les équipes ingénierie, cela signifie que les politiques robotiques fondées sur des LLMs ne seraient plus condamnées à tronquer l'historique ou à sacrifier le temps de cycle.

Ces travaux s'inscrivent dans la tendance VLA (Vision-Language-Action), où des modèles fondation multimodaux remplacent progressivement les contrôleurs classiques. Les concurrents directs incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les architectures Helix de Figure AI, qui adoptent des approches comparables pour l'IA incarnée à grande échelle. Ce preprint reste cependant une contribution académique préliminaire : le protocole porte sur un seul robot, un unique serveur GPU on-premise, sans affiliation industrielle ni feuille de route de déploiement annoncée. La reproductibilité à l'échelle et en conditions industrielles reste entièrement à prouver.

À lire aussi

Représentations statiques et dynamiques pour l'estimation de l'angle de contact tactile avec des capteurs à événements
1arXiv cs.RO 

Représentations statiques et dynamiques pour l'estimation de l'angle de contact tactile avec des capteurs à événements

Des chercheurs ont publié le 3 juin 2026 un preprint (arXiv:2606.03545) évaluant trois méthodes de représentation des données issues du NeuroTac, un capteur tactile neuromorphique event-based, pour l'estimation de l'angle de contact. Les flux d'événements générés lors du contact physique sont transformés en contours spatiaux selon trois approches : une représentation dynamique capturant l'activité événementielle la plus récente, une représentation statique reconstituant un état de contact persistant, et leur combinaison. Sur tous les scénarios de mouvement testés, les trois pipelines maintiennent une latence de traitement P99 inférieure à 10 ms, quel que soit l'intervalle d'échantillonnage utilisé. La représentation statique surpasse marginalement les deux autres en précision : elle atteint une MAE (erreur absolue moyenne) de 0,160° en roulement continu du capteur sur une surface, et de 0,251° lors de phases d'arrêt aléatoires intercalées dans le mouvement. Elle présente également une variance plus faible face aux variations de vitesse et de profondeur d'indentation. Pour les intégrateurs et les équipes de contrôle robotique, une latence P99 sous 10 ms représente le seuil en dessous duquel le retour tactile peut alimenter des boucles de contrôle temps-réel sans devenir le facteur limitant de la chaîne de commande. La précision de 0,160° en roulement est compatible avec des tâches d'assemblage ou d'insertion nécessitant un contrôle fin de l'orientation de contact. Le résultat le plus contre-intuitif est la performance supérieure de la représentation statique sur la dynamique : les capteurs event-based étant précisément réputés pour leur réactivité temporelle, l'hypothèse implicite était que les représentations exploitant cette dimension temporelle seraient les meilleures. Ici, la simplicité de la représentation statique s'avère plus robuste, ce qui réduit la complexité du traitement embarqué nécessaire. Le NeuroTac est issu des travaux du Bristol Robotics Laboratory, dans le groupe de Nathan Lepora, qui a d'abord développé le TacTip, un capteur optique tactile biomimétique, avant d'en produire une variante neuromorphique. Dans l'écosystème des capteurs tactiles de précision, il concurrence des dispositifs comme le DIGIT (Meta AI Research et CMU), le GelSight (MIT) ou les capteurs Xela Robotics. L'article demeure un preprint non soumis à peer review, et les scénarios évalués, fondés sur des mouvements de roulement contrôlés en laboratoire, restent éloignés des conditions d'une manipulation industrielle réelle. La validation sur des tâches multi-doigts ou des mains robotiques complètes comme la Shadow Hand constituerait une prochaine étape naturelle pour évaluer le passage à l'échelle.

RecherchePaper
1 source
LongBench : évaluation des politiques de manipulation robotique sur des tâches réelles à horizon long
2arXiv cs.RO 

LongBench : évaluation des politiques de manipulation robotique sur des tâches réelles à horizon long

Une équipe de chercheurs a publié en avril 2026 LongBench, un benchmark conçu pour évaluer les politiques de manipulation robotique sur des tâches longues et enchaînées dans le monde réel. Contrairement à la majorité des benchmarks existants, LongBench repose sur plus de 1 000 épisodes exécutés en conditions réelles, et non en simulation. Il se structure autour de deux régimes complémentaires : les tâches Context-Independent, où l'état du monde est entièrement observable, et les tâches Context-Dependent, où le robot doit gérer une ambiguïté sur l'état ou l'intention. Les tâches sont organisées en sous-ensembles ciblant des capacités spécifiques (robustesse d'exécution, cohérence temporelle, raisonnement contextuel), permettant un diagnostic fin des sources d'échec. Six politiques de l'état de l'art ont été évaluées sur ce protocole, sans qu'un seul facteur dominant n'explique les dégradations de performance sur les horizons longs. Ces résultats remettent en question une hypothèse courante dans le domaine : celle selon laquelle améliorer la mémoire ou le contexte historique suffirait à résoudre les échecs en manipulation longue durée. LongBench montre que dans les environnements pleinement observables, c'est la robustesse d'exécution, c'est-à-dire la capacité du robot à répéter fidèlement une séquence motrice sur des dizaines de pas, qui domine les performances, et non la gestion du contexte. À l'inverse, dans les scénarios ambigus, les méthodes à mémoire n'apportent pas d'amélioration systématique : la difficulté contextuelle varie fortement selon les tâches, ce qui suggère qu'il n'existe pas de solution générique. Pour les intégrateurs et les équipes R&D qui évaluent des politiques VLA (Vision-Language-Action) ou des architectures de contrôle diffusion, ce benchmark offre un protocole de diagnostic plus fin que les métriques de succès agrégé habituelles. Le benchmark s'inscrit dans un effort plus large de la communauté robotique pour dépasser les évaluations en simulation, dont le sim-to-real gap reste un problème structurel non résolu. Plusieurs benchmarks récents, comme DROID ou Open X-Embodiment, ont posé des bases de données multi-robots, mais peu proposent une décomposition mécaniste des sources d'échec sur des horizons longs. LongBench se positionne comme un outil de diagnostic complémentaire, agnostique à l'architecture, applicable aussi bien aux politiques de type ACT, Diffusion Policy qu'aux approches VLA. Les auteurs n'annoncent pas de déploiement industriel associé : il s'agit d'un outil de recherche, pas d'un produit. Les prochaines étapes attendues incluent l'extension à d'autres morphologies robotiques et l'intégration de tâches bi-manuelles, qui représentent le prochain mur de complexité pour la manipulation longue durée.

RecherchePaper
1 source
DSSP : une politique d'état de diffusion avec encodage de l'historique complet
3arXiv cs.RO 

DSSP : une politique d'état de diffusion avec encodage de l'historique complet

Une équipe de recherche a publié en mai 2026 un préprint sur arXiv (2605.14598) présentant DSSP, Diffusion State Space Policy, une nouvelle architecture de politique robotique pour la manipulation. Le principe central : conditionner la génération d'actions non plus sur une fenêtre courte d'observations récentes, comme le font la majorité des politiques diffusion existantes, mais sur l'intégralité de l'historique d'observations depuis le début de la tâche. L'encodeur d'historique repose sur des State Space Models (SSMs), qui compriment le flux complet d'observations en une représentation contextuelle compacte. Un objectif d'entraînement auxiliaire dit "dynamics-aware" optimise cet encodeur pour préserver les informations pertinentes à l'évolution future de l'état. Ce contexte de haut niveau est ensuite fusionné avec les observations récentes dans un mécanisme de conditionnement hiérarchique, et le backbone diffusion lui-même est également instancié via un SSM pour limiter la mémoire GPU. Les expériences couvrent des benchmarks en simulation et des tâches de manipulation réelles. Le problème que DSSP cherche à résoudre est structurel dans les approches actuelles : les tâches longue durée génèrent des ambiguïtés que seule la mémoire étendue permet de lever. Une pince qui répète la même séquence de sous-tâches ou qui doit adapter son comportement en fonction d'un état vu dix secondes plus tôt ne peut pas le faire si le modèle n'a accès qu'à la dernière frame ou à une fenêtre de deux secondes. Les auteurs rapportent des performances état-de-l'art avec une taille de modèle significativement inférieure aux concurrents, ce qui est un argument industriel non trivial : des modèles plus légers facilitent le déploiement sur du compute embarqué et réduisent les coûts d'inférence. L'utilisation des SSMs plutôt que des Transformers pour l'encodage de séquences longues est cohérente avec des travaux récents (Mamba, Mamba-2) montrant que cette famille d'architectures offre une complexité linéaire en longueur de séquence, là où l'attention quadratique pénalise fortement les historiques longs. Ce travail s'inscrit dans un courant actif depuis la publication de Diffusion Policy (Chi et al., Columbia/MIT, 2023), qui a établi la diffusion comme paradigme dominant pour l'imitation learning en manipulation. Des acteurs comme Physical Intelligence avec pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses architectures propriétaires ont chacun proposé leurs variantes de politiques diffusion ou VLA (Vision-Language-Action). La question de la mémoire temporelle longue reste ouverte dans l'ensemble de ces systèmes. DSSP est à ce stade un résultat de recherche académique, pas un produit déployé : les expériences réelles décrites sont des validations en laboratoire, non des pilotes industriels. La prochaine étape naturelle serait une intégration dans des frameworks open-source comme Lerobot (HuggingFace) ou une collaboration avec des fabricants pour valider le passage à l'échelle sur des tâches d'assemblage à horizons multiples.

UEImpact indirect potentiel si DSSP est intégré dans Lerobot (HuggingFace, entreprise française basée à Paris), ce qui faciliterait l'adoption par les équipes européennes de recherche en manipulation robotique longue durée.

RechercheOpinion
1 source
OMP : politique Meanflow en une étape avec alignement directionnel
4arXiv cs.RO 

OMP : politique Meanflow en une étape avec alignement directionnel

Une équipe de chercheurs publie OMP (One-step MeanFlow Policy), un framework de contrôle de manipulation robotique capable de générer des trajectoires d'action en une seule passe d'inférence, contre plusieurs dizaines pour les approches par diffusion actuellement dominantes. Présenté sur arXiv (2512.19347, version 3), OMP adapte le paradigme MeanFlow, conçu à l'origine pour la génération d'images, au domaine du contrôle robotique. L'architecture introduit deux contributions techniques principales : un mécanisme d'alignement directionnel (directional alignment) qui synchronise explicitement les vitesses prédites avec les vitesses moyennes réelles, et une Équation de Dérivation Différentielle (DDE) qui approxime l'opérateur Jacobien-Vecteur (JVP) pour découpler les passes avant et arrière, réduisant significativement la complexité mémoire. Évalué sur les benchmarks Adroit et Meta-World, OMP surpasse les méthodes état de l'art en taux de succès et précision de trajectoire, notamment sur les tâches haute précision. L'enjeu est direct pour les intégrateurs et équipes R&D : la latence d'inférence est aujourd'hui le principal goulot d'étranglement des politiques génératives en manipulation temps-réel. Les Diffusion Policies nécessitent typiquement 10 à 100 passes de débruitage par décision, rendant leur déploiement sur hardware embarqué ou dans des boucles de contrôle à haute fréquence difficile. Une politique single-step qui conserve ou dépasse la précision des diffusion models représenterait un saut d'utilisabilité industrielle significatif. La réduction de la complexité mémoire via DDE est également pertinente pour des cibles de déploiement à ressources contraintes. Les résultats sur Adroit et Meta-World sont encourageants, bien que ces benchmarks simulés restent éloignés des conditions de déploiement réel et que la generalisation sim-to-real demeure non démontrée. Le contexte académique dans lequel s'inscrit OMP est dense : les politiques par diffusion (Diffusion Policy, ACT) ont dominé le benchmark de manipulation ces deux dernières années, et l'émergence des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a encore densifié le champ. Les approches par flow matching (dont MeanFlow est une variante) cherchent à concurrencer la diffusion en offrant une trajectoire d'inférence plus directe, inspirées des succès en génération d'images avec des modèles comme Stable Diffusion 3. OMP se positionne dans cette lignée avec une correction théorique spécifique aux pathologies robotiques (biais spectral, starvation de gradient en régime basse vitesse) absentes en vision. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; il s'agit d'une contribution de recherche fondamentale avec résultats sur simulateurs.

RecherchePaper
1 source