Aller au contenu principal
Formage de sensibilité pour la modélisation latente
RecherchearXiv cs.RO2h

Formage de sensibilité pour la modélisation latente

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont soumis en juin 2026 (arXiv:2606.14585) une méthode de régularisation pour les modèles de dynamique génératifs utilisés en planification robotique. La contribution centrale, baptisée "régularisation de sensibilité au contrôle conditionnée par le support", s'attaque à un angle mort dans les systèmes de détection hors-distribution (OOD) actuels. Le problème identifié : lorsqu'un modèle de dynamique appris est localement insensible à certains choix d'action critiques, une commande non supportée peut produire des prédictions latentes qui ressemblent à des transitions déjà vues à l'entraînement, masquant les signaux OOD malgré des erreurs de prédiction réelles importantes. Les expériences couvrent trois scénarios : l'évitement d'obstacles par vision, la manipulation d'objets, et la navigation sur robot réel en boucle fermée.

Ce résultat touche directement le déploiement sûr de robots pilotés par apprentissage dans des environnements non contrôlés. La détection OOD est le filet de sécurité qui permet à un contrôleur de signaler qu'il opère hors de sa distribution de compétence, plutôt que d'extrapoler dangereusement. Les méthodes existantes greffent a posteriori des estimateurs de support sur un modèle de dynamique figé, et échouent précisément dans les zones critiques où le modèle est le moins discriminant sur les actions. La méthode proposée intervient pendant l'entraînement : elle pousse le modèle à répondre de manière sensible aux variations de commande dans les régions à fort support empirique, tout en limitant l'extrapolation instable là où les données manquent. C'est une correction intrinsèque au processus d'apprentissage, pas un ajout post-hoc.

Le travail s'inscrit dans le courant des modèles du monde latents pour la robotique, une famille qui inclut des architectures comme RSSM (utilisé dans Dreamer), TDMPC ou les représentations sous-jacentes à des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La fermeture du "demo-to-reality gap" et la fiabilité en boucle fermée restent des obstacles majeurs pour les intégrateurs cherchant à déployer des robots en milieu industriel non structuré. Les résultats reportés montrent une amélioration de la détection OOD sans dégradation notable de la performance nominale du planificateur, bien que les benchmarks restent limités à des tâches de laboratoire. Une validation sur des plateformes AMR ou humanoïdes en conditions réelles constituerait la prochaine étape naturelle pour crédibiliser l'approche à l'échelle industrielle.

À lire aussi

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë
2arXiv cs.RO 

IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë

Des chercheurs ont publié le 15 mai 2026 sur arXiv (référence 2605.14712) une nouvelle architecture de politique robotique baptisée IntentVLA, conçue pour résoudre un problème structurel des modèles vision-langage-action (VLA) appliqués à la manipulation : le conflit entre séquences d'actions consécutives. Le cœur du problème est l'ambiguïté des données d'imitation humaine, deux observations visuelles quasi-identiques peuvent légitimement déboucher sur des trajectoires différentes, selon l'intention à court terme du démonstrateur, la phase de la tâche en cours ou le contexte récent. IntentVLA répond à cela en encodant les observations visuelles récentes en une représentation compacte d'intention à court horizon, qui conditionne ensuite la génération du chunk d'actions courant. Les auteurs ont également construit AliasBench, un benchmark de 12 tâches conçu explicitement pour isoler ce phénomène d'aliasing, déployé sur le simulateur RoboTwin2, avec données d'entraînement et environnements d'évaluation appariés. Les résultats montrent une stabilité d'exécution améliorée et des performances supérieures aux baselines VLA de référence sur quatre environnements : AliasBench, SimplerEnv, LIBERO et RoboCasa. L'apport technique central est l'introduction du conditionnement par historique dans les VLA, là où les architectures existantes, dites frame-conditioned, n'exploitent que l'observation courante et l'instruction textuelle. Sous observabilité partielle, condition fréquente en manipulation réelle, ces politiques peuvent rééchantillonner des intentions différentes à chaque étape de replanification, générant des conflits inter-chunks qui se traduisent par des exécutions instables ou des échecs de tâche. IntentVLA formalise ce mécanisme via une représentation d'intention latente, compacte et exploitable à chaque pas de décision. Pour les intégrateurs robotiques et les équipes de recherche en apprentissage par imitation, c'est une validation expérimentale que l'historique visuel proche est un signal utile, distinct de l'instruction langagière, et qu'il peut être encodé de façon efficace sans alourdir le pipeline d'inférence. AliasBench constitue en soi une contribution méthodologique : les benchmarks existants ne distinguaient pas explicitement les situations d'aliasing, rendant difficile l'évaluation ciblée de ce défaut. Le contexte est celui d'une course à la généralisation des politiques de manipulation, portée par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI. Ces architectures VLA de grande taille partagent le même défaut potentiel : inférence chunk par chunk sans mémoire explicite de l'intention récente. IntentVLA s'inscrit dans une ligne de travaux académiques cherchant à corriger ce manque sans abandonner l'architecture transformer sous-jacente. L'absence d'institution identifiée dans le preprint et le fait qu'il ne s'agisse que d'un résultat sur simulateurs, sans déploiement réel annoncé, invitent à la prudence sur la portée immédiate. Les prochaines étapes attendues sont un transfert sim-to-real et une intégration dans des pipelines de fine-tuning de modèles VLA existants.

RechercheOpinion
1 source
SoFFT : transformée de Fourier spatiale pour la modélisation des robots souples continus
3arXiv cs.RO 

SoFFT : transformée de Fourier spatiale pour la modélisation des robots souples continus

Une équipe de chercheurs a proposé SoFFT (Spatial Fourier Transform for Soft Robots), une méthode de modélisation des robots souples continus basée sur l'application de la transformée de Fourier à la courbe centrale du robot, appelée "backbone", décrite comme un signal spatial et temporel. Publiée sur arXiv en février 2025 (identifiant 2502.17347), l'approche s'ancre dans la théorie des tiges de Cosserat, le cadre formel dominant pour modéliser ce type de structure, et a été validée à la fois par simulation numérique et sur un prototype physique réel. Les auteurs rapportent une réduction du nombre de degrés de liberté (DOF) effectifs nécessaires à la représentation fidèle de la déformation, sans toutefois quantifier précisément cette réduction dans le résumé disponible, ce qui rend difficile toute comparaison directe avec les méthodes existantes. L'enjeu central est que les robots souples continus, constitués de matériaux flexibles comme des élastomères ou des tubes en silicone, possèdent théoriquement une infinité de degrés de liberté, rendant leur modélisation et leur contrôle en temps réel computationnellement très coûteux. En traitant le backbone comme un signal, SoFFT ne conserve que ses composantes fréquentielles dominantes, compactant la description sans sacrifier la précision. Autre point notable : la méthode unifie et justifie formellement plusieurs heuristiques de modélisation déjà répandues dans la littérature, leur offrant un fondement théorique solide. Pour les équipes travaillant sur des cathéters robotiques, des bras endoscopiques ou des manipulateurs à actionnement pneumatique, cette réduction de modèle ouvre des perspectives pour des contrôleurs embarqués plus légers, potentiellement compatibles avec des architectures temps réel contraintes. La théorie des tiges de Cosserat s'est imposée dans la robotique souple depuis les années 2010, mais la complexité computationnelle des modèles haute-fidélité reste un frein au déploiement industriel. Plusieurs groupes concurrents, notamment à l'ETH Zurich, au MIT et à l'Université de Bristol, explorent des alternatives comme les réseaux de neurones physiques (physics-informed neural networks) ou les modèles réduits par analyse modale. SoFFT se positionne à l'intersection du formalisme analytique et de l'apprentissage piloté par les données, grâce à sa composante expérimentale permettant d'ajuster le modèle à partir de mesures réelles. Les suites logiques seraient l'intégration dans une boucle de contrôle fermée et la validation sur des architectures multi-segments, configurations courantes dans les applications médicales et d'inspection industrielle.

RecherchePaper
1 source
Flash-WAM : distillation sensible aux modalités pour les modèles monde-action
4arXiv cs.RO 

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

Des chercheurs ont publié Flash-WAM (arXiv:2606.05254v1), une méthode de distillation conçue pour accélérer les "world-action models" (WAMs), des architectures de diffusion qui génèrent simultanément une prédiction vidéo du futur et les commandes robot associées. Le verrou que Flash-WAM tente de lever : ces modèles nécessitent des dizaines de passes de débruitage par chunk d'actions, aboutissant à une latence de 8,1 secondes par chunk sur GPU NVIDIA L40S, ce qui exclut tout contrôle en temps réel. En compressant l'inférence à une seule étape par modalité via une distillation par consistance adaptée, Flash-WAM ramène cette latence à 348 ms, soit un facteur 23x. Appliqué au modèle LingBot-VA, il atteint 85,5% de succès sur le benchmark RoboTwin 2.0, 95,7% sur LIBERO, et 60% en moyenne sur un humanoïde réel Unitree G1. L'originalité de Flash-WAM réside dans le traitement asymétrique des deux modalités. Le flux action et le flux vidéo dans un WAM opèrent sur des schedules de bruit fondamentalement différents (SNR-shifted noise schedules) : appliquer une seule paramétrisation à l'ensemble dégrade les performances de façon sévère, la distillation naïve par consistance chutant à 24% de succès en conditions réelles. Flash-WAM contourne ce problème avec une paramétrisation linéaire à gradient scalé pour le flux action (régime faible bruit) et une paramétrisation variance-preserving pour le flux vidéo (régime fort bruit). Ce résultat valide l'idée qu'un robot peut boucler en temps réel sur ses prédictions de monde sans matériel exotique, à condition d'adapter la distillation à la nature propre de chaque signal. Les WAMs s'inscrivent dans une tendance récente fusionnant prédiction vidéo et politique robot dans un modèle de diffusion unifié, une approche portée par des travaux comme GR00T N2 de NVIDIA, Pi-0.5 de Physical Intelligence, ou les VLAs (vision-language-action models) au sens large. LingBot-VA est l'un de ces modèles joints récents sur lequel Flash-WAM est instancié. Le sim-to-real gap demeure visible dans les résultats (60% en réel contre 85,5% en simulation sur RoboTwin 2.0), mais le gain de 36 points sur la distillation naïve confirme la pertinence de l'approche pour des déploiements futurs sur manipulateurs industriels ou humanoïdes à usage général.

RechercheOpinion
1 source