X4Val : apprentissage de substituts neuronaux…

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

42

1arXiv cs.RO

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Des chercheurs ont publié en juin 2026 (arXiv:2606.27353) un framework d'apprentissage continu permettant à un robot de s'adapter en temps réel à des dynamiques changeantes et non observées, sans nécessiter de réentraînement complet. Le système combine un modèle de dynamique analytique (prior physique) avec un résidu neuronal entraîné à capturer les effets non modélisés. Un encodeur récurrent infère en ligne la "condition cachée" courante du robot, c'est-à-dire l'état du système non directement mesurable (charge utile variable, usure mécanique, perturbations aérologiques), à partir des trajectoires état-action récentes. Cette condition estimée pilote à la fois le modèle résiduel et la politique de contrôle. Lors de l'apprentissage, la politique est optimisée par simulation différentiable en échantillonnant un ensemble de dynamiques plausibles issues du modèle latent. Sur un quadrotor réel soumis à des vents récurrents, le système récupère une perturbation connue en environ 1 seconde, soit cinq fois plus rapidement qu'un réentraînement résiduel en ligne classique, et réduit les erreurs de vol stationnaire et de suivi de trajectoire respectivement de 65,7 % et 53,3 % par rapport aux approches d'adaptation en ligne de l'état de l'art. L'enjeu industriel est direct : la quasi-totalité des contrôleurs appris actuels sont entraînés une fois, puis déployés statiquement, comme si la dynamique du robot restait constante. En pratique, batteries qui se déchargent, charges qui changent de mission en mission, surfaces de contact qui évoluent, conditions météo variables, tout cela dégrade les performances sans mécanisme de correction. L'originalité de cette approche tient à la distinction entre "reconnaissance" et "réadaptation" : plutôt que de réajuster un modèle depuis zéro à chaque perturbation rencontrée (coûteux en données et en temps), le système reconnaît une dynamique déjà vue et l'applique immédiatement via l'encodeur récurrent. Ce paradigme est particulièrement pertinent pour les intégrateurs de drones industriels, de robots manipulateurs en logistique ou de plateformes mobiles en environnement extérieur, où les cycles de déploiement sont longs et les recalibrages manuels coûteux. Les résultats valident aussi une hypothèse clé du champ sim-to-real : qu'un prior physique structuré couplé à un résidu neuronal permet de généraliser à des conditions non vues lors de l'entraînement, à condition que ces conditions aient été préalablement "vécues" lors d'autres déploiements. Ce travail s'inscrit dans une lignée de recherches sur l'adaptation dynamique de politiques robotiques incluant la randomisation de domaine (popularisée par OpenAI Robotics dès 2018), les approches méta-learning type MAML, et les méthodes d'adaptation en ligne par processus gaussiens. Le réentraînement résiduel en ligne, utilisé comme baseline de comparaison, est une technique établie mais limitée par sa latence de convergence, problème central que ce framework adresse directement par la reconnaissance latente. L'article est à ce stade un preprint non relu par les pairs, et les expériences réelles restent limitées au quadrotor ; la généralisation à des robots à pattes ou à des bras manipulateurs industriels reste à démontrer. Aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné. Les prochaines étapes probables incluent des tests sur des plateformes à dynamiques plus complexes et une validation sur des dynamiques à distribution plus large.

RecherchePaper

1 source

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

40

2arXiv cs.RO

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper

1 source

SimFoundry : génération modulaire et automatisée de scènes pour l'apprentissage et l'évaluation de politiques

44

3arXiv cs.RO

SimFoundry : génération modulaire et automatisée de scènes pour l'apprentissage et l'évaluation de politiques

Des chercheurs du laboratoire GEAR de NVIDIA ont publié SimFoundry sur arXiv (identifiant 2606.28276), un pipeline modulaire et automatisé permettant de reconstruire des scènes de simulation directement depuis une vidéo du monde réel, sans annotation manuelle. Le système génère des jumeaux numériques sim-ready, puis en dérive automatiquement des "cousins numériques": des variantes de la scène originale qui préservent les affordances manipulatoires tout en modifiant objets, arrangements ou tâches. Testé sur sept tâches de manipulation (multi-étapes, objets articulés, bimane) et cinq architectures de policies distinctes, SimFoundry atteint une corrélation de Pearson de 0,911 entre évaluation en simulation et performance réelle, avec un mean maximum ranking violation de 0,018. En transfert zéro-shot vers le monde réel, les cousins d'objets apportent +17% de taux de succès, les cousins de scènes +21%, et les cousins de tâches +40%. Ces résultats s'attaquent directement au sim-to-real gap, l'écart structurel qui rend les benchmarks de simulation peu fiables pour prédire les performances physiques. Avec une corrélation de 0,911, les équipes R&D peuvent comparer des architectures de policies en simulation sans mobiliser de temps robot, ce qui réduit significativement le coût d'évaluation. Le concept de cousins numériques va plus loin que l'augmentation de données classique: en préservant les affordances, les variantes restent exploitables pour l'apprentissage sans dériver vers des distributions hors domaine. Pour un intégrateur de cellules robotiques ou un décideur industriel, le gain concret est une accélération du cycle développement-évaluation, à condition que la reconstruction vidéo reste robuste hors des environnements contrôlés présentés dans le papier. SimFoundry s'inscrit dans la stratégie robotique large de NVIDIA, qui développe en parallèle la plateforme Isaac Sim et le modèle de fondation humanoïde GR00T N2. Le laboratoire GEAR, dédié à la généralisation des policies d'agents incarnés, positionne cette approche sim-centric face aux alternatives data-centric: Physical Intelligence (Pi-0, issu des travaux de Sergey Levine) mise sur des volumes massifs de démonstrations réelles, tandis que Google DeepMind avance avec ses propres pipelines de simulation. Dans l'écosystème des simulateurs robotiques (Sapien, RoboSuite, Genesis), SimFoundry se distingue par son entrée vidéo sans annotation. Le papier, disponible en prépublication sur arXiv, ne précise pas de calendrier de mise à disposition du code ni d'intégration dans un produit commercial.

UELes laboratoires de robotique européens (CEA-List, INRIA) pourraient bénéficier de cette infrastructure de simulation pour évaluer leurs policies sans mobiliser de temps robot, mais aucun acteur FR/EU n'est impliqué et le code n'est pas encore disponible.

RecherchePaper

1 source

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

42

4arXiv cs.RO

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.15805) un framework génératif baptisé "Digital Cousins", conçu pour transformer automatiquement des panoramas de scènes réelles en environnements de simulation haute fidélité, puis en générer des variantes sémantiques et géométriques diversifiées. Le système prend en entrée une image panoramique d'une pièce réelle, reconstruit une scène simulée cohérente, et applique des modifications contrôlées, repositionnement d'objets, changement de géométrie, substitution de matériaux, pour produire des "scènes cousines" statistiquement variées. Un module de raccordement multi-pièces permet de construire des environnements à grande échelle pour des tâches de navigation longue portée dans des layouts complexes. Les expériences montrent que scaler massivement la génération de données améliore significativement la généralisation à des scènes et objets non vus en entraînement. Ce travail s'attaque directement à l'un des goulots d'étranglement majeurs du robot learning : collecter des données réelles diversifiées est coûteux en temps, en assets physiques et en reconfiguration manuelle d'environnements. L'approche real-to-sim-to-real proposée ici offre aux intégrateurs et équipes R&D une voie pour démultiplier leur corpus d'entraînement sans mobiliser de ressources physiques supplémentaires. La corrélation sim-to-real mesurée dans les expériences valide la fidélité de la plateforme, un point crucial, car beaucoup de frameworks de simulation peinent à transférer en conditions réelles. Pour les décideurs B2B, cela signifie des cycles de développement potentiellement plus courts et une meilleure robustesse des politiques déployées face à la variabilité des environnements industriels. À noter que les métriques de généralisation sont présentées sur des benchmarks de manipulation et de navigation en intérieur ; leur tenue dans des contextes industriels contraints (entrepôts, lignes de production) reste à démontrer hors laboratoire. Le concept de "Digital Cousins" s'inscrit dans une vague de travaux visant à combler le sim-to-real gap, aux côtés d'approches comme Isaac Sim (NVIDIA), Habitat (Meta) ou Genesis (labo Carnegie Mellon). Ce qui différencie cette contribution est la chaîne génératrice bout-en-bout à partir de panoramas, une méthode plus accessible que la modélisation 3D manuelle traditionnelle. Les auteurs ne rattachent pas explicitement le framework à un robot ou un produit commercial, ce qui en fait pour l'instant un outil de recherche. Les prochaines étapes naturelles seraient une intégration avec des pipelines VLA (Vision-Language-Action) existants comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), et une validation sur des robots manipulateurs déployés en conditions semi-réelles.

RecherchePaper

1 source

X4Val : apprentissage de substituts neuronaux pour l'évaluation de politique à variance réduite

À lire aussi

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

SimFoundry : génération modulaire et automatisée de scènes pour l'apprentissage et l'évaluation de politiques

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables