Aller au contenu principal
Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions
RecherchearXiv cs.RO7sem

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

PIEGraph est un modèle hybride de dynamique d'objets pour la manipulation robotique, présenté dans un preprint arXiv publié en mai 2025 (arXiv:2605.02699). Conçu pour opérer avec peu de données d'interaction réelles, il repose sur deux composants couplés : un modèle analytique basé sur des particules physiquement informé, implémenté comme un système masse-ressort, et un réseau de neurones graphique équivariant (GNN équivariant) qui exploite les symétries des interactions entre particules pour corriger et guider ce modèle analytique. Les objets sont représentés comme des ensembles de particules 3D, une convention répandue dans la recherche en manipulation d'objets déformables. PIEGraph a été évalué sur des tâches de réorientation et de repositionnement impliquant des cordes, du tissu, des peluches et des objets rigides, à la fois en simulation et sur hardware robotique physique, où il surpasse les approches de référence actuelles selon les auteurs.

Le problème que PIEGraph cherche à résoudre est bien identifié dans le domaine : les modèles purement neuronaux de dynamique de particules perdent la cohérence physique sur des horizons temporels longs et exigent de larges volumes de données d'entraînement, deux contraintes rédhibitoires pour un déploiement industriel. L'approche hybride, avec des contraintes physiques analytiques comme biais inductif et une correction par GNN équivariant, démontre que l'intégration explicite de symétries et de lois physiques dans l'architecture améliore la généralisation à partir de peu d'expériences réelles. Pour les intégrateurs robotiques qui manipulent des pièces souples (textiles, câbles, joints), c'est un signal pertinent : le sim-to-real gap pour les objets déformables n'est pas uniquement un problème de qualité de simulation, mais aussi de structure du modèle d'apprentissage lui-même.

La représentation d'objets par nuages de particules 3D est au cœur de travaux antérieurs comme DPI-Net, RoboCraft ou les approches issues de PlasticineLab. Les GNN purs ont montré leurs limites pour la prédiction à long terme et hors distribution d'entraînement. La direction "physique hybride et apprentissage" est partagée par plusieurs groupes, notamment autour de DiffTaichi et des formulations position-based dynamics (PBD). PIEGraph s'inscrit dans cette lignée en ajoutant l'équivariance comme levier supplémentaire de data-efficiency. Une limite notable : le résumé disponible ne quantifie pas précisément le nombre d'interactions réelles nécessaires, un chiffre décisif pour juger de l'applicabilité industrielle. Les prochaines étapes naturelles seraient de tester sur des tâches impliquant des contacts déformable-rigide et de publier ces métriques de sample efficiency.

À lire aussi

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique
1arXiv cs.RO 

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes. L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle. La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

RecherchePaper
1 source
Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles
2arXiv cs.RO 

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Des chercheurs ont publié en juin 2026 (arXiv:2606.27353) un framework d'apprentissage continu permettant à un robot de s'adapter en temps réel à des dynamiques changeantes et non observées, sans nécessiter de réentraînement complet. Le système combine un modèle de dynamique analytique (prior physique) avec un résidu neuronal entraîné à capturer les effets non modélisés. Un encodeur récurrent infère en ligne la "condition cachée" courante du robot, c'est-à-dire l'état du système non directement mesurable (charge utile variable, usure mécanique, perturbations aérologiques), à partir des trajectoires état-action récentes. Cette condition estimée pilote à la fois le modèle résiduel et la politique de contrôle. Lors de l'apprentissage, la politique est optimisée par simulation différentiable en échantillonnant un ensemble de dynamiques plausibles issues du modèle latent. Sur un quadrotor réel soumis à des vents récurrents, le système récupère une perturbation connue en environ 1 seconde, soit cinq fois plus rapidement qu'un réentraînement résiduel en ligne classique, et réduit les erreurs de vol stationnaire et de suivi de trajectoire respectivement de 65,7 % et 53,3 % par rapport aux approches d'adaptation en ligne de l'état de l'art. L'enjeu industriel est direct : la quasi-totalité des contrôleurs appris actuels sont entraînés une fois, puis déployés statiquement, comme si la dynamique du robot restait constante. En pratique, batteries qui se déchargent, charges qui changent de mission en mission, surfaces de contact qui évoluent, conditions météo variables, tout cela dégrade les performances sans mécanisme de correction. L'originalité de cette approche tient à la distinction entre "reconnaissance" et "réadaptation" : plutôt que de réajuster un modèle depuis zéro à chaque perturbation rencontrée (coûteux en données et en temps), le système reconnaît une dynamique déjà vue et l'applique immédiatement via l'encodeur récurrent. Ce paradigme est particulièrement pertinent pour les intégrateurs de drones industriels, de robots manipulateurs en logistique ou de plateformes mobiles en environnement extérieur, où les cycles de déploiement sont longs et les recalibrages manuels coûteux. Les résultats valident aussi une hypothèse clé du champ sim-to-real : qu'un prior physique structuré couplé à un résidu neuronal permet de généraliser à des conditions non vues lors de l'entraînement, à condition que ces conditions aient été préalablement "vécues" lors d'autres déploiements. Ce travail s'inscrit dans une lignée de recherches sur l'adaptation dynamique de politiques robotiques incluant la randomisation de domaine (popularisée par OpenAI Robotics dès 2018), les approches méta-learning type MAML, et les méthodes d'adaptation en ligne par processus gaussiens. Le réentraînement résiduel en ligne, utilisé comme baseline de comparaison, est une technique établie mais limitée par sa latence de convergence, problème central que ce framework adresse directement par la reconnaissance latente. L'article est à ce stade un preprint non relu par les pairs, et les expériences réelles restent limitées au quadrotor ; la généralisation à des robots à pattes ou à des bras manipulateurs industriels reste à démontrer. Aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné. Les prochaines étapes probables incluent des tests sur des plateformes à dynamiques plus complexes et une validation sur des dynamiques à distribution plus large.

RecherchePaper
1 source
Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif
3arXiv cs.RO 

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

Des chercheurs ont proposé un modèle de dynamique contextuel fondé sur les équations différentielles ordinaires neuronales (Neural ODE) pour améliorer le contrôle de robots opérant dans des environnements incertains et variables. Le travail, déposé en juin 2026 sur arXiv (référence 2606.15469), cible les perturbations que les contrôleurs classiques peinent à absorber: variations des conditions de contact, effets aérodynamiques et perturbations externes imprévues. La méthode repose sur une procédure d'entraînement en deux phases: le modèle inspecte l'historique des états et des actions du robot pour inférer les facteurs environnementaux courants, sans capteurs dédiés supplémentaires. La compatibilité avec le MPC (Model Predictive Control) est intégrée dès la conception. Les validations portent sur trois plateformes distinctes: un drone quadrirotor en simulation, un robot sphérique Sphero BOLT et un bras manipulateur industriel Fanuc, ces deux derniers testés en conditions réelles. L'enjeu central est la dérive de modèle lors du déploiement: un robot calibré en laboratoire voit ses performances se dégrader dès que l'environnement change, que ce soit un sol différent, une charge variable ou des turbulences. Par rapport aux approches récurrentes classiques (LSTM, GRU), les Neural ODE présentent un avantage structurel: elles modélisent la dynamique en temps continu, ce qui améliore la cohérence physique et simplifie l'interface avec les solveurs MPC. L'inférence du contexte depuis le seul historique actions-états, sans instrumentation additionnelle, réduit la barrière d'intégration pour les industriels. Le test sur un Fanuc, bras omniprésent en production manufacturière, ancre les résultats dans une réalité opérationnelle tangible. Point de réserve: l'article est un preprint et l'abstract ne publie aucune métrique chiffrée de performance, ce qui rend l'évaluation indépendante difficile à ce stade. Les Neural ODE ont été introduites en 2018 par Chen et al. (NeurIPS) comme alternative aux réseaux récurrents pour modéliser des systèmes dynamiques continus. Leur application au contrôle robotique adaptatif répond à un obstacle persistant du secteur: le sim-to-real gap, qui fragilise la fiabilité des systèmes autonomes hors conditions contrôlées. Les approches concurrentes comprennent les processus gaussiens (GP) pour l'adaptation en ligne, les algorithmes méta-apprenants (MAML, PEARL) et l'identification de systèmes en temps réel. Ce travail se distingue par l'inférence contextuelle implicite, couplée nativement au MPC plutôt qu'ajoutée en couche. Le code source est ouvert sur GitHub et des démonstrations vidéo sont accessibles. La prochaine étape logique serait une validation sur des tâches de manipulation à charge variable ou un déploiement en environnement industriel non contrôlé.

RecherchePaper
1 source
Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour
4arXiv cs.RO 

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

Une équipe de chercheurs publie sur arXiv (ref. 2605.23987, mai 2026) un modèle d'interaction pensée-apprentissage (thinking-learning interaction model) pour robots autonomes évoluant en environnements ouverts et changeants. Le problème visé est structurel : la quasi-totalité des méthodes d'apprentissage robot actuelles fixent à l'avance leurs objets d'apprentissage, qu'il s'agisse des features d'entrée, des catégories de sortie, de l'architecture réseau ou des séquences d'action, ce qui bloque toute adaptation lorsque l'environnement dérive en exploitation longue durée. Le modèle proposé repose sur un mécanisme bidirectionnel : la pensée guide l'apprentissage en identifiant les changements potentiels, en sélectionnant les preuves pertinentes et en planifiant des actions de vérification, tandis que l'apprentissage améliore en retour les processus de raisonnement. Les résultats expérimentaux font état d'une progression de la précision de reconnaissance de 0,419 à 0,845 en adaptation de features, d'une réduction de la longueur moyenne des séquences d'action de 13,0 à 4,0 étapes, et d'une hausse du taux de sélection de preuves utiles de 0,272 à 0,965. L'enjeu est concret pour quiconque déploie des robots en environnement non structuré sur la durée. Les approches VLA (vision-language-action) et d'apprentissage par renforcement supposent généralement un espace d'états relativement stable : toute dérive contextuelle, nouvelle référence produit sur une ligne, réaménagement d'entrepôt, apparition d'obstacle inédit, impose un recalibrage humain ou un nouveau cycle d'entraînement coûteux. Un système capable de redéfinir ses propres catégories de sortie et de reconstruire ses routines d'action sans intervention extérieure réduirait considérablement le coût total de maintenance dans des contextes à forte variabilité, comme la logistique ou le manufacturing discret. Ces résultats restent toutefois issus d'expériences de laboratoire sur des scénarios contrôlés, et la généralisation à des déploiements industriels réels n'est pas encore démontrée. Ce travail s'inscrit dans un courant actif autour de l'apprentissage continu (continual learning), en réponse aux limites du fine-tuning ponctuel. Les approches concurrentes incluent le meta-apprentissage (MAML), les architectures à mémoire épisodique, et les agents LLM embarqués pour la planification robotique comme SayCan (Google DeepMind) ou Code-as-Policies. La spécificité de la contribution est de viser l'autonomie dans la définition des objets d'apprentissage eux-mêmes, pas seulement dans l'exécution de tâches prédéfinies. Le papier est un preprint sans annonce de déploiement ni partenariat industriel ; les prochaines étapes naturelles seraient une validation sur des benchmarks standardisés comme RLBench ou Open X-Embodiment, et des tests sur des plateformes physiques diversifiées.

RecherchePaper
1 source