Aller au contenu principal
Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique
RecherchearXiv cs.RO7sem

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes.

L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle.

La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

Dans nos dossiers

À lire aussi

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions
1arXiv cs.RO 

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

PIEGraph est un modèle hybride de dynamique d'objets pour la manipulation robotique, présenté dans un preprint arXiv publié en mai 2025 (arXiv:2605.02699). Conçu pour opérer avec peu de données d'interaction réelles, il repose sur deux composants couplés : un modèle analytique basé sur des particules physiquement informé, implémenté comme un système masse-ressort, et un réseau de neurones graphique équivariant (GNN équivariant) qui exploite les symétries des interactions entre particules pour corriger et guider ce modèle analytique. Les objets sont représentés comme des ensembles de particules 3D, une convention répandue dans la recherche en manipulation d'objets déformables. PIEGraph a été évalué sur des tâches de réorientation et de repositionnement impliquant des cordes, du tissu, des peluches et des objets rigides, à la fois en simulation et sur hardware robotique physique, où il surpasse les approches de référence actuelles selon les auteurs. Le problème que PIEGraph cherche à résoudre est bien identifié dans le domaine : les modèles purement neuronaux de dynamique de particules perdent la cohérence physique sur des horizons temporels longs et exigent de larges volumes de données d'entraînement, deux contraintes rédhibitoires pour un déploiement industriel. L'approche hybride, avec des contraintes physiques analytiques comme biais inductif et une correction par GNN équivariant, démontre que l'intégration explicite de symétries et de lois physiques dans l'architecture améliore la généralisation à partir de peu d'expériences réelles. Pour les intégrateurs robotiques qui manipulent des pièces souples (textiles, câbles, joints), c'est un signal pertinent : le sim-to-real gap pour les objets déformables n'est pas uniquement un problème de qualité de simulation, mais aussi de structure du modèle d'apprentissage lui-même. La représentation d'objets par nuages de particules 3D est au cœur de travaux antérieurs comme DPI-Net, RoboCraft ou les approches issues de PlasticineLab. Les GNN purs ont montré leurs limites pour la prédiction à long terme et hors distribution d'entraînement. La direction "physique hybride et apprentissage" est partagée par plusieurs groupes, notamment autour de DiffTaichi et des formulations position-based dynamics (PBD). PIEGraph s'inscrit dans cette lignée en ajoutant l'équivariance comme levier supplémentaire de data-efficiency. Une limite notable : le résumé disponible ne quantifie pas précisément le nombre d'interactions réelles nécessaires, un chiffre décisif pour juger de l'applicabilité industrielle. Les prochaines étapes naturelles seraient de tester sur des tâches impliquant des contacts déformable-rigide et de publier ces métriques de sample efficiency.

RecherchePaper
1 source
Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène
2arXiv cs.RO 

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01072) une méthode d'apprentissage par imitation qui exploite des graphes de scène dynamiques comme mécanisme de mémoire structurée pour les robots mobiles. Le principe : pendant l'exécution d'une tâche, le robot maintient un graphe de scène mis à jour en continu, qui encode les relations entre objets et leur évolution dans le temps. Plutôt que de traiter uniquement les observations courantes du capteur, le système capitalise sur l'historique accrété de l'environnement pour inférer des politiques d'action. Les validations couvrent deux régimes : manipulation mobile en simulation (environnements à grande échelle spatialement) et manipulation sur table en conditions réelles. Les auteurs rapportent une amélioration substantielle des performances par rapport aux baselines, particulièrement sur des tâches nécessitant un raisonnement à long terme, sans donner de métriques chiffrées précises dans l'abstract. Ce travail s'attaque à deux verrous persistants du déploiement de robots apprenants dans des environnements non-structurés. Le premier est l'observabilité partielle : dans un appartement ou un bureau, le champ de vision d'un robot ne capture qu'une fraction de l'espace pertinent, et les objets manipulés disparaissent régulièrement du cadre. Le second est l'horizon temporel : des tâches comme "ranger la cuisine" enchaînent des dizaines de sous-tâches dont les dépendances ne sont pas localement visibles. En substituant un graphe de scène explicite et structuré à une mémoire implicite (fenêtre d'observations brutes, état caché LSTM), l'approche donne au robot une représentation interprétable et modulaire du contexte. Pour les intégrateurs industriels et les équipes qui déploient des politiques d'imitation dans des environnements semi-structurés, c'est une piste crédible pour réduire le gap entre démo de labo et robustesse opérationnelle, même si les expériences restent pour l'instant confinées à la simulation et au tabletop. L'apprentissage par imitation (behavioral cloning, GAIL, DAgger) a connu un regain d'intérêt majeur avec l'essor des Visual Language Action models (VLA) comme Pi-0 de Physical Intelligence, RT-2 de Google DeepMind, ou OpenVLA. Les graphes de scène sont une technique éprouvée en vision par ordinateur et en navigation robotique (travaux de Armeni, Rosinol, Chang notamment), mais leur intégration dans des pipelines d'imitation learning reste peu explorée. Les approches concurrentes pour gérer la mémoire à long terme incluent les transformers avec attention sur un historique d'observations, les représentations de tâches hiérarchiques (task graphs), et les world models latents. Ce preprint n'étant pas encore évalué par les pairs, ses résultats méritent confirmation sur des benchmarks plus larges et des environnements réellement non-structurés avant de pouvoir orienter des décisions d'architecture. Les auteurs n'annoncent pas de code public ni de suite industrielle à ce stade.

RechercheOpinion
1 source
SPACE : apprentissage inter-robots vers des politiques généralistes
3arXiv cs.RO 

SPACE : apprentissage inter-robots vers des politiques généralistes

Une équipe de chercheurs a publié le 24 juin 2026 sur arXiv (arXiv:2606.24049) un article introduisant SPACE (State Prediction and Adaptive Command Execution), un cadre d'apprentissage conçu pour entraîner des politiques robotiques généralisables à partir de données hétérogènes collectées sur différents robots. Le problème central est le suivant : en behavior cloning, les actions enregistrées lors de démonstrations sont couplées à la dynamique du robot utilisé, ce qui empêche leur réutilisation directe sur d'autres plateformes. SPACE résout cela en adoptant le delta d'état cartésien comme représentation d'action universelle, indépendante du matériel. Le framework repose sur deux composants : une politique prédisant le déplacement géométrique de l'effecteur terminal (end-effector), et un Action Adapter qui convertit ces prédictions en commandes spécifiques à chaque robot. Les expériences démontrent que SPACE surpasse significativement les politiques entraînées à prédire directement des commandes de contrôle, que ce soit entre morphologies différentes ou entre unités matérielles d'une même plateforme. La robustesse est également validée face aux variations dynamiques en déploiement : changements de fréquence de contrôle, de masse des objets manipulés ou de gains de contrôleur. L'enjeu est structurant pour la robotique industrielle à grande échelle. Agréger des démonstrations issues de parcs hétérogènes sans dégradation de performance est un verrou majeur pour constituer les grands jeux de données dont la robotique généraliste a besoin, à l'image d'ImageNet pour la vision par ordinateur. SPACE découple la représentation de l'action de son exécution matérielle, ouvrant la voie à des politiques capables de fonctionner sur des flottes diversifiées sans ré-entraînement complet. Pour un intégrateur ou un COO industriel opérant des robots de plusieurs générations, la robustesse aux shifts dynamiques en production est un argument concret, pas seulement académique. Ce travail s'inscrit dans le courant dominant du robot learning, qui cherche à reproduire pour la robotique le scaling des grands modèles de langage. Des travaux comme RT-2, Octo ou pi-0 (Physical Intelligence) ont déjà exploré l'apprentissage multi-robot, mais l'alignement des espaces d'action reste un problème ouvert. SPACE apporte une réponse modulaire, sans imposer de modifications architecturales majeures à la politique principale, ce qui facilite l'intégration avec des architectures VLA existantes. Le code et la page projet sont disponibles publiquement. Il s'agit pour l'instant d'un preprint non encore soumis à peer review, et les prochaines étapes naturelles incluront des validations à plus grande échelle et sur des scènes de manipulation plus complexes.

RechercheOpinion
1 source
SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage
4arXiv cs.RO 

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

Des chercheurs ont publié sur arXiv (2511.05203v3) SIL (Symbiotic Interactive Learning), un framework de co-adaptation bidirectionnelle pour l'interaction humain-agent. Contrairement aux systèmes actuels où l'agent exécute passivement des commandes en langage naturel, SIL maintient un espace latent partagé dans lequel humain et agent font évoluer conjointement leurs états de croyance (belief states) au fil des échanges. L'architecture repose sur des foundation models pour la perception spatiale et le raisonnement, un encodeur neuronal entraîné par triplet-loss qui ancre ces sorties dans des représentations spécifiques à la tâche, et des mémoires épisodique et sémantique régularisées via Elastic Weight Consolidation (EWC) pour prévenir l'oubli catastrophique. Sur des tâches simulées et réelles, suivi d'instructions, recherche d'information, raisonnement orienté requêtes et dialogue interactif, SIL atteint un taux de complétion de 90,4% et un score d'alignement de croyances ρ ≈ 0,83, soit un gain absolu d'environ 20 points de pourcentage sur les meilleures ablations. L'enjeu est conceptuellement notable : presque tous les systèmes HRI (human-robot interaction) actuels fonctionnent en mode maître-apprenti unidirectionnel, l'agent n'apprenant rien de l'opérateur en cours d'interaction. SIL propose à l'inverse une co-adaptation mutuelle permettant des clarifications proactives, des suggestions de plan adaptées et un affinement continu de la compréhension de la tâche. Pour les intégrateurs de cobots ou les décideurs industriels, cela adresse un point de friction concret : gérer l'ambiguïté opérationnelle sans sollicitations humaines répétées. La régularisation EWC répond aussi à un problème récurrent des VLA (Vision-Language-Action models) : la dégradation des performances lors du fine-tuning continu sur des tâches évolutives. Ce travail s'inscrit dans le courant d'intégration des foundation models dans la couche de contrôle robotique, aux côtés de RT-2 (Google DeepMind) et OpenVLA. La particularité de SIL réside dans sa boucle interactive bidirectionnelle plutôt que dans la seule généralisation task-to-task. Il s'agit à ce stade d'une preprint arXiv, sans revue par les pairs confirmée ni déploiement industriel annoncé ; les résultats sur tâches "réelles" méritent un examen attentif des protocoles expérimentaux, absents du résumé disponible. Les prochaines étapes naturelles sont une soumission en conférence (CoRL, ICRA) et une éventuelle intégration dans des plateformes d'agents embarqués pilotés par LLM.

RechercheOpinion
1 source