Aller au contenu principal
ARIS : un système d'intelligence relationnelle à base d'agents pour les robots sociaux
RecherchearXiv cs.RO7sem

ARIS : un système d'intelligence relationnelle à base d'agents pour les robots sociaux

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2605.00943) ARIS, un cadre IA agentique conçu pour doter les robots sociaux d'une mémoire relationnelle persistante et d'un raisonnement contextuel multi-tours. L'architecture combine trois composants : un raisonnement multimodal (vision, parole, action physique), un Social World Model structuré en graphe de connaissances qui cartographie les relations entre utilisateurs, et un pipeline de génération augmentée par récupération (RAG) garantissant une latence bornée même lorsque l'historique de dialogue atteint plusieurs milliers d'échanges. Le système a été évalué sur un robot Pepper de SoftBank Robotics dans un cadre de conversation dyadique. Une étude utilisateur portant sur 23 participants montre qu'ARIS obtient des scores significativement supérieurs à une baseline LLM classique sur quatre dimensions : intelligence perçue, animacité, anthropomorphisme et sympathie.

L'apport principal réside dans l'architecture de persistance sociale : les systèmes actuels traitent chaque interaction comme stateless, sans mémoire des rencontres précédentes ni modélisation des liens entre individus. ARIS rompt avec ce paradigme via un graphe de connaissances capable de réidentifier les utilisateurs d'une session à l'autre et de raisonner sur leurs relations mutuelles, une propriété directement utile dans des contextes d'accueil, d'assistance en entreprise ou d'accompagnement médical. Le pipeline RAG résout par ailleurs un problème pratique souvent ignoré : maintenir des réponses pertinentes sans dégradation de latence lorsque l'historique s'allonge, une contrainte critique pour un déploiement réel. Les résultats d'une étude à N=23 restent modestes en termes de puissance statistique, et aucune métrique de latence absolue n'est communiquée dans l'abstract.

Le travail s'inscrit dans la vague d'application des grands modèles de fondation à la robotique sociale, dans la lignée de PaLM-E (Google, 2023) et des architectures Vision-Language-Action (VLA) de Physical Intelligence. Sur le marché des robots sociaux, les acteurs clés restent SoftBank Robotics (Pepper, NAO), Furhat Robotics et, côté français, Enchanted Tools avec son robot Miroki. ARIS sera publié en open source à la parution de l'article, ce qui pourrait accélérer l'adoption par des intégrateurs cherchant une couche de mémoire sociale au-dessus de modèles LLM existants. La prochaine étape est une validation en environnement réel.

Impact France/UE

Le framework ARIS, promis en open source à la parution, offre une couche de mémoire sociale réutilisable que des intégrateurs européens, notamment Enchanted Tools (Miroki) pour l'accueil et l'assistance, pourraient exploiter directement au-dessus de leurs modèles LLM existants.

À lire aussi

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée
1arXiv cs.RO 

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

Une équipe de recherche a déposé sur arXiv (arXiv:2606.03374, juin 2026) un système de mémoire baptisé eMEM (Embodied Memory), conçu spécifiquement pour les agents incarnés opérant dans des environnements physiques. Contrairement aux architectures existantes comme Generative Agents, MemGPT ou A-MEM, qui stockent la mémoire sous forme de flux textuels ou de graphes de connaissances, eMEM propose une architecture multi-index combinant SQLite pour le stockage structuré, hnswlib pour la recherche sémantique par voisins les plus proches (ANN), et un R-tree pour les requêtes spatiales, le tout unifié derrière un modèle de graphe unique. Un pipeline de consolidation par niveaux transforme les observations perceptuelles brutes en résumés compressés, en s'inspirant explicitement de la consolidation hippocampo-néocorticale observée chez les mammifères. Dix outils de rappel, exposés en natif au LLM, couvrent des primitives comme la résolution concept-vers-localisation ou le rappel inter-couches. Le système tourne entièrement en mémoire vive, en co-processus avec l'agent. Sur eMEM-Bench v1, un benchmark construit sur les scènes ProcTHOR-10K autour de huit paradigmes de psychologie cognitive (leurres DRM, séparation de patterns, complétion de patterns, surveillance de source, récupération dépendante du contexte, interférence à long horizon, position sérielle, courbe de rétention augmentée par des distracteurs), eMEM atteint un score pondéré moyen de 80,8 sur 988 sondes, avec une courbe de rétention plate au plafond de 1 heure à 1 an de délai simulé sur des objets uniques par pièce. Ce résultat est significatif parce qu'il isole deux problèmes structurels des approches purement RAG : une baseline flat_rag perd 30 points sur la récupération dépendante du contexte et 29 points sur le rejet des leurres DRM, ce qui valide respectivement la contribution du stockage multi-couches et du pipeline de consolidation. Pour les intégrateurs qui déploient des agents dans des environnements industriels ou domestiques complexes, cela met en évidence un angle mort majeur : un robot ou un agent LLM utilisant une récupération sémantique plate ne peut pas distinguer "le tiroir où j'ai vu les pinces hier dans cette pièce" de "les pinces en général". L'indexation spatiale couplée à la consolidation temporelle est ce qui permet à eMEM de maintenir des performances constantes sur de longues fenêtres simulées, là où les systèmes actuels dégradent. Le choix de benchmarker sur des paradigmes issus de la psychologie cognitive humaine est méthodologiquement solide : il rend les résultats comparables à la littérature sur la mémoire biologique, ce que des benchmarks surfaciques comme LoCoMo ou OpenEQA ne permettent pas. eMEM s'inscrit dans une vague de travaux sur la mémoire à long terme pour agents LLM, portée notamment par Generative Agents (Park et al., 2023) et MemGPT (Packer et al., 2023), qui ont posé les bases mais restent aveugles à la dimension spatiale, critique pour les robots physiques. L'environnement ProcTHOR-10K offre des scènes intérieures procédurales variées, mais les performances en transfert vers des environnements réels restent entièrement à démontrer : le sim-to-real gap s'applique autant aux systèmes de mémoire qu'aux politiques motrices. Le code du système et du benchmark est rendu public, ouvrant la voie à des évaluations indépendantes. Aucun partenariat industriel ni déploiement terrain n'est mentionné : c'est une contribution académique, pas un produit. Les étapes suivantes naturelles seraient de valider eMEM sur des plateformes embarquées à mémoire contrainte et de tester sa robustesse dans des scènes dynamiques où les objets se déplacent entre deux requêtes.

RecherchePaper
1 source
Les robots apprennent à se relever après des chutes dans les escaliers grâce à un système de stabilisation intelligent
2Interesting Engineering 

Les robots apprennent à se relever après des chutes dans les escaliers grâce à un système de stabilisation intelligent

Des chercheurs du ROAR Laboratory (Robotics and Automation Research) de l'Université de Technologie et de Design de Singapour (SUTD) ont publié une étude sur la mitigation des chutes de robots en escalier, présentant un système basé sur l'apprentissage par renforcement couplé à un bras mécanique à trois degrés de liberté (3 DOF). Le dispositif est monté à l'arrière d'une plateforme mobile à chenilles et intervient activement pendant la chute, au lieu de se limiter à la prévention. Entraîné entièrement en simulation sur cinq modes de chute répertoriés (chute arrière droite, pivotements latéraux, effondrements de côté), le contrôleur atteint un taux de succès moyen de 69,4 % pour stopper et stabiliser le robot, contre 38,6 % pour une méthode de contrôle codée à la main. Lorsqu'il réussit, le système stabilise la plateforme en 4,25 secondes en moyenne, bien en deçà du seuil interne fixé à 10 secondes. Testé sur des robots 10 % plus grands ou plus petits et sur des escaliers aux dimensions variables, le meilleur contrôleur atteint 87 % de succès sur une plateforme plus grande. Le résultat le plus significatif n'est pas le taux de succès en lui-même mais le changement de paradigme qu'il représente : le secteur s'est longtemps concentré sur la prévention des chutes via la planification de trajectoire et la détection d'obstacles, en présupposant que le risque résiduel était marginal. Une étude de terrain sur plusieurs années citée par l'équipe indique pourtant que les robots conçus pour les escaliers tombent au moins 35 fois plus souvent sur ce type de surface qu'en terrain plat. Le professeur Mohan Rajesh Elara, directeur du ROAR Lab, formule l'enjeu en termes d'adoption industrielle : tant que les opérateurs ne disposent pas d'une réponse crédible au risque résiduel, ces plateformes resteront perçues comme une source de responsabilité plutôt que comme un outil. Le fait que le contrôleur généralise à des géométries non vues pendant l'entraînement est également notable pour les intégrateurs : il suggère qu'un seul modèle pourrait couvrir une flotte hétérogène sans réentraînement par plateforme. Le système n'est pas prêt pour un déploiement commercial : les chercheurs reconnaissent explicitement qu'il ne satisfait pas la norme de sécurité fonctionnelle IEC 61508, qui impose des niveaux d'intégrité stricts pour les systèmes embarqués en environnement humain. Les prochaines étapes portent sur l'amélioration de la fiabilité, l'ajout de sécurités mécaniques redondantes et la validation expérimentale hors simulation. Dans le paysage concurrentiel, Boston Dynamics (Spot, Atlas), Agility Robotics (Digit) et les acteurs humanoïdes (Figure AI, 1X, Unitree) investissent massivement dans la stabilité dynamique, mais peu publient des données quantifiées sur la récupération post-chute. Ce travail de la SUTD se positionne davantage comme recherche fondamentale que comme annonce produit, mais il fournit une baseline méthodologique utile pour comparer les approches à venir.

UEAucun acteur européen impliqué, mais la référence explicite à la norme IEC 61508 (certification fonctionnelle européenne) positionne ce travail comme une étape préliminaire obligatoire avant tout déploiement commercial en UE de robots mobiles en environnement humain.

RecherchePaper
1 source
Architecture hybride intelligente à base de LLM pour l'ordonnancement des tâches robotiques
3arXiv cs.RO 

Architecture hybride intelligente à base de LLM pour l'ordonnancement des tâches robotiques

Une équipe de chercheurs a publié sur arXiv (arXiv:2605.15486, mai 2026) un framework hybride exploitant des grands modèles de langage (LLM) pour orchestrer la planification de tâches de robots de chantier. L'architecture repose sur deux agents LLM fonctionnant en parallèle : un agent générateur basé sur GPT-4 (OpenAI) chargé de produire les séquences de tâches, et un agent superviseur interchangeable parmi Gemma 3 (Google DeepMind), Llama 4 (Meta) ou Mistral 7b, chargé de valider et corriger les plannings générés. Le système intègre une interface en langage naturel (NLP) permettant aux professionnels du bâtiment de communiquer directement leurs contraintes opérationnelles, et peut s'adapter en temps réel à des conditions imprévues sur site. Les résultats sont évalués sur un scénario simplifié avec des métriques quantitatives d'efficacité temporelle et d'utilisation des ressources. L'intérêt principal de cette approche réside dans la combinaison d'un modèle de raisonnement puissant (GPT-4) avec un modèle superviseur plus léger et remplaçable, ce qui réduit potentiellement le coût d'inférence tout en maintenant une validation en boucle fermée. Pour les intégrateurs de robotique dans le BTP, la couche NLP représente une piste concrète pour réduire la dépendance à des opérateurs spécialisés en programmation robot. Cela dit, l'évaluation reste limitée à un scénario dit "straightforward", ce qui ne permet pas de conclure sur la robustesse en conditions réelles de chantier, où la multiplicité des aléas (retards livraison, obstacles, météo) constitue le vrai défi. La validité industrielle de la méthode reste à démontrer à plus grande échelle. La planification automatisée de tâches multi-robots dans la construction est un axe actif depuis plusieurs années, notamment avec les travaux sur les systèmes BIM-to-robot et les AMR (autonomous mobile robots) de chantier. Des acteurs comme Boston Dynamics (avec Spot en inspection), Hilti (robots d'ancrage) ou NLink explorent déjà des formes de programmation par intention. En Europe, des initiatives comme Versatile (projet H2020) ont tracé des pistes similaires. Ce preprint s'inscrit dans une tendance plus large d'utilisation des VLA (Vision-Language-Action models) et des LLM comme couche de planification symbolique au-dessus de robots exécutants, une approche que des laboratoires comme Stanford (Mobile ALOHA) et CMU poussent en parallèle. Les prochaines étapes attendues seraient une validation sur chantier réel et une comparaison formelle entre les différents agents superviseurs testés.

UEApproche potentiellement exploitable par des intégrateurs robotiques européens actifs dans le BTP (Versatile/H2020), mais sans validation sur chantier réel ni déploiement en Europe à ce stade.

RechercheOpinion
1 source
De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique
4arXiv cs.RO 

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

Une équipe de recherche a publié en mai 2025 sur arXiv (identifiant 2605.11951) AgentChord, un système multi-agents qui anticipe les pannes de manipulation robotique avant l'exécution plutôt qu'en les traitant de manière réactive. L'architecture repose sur un graphe de tâches dirigé enrichi, en amont de toute exécution, de branches de récupération pré-compilées et contextualisées selon chaque étape critique. Trois agents spécialisés structurent ce pipeline : un "composer" modélise la tâche nominale, un "arranger" greffe les branches de récupération anticipées, et un "conductor" orchestre les transitions via des moniteurs à faible latence. Les expériences portent sur des tâches de manipulation bimanuelle à horizon long ; les auteurs rapportent une amélioration "substantielle" des taux de succès sans publier de métriques chiffrées précises dans l'abstract disponible. Le principal apport est d'éliminer la latence inhérente au pipeline classique "détecter-raisonner-récupérer", dans lequel chaque échec déclenche un nouvel appel à un LLM ou à un planificateur symbolique. En pré-compilant les correctifs avant le début de la tâche, AgentChord permet une réponse immédiate sans re-planification dès qu'un moniteur détecte une déviation. Pour les intégrateurs industriels qui automatisent des opérations en cellule non structurée, cette architecture de graphe anticipatif pourrait réduire les arrêts imprévus liés aux échecs de manipulation. L'approche présente néanmoins une limite structurelle : les branches pré-compilées ne couvrent que les pannes anticipées, non les défaillances inédites ou hors-modèle. La robustesse de la manipulation en conditions réelles reste l'un des goulots d'étranglement centraux de la robotique commerciale, que ce soit pour les bras industriels ou les humanoïdes en phase de déploiement comme Optimus de Tesla ou les robots de Figure AI. AgentChord s'inscrit dans un courant qui exploite les LLMs comme orchestrateurs de logique de haut niveau, en complément de politiques d'action de bas niveau. Des approches concurrentes comme les VLA Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA intègrent la récupération de manière implicite dans le réseau de politique, là où AgentChord opte pour une représentation explicite en graphe, plus transparente mais potentiellement moins générique face à la variabilité du monde réel. La page projet est accessible sur shengxu.net/AgentChord ; la validation hors banc de test académique reste la prochaine frontière.

RecherchePaper
1 source