Aller au contenu principal
RecherchearXiv cs.RO2h

HUMEMBR : apprentissage des routines humaines pour la navigation incarnée prédictive

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2606.30404, juin 2026) un système baptisé HUMEMBR, Human-Centered Memory for Embodied Robots, conçu pour permettre à un robot incarné de modéliser, mémoriser et exploiter les routines comportementales des individus qu'il côtoie. Le système répond à des requêtes telles que « où se trouve probablement cette personne en ce moment » ou « à quelle heure quitte-t-elle habituellement le bâtiment », en s'appuyant sur un historique d'observations accumulé sur le long terme. HUMEMBR couple une construction mémoire continue à un mécanisme de récupération et d'interrogation parallèle, produisant des représentations structurées des routines humaines interrogeables à la demande. Le système a été validé sur un robot physique déployé dans deux environnements distincts, sans que le papier précise le modèle de plateforme, le nombre de DOF ni les conditions exactes des essais terrain.

L'intérêt principal de HUMEMBR réside dans son efficacité computationnelle par rapport aux approches naïves à base de LLM en plein contexte : les auteurs rapportent de meilleures performances sur le raisonnement à long horizon tout en consommant significativement moins de tokens. Pour les intégrateurs de robots de service ou les déployeurs en environnement tertiaire (hôpitaux, entrepôts, bureaux), cela ouvre la voie à des robots capables d'anticiper la position d'un opérateur sans requête GPS ni tag actif, en inférant simplement depuis des patterns observés. C'est un pas vers la résolution du « routine gap », la difficulté à faire raisonner un robot sur des comportements récurrents et non étiquetés, au-delà de la navigation réactive classique.

La navigation incarnée guidée par le langage (VLA, NavLLM) est un champ très actif depuis 2023, avec des travaux comme NavGPT, SayNav ou EmbodiedGPT qui explorent l'usage des LLMs comme planificateurs de trajectoire. HUMEMBR se différencie en ciblant explicitement la modélisation comportementale humaine sur la durée, plutôt que la seule compréhension d'instructions à la volée. Aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné dans l'abstract, il s'agit d'une contribution académique, pas d'un produit annoncé. Les prochaines étapes naturelles seraient de tester la robustesse face à des changements de routine imprévus et de quantifier les performances sur des métriques standardisées comme HM3D ou R2R.

Dans nos dossiers

À lire aussi

Modernisation de la navigation par apprentissage par renforcement pour la génération de graphes de scènes sémantiques par IA incarnée
1arXiv cs.RO 

Modernisation de la navigation par apprentissage par renforcement pour la génération de graphes de scènes sémantiques par IA incarnée

Une équipe de recherche a publié sur arXiv (2603.25415v2) un composant de navigation modulaire destiné à la génération de graphes de scène sémantiques (SSG) par des agents embarqués. L'objectif central est de maximiser la qualité du modèle de monde construit par le robot dans un budget d'actions limité, en arbitrant entre gain d'information et coût de navigation. Les chercheurs remplacent l'algorithme d'optimisation de politique existant et revisitent la formulation de l'espace d'actions discret. Résultat clé : le simple remplacement de l'optimiseur améliore la complétude du SSG de 21 % en relatif par rapport à la baseline, à récompense identique. L'ajout d'une supervision par profondeur améliore principalement la sécurité d'exécution (réduction des collisions) sans modifier sensiblement la complétude. La combinaison d'un optimiseur moderne avec une représentation d'actions plus granulaire et factorisée en politique multi-têtes donne le meilleur compromis complétude-efficacité global. Ce résultat soulève une question pratique pour les équipes de robotique embarquée : combien de pipelines RL de navigation sont sous-performants non pas à cause de leur architecture, mais à cause d'algorithmes d'entraînement obsolètes ? Un gain de 21 % par simple swap d'optimiseur suggère que la dette technique dans les baselines de comparaison est substantielle. Par ailleurs, la politique multi-têtes factorisée réduit l'explosion combinatoire de l'espace d'actions, un problème classique dès que l'on augmente la granularité des mouvements. Sur le plan applicatif, les SSG sont une brique utile pour les robots autonomes opérant dans des environnements industriels non structurés : ils fournissent une représentation compacte des objets, relations et contexte spatial, au-delà des cartes purement géométriques. Ce travail s'inscrit dans le courant de l'Organic Computing, un paradigme de systèmes auto-adaptatifs sous contraintes de ressources et d'incertitude, qui reste davantage présent dans la recherche académique européenne que dans les déploiements industriels. La version v2 du preprint indique un raffinement itératif, signe d'une validation en cours. Le positionnement concurrentiel de cette approche structurée par graphes est à surveiller face aux modèles fondationnels vision-langage (VLA) qui absorbent de plus en plus les tâches de compréhension de scène. Les prochaines étapes probables incluent le transfert sim-to-real sur plateforme physique et l'évaluation à plus grande échelle environnementale.

UELe paradigme Organic Computing sous-jacent est davantage ancré dans la recherche académique européenne, ce qui pourrait faciliter le transfert de ces techniques de navigation vers des projets de robotique autonome industrielle en UE.

RecherchePaper
1 source
Navigation par apprentissage pour robots mobiles en intérieur
2arXiv cs.RO 

Navigation par apprentissage pour robots mobiles en intérieur

Des chercheurs ont publié sur arXiv (référence 2605.30468) un framework de navigation hybride pour robots mobiles intérieurs, combinant un planificateur global neuronal et un planificateur local affiné par apprentissage par renforcement. Le planificateur global est un réseau de neurones supervisé, entraîné à partir de trajectoires générées par un algorithme A* pondéré par les coûts, ce qui lui permet de produire des routes globalement cohérentes et évitant les zones dangereuses. Le planificateur local, baptisé Learning-Based DWA, reformule l'approche classique Dynamic Window Approach (DWA) comme un problème de sélection discrète sur une grille d'actions prédéfinies. La politique locale est d'abord initialisée par clonage comportemental (imitation d'un expert), puis optimisée par Proximal Policy Optimization (PPO) avec un masquage de faisabilité, un mécanisme éliminant les actions physiquement irréalisables ou à risque de collision avant même l'exploration. Les résultats expérimentaux, conduits en simulation et en environnement réel intérieur, montrent une navigation sûre et fiable vers des objectifs en présence d'obstacles. L'intérêt de cette contribution réside dans son positionnement hybride : plutôt que d'abandonner DWA au profit d'une approche entièrement apprise, les auteurs l'utilisent comme squelette structurant pour contraindre le problème d'apprentissage. Ce choix de conception présente deux avantages pour les intégrateurs. D'abord, le masquage de faisabilité réduit l'espace d'exploration du policy gradient aux seules actions physiquement admissibles, limitant les comportements dangereux en phase d'apprentissage et facilitant le transfert sim-to-réel. Ensuite, conserver la logique DWA comme substrat rend la politique plus interprétable qu'un réseau boîte noire, un critère non négligeable pour les déploiements industriels soumis à certification. La méthode démontre qu'un classique de la robotique réactive, largement jugé dépassé par les approches end-to-end, peut encore être un socle pertinent pour des pipelines d'apprentissage modernes. Le DWA a été introduit par Fox, Burgard et Thrun en 1997 et reste une brique fondamentale des stacks de navigation ROS et Nav2, déployés sur une large partie des flottes d'AMR (robots mobiles autonomes) industriels actuels. C'est dans cet écosystème très installé que s'inscrit ce travail, face à des approches concurrentes plus radicales : navigation end-to-end par apprentissage (ETH Zurich, MIT CSAIL), planificateurs à modèle comme TEB ou MPPI, et méthodes VLA émergentes pour la navigation en langage naturel. Les auteurs annoncent la mise à disposition du code source sur leur page projet. Aucun partenaire industriel ni déploiement commercial n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RecherchePaper
1 source
Apprentissage de la coordination visuomotrice prédictive
3arXiv cs.RO 

Apprentissage de la coordination visuomotrice prédictive

Des chercheurs ont publié sur arXiv (référence 2503.23300, version 2, juin 2026) un système de prédiction de la coordination visuomotrice humaine à partir de flux égocentrés. Concrètement, le modèle prend en entrée des images capturées par une caméra portée par l'utilisateur ainsi que des données cinématiques (positions et orientations corporelles), et prédit en sortie la pose de la tête, la direction du regard et les mouvements du haut du corps. L'architecture proposée, baptisée Visuomotor Coordination Representation (VCR), apprend des dépendances temporelles structurées entre ces signaux multimodaux. Elle s'appuie sur un cadre de modélisation du mouvement par diffusion, une famille de modèles génératifs capables de produire des trajectoires cohérentes dans le temps. L'évaluation porte sur EgoExo4D, le jeu de données à grande échelle de Meta combinant vidéos égocentrées et exocentrées d'activités du quotidien, ce qui confère aux résultats une portée de généralisation sur des scénarios variés. L'enjeu pratique est significatif pour la robotique collaborative et les interfaces homme-machine. Anticiper où un opérateur va regarder et comment il va bouger son bras dans la seconde à venir est une brique fondamentale pour des robots industriels capables d'adapter leur trajectoire sans collision, ou pour des exosquelettes qui doivent pré-charger l'assistance musculaire avant le geste. L'approche démontre que la fusion vision-cinématique surpasse les approches unimodales, ce qui valide l'hypothèse que le regard et le mouvement corporel sont couplés de façon prévisible et exploitable par un modèle appris. Pour les technologies d'assistance (aide à la mobilité, interfaces de compensation du handicap), la prédiction de l'intention motrice ouvre des pistes concrètes de réduction de latence. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la modélisation du comportement humain en vue première personne, nourri par la montée en puissance de dispositifs portables comme les lunettes AR et les capteurs inertiels embarqués. Les approches concurrentes incluent les modèles de prédiction de gaze sur vidéo statique (Aleatoric, GazeTR) et les frameworks de prédiction de mouvement full-body comme HumanMAC ou MDM, mais peu croisent explicitement regard et cinématique dans un cadre de prédiction temporelle unifiée. La publication ne mentionne pas de calendrier de déploiement industriel ni de partenariat applicatif ; il s'agit pour l'instant d'une contribution académique, avec page projet disponible, dont la suite naturelle serait une intégration dans des pipelines d'imitation learning pour robots humanoïdes ou cobots.

RecherchePaper
1 source
Apprentissage de la sécurité robotique à partir de rares retours humains par prédiction conforme
4arXiv cs.RO 

Apprentissage de la sécurité robotique à partir de rares retours humains par prédiction conforme

Des chercheurs ont publié sur arXiv (référence 2501.04823v2) une méthode permettant d'apprendre les préférences de sécurité d'un opérateur humain à partir de retours binaires très limités, puis de les traduire en garanties statistiques formelles pour un robot autonome. Le principe : un humain visionne des trajectoires effectuées par le robot et signale simplement les comportements jugés dangereux. L'algorithme applique ensuite la prédiction conforme (conformal prediction) sur ces annotations pour délimiter, dans l'espace d'état du robot (ou dans un espace latent appris), une zone suspecte dont il est garanti qu'elle contiendra au moins une fraction spécifiée des futures erreurs de la politique. Un système d'alerte se déclenche dès que le robot pénètre cette zone. La méthode a été validée expérimentalement sur des quadrirotor en vol libre : 30 vols répartis sur 6 tâches de navigation, avec pour objectif de franchir un portique désigné en suivant une politique visuomotrice. Le classifieur par plus proches voisins, combiné à la prédiction conforme, détecte de manière fiable quand la politique va rater le franchissement, sans nécessiter de jeu de données de calibration séparé. L'intérêt industriel de cette approche réside dans deux points souvent négligés dans les déploiements robotiques actuels : la subjectivité de la sécurité et la fragilité des politiques entraînées sur données "sûres". Un robot formé sur des trajectoires correctes peut produire des comportements dangereux hors distribution, et les contraintes définies manuellement ratent systématiquement les cas limites. Ici, la garantie de taux de manqués (miss rate) est mathématiquement contrôlée par l'utilisateur, ce qui est exploitable dans un cahier des charges de déploiement. La méthode est également "sample-efficient" : elle évite la pratique courante en prédiction conforme de geler une partie des données de calibration, ce qui compte lorsque les retours humains sont coûteux à collecter. Pour un intégrateur déployant des robots mobiles ou des drones d'inspection, c'est un outil de qualification potentiellement plus réaliste que les approches par fonctions de barrière de contrôle (CBF) ou vérification formelle, qui supposent des modèles analytiques précis. La prédiction conforme gagne depuis 2022 une traction notable en robotique apprise, notamment pour quantifier l'incertitude dans les politiques de type Vision-Language-Action (VLA) et les planificateurs model predictive control (MPC) -- c'est précisément ce dernier que les auteurs améliorent ici. Les approches concurrentes incluent les CBFs (moins flexibles avec des politiques neuronales), le safe reinforcement learning avec contraintes Lagrangiennes, et les méthodes de détection d'anomalies par reconstruction. L'article ne mentionne pas de partenaire industriel ni de timeline de transfert ; il s'agit d'un preprint académique, code et vidéos publiés, sans peer review finalisé à ce stade. Les suites naturelles seraient une validation sur des robots manipulateurs ou des AMR en environnement d'entrepôt, et l'extension à des retours humains plus granulaires que le binaire safe/unsafe.

RecherchePaper
1 source