RecherchearXiv cs.RO 5 juin 2026

Apprentissage de la coordination visuomotrice prédictive

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2503.23300, version 2, juin 2026) un système de prédiction de la coordination visuomotrice humaine à partir de flux égocentrés. Concrètement, le modèle prend en entrée des images capturées par une caméra portée par l'utilisateur ainsi que des données cinématiques (positions et orientations corporelles), et prédit en sortie la pose de la tête, la direction du regard et les mouvements du haut du corps. L'architecture proposée, baptisée Visuomotor Coordination Representation (VCR), apprend des dépendances temporelles structurées entre ces signaux multimodaux. Elle s'appuie sur un cadre de modélisation du mouvement par diffusion, une famille de modèles génératifs capables de produire des trajectoires cohérentes dans le temps. L'évaluation porte sur EgoExo4D, le jeu de données à grande échelle de Meta combinant vidéos égocentrées et exocentrées d'activités du quotidien, ce qui confère aux résultats une portée de généralisation sur des scénarios variés.

L'enjeu pratique est significatif pour la robotique collaborative et les interfaces homme-machine. Anticiper où un opérateur va regarder et comment il va bouger son bras dans la seconde à venir est une brique fondamentale pour des robots industriels capables d'adapter leur trajectoire sans collision, ou pour des exosquelettes qui doivent pré-charger l'assistance musculaire avant le geste. L'approche démontre que la fusion vision-cinématique surpasse les approches unimodales, ce qui valide l'hypothèse que le regard et le mouvement corporel sont couplés de façon prévisible et exploitable par un modèle appris. Pour les technologies d'assistance (aide à la mobilité, interfaces de compensation du handicap), la prédiction de l'intention motrice ouvre des pistes concrètes de réduction de latence.

Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la modélisation du comportement humain en vue première personne, nourri par la montée en puissance de dispositifs portables comme les lunettes AR et les capteurs inertiels embarqués. Les approches concurrentes incluent les modèles de prédiction de gaze sur vidéo statique (Aleatoric, GazeTR) et les frameworks de prédiction de mouvement full-body comme HumanMAC ou MDM, mais peu croisent explicitement regard et cinématique dans un cadre de prédiction temporelle unifiée. La publication ne mentionne pas de calendrier de déploiement industriel ni de partenariat applicatif ; il s'agit pour l'instant d'une contribution académique, avec page projet disponible, dont la suite naturelle serait une intégration dans des pipelines d'imitation learning pour robots humanoïdes ou cobots.

Dans nos dossiers

Exosquelettes arXiv cs.RO

À lire aussi

1arXiv cs.RO

Multi-apprentissage continu : adapter des politiques visuomotrices préentraînées à la force

Voici l'article en français : Des chercheurs ont présenté MuSe (Multisensory Continual Learning), une méthode permettant d'adapter une politique de manipulation robotique pré-entraînée sur la seule vision à de nouvelles modalités sensorielles, sans dégrader ses performances initiales. Publiée sur arXiv (2606.30988v1) le 30 juin 2026, l'étude part d'un constat pratique : les capteurs de force, de toucher ou audio sont souvent spécifiques à un matériel ou une tâche donnée, et les jeux de données robotiques multisensoriels à grande échelle restent rares. Il est donc impossible de pré-entraîner une politique avec tous les capteurs qu'elle pourrait rencontrer en production. MuSe résout ce problème via trois mécanismes combinés : une fusion multi-étages des signaux, une prédiction future multisensorielle, et un rejeu d'expérience (experience replay) sur les données de pré-entraînement d'origine. Les chercheurs ont testé l'approche en ajoutant un capteur de force-couple à une politique vision-seule existante, sur des tâches de manipulation réelles impliquant du contact physique. Cette méthode répond à un problème central pour l'industrie des politiques vision-langage-action (VLA) de type Pi-0, GR00T N2 ou RT-2/OpenVLA : ces modèles, entraînés quasi exclusivement sur des flux vidéo, échouent souvent sur les tâches à contact riche (insertion de pièces, assemblage, préhension d'objets déformables) où la seule vision ne suffit pas à détecter un glissement ou une collision. Pour les intégrateurs industriels, l'enjeu est d'ajouter un capteur de force sans devoir ré-entraîner un modèle depuis zéro ni perdre les compétences déjà acquises, un phénomène classique d'oubli catastrophique. Les résultats montrent que MuSe améliore les performances sur les tâches de contact tout en préservant, voire en améliorant légèrement, les performances sur les tâches de pré-entraînement d'origine, ce qui suggère qu'un jeu de données multisensoriel modeste suffit à étendre les capacités générales d'un robot au-delà de sa distribution initiale d'entraînement. Le travail s'inscrit dans la tendance actuelle du secteur à généraliser des politiques robotiques pré-entraînées à grande échelle (à l'image des fondations VLA déployées par les principaux laboratoires de robotique humanoïde), plutôt qu'à ré-entraîner des modèles spécialisés par tâche. La rareté des données tactiles et de force reste un frein reconnu du secteur, contrairement à l'abondance de données vidéo. Le site du projet (jadenvc.github.io/multisensory-continual-learning) propose des démonstrations complémentaires ; les prochaines étapes annoncées concernent l'extension à d'autres modalités, comme le tactile ou l'audio, selon la même approche de fusion incrémentale.

RecherchePaper

1 source

2arXiv cs.RO

HUMEMBR : apprentissage des routines humaines pour la navigation incarnée prédictive

Des chercheurs ont publié sur arXiv (arXiv:2606.30404, juin 2026) un système baptisé HUMEMBR, Human-Centered Memory for Embodied Robots, conçu pour permettre à un robot incarné de modéliser, mémoriser et exploiter les routines comportementales des individus qu'il côtoie. Le système répond à des requêtes telles que « où se trouve probablement cette personne en ce moment » ou « à quelle heure quitte-t-elle habituellement le bâtiment », en s'appuyant sur un historique d'observations accumulé sur le long terme. HUMEMBR couple une construction mémoire continue à un mécanisme de récupération et d'interrogation parallèle, produisant des représentations structurées des routines humaines interrogeables à la demande. Le système a été validé sur un robot physique déployé dans deux environnements distincts, sans que le papier précise le modèle de plateforme, le nombre de DOF ni les conditions exactes des essais terrain. L'intérêt principal de HUMEMBR réside dans son efficacité computationnelle par rapport aux approches naïves à base de LLM en plein contexte : les auteurs rapportent de meilleures performances sur le raisonnement à long horizon tout en consommant significativement moins de tokens. Pour les intégrateurs de robots de service ou les déployeurs en environnement tertiaire (hôpitaux, entrepôts, bureaux), cela ouvre la voie à des robots capables d'anticiper la position d'un opérateur sans requête GPS ni tag actif, en inférant simplement depuis des patterns observés. C'est un pas vers la résolution du « routine gap », la difficulté à faire raisonner un robot sur des comportements récurrents et non étiquetés, au-delà de la navigation réactive classique. La navigation incarnée guidée par le langage (VLA, NavLLM) est un champ très actif depuis 2023, avec des travaux comme NavGPT, SayNav ou EmbodiedGPT qui explorent l'usage des LLMs comme planificateurs de trajectoire. HUMEMBR se différencie en ciblant explicitement la modélisation comportementale humaine sur la durée, plutôt que la seule compréhension d'instructions à la volée. Aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné dans l'abstract, il s'agit d'une contribution académique, pas d'un produit annoncé. Les prochaines étapes naturelles seraient de tester la robustesse face à des changements de routine imprévus et de quantifier les performances sur des métriques standardisées comme HM3D ou R2R.

RecherchePaper

1 source

3arXiv cs.RO

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile

Des chercheurs ont publié sur arXiv (référence 2604.17833) les travaux autour de DART, un framework bimanuel conçu pour la manipulation non préhensile d'objets posés sur un plateau. L'approche repose sur un contrôleur prédictif non linéaire (MPC) couplé à un contrôleur d'impédance par optimisation, permettant de déplacer des objets sur le plateau sans les saisir directement. Le système évalue trois stratégies de modélisation de la dynamique plateau-objet : un modèle analytique physique, un modèle par régression en ligne adaptatif en temps réel, et un modèle de dynamique entraîné par apprentissage par renforcement (RL), ce dernier offrant une meilleure généralisation sur des objets aux propriétés variées. Les évaluations ont été réalisées en simulation sur des objets de masses, géométries et coefficients de friction différents. Les auteurs revendiquent que DART constitue le premier framework dédié à ce type de tâche en configuration bimanuelle. L'intérêt technique de DART réside dans la comparaison rigoureuse des trois approches de modélisation sur des métriques concrètes : temps de stabilisation, erreur en régime permanent, effort de contrôle et généralisation. Ce benchmark interne est utile pour les équipes d'intégration robotique qui doivent choisir entre modèles physiques (précis mais rigides), adaptation en ligne (réactive mais computationnellement coûteuse) et RL (flexible mais plus difficile à certifier). L'association MPC et contrôleur d'impédance est une piste crédible pour la manipulation d'objets fragiles ou instables, un verrou important en robotique de service. Toutefois, la validation reste strictement en simulation : le passage au réel implique des défis de perception, de latence et de calibration que le papier ne traite pas encore. Ce travail s'inscrit dans un intérêt croissant pour la robotique de service en hôtellerie et restauration, où des acteurs comme Bear Robotics (Servi), Keenon Robotics ou encore Enchanted Tools (Miroki, développé en France) positionnent leurs plateformes sur des tâches de transport et de service en salle. Les approches dominantes jusqu'ici privilégient la navigation autonome avec préhension classique ; la manipulation non préhensile sur plateau reste peu explorée à l'échelle produit. La prochaine étape naturelle pour DART serait une validation sur plateforme physique, avec des bras commerciaux type Franka Research 3 ou Universal Robots, avant d'envisager une intégration dans un robot mobile de service.

UEEnchanted Tools (Miroki, France) est cité comme acteur du service robotique susceptible de bénéficier de ce type de manipulation non préhensile sur plateau, mais le travail reste en simulation sans transfert réel annoncé.

RecherchePaper

1 source

4arXiv cs.RO

ChronoFlow-Policy : unifier le flux d'interaction passé-présent-futur dans l'apprentissage de politiques visuomotrices

Une équipe de recherche présente ChronoFlow-Policy, une nouvelle politique visuomotrice pour la manipulation robotique, décrite dans un article publié sur arXiv (2606.31493). Le système repose sur une représentation baptisée ChronoFlow, qui capture simultanément les dynamiques d'interaction passées, présentes et futures entre un objet et la pince du robot, sous forme de points-clés 3D épars. Contrairement aux approches existantes qui modélisent séparément soit le contexte historique, soit les prédictions futures, ChronoFlow unifie ces deux dimensions temporelles dans une seule représentation. Cette dernière est apprise conjointement avec les séquences d'actions via une politique basée sur la diffusion, entraînée selon un objectif de co-apprentissage. Les auteurs ont testé leur méthode sur 14 tâches simulées et 5 tâches de manipulation en conditions réelles, montrant des performances systématiquement supérieures à celles de politiques de diffusion de référence considérées comme robustes dans le domaine. L'intérêt de ce travail pour l'industrie de la robotique tient à un problème récurrent dans l'apprentissage par imitation appliqué à la manipulation : les politiques actuelles peinent souvent sur les tâches à long horizon ou non-markoviennes, c'est-à-dire celles où l'action optimale dépend d'un historique d'interactions et pas seulement de l'état instantané. En améliorant la robustesse sur ce type de scénarios, ChronoFlow-Policy s'attaque directement à l'un des points faibles des architectures de type VLA (vision-langage-action) et des politiques de diffusion utilisées pour le contrôle de bras manipulateurs et de mains robotiques. Pour les intégrateurs, cela pourrait se traduire par des politiques moins fragiles face aux séquences d'actions complexes, un enjeu central pour le déploiement en usine ou en logistique. Ce travail s'inscrit dans la lignée des politiques de diffusion pour la manipulation robotique, un courant de recherche actif depuis plusieurs années et largement adopté par les laboratoires travaillant sur les VLA génériques. L'article ne précise pas d'affiliation industrielle ni de partenaire de déploiement identifié ; il s'agit à ce stade d'une contribution académique, validée en simulation et sur un nombre limité de tâches réelles, sans indication de mise à l'échelle industrielle ou de licence commerciale annoncée.

RecherchePaper

1 source