Aller au contenu principal
Co-policy : création musicale humain-robot en temps réel
RecherchearXiv cs.RO2j

Co-policy : création musicale humain-robot en temps réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent Co-policy, un framework de co-création musicale humain-robot présenté comme preprint sur arXiv (référence 2606.19914). Le système articule trois blocs fonctionnels indépendants : un ancrage sémantique pré-inférence associé à un planificateur multimodal Qwen-VL fine-tuné (baptisé F-Qwen), chargé de convertir la parole, des séquences musicales jouées en direct et les observations visuelles en plans de co-création structurés ; une politique visuomotrice à mélange gaussien (GMP, Gaussian-Mixture Visuomotor Policy), implémentée comme une mixture-density network conditionnelle qui produit des actions robotiques multimodales en un seul passage forward ; et un module de variation musicale opérant sous contraintes à la fois musicales et physiques. Les expériences ont été menées sur un robot réel jouant des carillons (chimes), avec ablations et évaluation experte. Co-policy surpasse les baselines à politique de diffusion sur trois métriques : alignement d'intention, précision d'exécution et fréquence de réponse.

Ce qui distingue l'approche des systèmes de lecture robotique classiques, c'est que le robot ne se contente pas de reproduire des notes prédéfinies par l'utilisateur : il génère des réponses musicales complémentaires, en temps réel, en tenant compte du contexte auditif et visuel. Pour un intégrateur ou un décideur R&D, c'est la démonstration que les VLA (Vision-Language-Action models) peuvent s'étendre à des tâches créatives ouvertes, pas uniquement à des tâches de manipulation industrielle ou domestique. La séparation explicite entre couche sémantique (LLM multimodal) et couche d'exécution (GMP en forward pass unique) est aussi une réponse directe au problème de latence qui pénalise les architectures de diffusion dans les contextes temps réel. Le recours à Qwen-VL open-source comme planificateur, fine-tuné plutôt qu'utilisé tel quel, facilite la reproductibilité de la recherche.

Co-policy s'inscrit dans un mouvement plus large qui cherche à ancrer physiquement les modèles génératifs, au-delà du contenu numérique désincorporé. La diffusion policy, popularisée notamment par les travaux de Chi et al. (2023), reste la référence dominante pour les politiques visuomotrices génériques, et c'est contre cette baseline que Co-policy se mesure. Aucun acteur commercial, ni français ni européen, n'est impliqué dans ce travail académique. Les suites naturelles identifiées par les auteurs incluent l'extension à d'autres instruments et à des configurations multi-robots ; aucun calendrier ni partenariat industriel n'est annoncé à ce stade.

Dans nos dossiers

À lire aussi

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel
1arXiv cs.RO 

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées. Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié. Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

RecherchePaper
1 source
Prise de contrôle adversariale en temps réel des politiques de diffusion robotique
2arXiv cs.RO 

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (réf. 2606.10371) une attaque baptisée TAKO (Test-time Adversarial Takeover), qui permet de prendre le contrôle en temps réel d'un robot opérant sous une politique de diffusion visuomotrice, sans modifier le modèle cible. La méthode repose sur un vocabulaire restreint de patches adversariaux universels et réutilisables, appris hors ligne via inférence de diffusion différentiable. À l'exécution, un opérateur humain injecte ces patches dans le flux caméra du robot et les commute dynamiquement pour composer des trajectoires de son choix. Sur quatre tâches évaluées (manipulation 2D, livraison aérienne simulée, navigation sol simulée et navigation sol en environnement physique réel), deux encodeurs visuels (ResNet-18 et EfficientNet-B0 + Transformer) et trois familles d'inférence générative (DDPM, DDIM et flow matching), les opérateurs attaquants ont atteint 100 % de succès de détournement dans l'ensemble des scénarios testés. Ce résultat interpelle directement les intégrateurs robotiques et les équipes de sécurité industrielle qui déploient des systèmes pilotés par des politiques de diffusion ou des VLA (Vision-Language-Action models). Jusqu'ici, la quasi-totalité des attaques adversariales sur robots visaient la dégradation des performances, induire un échec de tâche ou un comportement erratique. TAKO introduit une menace qualitativement différente : le robot ne s'arrête pas, il obéit à un attaquant distant. La perturbation agit sur le chemin de conditionnement visuel de la politique, et le biais introduit se propage à travers le processus de génération itératif propre aux modèles de diffusion, ce qui le rend difficile à détecter par supervision classique. Les auteurs démontrent aussi que la baseline naturelle "target-policy matching" échoue, car la politique victime ne peut pas se superviser fiablement sur des shifts hors distribution, invalidant une hypothèse de défense couramment avancée. Les politiques de diffusion pour la robotique se sont imposées comme paradigme dominant depuis 2023, portées par Diffusion Policy (Chi et al.) et intégrées dans des systèmes tels que pi0 de Physical Intelligence, les pipelines de Figure AI ou les robots de 1X Technologies. Ces architectures conditionnent l'action sur une observation visuelle, ce qui les rend structurellement vulnérables aux perturbations du flux caméra. Les pistes de défense habituelles, détection d'anomalies ou purification adversariale, restent largement expérimentales à cette échelle. L'évaluation demeure dans un cadre académique contrôlé, sans partenaire industriel ni calendrier de déploiement annoncé. Pour les équipes préparant des déploiements en logistique, livraison autonome ou manipulation industrielle, TAKO pose une question de sécurité concrète à laquelle le secteur n'a pas encore de réponse standardisée.

UELes intégrateurs robotiques européens déployant des systèmes à politiques de diffusion en logistique ou industrie doivent intégrer ce vecteur d'attaque dans leur modèle de menace, en l'absence de défense standardisée disponible.

RechercheActu
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
3arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source
Distillation neuronale de Koopman dynamique pour le contrôle robotique en temps réel par modèles de diffusion
4arXiv cs.RO 

Distillation neuronale de Koopman dynamique pour le contrôle robotique en temps réel par modèles de diffusion

Une équipe de chercheurs a publié sur arXiv (2605.24924) un cadre nommé Dynamic Neural Koopman Distillation (DNKD), réduisant la latence d'inférence des politiques de diffusion robotiques à quelques millisecondes, contre des centaines pour les modèles originaux. Le problème central : les modèles de diffusion génèrent des trajectoires multimodales de qualité mais leur débruitage itératif (10 à 100 étapes) est incompatible avec la commande en boucle fermée à 50-100 Hz. La solution repose sur une couche Factorized Dynamic Koopman (FDK), qui distille ce processus en un seul passage avant via une transition latente factorisée à gains modaux dépendants de l'état. Validée sur les benchmarks D4RL MuJoCo et sur un bras Kinova physique, la méthode surpasse significativement les baselines de distillation à une étape sur les tâches de locomotion et maintient un taux de succès comparable en manipulation réelle. L'enjeu industriel est direct : les politiques de diffusion, plébiscitées pour leur gestion des tâches ambiguës à solutions multiples, étaient jusqu'ici confinées aux systèmes tolérant la latence. Ramener l'inférence au régime milliseconde ouvre la voie aux contrôleurs embarqués sans accélérateur dédié. Pour un intégrateur ou un COO industriel, c'est un accès aux politiques génératives puissantes sans compromis sur la réactivité, paramètre critique pour la sécurité machine et la cadence de production. La méthode confirme aussi que la distillation de connaissance, technique éprouvée en NLP, est transférable aux politiques d'action multimodales. Ce travail s'inscrit dans un courant ouvert par Diffusion Policy (Chi et al., 2023, Columbia) et industrialisé par Physical Intelligence avec pi-0. Les approches concurrentes pour l'accélération d'inférence incluent les consistency models, le rectified flow (présent dans GR00T N2 de NVIDIA) et DDIM. Le DNKD se distingue par son ancrage dans la théorie de l'opérateur de Koopman, qui linéarise la dynamique non linéaire dans un espace latent, garantie théorique absente des méthodes purement empiriques. La publication reste un preprint arXiv non évalué par les pairs, sans partenaire industriel annoncé ; les démonstrations sont disponibles sur fdkoopman.github.io.

RechercheActu
1 source