OmniRobotHome : une plateforme multi-caméras pour l'int…

Co-policy : création musicale humain-robot en temps réel

40

1arXiv cs.RO

Co-policy : création musicale humain-robot en temps réel

Des chercheurs proposent Co-policy, un framework de co-création musicale humain-robot présenté comme preprint sur arXiv (référence 2606.19914). Le système articule trois blocs fonctionnels indépendants : un ancrage sémantique pré-inférence associé à un planificateur multimodal Qwen-VL fine-tuné (baptisé F-Qwen), chargé de convertir la parole, des séquences musicales jouées en direct et les observations visuelles en plans de co-création structurés ; une politique visuomotrice à mélange gaussien (GMP, Gaussian-Mixture Visuomotor Policy), implémentée comme une mixture-density network conditionnelle qui produit des actions robotiques multimodales en un seul passage forward ; et un module de variation musicale opérant sous contraintes à la fois musicales et physiques. Les expériences ont été menées sur un robot réel jouant des carillons (chimes), avec ablations et évaluation experte. Co-policy surpasse les baselines à politique de diffusion sur trois métriques : alignement d'intention, précision d'exécution et fréquence de réponse. Ce qui distingue l'approche des systèmes de lecture robotique classiques, c'est que le robot ne se contente pas de reproduire des notes prédéfinies par l'utilisateur : il génère des réponses musicales complémentaires, en temps réel, en tenant compte du contexte auditif et visuel. Pour un intégrateur ou un décideur R&D, c'est la démonstration que les VLA (Vision-Language-Action models) peuvent s'étendre à des tâches créatives ouvertes, pas uniquement à des tâches de manipulation industrielle ou domestique. La séparation explicite entre couche sémantique (LLM multimodal) et couche d'exécution (GMP en forward pass unique) est aussi une réponse directe au problème de latence qui pénalise les architectures de diffusion dans les contextes temps réel. Le recours à Qwen-VL open-source comme planificateur, fine-tuné plutôt qu'utilisé tel quel, facilite la reproductibilité de la recherche. Co-policy s'inscrit dans un mouvement plus large qui cherche à ancrer physiquement les modèles génératifs, au-delà du contenu numérique désincorporé. La diffusion policy, popularisée notamment par les travaux de Chi et al. (2023), reste la référence dominante pour les politiques visuomotrices génériques, et c'est contre cette baseline que Co-policy se mesure. Aucun acteur commercial, ni français ni européen, n'est impliqué dans ce travail académique. Les suites naturelles identifiées par les auteurs incluent l'extension à d'autres instruments et à des configurations multi-robots ; aucun calendrier ni partenariat industriel n'est annoncé à ce stade.

RechercheOpinion

1 source

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

48

2arXiv cs.RO

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Une équipe de chercheurs propose dans un article publié sur arXiv (2606.00459) un contrôleur proportionnel-dérivé (PD) adaptatif capable de limiter l'énergie mécanique d'un robot humanoïde lors d'interactions physiques avec des humains. Le système agit sur les deux composantes énergétiques du robot, énergie cinétique et énergie potentielle, sans nécessiter de capteurs de force externes ni d'estimation de couple articulaire. Les gains du contrôleur sont paramétrables : l'opérateur peut définir précisément le seuil d'énergie limite et la "sharpness", c'est-à-dire la brutalité de la transition entre comportement nominal et comportement contraint. Le contrôleur a été validé sur le robot humanoïde TALOS de PAL Robotics (1,75 m, 95 kg, 32 degrés de liberté), d'abord en simulation, puis sur le hardware réel, confirmant le comportement souple attendu et le respect des limites énergétiques définies. L'intérêt de cette approche réside dans son applicabilité large : la majorité des robots industriels et de service ne disposent pas de capteurs de force six axes ou de couple articulaire, conditions requises par les approches classiques de contrôle d'impédance ou de couple. Un contrôleur basé sur l'énergie, implémentable avec des encodeurs standards et un modèle cinématique, ouvre la voie à une couche de sécurité pHRI sur des plateformes à bas coût ou à architecture fermée. Les auteurs fournissent également une preuve formelle de stabilité avec une condition explicite, ce qui distingue cette contribution des schémas énergétiques antérieurs souvent sans garanties théoriques complètes, un point critique pour toute certification industrielle. PAL Robotics, entreprise barcelonaise spécialisée dans les robots de service et de recherche, fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens, notamment dans le cadre de projets H2020 et Horizon Europe. Le contrôle compliant pour la pHRI est un champ en compétition directe avec les approches à apprentissage par renforcement (RL) et les contrôleurs de type whole-body control (WBC) développés par des équipes comme le DLR, ETH Zurich ou Boston Dynamics. Ce travail s'inscrit dans une tendance plus large visant à sécuriser les humanoïdes sans alourdir leur architecture sensorielle, une contrainte clé pour le déploiement en milieu industriel partagé. La prochaine étape logique serait une validation en scénario de collaboration réelle, avec des humains non prévenus, pour éprouver la robustesse du seuil énergétique face à des contacts imprévus.

UEPAL Robotics (Barcelone) fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens financés par H2020/Horizon Europe ; cette couche de sécurité pHRI sans capteurs de force pourrait être directement intégrée dans les projets de collaboration humain-robot en cours au sein de l'écosystème de recherche européen.

RecherchePaper

1 source

Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel

39

3arXiv cs.RO

Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel

Une équipe de chercheurs a publié sur arXiv (ref. 2605.31352) un framework unifié baptisé Haptic Sorter, conçu pour permettre à un robot manipulateur d'estimer la forme et la pose d'un objet inconnu en temps réel, uniquement par le toucher, sans modèle géométrique préalable. Le système repose sur trois briques techniques : l'Optimisation Bayésienne (BO) pour guider l'exploration haptique et inférer la forme de l'objet via des superellipses (courbes paramétriques capables d'approximer une large famille de géométries 2D), une formulation adaptative du potentiel de manipulation encodant la géométrie estimée pour des interactions quasi-statiques, et une Équation Différentielle Ordinaire (ODE) résolue en ligne pour mettre à jour la pose de l'objet en temps réel à partir des retours tactiles et des prédictions du modèle. Le tout a été validé sur une tâche de tri 2D, en simulation et sur un setup réel multi-bras, avec plusieurs géométries d'objets testées. L'intérêt industriel est direct : la grande majorité des systèmes de manipulation robotique actuels supposent que la forme et la pose de l'objet sont connues a priori, ce qui rend ces systèmes fragiles dès que l'on sort du cadre structuré de la ligne de production. La perception visuelle, omniprésente dans les cellules pick-and-place contemporaines, est vulnérable aux occultations et aux incertitudes de calibration. Haptic Sorter propose une alternative ou un complément : le robot sonde activement l'objet, construit un modèle géométrique à la volée, et ajuste sa stratégie de saisie sans intervention humaine. Pour un intégrateur travaillant sur des flux logistiques avec des références variables, cette capacité d'adaptation sans reprogrammation est un argument concret. Le domaine de la perception haptique robotique est actif mais encore fragmenté : la plupart des travaux antérieurs traitent séparément l'exploration tactile, la reconstruction de forme, et la planification de manipulation. Des groupes comme ceux de l'ETH Zurich, de l'MIT CSAIL ou du Stanford AI Lab ont développé des approches partielles, mais rarement intégrées dans un pipeline bout-en-bout opérationnel. Haptic Sorter tente cette intégration avec des outils mathématiques classiques (BO, ODE) plutôt que des réseaux de neurones, ce qui le rend plus interprétable et potentiellement plus robuste en dehors de la distribution d'entraînement. La prochaine étape naturelle serait l'extension à la manipulation 3D et l'intégration avec des capteurs de force-couple commerciaux comme ceux d'ATI ou de Robotiq.

RecherchePaper

1 source

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

43

4arXiv cs.RO

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots. Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses. Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

UEFurhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

RecherchePaper

1 source

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

À lire aussi

Co-policy : création musicale humain-robot en temps réel

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique