
WaveSync : optimisation par front d'onde contraint pour les gestes co-verbaux synchronisés des robots humanoïdes
Des chercheurs du laboratoire PAIRS ont publié sur arXiv (arXiv:2606.16600) un système baptisé WaveSync, dédié à la synchronisation des gestes coverbaux d'un robot humanoïde avec sa parole. L'architecture est hybride : un grand modèle de langage décompose les réponses dialoguées en schémas sémantiques structurés et attribue un poids d'importance à chaque mot, construisant une "Semantic Importance Wave", courbe continue représentant l'emphase du discours mot par mot. Les trajectoires gestuelles sont ensuite générées via des Dynamic Movement Primitives (DMP), qui assurent la faisabilité cinématique tout en modulant l'expressivité. Une étape de Wavefront Optimization aligne les pics gestuels avec les pics d'emphase vocale, et résout les violations cinématiques résiduelles par compression de durée et propagation avant. Évalué sur cinq scénarios de dialogue, WaveSync surpasse trois baselines en évaluation objective et subjective.
Ce travail s'attaque à un problème structurel de l'HRI sur plateforme physique : contrairement aux avatars virtuels, un humanoïde ne peut enchaîner des mouvements rapides ou chevauchants sans risquer de violer ses contraintes dynamiques. Le couplage entre synchronisation parole-geste et planification cinématiquement sûre était jusqu'ici traité séparément, produisant des gestes soit fluides mais désynchronisés, soit synchronisés mais potentiellement dangereux. WaveSync propose une résolution conjointe de ces deux contraintes, ce qui est non trivial sur hardware réel. Pour les intégrateurs HRI, cela ouvre une voie vers des interfaces vocales naturelles sur robots d'accueil ou de service, sans bibliothèque gestuelle pré-enregistrée.
La recherche sur les gestes coverbaux en robotique reste dominée par des corpus humains comme le Trinity Speech-Gesture Dataset, ou des méthodes end-to-end par diffusion telles que GestureDiffuCLIP. WaveSync se distingue par une approche neurosymbolique, combinant contrôle explicite via DMP et compréhension sémantique du LLM, là où les méthodes purement data-driven abandonnent le contrôle cinématique au profit de la fluidité. Le code et les vidéos sont publiés sur GitHub (pairs-lab/WaveSync). Il s'agit d'une publication académique sans déploiement industriel annoncé; la validation sur plateforme réelle hors conditions contrôlées reste à démontrer.
Dans nos dossiers




