Aller au contenu principal
WaveSync : optimisation par front d'onde contraint pour les gestes co-verbaux synchronisés des robots humanoïdes
RecherchearXiv cs.RO4h

WaveSync : optimisation par front d'onde contraint pour les gestes co-verbaux synchronisés des robots humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du laboratoire PAIRS ont publié sur arXiv (arXiv:2606.16600) un système baptisé WaveSync, dédié à la synchronisation des gestes coverbaux d'un robot humanoïde avec sa parole. L'architecture est hybride : un grand modèle de langage décompose les réponses dialoguées en schémas sémantiques structurés et attribue un poids d'importance à chaque mot, construisant une "Semantic Importance Wave", courbe continue représentant l'emphase du discours mot par mot. Les trajectoires gestuelles sont ensuite générées via des Dynamic Movement Primitives (DMP), qui assurent la faisabilité cinématique tout en modulant l'expressivité. Une étape de Wavefront Optimization aligne les pics gestuels avec les pics d'emphase vocale, et résout les violations cinématiques résiduelles par compression de durée et propagation avant. Évalué sur cinq scénarios de dialogue, WaveSync surpasse trois baselines en évaluation objective et subjective.

Ce travail s'attaque à un problème structurel de l'HRI sur plateforme physique : contrairement aux avatars virtuels, un humanoïde ne peut enchaîner des mouvements rapides ou chevauchants sans risquer de violer ses contraintes dynamiques. Le couplage entre synchronisation parole-geste et planification cinématiquement sûre était jusqu'ici traité séparément, produisant des gestes soit fluides mais désynchronisés, soit synchronisés mais potentiellement dangereux. WaveSync propose une résolution conjointe de ces deux contraintes, ce qui est non trivial sur hardware réel. Pour les intégrateurs HRI, cela ouvre une voie vers des interfaces vocales naturelles sur robots d'accueil ou de service, sans bibliothèque gestuelle pré-enregistrée.

La recherche sur les gestes coverbaux en robotique reste dominée par des corpus humains comme le Trinity Speech-Gesture Dataset, ou des méthodes end-to-end par diffusion telles que GestureDiffuCLIP. WaveSync se distingue par une approche neurosymbolique, combinant contrôle explicite via DMP et compréhension sémantique du LLM, là où les méthodes purement data-driven abandonnent le contrôle cinématique au profit de la fluidité. Le code et les vidéos sont publiés sur GitHub (pairs-lab/WaveSync). Il s'agit d'une publication académique sans déploiement industriel annoncé; la validation sur plateforme réelle hors conditions contrôlées reste à démontrer.

Dans nos dossiers

À lire aussi

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde
1arXiv cs.RO 

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde

Des chercheurs ont publié sur arXiv (2604.26910) un framework de planification pour robots à pattes assistés par câble, capables de grimper des surfaces verticales. Le système repose sur une optimisation bi-niveau qui résout un problème mixte entier-continu : au niveau supérieur, la méthode Cross-Entropy sélectionne les régions de terrain viables pour l'appui des membres ; au niveau inférieur, une optimisation non linéaire à gradient calcule les mouvements dynamiquement réalisables, en optimisant simultanément les tensions du câble, les forces exercées par les pattes, et la localisation précise des points de contact. L'approche est validée sur une plateforme expérimentale inédite baptisée ALPINE, testée sur plusieurs configurations de terrain difficiles. L'intérêt principal réside dans la décomposition du problème de planification de contact sur surfaces verticales, longtemps considéré comme computationnellement intractable pour les robots à pattes. Le schéma bi-niveau sépare la sélection discrète des zones d'appui de l'optimisation continue des forces et trajectoires, rendant le problème soluble en temps raisonnable. Pour les concepteurs de robots d'inspection d'infrastructure, de maintenance en hauteur ou de recherche en milieu confiné vertical, cette architecture offre un cadre de planification là où les AMR à roues sont inopérants. La robotique grimpante reste un domaine de niche en progression. Les approches antérieures reposaient principalement sur des ventouses, des griffes ou des systèmes d'escalade fortement contraints géométriquement. L'hybridation câble-pattes ouvre une voie potentiellement plus adaptable aux surfaces irrégulières. ETH Zurich via ANYbotics, le MIT et Boston Dynamics ont exploré la locomotion en terrain difficile, mais sans assistance câble active intégrée dans la boucle de planification. ALPINE constitue donc une contribution expérimentale distincte, même si le papier reste un preprint sans validation industrielle ni déploiement annoncé.

RecherchePaper
1 source
HOIST : optimisation d'humanoïde par imitation et ajustement efficace pour la manipulation de charges suspendues
2arXiv cs.RO 

HOIST : optimisation d'humanoïde par imitation et ajustement efficace pour la manipulation de charges suspendues

Des chercheurs publient ce mois-ci sur arXiv (2606.00252) une approche hybride baptisée HOIST pour apprendre à un robot humanoïde à manipuler des charges suspendues, c'est-à-dire des objets oscillants accrochés à des câbles ou des crochets, sans contact direct permanent. Le système fonctionne en deux temps : une politique de type VLA (vision-language-action) est d'abord fine-tunée à partir de démonstrations humaines capturées en téléopération sous casque de réalité virtuelle, puis ses commandes sont exécutées par un contrôleur de corps entier (whole-body controller). Dans un second temps, des rollouts de cette politique VLA servent de données d'amorçage pour un apprentissage par renforcement itératif par lots, ce qui améliore la précision de placement final sans exposer le robot réel à des trajectoires aléatoires dangereuses. Par rapport à la politique VLA seule, HOIST réduit l'erreur de placement translationnel de 19,9 cm et l'erreur angulaire brute de 3,56 degrés, mesurées en simulation et sur un humanoïde physique. Ce résultat est significatif pour un problème longtemps jugé difficile : une charge suspendue est un système sous-actionné, c'est-à-dire que le robot ne peut l'influencer qu'indirectement via sa propre cinématique et des contacts intermittents. L'imitation seule ne suffit pas à garantir la précision de dépose, et le RL from scratch sur robot réel est à la fois dangereux et prohibitivement coûteux en échantillons. HOIST démontre qu'un pipeline VLA + RL itératif peut combler ce gap sim-to-real sur une tâche de manutention industrielle concrète, ce qui intéresse directement les intégrateurs travaillant sur la logistique d'entrepôt ou l'assemblage assisté. La manipulation de charges suspendues est un cas d'usage récurrent en industrie (accrochage de pièces, convoyage aérien, montage) que peu d'équipes humanoïdes ont adressé frontalement. Les travaux antérieurs sur les VLA humanoïdes, notamment ceux de Physical Intelligence avec pi0 ou les pipelines whole-body de Figure et 1X, se concentrent surtout sur la manipulation d'objets rigides posés sur des surfaces. HOIST, dont les auteurs n'indiquent pas encore d'affiliation institutionnelle claire dans cette version préprint, ouvre une piste de spécialisation sectorielle. Les prochaines étapes annoncées incluent des tests sur des scénarios de manutention plus complexes ; aucun déploiement industriel ni partenariat n'est mentionné à ce stade.

RechercheOpinion
1 source
Optimisation du débit de communication adaptatif pour la téléopération XR sans fil de robots humanoïdes en transfert simulation-réel
3arXiv cs.RO 

Optimisation du débit de communication adaptatif pour la téléopération XR sans fil de robots humanoïdes en transfert simulation-réel

Une équipe publie sur arXiv (identifiant 2605.19293, mai 2026) un framework pour optimiser le taux de communication lors de la téléopération sans fil de robots humanoïdes en réalité étendue (XR). Le système enchaîne quatre modules : échantillonnage, transmission, interpolation et reconstruction des trajectoires motrices. L'objectif est de minimiser la consommation d'énergie radio tout en maintenant la précision de reconstruction, via un contrôle du taux d'échantillonnage par dimension (dimension-wise sampling-rate control). Collecter du feedback physique en temps réel étant coûteux à grande échelle, les auteurs entraînent en simulateur et corrigent le décalage sim-to-real via un algorithme PPO (proximal policy optimization) enrichi d'une pondération par ratio de densité et d'une régularisation par région de confiance (trust-region). Le tout repose sur une caractérisation théorique PAC-Bayes qui formalise les effets du biais d'encodeur, de la déviation en échantillons finis et de l'estimation du ratio de densité. Les expériences s'appuient sur un dataset public de téléopération humanoïde, testées sur différents canaux sans fil et profils de trajectoires dynamiques. La téléopération XR est aujourd'hui le principal vecteur de collecte de démonstrations humanoïdes, données indispensables à l'entraînement des politiques VLA et de diffusion. L'overhead radio des transmissions haute fréquence constitue un frein réel à la scalabilité de ces pipelines. En réduisant la consommation énergétique du lien sans fil sans dégrader la qualité des trajectoires reconstruites, ce travail adresse un problème opérationnel concret : déployer des cellules de téléopération en grand nombre dans des environnements à bande passante contrainte, entrepôts ou ateliers de production. La caractérisation PAC-Bayes représente une première formalisation théorique de l'adaptation sim-to-real appliquée spécifiquement à la couche communication, offrant aux équipes une base pour calibrer ces systèmes à l'échelle. La collecte de démonstrations est devenue l'enjeu stratégique central de la robotique humanoïde depuis 2024-2025. Physical Intelligence (pi0), Figure, Unitree et leurs concurrents investissent massivement dans des setups de téléopération, casques VR, exosquelettes et Apple Vision Pro inclus, pour alimenter leurs modèles VLA. L'adaptation sim-to-real reste un verrou ouvert que traitent aussi des équipes chez DeepMind, Stanford (Mobile ALOHA) et Carnegie Mellon. Ce papier est une contribution algorithmique et théorique sur couche communication, ni un produit ni un déploiement : les résultats sont validés sur dataset public, sans partenariat industriel annoncé. La prochaine étape logique serait une intégration dans un pipeline de collecte existant chez un fabricant d'humanoïdes, pour mesurer les gains réels en conditions opérationnelles.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
4arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source