Aller au contenu principal
Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique
RecherchearXiv cs.RO2h

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots.

Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses.

Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

Impact France/UE

Furhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

Dans nos dossiers

À lire aussi

Fusion tactile-proprioceptive pour estimer les forces de contact dans l'interaction physique humain-robot en corps entier
1arXiv cs.RO 

Fusion tactile-proprioceptive pour estimer les forces de contact dans l'interaction physique humain-robot en corps entier

Des chercheurs ont publié sur arXiv (2605.28412) un framework de fusion sensorielle tactile-proprioceptive destiné à améliorer l'interaction physique entre humains et robots. L'approche combine des capteurs de peau pneumatiques, des coussins souples disposés sur la surface du bras robotique, avec la proprioception basée sur le courant moteur, afin de reconstruire des forces de contact multi-axes en temps réel. Le point clé : les signaux tactiles servent d'indicateurs de contact binaires, permettant de contourner l'ambiguïté classique entre les résidus de frottement et les forces externes appliquées. Pour corriger la dérive due à l'hystérésis de frottement lors des transitions stick-slip (adhérence/glissement), les auteurs intègrent un réseau de convolutions temporelles (TCN). Le système est validé sur un bras robotique équipé de cette peau artificielle, dans deux scénarios : reconstruction stationnaire des forces multi-axes et enseignement cinesthésique simultané, c'est-à-dire guider le robot à la main pendant qu'il enregistre la trajectoire. Ce travail adresse un goulot d'étranglement concret dans le déploiement de robots collaboratifs : la difficulté à distinguer un contact intentionnel d'un contact perturbateur sans modéliser explicitement le frottement. La fusion tactile-proprioceptive proposée améliore la sensibilité et la réactivité par rapport aux approches uniquement tactiles ou uniquement proprioceptives, ce qui a des implications directes pour la programmation par démonstration (LfD) et les environnements de coproduction humain-robot. Le TCN est un choix pragmatique, il gère la non-linéarité dynamique sans forcer une identification de friction au préalable, ce qui réduit la complexité de mise en service pour les intégrateurs industriels. Ce type de "peau robotique" fait l'objet de recherches intensives depuis une décennie, mais les résultats ont longtemps souffert du fossé simulation-réalité et d'une fragile généralisation à la manipulation en mouvement. Des acteurs comme Wandercraft (France), qui développe des exosquelettes à interaction physique, ou des laboratoires comme le DLR et l'IIT travaillent sur des problématiques similaires. La publication reste une preuve de concept sur bras isolé, sans données de cycle time, de robustesse sur durée ni de coût de fabrication de la peau pneumatique, des paramètres déterminants avant tout transfert industriel. Les prochaines étapes naturelles seraient une validation sur robot humanoïde complet et des tests en conditions d'usine.

UEDes laboratoires européens comme le DLR et l'IIT, ainsi que Wandercraft en France pour ses exosquelettes, travaillent sur des problématiques similaires et pourraient s'appuyer sur ce framework de fusion sensorielle, mais l'impact reste indirect à ce stade de preuve de concept.

RecherchePaper
1 source
Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot
2arXiv cs.RO 

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Une équipe de chercheurs propose dans un article publié sur arXiv (2606.00459) un contrôleur proportionnel-dérivé (PD) adaptatif capable de limiter l'énergie mécanique d'un robot humanoïde lors d'interactions physiques avec des humains. Le système agit sur les deux composantes énergétiques du robot, énergie cinétique et énergie potentielle, sans nécessiter de capteurs de force externes ni d'estimation de couple articulaire. Les gains du contrôleur sont paramétrables : l'opérateur peut définir précisément le seuil d'énergie limite et la "sharpness", c'est-à-dire la brutalité de la transition entre comportement nominal et comportement contraint. Le contrôleur a été validé sur le robot humanoïde TALOS de PAL Robotics (1,75 m, 95 kg, 32 degrés de liberté), d'abord en simulation, puis sur le hardware réel, confirmant le comportement souple attendu et le respect des limites énergétiques définies. L'intérêt de cette approche réside dans son applicabilité large : la majorité des robots industriels et de service ne disposent pas de capteurs de force six axes ou de couple articulaire, conditions requises par les approches classiques de contrôle d'impédance ou de couple. Un contrôleur basé sur l'énergie, implémentable avec des encodeurs standards et un modèle cinématique, ouvre la voie à une couche de sécurité pHRI sur des plateformes à bas coût ou à architecture fermée. Les auteurs fournissent également une preuve formelle de stabilité avec une condition explicite, ce qui distingue cette contribution des schémas énergétiques antérieurs souvent sans garanties théoriques complètes, un point critique pour toute certification industrielle. PAL Robotics, entreprise barcelonaise spécialisée dans les robots de service et de recherche, fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens, notamment dans le cadre de projets H2020 et Horizon Europe. Le contrôle compliant pour la pHRI est un champ en compétition directe avec les approches à apprentissage par renforcement (RL) et les contrôleurs de type whole-body control (WBC) développés par des équipes comme le DLR, ETH Zurich ou Boston Dynamics. Ce travail s'inscrit dans une tendance plus large visant à sécuriser les humanoïdes sans alourdir leur architecture sensorielle, une contrainte clé pour le déploiement en milieu industriel partagé. La prochaine étape logique serait une validation en scénario de collaboration réelle, avec des humains non prévenus, pour éprouver la robustesse du seuil énergétique face à des contacts imprévus.

UEPAL Robotics (Barcelone) fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens financés par H2020/Horizon Europe ; cette couche de sécurité pHRI sans capteurs de force pourrait être directement intégrée dans les projets de collaboration humain-robot en cours au sein de l'écosystème de recherche européen.

RecherchePaper
1 source
Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
3arXiv cs.RO 

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper
1 source
Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
4arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source