Aller au contenu principal
OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel
RecherchearXiv cs.RO7sem

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées.

Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié.

Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

À lire aussi

Co-policy : création musicale humain-robot en temps réel
1arXiv cs.RO 

Co-policy : création musicale humain-robot en temps réel

Des chercheurs proposent Co-policy, un framework de co-création musicale humain-robot présenté comme preprint sur arXiv (référence 2606.19914). Le système articule trois blocs fonctionnels indépendants : un ancrage sémantique pré-inférence associé à un planificateur multimodal Qwen-VL fine-tuné (baptisé F-Qwen), chargé de convertir la parole, des séquences musicales jouées en direct et les observations visuelles en plans de co-création structurés ; une politique visuomotrice à mélange gaussien (GMP, Gaussian-Mixture Visuomotor Policy), implémentée comme une mixture-density network conditionnelle qui produit des actions robotiques multimodales en un seul passage forward ; et un module de variation musicale opérant sous contraintes à la fois musicales et physiques. Les expériences ont été menées sur un robot réel jouant des carillons (chimes), avec ablations et évaluation experte. Co-policy surpasse les baselines à politique de diffusion sur trois métriques : alignement d'intention, précision d'exécution et fréquence de réponse. Ce qui distingue l'approche des systèmes de lecture robotique classiques, c'est que le robot ne se contente pas de reproduire des notes prédéfinies par l'utilisateur : il génère des réponses musicales complémentaires, en temps réel, en tenant compte du contexte auditif et visuel. Pour un intégrateur ou un décideur R&D, c'est la démonstration que les VLA (Vision-Language-Action models) peuvent s'étendre à des tâches créatives ouvertes, pas uniquement à des tâches de manipulation industrielle ou domestique. La séparation explicite entre couche sémantique (LLM multimodal) et couche d'exécution (GMP en forward pass unique) est aussi une réponse directe au problème de latence qui pénalise les architectures de diffusion dans les contextes temps réel. Le recours à Qwen-VL open-source comme planificateur, fine-tuné plutôt qu'utilisé tel quel, facilite la reproductibilité de la recherche. Co-policy s'inscrit dans un mouvement plus large qui cherche à ancrer physiquement les modèles génératifs, au-delà du contenu numérique désincorporé. La diffusion policy, popularisée notamment par les travaux de Chi et al. (2023), reste la référence dominante pour les politiques visuomotrices génériques, et c'est contre cette baseline que Co-policy se mesure. Aucun acteur commercial, ni français ni européen, n'est impliqué dans ce travail académique. Les suites naturelles identifiées par les auteurs incluent l'extension à d'autres instruments et à des configurations multi-robots ; aucun calendrier ni partenariat industriel n'est annoncé à ce stade.

RechercheOpinion
1 source
Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot
2arXiv cs.RO 

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Une équipe de chercheurs propose dans un article publié sur arXiv (2606.00459) un contrôleur proportionnel-dérivé (PD) adaptatif capable de limiter l'énergie mécanique d'un robot humanoïde lors d'interactions physiques avec des humains. Le système agit sur les deux composantes énergétiques du robot, énergie cinétique et énergie potentielle, sans nécessiter de capteurs de force externes ni d'estimation de couple articulaire. Les gains du contrôleur sont paramétrables : l'opérateur peut définir précisément le seuil d'énergie limite et la "sharpness", c'est-à-dire la brutalité de la transition entre comportement nominal et comportement contraint. Le contrôleur a été validé sur le robot humanoïde TALOS de PAL Robotics (1,75 m, 95 kg, 32 degrés de liberté), d'abord en simulation, puis sur le hardware réel, confirmant le comportement souple attendu et le respect des limites énergétiques définies. L'intérêt de cette approche réside dans son applicabilité large : la majorité des robots industriels et de service ne disposent pas de capteurs de force six axes ou de couple articulaire, conditions requises par les approches classiques de contrôle d'impédance ou de couple. Un contrôleur basé sur l'énergie, implémentable avec des encodeurs standards et un modèle cinématique, ouvre la voie à une couche de sécurité pHRI sur des plateformes à bas coût ou à architecture fermée. Les auteurs fournissent également une preuve formelle de stabilité avec une condition explicite, ce qui distingue cette contribution des schémas énergétiques antérieurs souvent sans garanties théoriques complètes, un point critique pour toute certification industrielle. PAL Robotics, entreprise barcelonaise spécialisée dans les robots de service et de recherche, fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens, notamment dans le cadre de projets H2020 et Horizon Europe. Le contrôle compliant pour la pHRI est un champ en compétition directe avec les approches à apprentissage par renforcement (RL) et les contrôleurs de type whole-body control (WBC) développés par des équipes comme le DLR, ETH Zurich ou Boston Dynamics. Ce travail s'inscrit dans une tendance plus large visant à sécuriser les humanoïdes sans alourdir leur architecture sensorielle, une contrainte clé pour le déploiement en milieu industriel partagé. La prochaine étape logique serait une validation en scénario de collaboration réelle, avec des humains non prévenus, pour éprouver la robustesse du seuil énergétique face à des contacts imprévus.

UEPAL Robotics (Barcelone) fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens financés par H2020/Horizon Europe ; cette couche de sécurité pHRI sans capteurs de force pourrait être directement intégrée dans les projets de collaboration humain-robot en cours au sein de l'écosystème de recherche européen.

RecherchePaper
1 source
Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel
3arXiv cs.RO 

Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel

Une équipe de chercheurs a publié sur arXiv (ref. 2605.31352) un framework unifié baptisé Haptic Sorter, conçu pour permettre à un robot manipulateur d'estimer la forme et la pose d'un objet inconnu en temps réel, uniquement par le toucher, sans modèle géométrique préalable. Le système repose sur trois briques techniques : l'Optimisation Bayésienne (BO) pour guider l'exploration haptique et inférer la forme de l'objet via des superellipses (courbes paramétriques capables d'approximer une large famille de géométries 2D), une formulation adaptative du potentiel de manipulation encodant la géométrie estimée pour des interactions quasi-statiques, et une Équation Différentielle Ordinaire (ODE) résolue en ligne pour mettre à jour la pose de l'objet en temps réel à partir des retours tactiles et des prédictions du modèle. Le tout a été validé sur une tâche de tri 2D, en simulation et sur un setup réel multi-bras, avec plusieurs géométries d'objets testées. L'intérêt industriel est direct : la grande majorité des systèmes de manipulation robotique actuels supposent que la forme et la pose de l'objet sont connues a priori, ce qui rend ces systèmes fragiles dès que l'on sort du cadre structuré de la ligne de production. La perception visuelle, omniprésente dans les cellules pick-and-place contemporaines, est vulnérable aux occultations et aux incertitudes de calibration. Haptic Sorter propose une alternative ou un complément : le robot sonde activement l'objet, construit un modèle géométrique à la volée, et ajuste sa stratégie de saisie sans intervention humaine. Pour un intégrateur travaillant sur des flux logistiques avec des références variables, cette capacité d'adaptation sans reprogrammation est un argument concret. Le domaine de la perception haptique robotique est actif mais encore fragmenté : la plupart des travaux antérieurs traitent séparément l'exploration tactile, la reconstruction de forme, et la planification de manipulation. Des groupes comme ceux de l'ETH Zurich, de l'MIT CSAIL ou du Stanford AI Lab ont développé des approches partielles, mais rarement intégrées dans un pipeline bout-en-bout opérationnel. Haptic Sorter tente cette intégration avec des outils mathématiques classiques (BO, ODE) plutôt que des réseaux de neurones, ce qui le rend plus interprétable et potentiellement plus robuste en dehors de la distribution d'entraînement. La prochaine étape naturelle serait l'extension à la manipulation 3D et l'intégration avec des capteurs de force-couple commerciaux comme ceux d'ATI ou de Robotiq.

RecherchePaper
1 source
Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique
4arXiv cs.RO 

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots. Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses. Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

UEFurhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

RecherchePaper
1 source