Aller au contenu principal
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
RecherchearXiv cs.RO6sem

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
▶ Voir sur YouTube

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif.

L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement.

Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

À lire aussi

Reconnexion spatio-temporelle pour réseaux multi-robots via des CBFs à temps prescrit adaptatif
1arXiv cs.RO 

Reconnexion spatio-temporelle pour réseaux multi-robots via des CBFs à temps prescrit adaptatif

Des chercheurs ont publié sur arXiv (ref. 2606.01526) un cadre de contrôle baptisé "adaptive prescribed-time control barrier function" (adaptive PT-CBF) pour les systèmes multi-robots. Le problème central est la gestion de la connectivité du graphe de communication : dans les déploiements réels, imposer à chaque robot de rester en permanence à portée de ses voisins est souvent incompatible avec l'efficacité opérationnelle, notamment lorsque la flotte évolue dans de grands espaces avec des portées radio limitées. Le cadre proposé permet à chaque unité de se déconnecter temporairement du réseau maillé, puis de revenir dans la plage de communication dans un délai fini, ajustable et garanti formellement. Les auteurs introduisent également un mécanisme de déclenchement de reconnexion qui pondère deux critères simultanément : l'urgence de la tâche en cours et l'urgence de la reconnexion, ce qui permet de décider de façon raisonnée à quel moment un robot doit interrompre sa mission pour rejoindre le graphe. Les résultats expérimentaux montrent une amélioration de l'efficacité des tâches avec des reconnexions respectant les délais prescrits. Ce travail s'attaque à une limitation structurelle des flottes AMR et des robots de recherche distribuée : la contrainte de connectivité permanente force souvent les robots à des trajectoires sous-optimales, réduisant le throughput global. En garantissant mathématiquement la reconnexion dans un temps fini configurable, ce cadre ouvre la voie à des politiques de déploiement plus souples sans sacrifier la cohérence de l'information au niveau de l'équipe. Pour les intégrateurs industriels, cela signifie potentiellement des architectures de flotte où des robots peuvent s'aventurer en zones de faible signal pour des tâches d'inspection ou de pick, puis revenir dans le réseau selon un budget-temps maîtrisé. Le mécanisme de déclenchement basé sur une double urgence est particulièrement pertinent pour les systèmes à contraintes temporelles (livraison, surveillance d'événement). Les control barrier functions (CBFs) sont depuis plusieurs années un outil central en robotique à sécurité critique, permettant de formuler des garanties formelles sur les contraintes d'état. Les PT-CBF, ou CBFs à temps prescrit, en sont une extension permettant de borner non seulement la satisfaction d'une contrainte, mais aussi l'horizon temporel de cette satisfaction. Ce papier s'inscrit dans un courant de recherche actif, notamment en concurrence avec des approches de consensus distribué et de communication opportuniste développées par des équipes aux États-Unis, en Europe et en Chine. Les suites naturelles incluent la validation sur des flottes physiques hétérogènes, l'extension à des topologies dynamiques et l'intégration dans des planificateurs de tâches multi-agents. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la prépublication.

RecherchePaper
1 source
CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes
2arXiv cs.RO 

CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes

Une équipe de chercheurs a publié CART (Context-Aware Terrain Adaptation), un contrôleur de locomotion conçu pour permettre aux robots à pattes de naviguer sur des terrains complexes non structurés. Le système fusionne deux sources d'information embarquées: la proprioception (couples articulaires, accélérations du torse, contacts au sol) et l'extéroception (vision par caméra), via une architecture de sélection de séquences temporelles. Les expériences ont été réalisées sur trois plateformes: le Unitree Go2 et l'ANYmal-C d'ANYbotics en simulation sous NVIDIA IsaacSim, et un Boston Dynamics SPOT pour les essais en conditions réelles. Les gains mesurés sont significatifs: +5 % de taux de traversée réussi par rapport aux méthodes de référence, -41 % d'oscillation de la base du robot en simulation, et -22 % en conditions réelles, sans dégradation du temps de mission. Le problème central que CART adresse est ce que les auteurs nomment le "Visual-Texture Paradox": ce que le capteur visuel détecte peut différer radicalement de ce que le robot ressent lors du contact physique (béton recouvert de sable, herbe sur substrat rocheux, revêtements peints imitant une autre texture). La majorité des systèmes d'adaptation de terrain actuels ne modélisent pas explicitement cette discordance, ce qui se traduit par des chutes ou des récupérations erratiques sur terrains difficiles. En liant l'historique des interactions proprioceptives récentes à l'apparence extéroceptive courante, CART construit une représentation contextuelle du terrain plus fiable que la vision seule. C'est une propriété directement utile pour des déploiements en extérieur: inspection d'infrastructure, logistique sur chantier, robotique minière. La locomotion adaptative pour robots à pattes a connu des avancées majeures depuis les travaux fondateurs d'ETH Zurich sur ANYmal (2016-2022), avec des méthodes d'apprentissage par renforcement en simulation démontrant un transfert sim-to-real robuste. Boston Dynamics SPOT reste la référence commerciale sur terrains difficiles, tandis que le Unitree Go2 s'impose dans la recherche académique grâce à son coût réduit. CART se positionne comme une couche de contrôle agnostique à la plateforme, sans modification matérielle requise. Il s'agit d'un preprint arXiv (identifiant 2604.14344, avril 2026), sans déploiement ni partenaire industriel annoncé à ce stade. La validation sur des conditions météorologiques adverses et des scénarios multi-terrains plus variés constitue la prochaine étape attendue.

UEImpact indirect via ANYbotics (Suisse, hors UE) et l'héritage ETH Zurich sur ANYmal, mais aucun déploiement ni partenaire européen annoncé à ce stade.

RecherchePaper
1 source
DC-Ada : adaptation décentralisée des capteurs par récompense seule pour des équipes multi-robots hétérogènes
3arXiv cs.RO 

DC-Ada : adaptation décentralisée des capteurs par récompense seule pour des équipes multi-robots hétérogènes

Une équipe de chercheurs propose DC-Ada, une méthode d'adaptation décentralisée pour les équipes multi-robots hétérogènes, publiée sur arXiv (2604.03905). Le problème ciblé est concret : lorsqu'un essaim de robots est déployé, les plateformes diffèrent souvent en modalités de capteurs, en champs de vision, en portée, et en modes de défaillance. Un contrôleur entraîné sur une configuration "nominale" se dégrade significativement dès qu'un robot présente des capteurs manquants ou non conformes, même si la tâche reste identique. DC-Ada répond à ce problème en maintenant la politique partagée préentraînée entièrement gelée, et en adaptant uniquement des transformations d'observation compactes, propres à chaque robot, pour les faire correspondre à une interface d'inférence fixe. La méthode est sans gradient et ne nécessite qu'un minimum de communication : elle repose sur une recherche aléatoire accept/refus avec tirage à nombres aléatoires communs, sous un budget strict de 200 000 pas d'environnement joints par run. Les expériences couvrent trois tâches (logistique d'entrepôt, recherche et sauvetage, cartographie collaborative), quatre régimes d'hétérogénéité (H0 à H3) et cinq graines, comparées à quatre baselines. Les résultats offrent une image nuancée qui mérite d'être soulignée : aucune méthode ne domine sur l'ensemble des tâches et métriques. La normalisation d'observation est la plus robuste en termes de récompense pour la logistique d'entrepôt et compétitive en recherche et sauvetage, tandis que la politique gelée sans adaptation donne les meilleures récompenses en cartographie collaborative. DC-Ada se distingue précisément dans les scénarios de cartographie sévère (H3), où il améliore le taux de complétion de mission. Surtout, il n'exige que des retours scalaires d'équipe, sans fine-tuning de politique ni communication persistante entre agents, ce qui le rend utilisable à l'heure du déploiement sans modifier l'infrastructure existante. Ce travail s'inscrit dans une tendance croissante à traiter la robustesse post-déploiement comme un problème distinct de l'entraînement. Les approches concurrentes incluent les méthodes d'adaptation centralisées, le fine-tuning par domaine, et les techniques de transfert sim-to-réel classiques, qui supposent toutes un accès à la politique ou à des gradients. La limite principale de DC-Ada reste son évaluation sur simulateur 2D déterministe uniquement : la validation sur hardware réel avec des capteurs physiquement défaillants reste à démontrer. Les prochaines étapes logiques sont l'extension à des équipes plus larges, des environnements stochastiques, et une évaluation sur des plateformes physiques hétérogènes comme celles que développent des acteurs européens tels que Enchanted Tools ou les écosystèmes ROS2 industriels.

RecherchePaper
1 source
Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot
4arXiv cs.RO 

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Une équipe de chercheurs propose dans un article publié sur arXiv (2606.00459) un contrôleur proportionnel-dérivé (PD) adaptatif capable de limiter l'énergie mécanique d'un robot humanoïde lors d'interactions physiques avec des humains. Le système agit sur les deux composantes énergétiques du robot, énergie cinétique et énergie potentielle, sans nécessiter de capteurs de force externes ni d'estimation de couple articulaire. Les gains du contrôleur sont paramétrables : l'opérateur peut définir précisément le seuil d'énergie limite et la "sharpness", c'est-à-dire la brutalité de la transition entre comportement nominal et comportement contraint. Le contrôleur a été validé sur le robot humanoïde TALOS de PAL Robotics (1,75 m, 95 kg, 32 degrés de liberté), d'abord en simulation, puis sur le hardware réel, confirmant le comportement souple attendu et le respect des limites énergétiques définies. L'intérêt de cette approche réside dans son applicabilité large : la majorité des robots industriels et de service ne disposent pas de capteurs de force six axes ou de couple articulaire, conditions requises par les approches classiques de contrôle d'impédance ou de couple. Un contrôleur basé sur l'énergie, implémentable avec des encodeurs standards et un modèle cinématique, ouvre la voie à une couche de sécurité pHRI sur des plateformes à bas coût ou à architecture fermée. Les auteurs fournissent également une preuve formelle de stabilité avec une condition explicite, ce qui distingue cette contribution des schémas énergétiques antérieurs souvent sans garanties théoriques complètes, un point critique pour toute certification industrielle. PAL Robotics, entreprise barcelonaise spécialisée dans les robots de service et de recherche, fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens, notamment dans le cadre de projets H2020 et Horizon Europe. Le contrôle compliant pour la pHRI est un champ en compétition directe avec les approches à apprentissage par renforcement (RL) et les contrôleurs de type whole-body control (WBC) développés par des équipes comme le DLR, ETH Zurich ou Boston Dynamics. Ce travail s'inscrit dans une tendance plus large visant à sécuriser les humanoïdes sans alourdir leur architecture sensorielle, une contrainte clé pour le déploiement en milieu industriel partagé. La prochaine étape logique serait une validation en scénario de collaboration réelle, avec des humains non prévenus, pour éprouver la robustesse du seuil énergétique face à des contacts imprévus.

UEPAL Robotics (Barcelone) fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens financés par H2020/Horizon Europe ; cette couche de sécurité pHRI sans capteurs de force pourrait être directement intégrée dans les projets de collaboration humain-robot en cours au sein de l'écosystème de recherche européen.

RecherchePaper
1 source