Aller au contenu principal
RecherchearXiv cs.RO1h

Modélisation de la charge cognitive et physique perçue pour la collaboration homme-robot en construction préfabriquée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une étude déposée sur arXiv (arXiv:2606.15494) propose un cadre de modélisation empirique de l'évolution de la charge cognitive et physique perçue des opérateurs en contexte de collaboration humain-robot (HRC) dans la construction préfabriquée. Les chercheurs ont conduit une expérience contrôlée de cycles travail-repos répétés, mesurant la charge cognitive via l'échelle RSME (Rating Scale for Mental Effort) et l'effort physique via l'indice de Borg RPE (Rating of Perceived Exertion). Les résultats montrent que l'accumulation de la charge cognitive suit une progression linéaire, tandis que la récupération en phase de repos obéit à une décroissance non linéaire de type exponentielle. Un modèle à effets mixtes a été appliqué pour tenir compte des conditions collaboratives, des effets de session et de la variabilité inter-individuelle significative entre opérateurs.

Ces résultats ont une portée directe pour la planification des tâches en HRC industrielle. Les approches de scheduling humain-robot reposent encore souvent sur des hypothèses simplifiées : fatigue constante, récupération uniforme, ou seuils de charge binaires. Disposer d'un modèle empiriquement validé qui distingue la dynamique d'accumulation (linéaire) de celle de récupération (non linéaire) permet de concevoir des algorithmes d'allocation de tâches capables d'anticiper l'état cognitif et physique du travailleur au fil des cycles de production. Pour un intégrateur ou un COO déployant des cobots sur ligne d'assemblage préfabriqué, cela ouvre la voie à des plannings adaptatifs qui réduisent le risque d'erreur humaine et de troubles musculo-squelettiques sans sacrifier la cadence.

La construction préfabriquée est un secteur cible croissant pour la robotique collaborative, notamment pour des tâches répétitives de manutention lourde, d'assemblage de panneaux et de fixation. Des équipes universitaires en Asie-Pacifique et en Europe travaillent sur l'automatisation partielle de ce segment, mais la grande majorité des déploiements HRC existants ignorent l'état physiologique du travailleur comme variable de planification en temps réel. Cette étude s'inscrit dans la tendance émergente de la HRC "human-state-aware", où le système robotique adapte sa charge de travail à l'état de l'opérateur. Les modèles proposés constituent une brique méthodologique destinée à alimenter de futurs systèmes de scheduling dynamique, potentiellement couplés à des capteurs physiologiques embarqués ou à des outils de suivi biométrique non intrusifs.

Impact France/UE

Des équipes universitaires européennes sont mentionnées comme actives sur l'automatisation en construction préfabriquée, mais aucun acteur français ou européen spécifique n'est impliqué dans cette étude ; l'impact reste indirect pour les intégrateurs HRC en Europe.

Dans nos dossiers

À lire aussi

Collaboration adaptative robot-humain pour la construction en maçonnerie face aux incertitudes de matériaux et d'assemblage
1arXiv cs.RO 

Collaboration adaptative robot-humain pour la construction en maçonnerie face aux incertitudes de matériaux et d'assemblage

Des chercheurs ont publié fin mai 2026 un preprint (arXiv:2605.20264) présentant un workflow collaboratif humain-robot adaptatif pour la construction en maçonnerie, validé sur une étude de cas en pose de briques. Le protocole divise les tâches ainsi : un bras robotique place les briques, tandis qu'un opérateur humain applique la colle. Deux mécanismes téchniques complémentaires structurent le système. D'une part, un projecteur monté sur l'effecteur terminal du robot projette en temps réel un guidage spatial précis directement sur la surface de travail, indiquant à l'opérateur exactement où et comment appliquer l'adhésif. D'autre part, un scanner laser mesure en continu l'état réel de l'assemblage et corrige dynamiquement les poses de saisie et de dépôt du robot. Des expériences en grandeur réelle ont été conduites sur des configurations d'appareil courant (running bond) et des configurations non standard, sans que les auteurs ne précisent le volume de briques testé ni la durée des cycles. Ce travail s'attaque à deux verrous bien identifiés de la robotique de construction : la communication robot-vers-humain et l'accumulation des tolérances. En chantier réel, les écarts dimensionnels des matériaux et les erreurs d'assemblage se cumulent au fil des rangées, dérivant les poses planifiées vers des collisions ou des défauts géométriques. Les résultats montrent que la projection spatiale améliore la régularité d'application de l'adhésif et réduit le temps d'opération humaine, tandis que la correction laser maintient le niveau des assises et supprime les échecs en boucle ouverte. Ces résultats suggèrent qu'un couplage perception-guidage peut absorber la variabilité matière sans reprogrammation manuelle, ce qui intéresse directement les intégrateurs souhaitant déployer des cellules robotiques sur des chantiers non contrôlés. La robotique de maçonnerie est un segment actif : la machine Hadrian X de FBR (Australie) et le système SAM100 de Construction Robotics (États-Unis) automatisent déjà la pose de briques, mais en boucle quasi-ouverte avec intervention humaine limitée. L'approche présentée se distingue par l'aspect coopératif serré entre humain et robot et par la boucle de rétroaction laser, proches des travaux menés à l'ETH Zurich (groupe Gramazio Kohler) sur la fabrication numérique en architecture. En tant que preprint non encore évalué par des pairs, ces résultats restent à confirmer à plus grande échelle; aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'abstract.

UELes travaux de l'ETH Zurich (groupe Gramazio Kohler) cités en référence proche témoignent d'un écosystème européen actif sur la fabrication numérique en architecture, mais l'étude ne mentionne aucun partenaire ni déploiement en France ou en UE.

RecherchePaper
1 source
Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée
2arXiv cs.RO 

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Une équipe de chercheurs a publié TouchSafeBench (arXiv:2605.31196), un benchmark pour évaluer ce qu'ils nomment le "collision grounding" dans les modèles de vision-langage (VLM) : la capacité à relier des observations visuelles à la géométrie du robot, la disposition de la scène et la proximité humaine pour déduire un contact présent ou imminent. Construit dans le simulateur Habitat 3.0 de Meta, il comprend 2 940 épisodes de coprésence indoor simulés, couvrant navigation sociale et réorganisation spatiale, avec des observations RGB-D multi-vues synchronisées, des cartes de trajectoire top-down et des labels de contact dérivés directement du simulateur. Trois VLMs orientés robotique ou frontier models ont été testés sur neuf représentations visuelles, autour de deux tâches : classifier l'état de sécurité courant et anticiper une collision imminente avant tout contact physique. Le meilleur score moyen Macro-F1 obtenu reste inférieur à 50 %. Ce chiffre souligne une limite fondamentale : la fluidité visuelle n'implique pas la responsabilité physique. Un modèle capable de décrire précisément une scène peut échouer à détecter si un bras robotique effleure un opérateur. Pour les intégrateurs travaillant sur la collaboration homme-robot, le signal est sans ambiguité : les VLMs actuels ne peuvent pas jouer le rôle de moniteurs de sécurité sans couche d'abstraction géométrique explicite. L'étude montre également que le contact robot-scène (obstacles, mobilier) est systématiquement plus difficile à détecter que la proximité humaine, contredisant l'intuition courante. Plus frappant encore : la profondeur RGB-D n'est pas automatiquement convertie en évidence de collision corps-robot, faute de représentation morphologique intégrée dans ces modèles. Ces résultats arrivent au moment où les architectures vision-langage-action (VLA) comme RT-2, OpenVLA ou pi0 de Physical Intelligence s'imposent dans les pipelines robotiques, en pariant sur la généralisation sémantique des VLMs pour piloter manipulateurs et robots mobiles. TouchSafeBench constitue un contrepoids empirique à cet enthousiasme : la généralisation linguistique ne résout pas la conscience géométrique nécessaire à la sécurité fonctionnelle. La plateforme sous-jacente, Habitat 3.0, est développée par Meta AI Research et fait référence en navigation sociale simulée. Le benchmark sera publié à l'acceptation de l'article. Les auteurs identifient comme prochaine étape des représentations liant explicitement point de vue caméra, morphologie du robot et géométrie métrique, potentiellement via des approches hybrides VLM et modèles cinématiques.

UELes intégrateurs européens développant des cobots sous contraintes AI Act doivent intégrer que les VLMs actuels ne sont pas des moniteurs de sécurité fiables sans couche d'abstraction géométrique explicite, ce qui impacte directement les architectures VLA en cours de déploiement industriel.

RecherchePaper
1 source
Modélisation physique et contrôle des comportements émergents dans les essaims de robots
3arXiv cs.RO 

Modélisation physique et contrôle des comportements émergents dans les essaims de robots

Des chercheurs ont déposé le 2 juin 2026 sur arXiv (arXiv:2606.01597) un cadre baptisé PhySwarm pour modéliser et contrôler les comportements collectifs émergents d'essaims de robots. L'approche couple un niveau macroscopique, le modèle Macro-ADR (advection-diffusion-réaction multi-phases), qui décrit l'évolution de la densité spatiale de l'essaim au fil des phases comportementales, à un niveau microscopique, le Micro-EDM, qui traduit ces dynamiques en consignes de déplacement individuel via des champs de potentiel et des transitions d'état gérées par seuils. Un contrôleur neuro-physique (NPC), entraîné par un objectif hybride alliant apprentissage par renforcement (RL) et réseaux de neurones physique-informés (PINN), mappe les observations locales et la mémoire temporelle de chaque robot à des paramètres physiques bornés. Les auteurs valident l'approche sur trois missions en preuve de concept : fourragement guidé par piste, navigation avec reconfiguration de formation, et recherche-sauvetage avec réaffectation dynamique des rôles. L'intérêt principal de PhySwarm est l'interprétabilité des comportements émergents. Contrairement aux méthodes purement neurales où les dynamiques collectives restent des boîtes noires, le cadre produit des champs de densité et des paramètres physiques explicites (coefficients d'advection, de diffusion, taux de transition de phase), permettant d'auditer pourquoi un essaim adopte un comportement donné. Pour les intégrateurs et les décideurs industriels, c'est un levier concret : la capacité à décomposer et à certifier un comportement collectif est un prérequis pour déployer des essaims dans des environnements critiques, logistique entrepôt ou intervention d'urgence. La contrainte PINN force aussi l'apprentissage à rester physiquement cohérent, ce qui réduit théoriquement le fossé simulation-réel (sim-to-real gap), même si toutes les expériences présentées restent en simulation et ne constituent pas encore des déploiements terrain. Le contrôle formel d'essaims est un domaine actif depuis les années 1990, mais la modélisation des comportements multi-phases y reste un problème ouvert. Les approches concurrentes vont de la stigmergie bio-inspirée au multi-agent reinforcement learning (MARL) pur, en passant par les formulations de champ moyen (mean-field games). PhySwarm se positionne à l'intersection physique et deep learning, un créneau également exploré par des équipes d'ETH Zurich, MIT CSAIL et Carnegie Mellon. Du côté industriel, des acteurs comme Exotec (France) pour la logistique entrepôt déploient déjà des flottes de robots sans coordination physique-informée formelle ; ce type de cadre pourrait outiller une prochaine génération de systèmes multi-robots à comportements certifiables.

UEImpact prospectif uniquement : le cadre PhySwarm pourrait à terme outiller des acteurs français comme Exotec pour certifier les comportements de leurs flottes multi-robots, mais aucune institution ou entreprise européenne n'est impliquée dans cette recherche.

RecherchePaper
1 source
GAF : le champ d'action gaussien comme représentation 4D pour la modélisation du monde dynamique en manipulation robotique
4arXiv cs.RO 

GAF : le champ d'action gaussien comme représentation 4D pour la modélisation du monde dynamique en manipulation robotique

Des chercheurs ont publié sur arXiv (version 5 de l'identifiant 2506.14135) une méthode intitulée GAF, pour Gaussian Action Field, qui introduit un cadre de perception 4D destiné à améliorer la précision des bras manipulateurs robotiques pilotés par vision. Le système s'appuie sur le 3D Gaussian Splatting (3DGS), une technique de reconstruction de scènes popularisée en 2023, qu'il étend avec des attributs de mouvement appris, permettant de modéliser simultanément la géométrie de la scène et la dynamique des actions robot dans le temps. GAF produit trois sorties couplées : une reconstruction de la scène courante, une prédiction de frames futures, et une estimation initiale d'action dérivée du mouvement gaussien. Un module de débruitage aligné action-vision vient ensuite affiner cette estimation. Sur les benchmarks testés, la méthode affiche des gains de +11,54 dB en PSNR, +0,3864 en SSIM et -0,5574 en LPIPS en qualité de reconstruction, ainsi qu'un taux de succès moyen supérieur de +7,3 points de pourcentage sur des tâches de manipulation robotique, par rapport aux meilleures méthodes actuelles. Ce gain de 7,3 % en taux de succès sur la manipulation est notable car il s'obtient sans changer le hardware ni la politique d'action de bas niveau : l'amélioration provient uniquement d'une meilleure représentation perceptive. Les approches Vision-to-Action (V-A), qui prédisent directement les commandes depuis les pixels, peinent face aux scènes dynamiques et aux occlusions partielles. Les méthodes Vision-to-3D-to-Action (V-3D-A), qui passent par une reconstruction 3D intermédiaire, gagnent en robustesse spatiale mais ignorent la dimension temporelle. En ajoutant explicitement le mouvement comme attribut appris dans la représentation gaussienne, GAF réduit ce que le secteur appelle le "reality gap" entre modèle perceptif et commande motrice réelle, un verrou central pour les bras industriels opérant dans des environnements non rigides. Le 3D Gaussian Splatting, base de GAF, a d'abord été développé pour la synthèse de nouvelles vues en vision par ordinateur, avant d'être rapidement adopté dans la robotique pour ses avantages en temps de rendu et en différentiabilité. Plusieurs groupes explorent déjà des extensions dynamiques de 3DGS pour la navigation et la saisie d'objets déformables. GAF se positionne directement face aux pipelines V-3D-A existants comme NeRF-based manipulation ou GaussianGrasping, ainsi qu'aux architectures VLA (Vision-Language-Action) qui contournent la reconstruction explicite. L'article reste à ce stade un preprint académique sans déploiement annoncé ni partenaire industriel mentionné ; les expériences sont conduites en environnement de laboratoire. Les prochaines étapes naturelles concerneraient la généralisation à des scènes multi-objets dynamiques et des tests sur des plateformes physiques commerciales comme les bras Franka ou UR.

RechercheOpinion
1 source