Aller au contenu principal
Analyse de l'incertitude avec supervision humaine dans les robots auto-adaptatifs via les LLM
RecherchearXiv cs.RO7sem

Analyse de l'incertitude avec supervision humaine dans les robots auto-adaptatifs via les LLM

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a soumis le 6 mai 2026 sur arXiv (identifiant 2605.02983) une méthodologie baptisée RoboULM, conçue pour aider les ingénieurs à identifier et analyser systématiquement les incertitudes dans les robots auto-adaptatifs dès la phase de conception. L'outil s'appuie sur des modèles de langage large (LLM) dans une boucle "human-in-the-loop" : le praticien guide l'exploration via des prompts structurés, affine les résultats de manière itérative, et construit une cartographie des sources d'incertitude, de leurs impacts potentiels et des stratégies de mitigation associées. L'évaluation a mobilisé 16 praticiens issus de quatre cas d'usage industriels distincts. Les auteurs ont par ailleurs produit une taxonomie des incertitudes propres aux robots auto-adaptatifs, sous la forme d'un catalogue structuré destiné à être réutilisé en phase de design.

L'enjeu est concret pour les intégrateurs et les équipes d'ingénierie qui déploient des systèmes robotiques dans des environnements industriels non contrôlés : les incertitudes non traitées en amont figurent parmi les principales causes de violations de sécurité et de défaillances opérationnelles en production. RoboULM propose de déplacer cette analyse vers la conception, avant que les choix architecturaux ne soient figés dans le matériel ou le logiciel. Les 16 participants ont jugé l'outil à la fois utile et facile à appréhender, en valorisant particulièrement le guidage par prompts structurés et la capacité de raffinement itératif, deux leviers qui réduisent la charge cognitive liée à l'analyse de systèmes complexes. Il s'agit d'un cas d'usage émergent des LLM comme assistants d'ingénierie de sûreté, distinct de leur rôle habituel dans le contrôle ou la planification du robot lui-même.

Cette approche s'inscrit dans un débat plus large autour du fossé simulation-réalité (sim-to-real gap) et de la capacité à anticiper les comportements imprévus avant déploiement réel. Les robots auto-adaptatifs, c'est-à-dire les systèmes capables de modifier leur comportement en réponse à des changements d'environnement, posent des défis de vérification que les méthodes formelles classiques peinent à couvrir exhaustivement. Des travaux parallèles dans les domaines de la safety engineering et de la vérification-validation pour systèmes autonomes convergent vers des approches hybrides homme-machine similaires. RoboULM reste à ce stade un outil de recherche, non un produit commercialisé : les prochaines étapes naturelles seraient une intégration dans les flux de conception existants (MBSE, SysML) et une validation sur des périmètres industriels plus larges.

Dans nos dossiers

À lire aussi

Adaptation mutuelle dans le co-transport humain-robot avec incertitude sur les préférences humaines
1arXiv cs.RO 

Adaptation mutuelle dans le co-transport humain-robot avec incertitude sur les préférences humaines

Une équipe de chercheurs a publié en mars 2025 sur arXiv (référence 2503.08895) un cadre unifié de co-transport humain-robot fondé sur l'adaptation mutuelle, visant à résoudre un problème central de la robotique collaborative physique : comment un robot peut-il s'adapter en temps réel à un partenaire humain dont les préférences de trajectoire sont incertaines, et réciproquement ? L'article propose trois contributions distinctes. Plutôt que de fixer a priori les paramètres comportementaux du partenaire, les auteurs modélisent une distribution de probabilité sur l'ensemble des préférences possibles. Ils introduisent ensuite une mesure d'obstination (stubbornness) variant dans le temps, qui détermine dynamiquement si le robot doit mener la trajectoire ou céder la direction à l'humain lorsque celui-ci manifeste une préférence forte et persistante au-delà d'un seuil défini. Enfin, une stratégie d'optimisation de posture s'applique au niveau du contrôle bas-niveau pour compenser les comportements imprévisibles quand l'humain prend les commandes. Le cadre a été validé auprès de vingt participants, complété par des simulations comparatives. Ce travail adresse un verrou technique majeur pour les robots collaboratifs physiques en logistique, industrie et assistance à la personne : l'écart entre les modèles humains supposés et la variabilité réelle des opérateurs. En introduisant une modélisation probabiliste plutôt que déterministe des préférences, le framework évite le blocage classique des systèmes à paramètres fixes qui échouent dès que l'humain dévie du comportement anticipé. Pour un intégrateur ou un COO industriel, le signal concret est que des robots de co-manutention pourraient s'adapter à différents opérateurs sans reprogrammation, réduisant les coûts de déploiement multi-site. La bascule dynamique entre modes "robot meneur" et "humain meneur" offre par ailleurs une flexibilité opérationnelle utile dans des contextes où l'ergonomie ou la sécurité prime sur l'optimisation de trajectoire. Le co-transport physique humain-robot reste peu industrialisé comparé aux AMR ou aux cobots de type Universal Robots et FANUC CRX. Les approches antérieures à impédance variable ou fondées sur des modèles de jeu de Stackelberg avaient posé des bases théoriques, mais butaient sur la rigidité des hypothèses comportementales. Ce papier s'inscrit dans une tendance plus large à intégrer l'incertitude humaine dans la boucle de contrôle, direction explorée notamment par le MIT CSAIL et, en France, par l'INRIA au travers de travaux sur la planification collaborative. Les prochaines étapes probables incluent des validations en environnement industriel réel et l'extension à des tâches multi-étapes, où la gestion de l'obstination sur des horizons temporels plus longs constituera un défi supplémentaire.

UEL'INRIA mène des travaux sur la planification collaborative dans la même direction, positionnant la recherche française pour contribuer à des solutions de co-manutention adaptatives qui pourraient bénéficier aux intégrateurs industriels européens à moyen terme.

RecherchePaper
1 source
Collaboration humain-robot : analyse des modalités d'interaction dans les tâches complexes
2arXiv cs.RO 

Collaboration humain-robot : analyse des modalités d'interaction dans les tâches complexes

Des chercheurs ont soumis sur arXiv un préprint comparant trois modalités d'interaction en collaboration humain-robot sur une tâche d'assemblage contrainte. Dix-huit participants reconstruisaient de mémoire une tour colorée de sept couches à partir de briques proches et éloignées. La modalité passive les plaçait seuls face à la tâche ; la réactive activait l'assistance d'un robot mobile uniquement sur demande explicite ; la proactive permettait au robot d'initier lui-même les livraisons de briques et les signalements d'erreurs sans sollicitation. Résultat contre-intuitif : l'assistance robotique a allongé le temps de complétion dans les deux modalités actives, mais 67 % des participants ont préféré le comportement proactif et 78 % l'ont jugé le plus utile. Ce résultat met en évidence une tension centrale dans la conception des systèmes HRC : efficacité chronométrique et préférence subjective peuvent diverger significativement. Pour les intégrateurs industriels, la question pratique devient immédiate : optimiser le throughput ou l'expérience opérateur ? La supériorité perçue du mode proactif suggère que le support anticipatif réduit la charge cognitive et l'incertitude, deux facteurs critiques en production. L'échantillon restreint de 18 participants en contexte de laboratoire limite toutefois sérieusement la généralisation à une échelle industrielle réelle. Cette étude s'inscrit dans une littérature croissante sur les AMR (robots mobiles autonomes) dotés de comportements adaptatifs, en dialogue direct avec les approches basées sur des architectures VLA (Vision-Language-Action) pour la planification d'intention. En Europe, des acteurs comme Enchanted Tools et des équipes académiques comme le LAAS-CNRS explorent des interfaces humain-robot de nature comparable. Les suites logiques de ce travail incluent un échantillon élargi, des tests hors laboratoire et l'évaluation de la fatigue cognitive sur des horizons temporels plus longs.

UELe LAAS-CNRS et Enchanted Tools explorent des interfaces humain-robot comparables, rendant ces résultats pertinents pour les équipes françaises travaillant sur la robotique collaborative et les AMR adaptatifs.

RecherchePaper
1 source
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
3arXiv cs.RO 

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
4arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source