Estimation d'état hybride à ordonnancement…

Architecture hybride intelligente à base de LLM pour l'ordonnancement des tâches robotiques

40

1arXiv cs.RO

Architecture hybride intelligente à base de LLM pour l'ordonnancement des tâches robotiques

Une équipe de chercheurs a publié sur arXiv (arXiv:2605.15486, mai 2026) un framework hybride exploitant des grands modèles de langage (LLM) pour orchestrer la planification de tâches de robots de chantier. L'architecture repose sur deux agents LLM fonctionnant en parallèle : un agent générateur basé sur GPT-4 (OpenAI) chargé de produire les séquences de tâches, et un agent superviseur interchangeable parmi Gemma 3 (Google DeepMind), Llama 4 (Meta) ou Mistral 7b, chargé de valider et corriger les plannings générés. Le système intègre une interface en langage naturel (NLP) permettant aux professionnels du bâtiment de communiquer directement leurs contraintes opérationnelles, et peut s'adapter en temps réel à des conditions imprévues sur site. Les résultats sont évalués sur un scénario simplifié avec des métriques quantitatives d'efficacité temporelle et d'utilisation des ressources. L'intérêt principal de cette approche réside dans la combinaison d'un modèle de raisonnement puissant (GPT-4) avec un modèle superviseur plus léger et remplaçable, ce qui réduit potentiellement le coût d'inférence tout en maintenant une validation en boucle fermée. Pour les intégrateurs de robotique dans le BTP, la couche NLP représente une piste concrète pour réduire la dépendance à des opérateurs spécialisés en programmation robot. Cela dit, l'évaluation reste limitée à un scénario dit "straightforward", ce qui ne permet pas de conclure sur la robustesse en conditions réelles de chantier, où la multiplicité des aléas (retards livraison, obstacles, météo) constitue le vrai défi. La validité industrielle de la méthode reste à démontrer à plus grande échelle. La planification automatisée de tâches multi-robots dans la construction est un axe actif depuis plusieurs années, notamment avec les travaux sur les systèmes BIM-to-robot et les AMR (autonomous mobile robots) de chantier. Des acteurs comme Boston Dynamics (avec Spot en inspection), Hilti (robots d'ancrage) ou NLink explorent déjà des formes de programmation par intention. En Europe, des initiatives comme Versatile (projet H2020) ont tracé des pistes similaires. Ce preprint s'inscrit dans une tendance plus large d'utilisation des VLA (Vision-Language-Action models) et des LLM comme couche de planification symbolique au-dessus de robots exécutants, une approche que des laboratoires comme Stanford (Mobile ALOHA) et CMU poussent en parallèle. Les prochaines étapes attendues seraient une validation sur chantier réel et une comparaison formelle entre les différents agents superviseurs testés.

UEApproche potentiellement exploitable par des intégrateurs robotiques européens actifs dans le BTP (Versatile/H2020), mais sans validation sur chantier réel ni déploiement en Europe à ce stade.

RechercheOpinion

1 source

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

42

2arXiv cs.RO

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper

1 source

Robustesse des interactions robot-environnement grâce à des degrés de liberté passifs compliants : une approche hybride position-force avec linéarisation par retour d'état

35

3arXiv cs.RO

Robustesse des interactions robot-environnement grâce à des degrés de liberté passifs compliants : une approche hybride position-force avec linéarisation par retour d'état

Traduction/synthèse de l'article : Une équipe de recherche propose une nouvelle architecture de contrôle hybride position-force pour bras robotiques, décrite dans un article publié sur arXiv (2607.00571v1). Contrairement aux approches classiques qui reposent uniquement sur la rétroaction active, les capteurs de force et le réglage de gains, cette méthode combine une linéarisation par retour d'état avec un degré de liberté passif compliant intégré à l'effecteur terminal, sous forme d'une interface physique ressort-amortisseur. Cette interface stocke et dissipe l'énergie d'impact directement au point de contact, avant que les chocs haute fréquence ne se propagent vers les articulations actionnées et la boucle de contrôle en force. L'approche a été évaluée sous MATLAB/Simulink sur un manipulateur planaire à 2 degrés de liberté, avec trois configurations d'effecteur comparées : rigide, ressort seul, et ressort-amortisseur. En environnement fixe, la configuration ressort-amortisseur réduit l'écart-type de l'erreur de force tangentielle de 36,5%. En environnement variable, elle réduit l'écart-type de l'erreur de force normale de 25,4% et celui de l'erreur de vitesse normale de 41,1%, avec une réponse de couple articulaire plus lisse. L'enjeu dépasse le simple exercice académique : les interactions robot-environnement en milieu dynamique ou non structuré, chocs, vibrations, incertitudes de géométrie de contact, restent un point faible des architectures de contrôle en force purement actives, qui peinent à absorber les transitoires avant qu'ils ne perturbent la boucle de commande. En ramenant une part de l'amortissement au niveau mécanique plutôt que purement logiciel, cette approche s'inscrit dans une tendance de fond de la robotique de manipulation : compenser les limites de la rétroaction pure par de la compliance physique, moins coûteuse en calcul et plus robuste aux incertitudes de modèle. Pour les intégrateurs travaillant sur des tâches de contact (assemblage, ébavurage, manipulation en environnement incertain), cela ouvre une piste de conception hybride matériel-logiciel plutôt qu'un simple ajustement des gains de commande. Ce travail s'inscrit dans la lignée des recherches en contrôle d'impédance et en compliance passive, qui cherchent depuis plusieurs décennies à concilier précision de positionnement et sécurité des interactions physiques. Ici, la validation reste limitée à la simulation, sur un bras plan à seulement deux degrés de liberté, ce qui est loin des manipulateurs industriels à six axes ou des bras humanoïdes multi-DOF utilisés en conditions réelles. Les auteurs ne précisent pas de calendrier de validation expérimentale sur banc physique, étape généralement nécessaire avant tout transfert vers l'industrie, ni de comparaison directe avec les architectures de contrôle d'impédance déjà déployées commercialement.

RecherchePaper

1 source

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

32

4arXiv cs.RO

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art. L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie. L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

RecherchePaper

1 source

Estimation d'état hybride à ordonnancement intelligent (SSH) par EKF-FGO

À lire aussi

Architecture hybride intelligente à base de LLM pour l'ordonnancement des tâches robotiques

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Robustesse des interactions robot-environnement grâce à des degrés de liberté passifs compliants : une approche hybride position-force avec linéarisation par retour d'état

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état