Aller au contenu principal
RecherchearXiv cs.RO2h

Marche accompagnée de fils par des spécifications logiques temporelles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Voici l'article traduit et résumé selon vos consignes éditoriales :

Une équipe de recherche propose une nouvelle méthode d'apprentissage par renforcement (RL) pour la locomotion de robots quadrupèdes, publiée sur arXiv début juillet 2026. Plutôt que d'utiliser les fonctions de récompense figées et codées à la main habituellement employées en RL, les chercheurs s'appuient sur la logique temporelle de signal (Signal Temporal Logic, STL) pour spécifier formellement les démarches souhaitées : contraintes de sécurité, synchronisation des allures, suivi de commandes de vitesse et limites d'actionnement. Ces spécifications STL sont ensuite converties en récompenses denses et continues grâce à des approximations lisses de la "robustesse" STL, compatibles avec l'algorithme d'entraînement PPO (Proximal Policy Optimization). Trois régimes de vitesse sont modélisés, marche-trot, trot et bond, avec des paramètres calibrés à partir de trajectoires de référence. L'approche est testée sur le robot quadrupède Barkour de Google, mais uniquement en simulation, dans l'environnement MuJoCo XLA (MJX), en parallélisant les runs pour accélérer l'entraînement et en ajoutant de la randomisation de domaine pour robustifier les politiques apprises.

L'intérêt principal réside dans l'interprétabilité et le contrôle explicite du comportement de marche, deux angles morts classiques du RL appliqué à la locomotion, où les récompenses ad hoc produisent des politiques efficaces mais opaques et difficiles à ajuster finement. Les auteurs affirment obtenir un suivi de vitesse plus précis et un entraînement plus stable que la référence à récompenses artisanales. Pour les équipes qui développent des quadrupèdes commerciaux, ce type de méthode pourrait faciliter la certification et le réglage de comportements de marche sûrs et prévisibles, un enjeu clé face à des acteurs comme Boston Dynamics (Spot) ou Unitree. Il faut toutefois noter que ces résultats restent circonscrits à la simulation : aucun transfert sur robot physique n'est mentionné dans l'article, ce qui laisse ouverte la question classique du fossé simulation-réel.

Ces travaux s'inscrivent dans une tendance plus large de formalisation des spécifications comportementales en robotique, où la logique temporelle est de plus en plus utilisée pour combler le manque de garanties formelles du RL pur. Le choix du Barkour de Google comme plateforme de test, déjà utilisé par Google DeepMind dans ses propres publications sur l'agilité robotique, ancre ce travail dans l'écosystème de recherche existant sur ce robot. Les auteurs mettent à disposition des vidéos de démonstration sur un site dédié au projet, mais sans calendrier annoncé pour une validation sur matériel réel ni collaboration industrielle explicite à ce stade.

À lire aussi

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal
1arXiv cs.RO 

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (réf. 2605.02361) un cadre de planification de mouvement par retour d'état pour systèmes non linéaires stochastiques en temps continu, soumis à des spécifications formelles en Signal Temporal Logic (STL). La STL est un formalisme mathématique qui exprime des exigences comportementales temporelles précises - du type "éviter une zone pendant 3 secondes, puis atteindre la cible dans un rayon donné". L'objectif affiché est de garantir le respect de ces spécifications avec une probabilité de 99,99 % en boucle fermée. La méthode repose sur une stratégie dite d'"érosion de prédicats" : le problème stochastique, mathématiquement intractable, est transformé en optimisation déterministe avec des contraintes STL resserrées, dont l'amplitude est calibrée par un tube atteignable probabiliste (PRT, Probabilistic Reachable Tube) borné via la théorie de la contraction. Le pipeline complet a été validé en simulation sur plusieurs architectures robotiques, puis expérimentalement sur un robot quadrupède réel - dont la marque n'est pas précisée dans la prépublication, limite courante des dépôts arXiv. Les auteurs rapportent des résultats supérieurs aux approches de référence en termes de conservatisme réduit et de taux de satisfaction des spécifications. Ce travail s'attaque à un verrou bien identifié en robotique formelle : la plupart des méthodes STL existantes supposent soit un système déterministe, soit un modèle linéaire, rendant les garanties probabilistes sur systèmes non linéaires bruités difficiles à obtenir sans explosion combinatoire. En reformulant le problème stochastique en optimisation déterministe compatible avec des solveurs numériques standards, l'approche ouvre une voie d'intégration industrielle sans exiger de matériel de calcul spécialisé. La validation sur quadrupède physique est un signal positif dans un domaine où le sim-to-real gap reste la principale objection aux méthodes formelles. Pour les intégrateurs et décideurs, une garantie probabiliste quantifiée et potentiellement auditable représente un argument concret dans des contextes de certification robotique - à condition que les résultats expérimentaux détaillés confirment la tenue des 99,99 % sur des scénarios variés, ce que le seul résumé ne permet pas de vérifier. Ces travaux s'inscrivent dans un courant actif combinant planification temporelle et contrôle robuste, aux côtés des Control Barrier Functions (CBF) et des approches MPC-STL (Model Predictive Control avec spécifications temporelles). La théorie de la contraction mobilisée ici, développée notamment par Jean-Jacques Slotine au MIT et remise en avant ces dernières années dans la vérification formelle robotique, constitue l'un des apports méthodologiques distincts de l'article. Aucun acteur européen n'est impliqué dans ces travaux. Les extensions naturelles incluent des spécifications STL imbriquées ou multi-agents, des environnements dynamiques, et une comparaison étendue avec des architectures d'apprentissage par renforcement - domaine concurrent qui adresse des problèmes similaires avec des garanties formelles généralement plus faibles.

RecherchePaper
1 source
Planification de mouvements par logique temporelle de signaux via des graphes d'ensembles convexes
2arXiv cs.RO 

Planification de mouvements par logique temporelle de signaux via des graphes d'ensembles convexes

Une équipe de chercheurs a publié sur arXiv (arXiv:2605.23240) un cadre de planification de trajectoires en temps continu combinant la logique temporelle de signaux (STL, Signal Temporal Logic) et les graphes d'ensembles convexes (GCS, Graphs of Convex Sets). L'objectif est de générer des trajectoires lisses satisfaisant à la fois des contraintes logico-temporelles de haut niveau, par exemple "atteindre la zone A entre t=2 s et t=5 s tout en évitant B", et des limites cinématiques de bas niveau comme les bornes de vitesse. La méthode encode d'abord la spécification STL sous forme d'automate temporisé, le couple à une décomposition convexe de l'espace de configuration, puis reformule l'ensemble comme un problème de plus court chemin sur un GCS. La solution produit des trajectoires en B-splines de Bézier, validées expérimentalement sur un quadrirotor 3D, un humanoïde à 30 degrés de liberté (DoF) et un bras industriel UR-3 testé en conditions matérielles réelles. La contribution principale est de rendre tractable un problème historiquement difficile. Les approches classiques de planification sous STL s'appuient sur la programmation mixte entière (MILP), dont la complexité est exponentielle avec la dimension de l'espace ou la longueur de l'horizon temporel. Ce travail démontre qu'une fois l'automate temporisé et la décomposition convexe fixés, la relaxation convexe évolue polynomialement avec la dimension de l'espace de configuration et le degré des splines de Bézier, ce qui constitue une garantie de passage à l'échelle concrète. Le test sur un humanoïde à 30 DoF est significatif : c'est précisément la gamme de systèmes où les planificateurs STL classiques échouent. La validation hardware sur UR-3 confirme que les trajectoires produites sont directement exécutables, sans post-traitement supplémentaire. Le cadre GCS a été introduit vers 2022 par Marcucci, Tedrake et leurs collaborateurs au MIT comme outil d'optimisation de trajectoires dans des espaces fragmentés en régions convexes. Ce papier étend l'approche aux spécifications temporelles contraintes, une jonction entre vérification formelle et robotique opérationnelle. Les approches concurrentes incluent la MPC non linéaire sous STL et les planificateurs par échantillonnage avec satisfaction de contraintes temporelles. L'article reste un preprint non relu par les pairs ; les benchmarks présentés couvrent essentiellement des espaces de basse à moyenne dimension, et l'extension aux environnements dynamiques ou à la replanification en temps réel n'est pas encore abordée.

UELa validation matérielle sur bras UR-3 (Universal Robots, Danemark/UE) offre une pertinence indirecte pour les équipes R&D européennes en planification de trajectoires, mais la recherche est conduite au MIT sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
WarmPrior : rectification des politiques de flow matching avec des a priori temporels
3arXiv cs.RO 

WarmPrior : rectification des politiques de flow matching avec des a priori temporels

Une équipe de chercheurs propose WarmPrior (arXiv:2605.13959, mai 2025), une modification de la distribution source dans les politiques génératives pour le contrôle robotique visuomoteur. Ces politiques, fondées sur la diffusion ou le flow matching, sont devenues le paradigme dominant pour apprendre des comportements de manipulation à partir de démonstrations. Plutôt que d'utiliser une distribution gaussienne standard comme point de départ du processus de génération d'actions, WarmPrior construit un prior temporel simple à partir de l'historique récent des actions exécutées par le robot. Appliqué à des tâches de manipulation en behavior cloning, ce remplacement améliore systématiquement les taux de réussite. L'article démontre également des gains en efficacité d'échantillonnage et en performance finale lorsque WarmPrior est utilisé dans un cadre d'apprentissage par renforcement dans l'espace des priors. L'explication de ces gains est géométrique : WarmPrior produit des chemins de probabilité sensiblement plus droits dans l'espace des actions, un effet analogue à celui des couplages de transport optimal dans Rectified Flow. Des trajectoires plus droites réduisent le nombre de pas d'intégration requis à l'inférence, ce qui peut accélérer le contrôle et améliorer la précision des mouvements. Pour les équipes robotique, l'intérêt est immédiatement pratique : WarmPrior est compatible avec les architectures existantes et ne nécessite aucune donnée supplémentaire. Plus fondamentalement, l'article identifie le choix de la distribution source comme un axe de conception structurant et jusqu'ici sous-exploré dans le contrôle génératif, orthogonal aux approches habituelles centrées sur l'architecture réseau ou le volume de données d'entraînement. WarmPrior s'inscrit dans l'accélération des politiques diffusion pour la manipulation, un champ formalisé notamment par Diffusion Policy (Chi et al., 2023, Columbia/MIT) et ses nombreuses variantes. Le paradigme flow matching, popularisé par Rectified Flow et adopté par Physical Intelligence dans pi-0 pour le contrôle de bras et d'humanoïdes, s'est imposé comme référence pour l'inférence à haute fréquence. WarmPrior, applicable sans modification architecturale aux deux familles de méthodes, représente un levier directement intégrable dans des pipelines existants comme ACT, Diffusion Policy ou pi-0. À noter que les résultats présentés restent pour l'instant au niveau des benchmarks de laboratoire ; une validation sur matériel réel et dans des conditions industrielles serait nécessaire pour établir la portée opérationnelle effective de la méthode.

RechercheOpinion
1 source
SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle
4arXiv cs.RO 

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle

Des chercheurs ont déposé sur arXiv (référence 2512.00775, version 2, 2025) un cadre baptisé SAGAS (Semantic-Aware Graph-Assisted Stitching) pour la planification robotique à long horizon à partir de données hors-ligne uniquement. Le problème ciblé : piloter un agent pour exécuter des tâches complexes décrites en logique temporelle linéaire (LTL), un formalisme mathématique exprimant des séquences de conditions du type "atteindre A, puis B, tout en évitant C", sans modèle de dynamique, sans démonstrations spécifiques à la tâche, et sans interaction en ligne avec l'environnement. SAGAS apprend deux composants offline à partir de fragments de trajectoires hétérogènes : un graphe latent d'atteignabilité réutilisable, et un exécuteur conditionné sur des objectifs figé après l'entraînement. Pour chaque nouvelle formule LTL au moment du test, le système augmente ce graphe avec des propositions sémantiques, puis applique une recherche en produit de Büchi pour synthétiser un plan de waypoints "prefix-suffix" à coût minimisé, exécuté par l'exécuteur figé. Les expériences portent sur les domaines de locomotion d'OGBench, une suite de benchmarks offline standard dans la communauté. La contribution centrale revendiquée est la généralisation zero-shot à des spécifications LTL non vues à l'entraînement, sans récompense tâche-spécifique ni réentraînement de politique. C'est une distinction structurelle face aux deux familles dominantes : la synthèse symbolique model-based exige un système de transitions étiqueté précis, difficile à construire sur du matériel réel, tandis que les méthodes d'apprentissage par renforcement supposent généralement une interaction en ligne ou des démonstrations dédiées. SAGAS déplace le raisonnement propre à chaque formule vers une augmentation de graphe et une recherche symbolique au temps d'inférence, découplant ainsi la capacité de généralisation du processus d'entraînement. À noter : les validations sont entièrement simulées sur OGBench ; le gap sim-to-real n'est pas adressé, ce qui limite la portée industrielle immédiate. La planification LTL en robotique mobilise un nombre croissant d'équipes, portée par le besoin de comportements vérifiables formellement sur des robots industriels et de service. Les approches concurrentes couvrent un spectre large : planification par diffusion (Diffuser, Decision Diffuser), politiques conditionnées par langage naturel via des VLA (vision-language-action models), et combinaisons de model checking avec du renforcement offline sur D4RL (IQL, CQL). SAGAS occupe la niche "offline + symbolique + zero-shot LTL", encore peu exploitée. Aucun déploiement matériel ni partenariat industriel n'est annoncé ; les suites logiques seraient une validation sur plateforme physique et une extension à des environnements à espace d'état plus riche.

RecherchePaper
1 source