RecherchearXiv cs.RO 9 juin 2026

Robot 3D à sauts robustes assisté par hélices avec allocation hiérarchique des forces

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs présentent Pro-OMEGA2, un robot monopatte sauteur 3D assisté par hélices, publié en préimpression sur arXiv (arXiv:2606.08186, juin 2026). Le système intègre une jambe parallèle à mécanisme 3-RSR actif, soit trois degrés de liberté en configuration parallèle, et un tri-rotor monté sur le tronc pour la régulation d'attitude auxiliaire. L'ensemble est gouverné par un cadre baptisé Hierarchical Force Allocation (HFA), fondé sur un modèle de corps rigide unique (Single Rigid Body, SRB) : la jambe prend en charge le torseur de contact principal en phase d'appui, tandis que le tri-rotor compense le moment d'attitude résiduel et assure la stabilisation pendant la phase de vol. Des expériences menées en intérieur et en extérieur valident le saut continu en 3D, les transitions de terrain et la récupération après des perturbations impulsives.

Le problème adressé est structurel pour la classe des robots monopattes sauteurs : mécaniquement simples, ces systèmes sont sous-actionnés pendant la phase de vol, moment où les forces de réaction au sol sont absentes et l'autorité de contrôle quasi nulle. L'approche HFA se distingue par une hiérarchisation explicite des rôles selon la phase de locomotion, ce qui évite les conflits de commande entre jambe et hélices, un écueil classique des systèmes hybrides. La robustesse face à des contacts non modélisés et à des perturbations externes est un signal positif pour le transfert sim-to-réel. Il faut toutefois noter que la publication est un preprint non évalué par les pairs, les métriques de performance précises (fréquence de saut, payload, consommation énergétique) n'étant pas détaillées dans le résumé disponible.

Pro-OMEGA2 s'inscrit dans une lignée au moins biversionnée, le suffixe "2" impliquant un prédécesseur. Les architectures hybrides pattes-propulseurs ont déjà été explorées par ETH Zurich sur ANYmal avec propulseurs intégrés, par Georgia Tech avec le robot Harpy, ou encore par KAIST sur diverses plateformes dynamiques. Pro-OMEGA2 se distingue de ces travaux par son architecture strictement monopatte et l'allocation hiérarchique formalisée stance/vol. Les étapes naturelles incluent des tests en environnements non structurés plus complexes, une analyse du compromis énergétique entre propulsion aérienne et efficacité locomotrice, et la confrontation à des benchmarks standardisés de la communauté robotique agile.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Glissement d'objets par manipulation des pieds sur un robot bipède à roues avec contrôle hiérarchique

Des chercheurs ont publié sur arXiv (arXiv:2606.19233, juin 2026) un framework de contrôle hiérarchique permettant à des robots bipèdes à roues d'effectuer des tâches de manipulation d'objets au sol à l'aide de leurs membres inférieurs motorisés, une capacité baptisée "pédimanipulation mobile". Le système repose sur un contrôleur prédictif non linéaire (NMPC) construit sur un modèle dynamique simplifié à trois corps rigides (TRB), intégrant explicitement le degré de liberté en roulis de hanche et plusieurs modes de contact roue-sol. En expérimentation réelle, le robot a récupéré un objet de 1 kg coincé sous un bureau et déplacé latéralement un objet de 4 kg sur une distance de 0,228 m via une motion de type "scooting". Deux primitives de mouvement ont été validées sur hardware : scooting (poussée frontale par rotation des roues) et lateral sliding (déplacement latéral par pas de côté). L'intérêt industriel de cette approche réside dans sa réutilisation du train roulant comme effecteur de manipulation, sans bras supplémentaire ni outil dédié. Le NMPC régule simultanément la locomotion et les forces d'interaction, ce qui signifie que le robot maintient son équilibre tout en exerçant un effort contrôlé sur l'objet, un problème de couplage non trivial. Le planificateur de trajectoire intègre les transitions adhérence-glissement (stick-slip) dans le contact sol-objet, un phénomène souvent ignoré dans les démos en simulation mais critique en conditions réelles. C'est un résultat concret qui réduit le demo-to-reality gap sur la manipulation au sol, habituellement dominée par les manipulateurs à bras. Les robots bipèdes à roues constituent une architecture émergente entre AMR classiques et humanoïdes complets : Agility Robotics (Digit), Boston Dynamics (Spot avec extension roues dans certaines configs), et des plateformes académiques comme le Cassie de l'Oregon State University ont popularisé cette morphologie. Ce travail s'inscrit dans un courant de recherche sur la pédimanipulation, utiliser les jambes comme manipulateurs, que l'on retrouve aussi sur quadrupèdes (ANYmal, Go2). La prochaine étape probable est l'extension à des objets non rigides ou à des surfaces non planes, ainsi que l'intégration de perception pour fermer la boucle en environnement non structuré.

RecherchePaper

1 source

2arXiv cs.RO

Localisation de robots par correspondance hiérarchique de graphes de scène avec apprentissage automatique et cartes préalables

Une équipe de recherche a publié fin avril 2026 sur arXiv (réf. 2604.27821) un pipeline différentiable bout-en-bout pour la localisation de robots en environnement intérieur, sans recours à une correction manuelle de dérive SLAM. La méthode repose sur la mise en correspondance de deux représentations complémentaires : un graphe de scène construit en temps réel à partir des capteurs du robot (LiDAR), et un graphe dérivé hors-ligne d'un BIM (Building Information Model), la maquette numérique architecturale du bâtiment. L'algorithme exploite explicitement la hiérarchie sémantique des deux graphes, en faisant correspondre simultanément des nœuds de haut niveau (pièces, zones) et de bas niveau (surfaces murales). Entraîné exclusivement sur des plans d'étage synthétiques, le modèle dépasse la méthode combinatoire de référence en score F1 sur des environnements LiDAR réels, tout en s'exécutant environ dix fois plus rapidement. Ce résultat est significatif pour les intégrateurs de robots mobiles autonomes (AMR) déployés en environnements industriels ou tertiaires équipés de BIM. Le problème de la dérive SLAM à longue durée d'opération reste un frein opérationnel réel, et les approches combinatoires actuelles deviennent prohibitives dès que le graphe dépasse quelques centaines de nœuds. Le fait que la généralisation zéro-shot fonctionne, c'est-à-dire que le modèle n'a jamais vu de données LiDAR réelles à l'entraînement, suggère que la représentation hiérarchique capture des invariants structurels suffisamment robustes. C'est une hypothèse forte, et les auteurs la valident sur des environnements réels, ce qui distingue ce travail de nombreux papiers SLAM qui s'arrêtent à la simulation. Le matching de graphes de scène pour la localisation robotique est un champ en pleine consolidation depuis deux à trois ans, porté notamment par des travaux issus de MIT, ETH Zurich et CMU sur la représentation spatiale sémantique. L'intégration des BIM comme prior de localisation est particulièrement pertinente dans le contexte industriel européen, où les bâtiments neufs sont systématiquement modélisés. Aucun déploiement commercial n'est annoncé, il s'agit d'un article de recherche fondamentale. Les suites naturelles incluent l'extension aux environnements dynamiques (objets mobiles non présents dans le BIM) et l'intégration dans des stacks SLAM open-source comme Kimera ou Hydra, qui structurent déjà leurs cartes sous forme de graphes hiérarchiques.

UELa généralisation zéro-shot sur des maquettes BIM est particulièrement pertinente pour le marché industriel européen où les bâtiments neufs sont systématiquement modélisés, offrant aux intégrateurs AMR européens une piste technique concrète pour éliminer la dérive SLAM en opération longue durée.

RecherchePaper

1 source

3arXiv cs.RO

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %. Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés. Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

RechercheOpinion

1 source

4arXiv cs.RO

Relocalisation globale 3D hiérarchique hors ligne/en ligne avec LiDAR synthétique et recherche par descripteurs

Une équipe de chercheurs a publié le 11 mai 2026 (arXiv:2605.07741) un framework hiérarchique offline/online pour la relocalisation globale 3D de robots mobiles. Le système s'appuie sur une simulation synthétique de scans LiDAR dans une carte préexistante pour construire, en phase hors-ligne, un index de descripteurs géométriques associés à des positions candidates. En ligne, une estimation grossière de la pose est d'abord obtenue par retrieval global dans cet espace de descripteurs, puis affinée par registration de nuages de points pour produire une estimation 6-DoF précise. Sur banc expérimental en environnement réel 3D, la méthode atteint un temps de relocalisation moyen de 3 secondes et une précision moyenne de 8 centimètres, avec une amélioration d'un ordre de grandeur en efficacité computationnelle par rapport aux méthodes de référence. L'enjeu central est la scalabilité : dans les grands espaces industriels ou logistiques, les approches existantes de relocalisation globale souffrent d'un espace de recherche de poses trop vaste et d'un overhead de calcul prohibitif pour une exploitation temps réel. En découplant la phase coûteuse (génération des descripteurs, indexation) de la phase en ligne, ce framework rend la relocalisation 6-DoF viable sur des cartes de grande envergure sans matériel embarqué surpuissant. Pour un intégrateur AMR ou un équipementier de systèmes de navigation autonome, un temps de cycle de 3 secondes à 8 cm de précision représente un seuil opérationnel crédible pour des déploiements en entrepôt ou en environnement industriel non structuré. Il reste cependant à noter que les expériences publiées ne précisent pas la taille des environnements testés ni les conditions de densité du nuage de points, deux paramètres déterminants pour évaluer la généralisation. La relocalisation globale par LiDAR est un problème actif depuis plusieurs années, avec des approches comme PointNetVLAD, BEVPlace ou OverlapNet servant de baselines courantes. Ce travail se distingue par l'utilisation de scans synthétiques pour pré-peupler l'index, une stratégie qui supprime la dépendance à une collecte exhaustive de données réelles dans la carte, mais dont la robustesse face au sim-to-real gap sensoriel reste à valider sur des capteurs hétérogènes. Aucun partenaire industriel ni code open-source n'est mentionné dans la pré-publication ; une validation sur des benchmarks publics comme MulRan ou Oxford RobotCar permettrait de mieux situer ce travail dans l'écosystème existant.

RecherchePaper

1 source