Aller au contenu principal
Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion
RecherchearXiv cs.RO3h

Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.11034, juin 2026) une architecture SNN (Spiking Neural Network) capable de coordonner en temps réel le contrôle des bras et la locomotion bipède d'un humanoïde simulé, une combinaison absente des travaux précédents dans ce paradigme. Le système s'appuie sur le Neural Engineering Framework (NEF) et la Semantic Pointer Architecture (SPA), avec un modèle de ganglions de la base à impulsions biologiquement inspiré pour arbitrer la sélection entre marche et manipulation. La co-simulation Nengo (contrôle neural) et Isaac Sim de NVIDIA (physique) a permis de valider quatre tâches : atteinte de cible en espace 3D, dessin continu de chiffres, locomotion en suivi de trajectoire, et commutation dynamique entre marche et contrôle du bras via désinhibition des ganglions de la base.

Le principal argument de l'approche est son potentiel d'efficacité énergétique sur matériel neuromorphique (Intel Loihi, SpiNNaker), là où les humanoïdes commerciaux actuels comme Figure 03, Optimus ou Unitree G1 exigent des GPU embarqués énergivores. Cette publication revendique la première intégration unifiée locomotion-manipulation sur plateforme humanoïde pleine échelle dans le paradigme SNN, les rares précédents traitant les deux sous-systèmes en modules entièrement isolés. La limite centrale à signaler est que l'ensemble des résultats est issu de simulation pure, le gap sim-to-real n'étant pas adressé dans cette étude.

Les SNNs s'imposent depuis quelques années comme alternative crédible aux réseaux denses pour les systèmes embarqués à contrainte énergétique forte. Le framework Nengo, développé par Applied Brain Research, est l'outil de référence de cet écosystème. Face à cette approche, les acteurs majeurs de la course humanoïde, Figure AI, 1X Technologies, Boston Dynamics et Physical Intelligence (auteurs de Pi-0), misent sur des VLA (Vision-Language-Action models) et du reinforcement learning à grande échelle ; l'approche SNN vise un axe orthogonal, davantage frugal et interprétable, mais encore en retrait sur les benchmarks de manipulation en environnement réel. Les auteurs annoncent le déploiement sur matériel neuromorphique basse consommation comme prochaine étape, ce qui constituera le vrai test de l'hypothèse énergétique centrale à ce travail.

À lire aussi

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes
1arXiv cs.RO 

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes

Un groupe de chercheurs a publié sur arXiv (preprint 2605.15352) une politique de contrôle fondée sur la diffusion, capable de faire ouvrir et franchir une porte à loquet auto-fermant par un robot mobile équipé de deux bras. La tâche ciblée, une porte lourde nécessitant une traction, est décomposée en plusieurs phases enchaînées sans intervention manuelle : rotation de la poignée, traction progressive, maintien de l'ouverture, transfert d'appui entre les deux membres, déplacement de la base, puis passage complet. Le robot repose sur une base non-holonome (incapable de se déplacer latéralement sans rotation préalable), ce qui contraint fortement la coordination simultanée entre châssis et manipulateurs. Les auteurs ne communiquent ni le nom du robot utilisé ni de taux de succès chiffré dans l'abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt technique réside dans l'abandon des automates à états finis classiques, où chaque transition (tirer une fois la poignée tournée, passer une fois l'ouverture suffisante) est programmée manuellement et échoue dès que les conditions réelles dévient du scénario prévu. L'approche par imitation learning, via une diffusion policy (modèle génératif entraîné à reproduire des démonstrations humaines en capturant une distribution de trajectoires plutôt qu'une unique solution), produit une politique unique de bout en bout qui gère l'intégralité de la séquence longue sans découpage explicite. Les auteurs signalent également une robustesse aux perturbations extérieures, comme des poussées appliquées au robot en cours de tâche, résultat difficile à atteindre avec des méthodes classiques. Pour les intégrateurs industriels, les variables clés à valider restent le sim-to-real et la généralisation à la diversité physique des portes réelles. La diffusion policy s'est imposée comme paradigme dominant en manipulation robotique depuis les travaux de Chi et al. (Columbia, 2023) et irrigue aujourd'hui des laboratoires académiques et des start-ups comme Physical Intelligence (Pi-0), 1X Technologies ou Covariant. Ce preprint s'inscrit dans un effort plus large vers la manipulation mobile bimanuelle, segment encore peu couvert commercialement : Boston Dynamics (Spot + bras ARM), Hello Robot (Stretch) ou Kinova opèrent principalement en manipulation unimanuelle ou sur base fixe. Aucune collaboration industrielle ni timeline de déploiement n'est mentionnée, ce qui situe ce travail résolument côté recherche fondamentale, malgré des résultats préliminaires prometteurs sur les longues séquences gestuelles.

RecherchePaper
1 source
Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique
2arXiv cs.RO 

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper
1 source
Barrières neuronales dans l'espace de configuration pour la planification et le contrôle de manipulation
3arXiv cs.RO 

Barrières neuronales dans l'espace de configuration pour la planification et le contrôle de manipulation

Des chercheurs proposent, dans un préprint arXiv (référence 2503.04929, troisième version, mars 2025), une méthode unifiée de planification de trajectoire et de contrôle sécurisé pour bras manipulateurs à haute dimensionnalité en environnement encombré et dynamique. Le coeur de l'approche repose sur l'apprentissage d'une fonction de distance en espace de configuration (CDF, Configuration-space Distance Function) via un réseau de neurones, utilisée simultanément comme outil de vérification de collision pendant la planification et comme barrière de sécurité en temps réel pendant le contrôle. Les expériences matérielles ont été réalisées sur un xArm6 d'UFactory, un manipulateur à 6 degrés de liberté vendu autour de 2 000 dollars, en conditions réelles. Le système ne s'appuie que sur des observations de nuages de points (point-cloud) embarquées, sans infrastructure de perception externe. La planification de trajectoire pour bras multi-axes en environnement non structuré repose classiquement sur des vérifications de collision nombreuses et coûteuses : chaque configuration candidate est testée contre un modèle de l'environnement. La CDF barrier réduit significativement ce nombre d'opérations en approximant localement l'espace libre en configuration. L'apport le plus concret pour les intégrateurs est ailleurs : un réseau de neurones introduit des erreurs de modélisation, et les capteurs ajoutent inévitablement du bruit. La formulation "distributivement robuste" retenue par les auteurs ne suppose aucune distribution statistique connue pour ces incertitudes, ce qui la rend applicable sans calibration préalable fine dans des scénarios industriels réels. C'est une réponse directe au fossé souvent observé entre performances en simulation et comportement effectif sur matériel, particulièrement critique pour des applications de manipulation en cellule dynamique. Ce travail s'inscrit dans une tendance accélérée à remplacer les représentations géométriques analytiques (maillages, distances signées calculées) par des représentations apprises en espace de configuration. Les Control Barrier Functions (CBFs), dont les CDF barriers constituent une extension neurale, sont issues de la théorie du contrôle formel et font l'objet d'un intérêt croissant depuis cinq ans. Parmi les approches concurrentes pour accélérer la vérification de collision : cuRobo de NVIDIA, VAMP (basé sur la décomposition convexe), ou les champs de distance signée neuronaux comme iSDF. Le choix du xArm6, bras commercial accessible et reproductible, renforce la portée pratique des résultats. L'existence d'une troisième version du préprint suggère des révisions substantielles en cours ; une soumission à ICRA ou RSS 2026 apparaît probable.

RecherchePaper
1 source
Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM
4arXiv cs.RO 

Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM

Des chercheurs ont publié en mai 2026 sur arXiv (arXiv:2605.04327) une architecture théorique visant à intégrer des règles de sécurité en langage naturel dans la navigation autonome de robots opérant en environnements extérieurs non structurés. Le principe central consiste à convertir des consignes humaines informelles en spécifications formelles de Signal Temporal Logic (STL), un formalisme mathématique permettant d'exprimer des contraintes temporelles sur le comportement d'un système. Les règles persistantes liées au terrain sont encodées dans une carte de coûts 2D, tandis que les exigences dynamiques sont surveillées en temps réel sous forme de moniteurs STL. Pour l'interprétation sémantique de la scène, les auteurs proposent l'usage de Vision-Language Models (VLMs) en mode zero-shot, c'est-à-dire sans phase d'entraînement spécifique à l'environnement opérationnel. L'intérêt de cette approche réside dans la tentative de combler deux fossés bien connus du secteur : d'une part, le gouffre entre les instructions opérateur en langage naturel et les contraintes exploitables par un planificateur formel ; d'autre part, le manque de garanties vérifiables dans les systèmes de navigation basés sur l'apprentissage. Pour les intégrateurs et les décideurs B2B actifs dans l'agriculture de précision, la construction ou la logistique extérieure, la promesse est claire : pouvoir exprimer des règles de sécurité terrain sans écrire de code ni annoter de données. Il convient cependant de noter que l'article reste entièrement théorique, les auteurs utilisant eux-mêmes le terme "hypothesize" pour qualifier l'usage des VLMs, sans présenter de résultats expérimentaux ni de validation sur robot réel. Cette publication s'inscrit dans une dynamique plus large où les VLMs sont progressivement intégrés dans des pipelines robotiques complets, comme en témoignent les travaux récents de Physical Intelligence avec Pi-0, ou de NVIDIA avec GR00T N2. L'utilisation de STL pour la navigation n'est pas nouvelle, le formalisme ayant fait ses preuves en conduite autonome et drones, mais son couplage avec des VLMs pour le grounding sémantique constitue une direction de recherche active. Plusieurs groupes, notamment en Europe (dont des équipes liées aux projets de l'ANR et d'Horizon Europe sur la navigation sûre), explorent des pistes similaires. Les prochaines étapes logiques seraient une implémentation sur simulateur puis une validation terrain, étapes absentes de ce premier article d'architecture.

UEDes équipes européennes liées à l'ANR et Horizon Europe travaillent sur des problématiques similaires de navigation sûre, ce qui ancre ce sujet dans la dynamique de recherche continentale, sans impact industriel direct à ce stade.

RecherchePaper
1 source