RecherchearXiv cs.RO1j

TAG-K : Kaczmarz glouton à moyenne de queue pour l'estimation en ligne efficace des paramètres inertiels

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs du laboratoire A2R (Agile and Adaptive Robotics Lab) ont publié sur arXiv un algorithme baptisé TAG-K (Tail-Averaged Greedy Kaczmarz), conçu pour l'estimation en ligne des paramètres inertiels de systèmes robotiques. La méthode combine deux extensions du solveur de Kaczmarz : une sélection gloutonne randomisée des lignes du système pour accélérer la convergence, et un moyennage de queue (tail averaging) pour améliorer la robustesse au bruit de mesure. Évalué sur des benchmarks synthétiques et des tâches de suivi de trajectoire sur quadrirotor, TAG-K affiche des temps de calcul 1,5 à 1,9 fois inférieurs à ceux des méthodes de référence sur CPU de classe laptop, et 4,8 à 20,7 fois inférieurs sur microcontrôleurs embarqués. L'algorithme réduit l'erreur d'estimation de 25 % et améliore les performances de suivi d'un facteur proche de 2 par rapport aux moindres carrés récursifs (RLS) et au filtre de Kalman (KF).

L'enjeu est de résoudre un compromis que les approches classiques peinent à tenir : être à la fois rapide et robuste sur matériel contraint. Pour un intégrateur ou un ingénieur travaillant sur des robots à charge variable, bras industriels, drones de livraison ou robots humanoïdes, l'estimation en ligne des paramètres inertiels est indispensable pour adapter le contrôleur en temps réel aux changements de payload, à l'usure mécanique et aux interactions imprévues. La capacité de TAG-K à atteindre ces performances sur microcontrôleurs embarqués élargit significativement le périmètre de déploiement pour les systèmes à ressources limitées. La complexité par itération reste faible, ce qui garantit une latence prévisible en boucle de contrôle, une contrainte critique pour les applications temps-réel.

Le solveur de Kaczmarz est une méthode itérative classique d'algèbre linéaire numérique, historiquement peu adoptée en estimation robotique au profit du RLS ou des filtres de Kalman. TAG-K s'inscrit dans l'effort plus large de la communauté pour adapter les algorithmes d'identification de paramètres aux contraintes embarquées. Le code source et la documentation sont accessibles sur a2r-lab.org/TAG-K/. Il convient de noter que l'article reste à ce stade un preprint (arXiv 2510.04839v2), sans validation par les pairs dans une conférence ou revue internationale. Les suites naturelles seraient une évaluation sur des plateformes plus complexes, bras articulés multi-DOF ou robots humanoïdes à haute dynamique, et une intégration dans des frameworks de contrôle adaptatif open-source existants.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Filtre de Kalman neuronal à mécanisme d'attention pour l'estimation d'état des robots à pattes

Une équipe de chercheurs a publié sur arXiv (2601.18569v2) un filtre hybride baptisé AttenNKF (Attention-Based Neural-Augmented Kalman Filter), conçu pour améliorer l'estimation d'état sur les robots à pattes. Le glissement de pied constitue la principale source d'erreur dans ces systèmes : lorsqu'un pied glisse sur une surface, la mesure cinématique viole l'hypothèse de non-glissement et injecte un biais dans l'étape de mise à jour du filtre, dégradant l'estimation de position, vitesse et orientation. La solution augmente un InEKF (Invariant Extended Kalman Filter) avec un compensateur neuronal à mécanisme d'attention, qui infère l'erreur induite par le glissement en fonction de sa sévérité et l'applique en correction post-mise-à-jour sur l'état du filtre. Ce compensateur est entraîné dans un espace latent pour réduire la sensibilité aux échelles brutes des entrées et encourager des corrections structurées, tout en préservant la récursion mathématique de l'InEKF. L'enjeu est concret pour les équipes de locomotion et les intégrateurs industriels : l'estimation d'état est la brique fondamentale du contrôle d'un robot à pattes, et une erreur non corrigée se propage dans la boucle de contrôle jusqu'à provoquer des chutes ou des trajectoires aberrantes, notamment sur sols glissants, rampes ou surfaces variables en environnement d'usine. L'approche hybride filtres classiques plus réseau de neurones léger préserve les garanties mathématiques de l'InEKF tout en ajoutant une adaptabilité aux conditions non modélisées, sans reformuler entièrement le pipeline d'estimation. Les expériences montrent des performances supérieures aux estimateurs existants sous conditions de glissement, bien que les plateformes hardware testées ne soient pas précisées dans la version publiée, ce qui limite l'évaluation comparative. L'InEKF s'est imposé comme référence pour les robots à pattes grâce à des travaux de l'Université du Michigan vers 2019-2020 sur le bipède Cassie d'Agility Robotics, exploitant son invariance aux symétries de groupe de Lie. L'augmentation par réseaux neuronaux pour corriger les non-linéarités résiduelles est une direction active chez plusieurs groupes de recherche, dont ETH Zurich sur ANYmal, MIT et Carnegie Mellon. Les déploiements réels de Spot (Boston Dynamics), Digit (Agility Robotics) et Figure 02 font tous face au problème d'estimation sous glissement en conditions industrielles, ce qui donne à cette approche une pertinence directe pour le transfert sim-to-real vers des systèmes commerciaux. La prochaine étape naturelle sera une validation embarquée sous contraintes temps-réel sur des plateformes standardisées avec benchmarks publics.

RecherchePaper

1 source

2arXiv cs.RO

Prédiction efficace de gestes iconiques tenant compte des émotions pour les robots en co-parole

Des chercheurs ont publié sur arXiv (preprint 2604.11417) un transformer léger pour prédire le placement et l'intensité des gestes iconiques synchronisés à la parole des robots, à partir du texte et de l'émotion seuls, sans audio à l'inférence. Évalué sur le jeu de données BEAT2, référence du domaine pour la génération de gestes co-parlés, le système surpasse GPT-4o en classification du placement de gestes sémantiques et en régression d'intensité, tout en restant suffisamment compact pour un déploiement temps réel sur agents incarnés. La majorité des systèmes robotiques actuels se limitent à des gestes rythmiques (beat gestures), peu porteurs de sens. Intégrer des gestes iconiques, qui illustrent ou soulignent le contenu du discours, améliore l'engagement et la compréhension de l'interlocuteur humain. Le fait qu'un transformer spécialisé et léger surpasse GPT-4o sur cette tâche précise confirme que des architectures ciblées peuvent rivaliser avec de grands modèles généralistes en interaction homme-robot (HRI), à fraction du coût computationnel. L'absence d'audio à l'inférence simplifie également le pipeline de déploiement sur plateformes sans microphone embarqué ou soumises à des contraintes de latence strictes. La génération de gestes co-parlés est un axe actif en HRI, structuré depuis quelques années par des benchmarks communs dont BEAT2. Ce travail s'inscrit dans une tendance plus large d'allégement des modèles pour agents embarqués, des robots de service aux humanoïdes sociaux. Des plateformes comme Pepper (SoftBank) ou les projets de robotique sociale développés en Europe constituent des cibles naturelles pour ce type de module. Le preprint ne mentionne ni partenariat industriel ni validation hors laboratoire, ce qui reste à confirmer avant tout déploiement opérationnel.

UELes plateformes de robotique sociale européennes comme Pepper (SoftBank Robotics, héritière d'Aldebaran) sont citées comme cibles naturelles pour ce module, mais aucun partenariat ni validation hors laboratoire n'est confirmé.

RecherchePaper

1 source

3arXiv cs.RO

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Des chercheurs ont proposé sur arXiv (arXiv:2605.01544, mai 2026) une métrique automatisée pour évaluer la qualité des démonstrations en apprentissage par imitation (IL), fondée sur la densité spectrale de puissance (PSD) des trajectoires enregistrées. Une PSD faible signale une trajectoire lisse et exploitable ; une PSD élevée indique oscillations, corrections abruptes et mouvements erratiques qui dégradent les politiques apprises. Contrairement aux méthodes existantes, la métrique ne requiert ni rollout de politique, ni interaction avec l'environnement, ni étiquetage expert. Elle a été évaluée sur deux benchmarks IL et via une étude terrain avec des résidents âgés d'un établissement de retraite, dont les démonstrations ont servi à affiner π0.5 de Physical Intelligence pour une tâche de vie quotidienne. Les politiques issues des données filtrées par PSD surpassent les baselines non filtrées et deux méthodes concurrentes en taux de succès et en fluidité d'exécution. Le déploiement réel de robots guidés par imitation bute sur les scénarios hors distribution (OOD), aggravés par la faible qualité des démonstrations d'utilisateurs finaux. Les approches existantes de curation automatisée exigeaient des rollouts en environnement, coûteux et impraticables à grande échelle. La métrique PSD supprime ce verrou : applicable avant tout entraînement, elle filtre les démonstrations directement au moment de la collecte terrain. Pour les intégrateurs de robots manipulateurs en environnements non contrôlés, cela réduit concrètement le coût de mise en qualité des données sans ressources RL dédiées. Le travail s'inscrit dans l'essor des VLA (Vision-Language-Action models), où π0.5 de Physical Intelligence figure parmi les modèles de fondation robotique disponibles pour le fine-tuning, mais le défi du "demo-to-reality gap" reste l'un des freins majeurs au passage à l'échelle de l'IL. En ciblant des utilisateurs âgés peu habitués au guidage de robots, l'étude ouvre une piste vers la robotique d'assistance, segment où des acteurs comme Enchanted Tools en France cherchent à s'implanter. La prochaine étape logique serait l'intégration de cette métrique dans des pipelines de collecte en production, couplée à des retours temps réel pour guider les utilisateurs vers de meilleures démonstrations dès la capture.

UELa métrique PSD pourrait réduire le coût de curation de données pour des acteurs européens comme Enchanted Tools (France), actifs en robotique d'assistance, en supprimant le besoin de rollouts environnementaux coûteux lors du fine-tuning de modèles VLA.

RechercheOpinion

1 source

4arXiv cs.RO

Panorama des représentations de mémoire spatiale pour la navigation robotique efficace

Une étude publiée sur arXiv (2604.16482) recense 88 travaux couvrant 52 systèmes de navigation robotique entre 1989 et 2025, des grilles d'occupation classiques jusqu'aux représentations neurales implicites. Le problème central : à mesure qu'un robot explore de grands espaces, sa mémoire spatiale croît sans borne, épuisant les ressources des plateformes embarquées typiques (8 à 16 Go de mémoire partagée, moins de 30 W de consommation). Les auteurs introduisent un coefficient α, défini comme le rapport entre la mémoire RAM ou GPU consommée en opération (Mpeak) et la taille de la carte sauvegardée sur disque (Mmap). Un profilage indépendant sur GPU NVIDIA A100 révèle que α varie de deux ordres de grandeur selon les méthodes neurales seules : Point-SLAM affiche α = 2,3, tandis que NICE-SLAM atteint α = 215, sa carte de 47 Mo réclamant 10 Go à l'exécution. Les méthodes 3DGS (Gaussian Splatting 3D) obtiennent la meilleure précision absolue pour des cartes de 90 à 254 Mo sur le benchmark Replica, et les graphes de scènes offrent une abstraction sémantique à coût prévisible. Ce résultat remet en cause une hypothèse courante dans la communauté SLAM : la taille de la carte publiée dans un papier n'est pas un indicateur fiable de la faisabilité réelle sur matériel cible. Un système qui semble léger au sens du checkpoint disque peut exiger des ressources mémoire prohibitives au runtime, rendant son déploiement impossible sur une unité de calcul edge standard. L'absence de métrique unifiée sur la consommation mémoire dynamique explique en partie pourquoi des méthodes prometteuses en laboratoire peinent à franchir le seuil de la mise en production industrielle, notamment sur les robots mobiles autonomes (AMR) ou les manipulateurs avec vision embarquée. L'étude propose un protocole standardisé articulé autour du taux de croissance mémoire, de la latence de requête, des courbes mémoire-complétude et de la dégradation du débit, quatre indicateurs absents des benchmarks actuels. Le champ de la mémoire spatiale pour la navigation autonome a connu une accélération avec l'arrivée des représentations neurales implicites (NeRF, 3DGS) autour de 2020-2022, qui ont amélioré la qualité de reconstruction mais ignoré la contrainte mémoire runtime. Des acteurs comme iSLAM, Point-SLAM ou NICE-SLAM ont publié des cartes compactes sans fournir de mesures de consommation dynamique, créant un angle mort dans l'évaluation comparative. Sur le plan concurrentiel, les intégrateurs industriels qui évaluent des solutions SLAM pour des environnements larges (entrepôts, usines) devront désormais exiger le coefficient α comme critère de qualification, en plus du RMSE de localisation. La prochaine étape logique annoncée par les auteurs est un algorithme de budgétisation α-aware permettant d'évaluer la faisabilité de déploiement sur hardware cible avant toute implémentation, un outil directement actionnable pour les équipes d'intégration.

RecherchePaper

1 source