SE3Kit : une bibliothèque Python légère pour les primit…

LiPS : segmentation panoptique légère pour la robotique aux ressources limitées

37

1arXiv cs.RO

LiPS : segmentation panoptique légère pour la robotique aux ressources limitées

Une équipe de recherche publie sur arXiv (identifiant 2604.00634, version révisée) LiPS, une architecture de segmentation panoptique conçue spécifiquement pour les plateformes robotiques embarquées à ressources limitées. La segmentation panoptique est une tâche de perception qui combine la segmentation sémantique (classifier chaque pixel selon sa catégorie) et la segmentation d'instances (distinguer chaque objet individuel), offrant ainsi une compréhension unifiée de la scène. LiPS conserve l'approche par décodeur à requêtes (query-based decoding), héritée des architectures transformeurs comme Mask2Former, mais introduit un pipeline allégé d'extraction et de fusion de features. Sur les benchmarks standards, LiPS atteint un débit jusqu'à 4,5 fois supérieur en images par seconde et nécessite 6,8 fois moins d'opérations de calcul que les modèles lourds de référence, avec une précision comparable. L'enjeu est réel pour les intégrateurs en robotique mobile. Les modèles d'état de l'art en perception (Mask2Former, OneFormer, Panoptic-DeepLab) atteignent des performances élevées sur des GPU de datacenter, mais leur déploiement sur des plateformes AMR, des robots d'inspection ou des bras collaboratifs équipés de GPU embarqués modestes (Jetson Orin, Hailo, NPU intégrés) reste bloqué par la bande passante mémoire et la latence d'inférence. Un facteur 4,5x sur le débit signifie concrètement la différence entre un pipeline temps réel à 30 FPS et un pipeline batch inutilisable en navigation autonome. Il convient toutefois de souligner que les benchmarks cités ne précisent pas le matériel cible exact ni les conditions d'évaluation, ce qui limite la comparabilité directe avec des contraintes industrielles spécifiques. La segmentation panoptique légère s'inscrit dans une tendance de fond : après l'explosion des grands modèles de vision (SAM, DINOv2, GroundedSAM), la communauté cherche à distiller ces capacités vers l'edge. Des travaux concurrents comme EfficientPS ou RT-DETRv2 adaptés à la segmentation visent des compromis similaires. LiPS se distingue par le maintien du décodeur à requêtes, généralement sacrifié dans les approches légères au profit de têtes plus simples. Aucun partenariat industriel ni déploiement pilote n'est mentionné dans l'article, qui reste pour l'instant une contribution académique sans timeline commerciale annoncée.

UEContribution académique sans lien direct France/UE ; les intégrateurs européens de robots mobiles (AMR, inspection) pourraient en bénéficier si le code est publié, mais aucun déploiement ni partenariat européen n'est annoncé.

RecherchePaper

1 source

Formulation géométrique du contrôle unifié force-impédance sur SE(3) pour les manipulateurs robotiques

39

2arXiv cs.RO

Formulation géométrique du contrôle unifié force-impédance sur SE(3) pour les manipulateurs robotiques

Des chercheurs ont soumis sur arXiv (identifiant 2504.17080, troisième révision) un cadre de contrôle baptisé GUFIC (Geometric Unified Force-Impedance Control), qui fusionne deux méthodes existantes, le contrôle d'impédance unifié par la force (UFIC) et le contrôle d'impédance géométrique (GIC), en les étendant au manifold SE(3), le groupe spécial euclidien décrivant l'ensemble des mouvements rigides à 6 degrés de liberté (translation et rotation). L'objectif est de permettre à un bras manipulateur de suivre simultanément une trajectoire complète dans l'espace et d'exercer une force précise sur une surface de contact, tout en garantissant la passivité du système grâce à l'augmentation par réservoir d'énergie (energy tank augmentation). La validation a été conduite uniquement en simulation, via le simulateur MuJoCo, sur des scénarios combinant suivi de trajectoire SE(3) et application de force ; le code est disponible en open source sur GitHub. L'enjeu central est de formuler le contrôle de contact sur la géométrie exacte du mouvement rigide plutôt que dans l'espace cartésien linéarisé, ce qui élimine des approximations qui dégradent les performances lors de rotations importantes. La garantie de passivité est directement pertinente pour les intégrateurs industriels : elle assure que le robot ne peut pas injecter d'énergie de façon incontrôlée en contact avec un environnement incertain, limitant les risques de dommages matériels ou humains. Le papier résout également un problème d'implémentation non-causale du UFIC original en introduisant des champs de vitesse et de force, rendant le contrôleur réellement déployable en temps réel. Les propriétés d'invariance et d'équivariance SE(3) héritées par le GUFIC améliorent par ailleurs l'efficacité d'échantillonnage des algorithmes d'apprentissage embarqués dans la loi de contrôle, un avantage non négligeable à mesure que les pipelines VLA (vision-language-action) s'intègrent aux contrôleurs bas niveau. Le GUFIC s'appuie sur deux lignées de travaux : le UFIC (Schindlbeck et Haddadin, 2015), référence établie pour le contrôle force-impédance, et le GIC développé précédemment par les mêmes auteurs pour appliquer la géométrie différentielle à l'impédance pure. Cette contribution s'inscrit dans la compétition entre approches géométriques et formulations classiques en espace opérationnel (Khatib) ou contrôle d'admittance. La validation hardware sur un manipulateur physique reste absente de ce papier, ce qui constitue la frontière habituelle entre contribution théorique et impact industriel tangible ; la disponibilité du code en open source facilitera néanmoins la reproduction et le portage vers des plateformes réelles par d'autres équipes de recherche.

UELe code open source peut être exploité par les laboratoires et intégrateurs robotiques européens travaillant sur la manipulation en contact, mais l'article ne mentionne aucun acteur FR/EU spécifique et la validation hardware reste absente.

RecherchePaper

1 source

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

42

3arXiv cs.RO

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

Des chercheurs de Stanford (TML, Tamara Manipulation Lab) ont publié sur arXiv (arXiv:2605.21811) un cadre mathématique baptisé SafePBDS (Safe Pullback Bundle Dynamical Systems) destiné à la manipulation dextre robotique. Le système opère sur des espaces géométriques hétérogènes simultanément : une configuration en R^7 pour le bras, des poses d'effecteur en SE(3), et des marges d'évitement d'obstacles en R. Validé sur une plateforme Franka Panda avec main Allegro à 23 degrés de liberté, SafePBDS atteint 92,5 % de succès sur 120 essais de saisie couvrant 20 objets du quotidien. Une interface d'action permet en outre d'exclure n'importe quel doigt de la préhension via une action unidimensionnelle, avec 94,4 % de succès en saisie à trois doigts sur 36 essais. Plus significatif encore : les auteurs revendiquent la première réorientation in-hand palm-down entièrement actionnée et basée sur un modèle, atteignant plus de 360° de rotation en lacet dans les deux sens, sous différents poids d'objet et mouvements de poignet. La contribution centrale de SafePBDS est double. D'abord, une construction de "pullback control barrier function" qui convertit les conditions de sécurité définies sur n'importe quelle variété tâche en contraintes linéaires sur les accélérations en espace de configuration, ce qui permet des garanties de sécurité certifiables, pas seulement empiriques. Ensuite, une interface d'action qui laisse une politique de haut niveau (un VLA, un planificateur, un opérateur humain) injecter des résidus de mouvement de faible dimension, sans jamais violer les contraintes de sécurité. Entrée nulle = comportement autonome préservé. Ce découplage entre planification stratégique et contrôle précis répond à un problème récurrent des architectures VLA : la difficulté à garantir formellement la sécurité physique lors de la phase d'exploration en monde réel. Le travail s'inscrit dans une tradition de dynamical systems pour la manipulation, prolongeant des approches comme les DS-based motion policies de l'EPFL et les travaux de Riemannian motion policies (RMP). Les concurrents directs incluent les méthodes d'apprentissage par imitation avec contraintes CBF (type Berkeley Humanoid, Physical Intelligence pi0) et les architectures modèle-libre qui sacrifient les garanties formelles à la généralisation. SafePBDS reste pour l'instant un résultat de laboratoire sur preprint non relu par les pairs, validé en simulation et sur banc de test mono-robot. Les prochaines étapes annoncées pointent vers l'intégration avec des politiques d'apprentissage de haut niveau et la généralisation à d'autres morphologies de mains.

RecherchePaper

1 source

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

35

4arXiv cs.RO

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion

1 source

SE3Kit : une bibliothèque Python légère pour les primitives géométriques spécialisées en robotique

À lire aussi

LiPS : segmentation panoptique légère pour la robotique aux ressources limitées

Formulation géométrique du contrôle unifié force-impédance sur SE(3) pour les manipulateurs robotiques

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable