RecherchearXiv cs.RO 1 juin 2026

Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (ref. 2605.31352) un framework unifié baptisé Haptic Sorter, conçu pour permettre à un robot manipulateur d'estimer la forme et la pose d'un objet inconnu en temps réel, uniquement par le toucher, sans modèle géométrique préalable. Le système repose sur trois briques techniques : l'Optimisation Bayésienne (BO) pour guider l'exploration haptique et inférer la forme de l'objet via des superellipses (courbes paramétriques capables d'approximer une large famille de géométries 2D), une formulation adaptative du potentiel de manipulation encodant la géométrie estimée pour des interactions quasi-statiques, et une Équation Différentielle Ordinaire (ODE) résolue en ligne pour mettre à jour la pose de l'objet en temps réel à partir des retours tactiles et des prédictions du modèle. Le tout a été validé sur une tâche de tri 2D, en simulation et sur un setup réel multi-bras, avec plusieurs géométries d'objets testées.

L'intérêt industriel est direct : la grande majorité des systèmes de manipulation robotique actuels supposent que la forme et la pose de l'objet sont connues a priori, ce qui rend ces systèmes fragiles dès que l'on sort du cadre structuré de la ligne de production. La perception visuelle, omniprésente dans les cellules pick-and-place contemporaines, est vulnérable aux occultations et aux incertitudes de calibration. Haptic Sorter propose une alternative ou un complément : le robot sonde activement l'objet, construit un modèle géométrique à la volée, et ajuste sa stratégie de saisie sans intervention humaine. Pour un intégrateur travaillant sur des flux logistiques avec des références variables, cette capacité d'adaptation sans reprogrammation est un argument concret.

Le domaine de la perception haptique robotique est actif mais encore fragmenté : la plupart des travaux antérieurs traitent séparément l'exploration tactile, la reconstruction de forme, et la planification de manipulation. Des groupes comme ceux de l'ETH Zurich, de l'MIT CSAIL ou du Stanford AI Lab ont développé des approches partielles, mais rarement intégrées dans un pipeline bout-en-bout opérationnel. Haptic Sorter tente cette intégration avec des outils mathématiques classiques (BO, ODE) plutôt que des réseaux de neurones, ce qui le rend plus interprétable et potentiellement plus robuste en dehors de la distribution d'entraînement. La prochaine étape naturelle serait l'extension à la manipulation 3D et l'intégration avec des capteurs de force-couple commerciaux comme ceux d'ATI ou de Robotiq.

Dans nos dossiers

Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Une équipe de chercheurs propose, dans un preprint arXiv (2505.01380v2, version 2 publiée en mai 2025), un cadre de planification de trajectoires homotopiques pour essaims de robots naviguant dans des environnements à obstacles inconnus. La méthode repose sur un concept de "tube virtuel optimal" : un corridor topologique calculé de manière centralisée, dans lequel chaque robot se déplace de façon distribuée. En exploitant la programmation multiparamétrique pour approximer les trajectoires optimales par des fonctions affines, la complexité de calcul obtenue est en O(nt), où nt désigne le nombre de paramètres de trajectoire. Ce résultat permet une replanification haute fréquence sur des processeurs embarqués à ressources limitées. Les auteurs valident leur approche par simulations et expériences physiques, sans préciser les dimensions des essaims testés ni les conditions réelles de déploiement. Le verrou adressé est structurant pour la robotique en essaim : les planificateurs réactifs offrent une fréquence de replanification élevée mais convergent vers des minima locaux, tandis que les planificateurs multi-étapes réduisent les interblocages au prix d'un coût de calcul incompatible avec les plateformes embarquées. En combinant planification centralisée homotopique et contrôle distribué, le framework se positionne comme une solution hybride crédible. Si les résultats se confirment sur des essaims de plusieurs dizaines d'agents en environnement réel, les applications sont directes : exploration de zones dangereuses, logistique autonome en entrepôt, coordination de flottes d'AMR en espaces encombrés. Les intégrateurs industriels y trouveraient un algorithme de coordination à faible empreinte calculatoire. La planification d'essaims en milieu inconnu est un domaine actif depuis une décennie, avec des contributions majeures d'ETH Zurich, MIT CSAIL et CMU. Les approches par tubes homotopiques existent depuis les années 2010 dans la planification mono-robot ; leur extension aux essaims pose des problèmes de passage à l'échelle que ce travail tente de résoudre par approximation affine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : le stade actuel est celui d'une preuve de concept académique. Les étapes naturelles seraient la validation sur des essaims physiques de 20 à 50 robots et la mise à disposition du code, absente de la publication.

RecherchePaper

1 source

2arXiv cs.RO

FUSE : un cadre unifié pour l'estimation d'état dans les systèmes SLAM robotiques

Une équipe de chercheurs a publié sur arXiv (référence 2605.18047) FUSE, un cadre logiciel pour l'estimation d'état unifiée dans les systèmes SLAM robotiques. Le problème adressé est structurel : les architectures SLAM à couplage serré lient dans un même bloc monolithique le traitement temporel, l'association géométrique locale, la formulation de l'estimateur et la politique de mise à jour de carte, rendant toute modification d'un composant coûteuse. FUSE propose quatre interfaces standardisées (ingestion d'observations, propagation, mise à jour, requête d'état) pour séparer ces responsabilités. L'instanciation LiDAR-IMU a été évaluée sur une séquence corridor bouclée de 418 m et produit une erreur de trajectoire de 1,626 m bout en bout, soit une réduction relative de 7,9 % par rapport à Faster-LIO, meilleure référence sur cette séquence. Le gain de 7,9 % reste modeste, mais l'intérêt principal de FUSE est architectural. Découpler proprement les choix de conception dans un pipeline SLAM permet de changer l'estimateur, adapter la cadence de mise à jour ou intégrer un nouveau type de capteur sans réarchitecturer l'ensemble du système. Pour les intégrateurs d'AMR ou les équipes de navigation industrielle, cela réduit significativement le coût de portage entre plateformes. La gestion explicite de la dégénérescence directionnelle constitue un point technique concret : en environnement corridor, le LiDAR ne perçoit pas de contraintes suffisantes dans l'axe latéral, rendant l'estimation instable. FUSE intègre un mécanisme de correction adaptatif ciblant ces directions faiblement observables, un problème rarement traité proprement dans les frameworks publics existants. Le SLAM LiDAR-IMU est un domaine très concurrentiel. Les références académiques dominantes incluent FAST-LIO2 et Faster-LIO (équipe Cai, HKUST) ainsi que LIO-SAM (Shan et al., MIT). Dans l'industrie, des fournisseurs comme Exotec (France) ou MiR intègrent des stacks de localisation dérivées de ces travaux dans leurs flottes d'AMR. FUSE ne cherche pas à battre ces systèmes sur les benchmarks de performance pure, mais à proposer une abstraction permettant de composer des composants algorithmiques de façon indépendante. Il s'agit d'une prépublication arXiv sans code public annoncé à ce stade, ce qui en fait pour l'instant une contribution académique à valider plutôt qu'un outil industriel prêt à l'emploi. La suite logique serait une mise à disposition open-source permettant de tester des instanciations alternatives, radar ou RGB-D, à travers les mêmes interfaces standardisées.

UEExotec (France) est cité comme exemple d'intégrateur AMR susceptible de bénéficier de l'abstraction architecturale proposée ; une mise à disposition open-source de FUSE réduirait le coût de portage SLAM pour les équipes de navigation industrielle européennes.

RecherchePaper

1 source

3arXiv cs.RO

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées. Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié. Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

RecherchePaper

1 source

4arXiv cs.RO

PIER-Flow : un flux rectifié efficace et informé par la physique pour la navigation en temps réel des robots mobiles

Des chercheurs présentent PIER-Flow (Physics-Informed Efficient Rectified Flow), une politique de navigation légère pour robots mobiles, décrite dans un preprint arXiv publié le 14 juillet 2026 (arXiv:2607.10288v1). La méthode distille un expert MPC (Model Predictive Control) dans une équation différentielle ordinaire à temps continu, ce qui permet de générer une action en une seule étape grâce à un échantillonnage latent parallèle et une sélection de faisabilité allégée. Un objectif d'entraînement intégrant la physique impose la cohérence cinématique du robot, couplé à une architecture de "chunking" d'actions asynchrone pensée pour le transfert simulation vers réel. En simulation, PIER-Flow atteint un taux de réussite de 98,85% sans aucune collision, avec un temps d'inférence moyen d'environ 1,29 ms, soit une planification 37,2 fois plus rapide que le MPC classique et plus de 800 fois plus rapide que les modèles de diffusion standards. Déployé sur un calculateur embarqué à ressources limitées, le système conserve une latence d'inférence stable d'environ 5,3 ms. Ces chiffres, s'ils se confirment au-delà du cadre expérimental, répondent à une tension centrale de la navigation robotique autonome: les méthodes d'optimisation comme le MPC gèrent explicitement les contraintes de sécurité et de cinématique mais souffrent d'une optimisation non linéaire répétée coûteuse en temps réel, tandis que les politiques de clonage comportemental déterministes sont rapides mais peinent à représenter des comportements d'évitement multimodaux, et les politiques de diffusion capturent cette multimodalité au prix d'un débruitage itératif lent. En combinant la rapidité d'inférence d'un modèle distillé avec la robustesse théorique d'un expert MPC, PIER-Flow illustre une piste concrète pour rapprocher performance temps réel et sécurité formelle chez les robots mobiles évoluant en environnements denses et dynamiques, un enjeu direct pour les intégrateurs d'AMR (robots mobiles autonomes) en entrepôt ou en usine où les pics de latence et les gels de planification restent un point de friction opérationnel majeur. L'approche s'inscrit dans une lignée de travaux cherchant à accélérer les politiques génératives pour la robotique, où les modèles de diffusion classiques, malgré leur expressivité, imposent un coût d'inférence incompatible avec le contrôle temps réel embarqué. Le recours au "rectified flow" comme alternative plus rapide au débruitage itératif fait écho à des développements récents dans la littérature sur les modèles génératifs accélérés. Aucun acteur industriel n'est nommé dans ce travail, qui reste à ce stade une contribution académique validée uniquement en simulation et sur un déploiement limité en conditions réelles sur matériel edge; les auteurs ne précisent pas de calendrier de transfert vers des plateformes robotiques commerciales ni de comparaison directe avec des politiques VLA (Vision-Language-Action) comme Pi-0 ou GR00T N2, ce qui invite à la prudence sur la portée exacte des gains annoncés hors du cadre testé.

RecherchePaper

1 source