Aller au contenu principal
Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel
RecherchearXiv cs.RO1h

Haptic Sorter : un cadre de planification unifié pour l'estimation de forme en ligne et l'inférence de pose en temps réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (ref. 2605.31352) un framework unifié baptisé Haptic Sorter, conçu pour permettre à un robot manipulateur d'estimer la forme et la pose d'un objet inconnu en temps réel, uniquement par le toucher, sans modèle géométrique préalable. Le système repose sur trois briques techniques : l'Optimisation Bayésienne (BO) pour guider l'exploration haptique et inférer la forme de l'objet via des superellipses (courbes paramétriques capables d'approximer une large famille de géométries 2D), une formulation adaptative du potentiel de manipulation encodant la géométrie estimée pour des interactions quasi-statiques, et une Équation Différentielle Ordinaire (ODE) résolue en ligne pour mettre à jour la pose de l'objet en temps réel à partir des retours tactiles et des prédictions du modèle. Le tout a été validé sur une tâche de tri 2D, en simulation et sur un setup réel multi-bras, avec plusieurs géométries d'objets testées.

L'intérêt industriel est direct : la grande majorité des systèmes de manipulation robotique actuels supposent que la forme et la pose de l'objet sont connues a priori, ce qui rend ces systèmes fragiles dès que l'on sort du cadre structuré de la ligne de production. La perception visuelle, omniprésente dans les cellules pick-and-place contemporaines, est vulnérable aux occultations et aux incertitudes de calibration. Haptic Sorter propose une alternative ou un complément : le robot sonde activement l'objet, construit un modèle géométrique à la volée, et ajuste sa stratégie de saisie sans intervention humaine. Pour un intégrateur travaillant sur des flux logistiques avec des références variables, cette capacité d'adaptation sans reprogrammation est un argument concret.

Le domaine de la perception haptique robotique est actif mais encore fragmenté : la plupart des travaux antérieurs traitent séparément l'exploration tactile, la reconstruction de forme, et la planification de manipulation. Des groupes comme ceux de l'ETH Zurich, de l'MIT CSAIL ou du Stanford AI Lab ont développé des approches partielles, mais rarement intégrées dans un pipeline bout-en-bout opérationnel. Haptic Sorter tente cette intégration avec des outils mathématiques classiques (BO, ODE) plutôt que des réseaux de neurones, ce qui le rend plus interprétable et potentiellement plus robuste en dehors de la distribution d'entraînement. La prochaine étape naturelle serait l'extension à la manipulation 3D et l'intégration avec des capteurs de force-couple commerciaux comme ceux d'ATI ou de Robotiq.

À lire aussi

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal
1arXiv cs.RO 

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Une équipe de chercheurs propose, dans un preprint arXiv (2505.01380v2, version 2 publiée en mai 2025), un cadre de planification de trajectoires homotopiques pour essaims de robots naviguant dans des environnements à obstacles inconnus. La méthode repose sur un concept de "tube virtuel optimal" : un corridor topologique calculé de manière centralisée, dans lequel chaque robot se déplace de façon distribuée. En exploitant la programmation multiparamétrique pour approximer les trajectoires optimales par des fonctions affines, la complexité de calcul obtenue est en O(nt), où nt désigne le nombre de paramètres de trajectoire. Ce résultat permet une replanification haute fréquence sur des processeurs embarqués à ressources limitées. Les auteurs valident leur approche par simulations et expériences physiques, sans préciser les dimensions des essaims testés ni les conditions réelles de déploiement. Le verrou adressé est structurant pour la robotique en essaim : les planificateurs réactifs offrent une fréquence de replanification élevée mais convergent vers des minima locaux, tandis que les planificateurs multi-étapes réduisent les interblocages au prix d'un coût de calcul incompatible avec les plateformes embarquées. En combinant planification centralisée homotopique et contrôle distribué, le framework se positionne comme une solution hybride crédible. Si les résultats se confirment sur des essaims de plusieurs dizaines d'agents en environnement réel, les applications sont directes : exploration de zones dangereuses, logistique autonome en entrepôt, coordination de flottes d'AMR en espaces encombrés. Les intégrateurs industriels y trouveraient un algorithme de coordination à faible empreinte calculatoire. La planification d'essaims en milieu inconnu est un domaine actif depuis une décennie, avec des contributions majeures d'ETH Zurich, MIT CSAIL et CMU. Les approches par tubes homotopiques existent depuis les années 2010 dans la planification mono-robot ; leur extension aux essaims pose des problèmes de passage à l'échelle que ce travail tente de résoudre par approximation affine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : le stade actuel est celui d'une preuve de concept académique. Les étapes naturelles seraient la validation sur des essaims physiques de 20 à 50 robots et la mise à disposition du code, absente de la publication.

RecherchePaper
1 source
FUSE : un cadre unifié pour l'estimation d'état dans les systèmes SLAM robotiques
2arXiv cs.RO 

FUSE : un cadre unifié pour l'estimation d'état dans les systèmes SLAM robotiques

Une équipe de chercheurs a publié sur arXiv (référence 2605.18047) FUSE, un cadre logiciel pour l'estimation d'état unifiée dans les systèmes SLAM robotiques. Le problème adressé est structurel : les architectures SLAM à couplage serré lient dans un même bloc monolithique le traitement temporel, l'association géométrique locale, la formulation de l'estimateur et la politique de mise à jour de carte, rendant toute modification d'un composant coûteuse. FUSE propose quatre interfaces standardisées (ingestion d'observations, propagation, mise à jour, requête d'état) pour séparer ces responsabilités. L'instanciation LiDAR-IMU a été évaluée sur une séquence corridor bouclée de 418 m et produit une erreur de trajectoire de 1,626 m bout en bout, soit une réduction relative de 7,9 % par rapport à Faster-LIO, meilleure référence sur cette séquence. Le gain de 7,9 % reste modeste, mais l'intérêt principal de FUSE est architectural. Découpler proprement les choix de conception dans un pipeline SLAM permet de changer l'estimateur, adapter la cadence de mise à jour ou intégrer un nouveau type de capteur sans réarchitecturer l'ensemble du système. Pour les intégrateurs d'AMR ou les équipes de navigation industrielle, cela réduit significativement le coût de portage entre plateformes. La gestion explicite de la dégénérescence directionnelle constitue un point technique concret : en environnement corridor, le LiDAR ne perçoit pas de contraintes suffisantes dans l'axe latéral, rendant l'estimation instable. FUSE intègre un mécanisme de correction adaptatif ciblant ces directions faiblement observables, un problème rarement traité proprement dans les frameworks publics existants. Le SLAM LiDAR-IMU est un domaine très concurrentiel. Les références académiques dominantes incluent FAST-LIO2 et Faster-LIO (équipe Cai, HKUST) ainsi que LIO-SAM (Shan et al., MIT). Dans l'industrie, des fournisseurs comme Exotec (France) ou MiR intègrent des stacks de localisation dérivées de ces travaux dans leurs flottes d'AMR. FUSE ne cherche pas à battre ces systèmes sur les benchmarks de performance pure, mais à proposer une abstraction permettant de composer des composants algorithmiques de façon indépendante. Il s'agit d'une prépublication arXiv sans code public annoncé à ce stade, ce qui en fait pour l'instant une contribution académique à valider plutôt qu'un outil industriel prêt à l'emploi. La suite logique serait une mise à disposition open-source permettant de tester des instanciations alternatives, radar ou RGB-D, à travers les mêmes interfaces standardisées.

UEExotec (France) est cité comme exemple d'intégrateur AMR susceptible de bénéficier de l'abstraction architecturale proposée ; une mise à disposition open-source de FUSE réduirait le coût de portage SLAM pour les équipes de navigation industrielle européennes.

RecherchePaper
1 source
OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel
3arXiv cs.RO 

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées. Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié. Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

RecherchePaper
1 source
Estimation de pose et de forme d'objets pour la saisie : est-ce que ça fonctionne ?
4arXiv cs.RO 

Estimation de pose et de forme d'objets pour la saisie : est-ce que ça fonctionne ?

Une étude publiée en preprint sur arXiv (2605.26944, mai 2026) s'attaque à une question centrale de la manipulation robotique : les méthodes modulaires, qui estiment d'abord la pose et la forme 3D d'un objet avant de générer des préhensions par échantillonnage antipolaire, surpassent-elles les approches bout-en-bout qui synthétisent directement des poses de saisie ? Le cadre expérimental se limite aux pinces à mâchoires parallèles, aux préhensions à 7 degrés de liberté (7-DOF), et à une entrée monoculaire RGB(-D). Trois pipelines modulaires sont évalués : deux s'appuient sur des modèles encodeur-décodeur (SAM3D, LRM, CRISP), le troisième sur des modèles de reconstruction par diffusion (InstantMesh, Zero123, SceneComplete), tous capables de reconstruire des formes 3D de façon catégorie-agnostique. Ces pipelines sont comparés à une méthode bout-en-bout de référence représentant l'état de l'art. Les résultats sont sans ambiguïté : les méthodes modulaires surpassent la baseline bout-en-bout dans l'intégralité des expériences, y compris sur les petits objets où l'approche bout-en-bout échoue complètement. Ce constat remet en question l'hypothèse dominante selon laquelle les architectures bout-en-bout s'imposent naturellement en manipulation. La qualité des préhensions reste cependant conditionnée à la précision de l'estimation de pose et de forme : dans les scènes encombrées (cluttered scenes), les performances se dégradent, exposant une limite structurelle des méthodes actuelles de reconstruction 3D monoculaire. Les auteurs montrent par ailleurs que ces pipelines modulaires peuvent être augmentés avec des modèles vision-langage (VLM) pour produire des préhensions conditionnées par des instructions en langage naturel depuis une seule image RGB-D, avec des performances comparables à la baseline LERF-TOGO. Ces travaux s'inscrivent dans une dynamique plus large de reconstruction 3D open-set portée par des modèles génératifs larges. Les approches encodeur-décodeur comme SAM3D ou LRM, et les modèles par diffusion comme InstantMesh ou Zero123, ont démontré une généralisation hors-distribution qui rend la reconstruction catégorie-agnostique exploitable en robotique industrielle. Côté positionnement concurrentiel, les méthodes bout-en-bout comme GraspNet restent des références, mais ce preprint suggère qu'un paradigme modulaire combinant estimation de forme et échantillonnage géométrique peut les surpasser dès lors que la reconstruction est suffisamment précise. La robustesse en scènes encombrées reste le défi ouvert majeur pour les équipes de recherche et les intégrateurs industriels.

RecherchePaper
1 source