RecherchearXiv cs.RO3h

IA physique appliquée à la reconstruction 3D sous occlusion manuelle grâce à la proprioception et au toucher multi-contact

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs publient une méthode de reconstruction 3D d'objets saisis à la main, conçue pour reconstruire la forme complète d'un objet même lorsque la main du robot le masque en grande partie (arXiv:2604.09100v2, version révisée). Contrairement aux approches précédentes qui s'appuient uniquement sur la vision pour deviner les parties cachées, le système combine trois sources d'information : la caméra RGB pour les zones visibles, la proprioception du bras robotique pour connaître la géométrie exacte de la main posée sur l'objet, et le toucher multi-contact pour contraindre où se situe physiquement la surface de l'objet dans les zones occultées. L'objet est représenté comme un champ de distance signée (SDF) aligné caméra, encodé dans un espace latent compact via un Structure-VAE, sur lequel est entraîné un modèle de diffusion par flow-matching. L'entraînement se fait en deux temps : préapprentissage sur des images sans occlusion, puis affinage sur des scènes de manipulation avec occlusion, en intégrant des contraintes physiques qui réduisent l'interpénétration main-objet et alignent la reconstruction sur les points de contact tactile mesurés. En simulation, l'ajout de la proprioception et du toucher améliore nettement la complétion de forme sous occlusion par rapport aux méthodes vision seule, avec une échelle métrique correcte. Les auteurs valident aussi un transfert sur un robot humanoïde réel, avec un effecteur différent de celui utilisé à l'entraînement.

Pour l'industrie robotique, ce travail s'attaque à un angle mort classique de la perception manipulative : dès qu'une main saisit un objet, la caméra en perd une bonne partie de la vue, ce qui pénalise le placement de préhension, la planification de trajectoire ou la ré-estimation de pose en cours de tâche. Ajouter proprioception et toucher comme signaux de contrainte physique, plutôt que de tout faire reposer sur la vision, est une piste concrète pour fiabiliser les piles de perception des robots à mains dextres ou multi-doigts, notamment en contexte industriel où les objets manipulés sont souvent partiellement occultés par la préhension elle-même. Il faut toutefois noter que les gains rapportés restent majoritairement démontrés en simulation, la validation sur robot réel se limitant à un test de transfert et non à un déploiement en conditions de production.

Le papier s'inscrit dans la lignée des méthodes de reconstruction amodale 3D, historiquement limitées à des signaux purement visuels et donc fragiles sous occlusion sévère. En ancrant la reconstruction dans la physique du contact plutôt que dans la seule vraisemblance visuelle, l'approche se positionne comme un module de perception réutilisable en amont d'un pipeline de reconstruction en deux étages, où une étape ultérieure affine la géométrie et prédit l'apparence. Les prochaines étapes attendues concernent l'élargissement à davantage d'effecteurs et de morphologies de main, ainsi que des essais plus poussés en conditions réelles au-delà du test de transfert présenté.

Dans nos dossiers

IA physique & VLA arXiv cs.RO

À lire aussi

1arXiv cs.RO

Membrane proprioceptive hautement déformable pour la reconstruction de forme 3D en temps réel

Des chercheurs ont publié sur arXiv (identifiant 2601.13574, version 2) une membrane proprioceptive souple en silicone capable de reconstruire sa propre géométrie 3D en temps réel, sans caméra. La membrane, de format 140 mm x 140 mm, intègre des LED montées en bordure et des photodiodes réparties en son centre au sein d'un composite élastomère multicouche. Lorsque la membrane se déforme au contact d'un objet, les signaux d'intensité lumineuse captés par les photodiodes varient selon des motifs caractéristiques que décrypte un modèle entraîné par apprentissage automatique. Le système atteint un taux de mise à jour de 90 Hz en bout de chaîne, avec une erreur moyenne de reconstruction de 1,307 mm pour des déformations hors-plan allant jusqu'à 25 mm. Il tient également sur de grandes déformations dans le plan, jusqu'à 75 % d'allongement, avec une distance de Chamfer moyenne de 1,214 mm, métrique standard pour comparer deux nuages de points 3D. L'intérêt pour la robotique industrielle et les systèmes mous est direct : les approches vision (caméras RGB-D, stéréo) échouent sous faible éclairage ou en situation d'occlusion, conditions courantes en manipulation d'objets complexes, en logistique densément chargée ou en chirurgie assistée. Une membrane qui infère la forme d'une surface par contact contourne ces limitations sans exposer de composants optiques externes fragiles. L'architecture par guides d'onde optiques évite également les écueils des capteurs résistifs ou capacitifs (dérive thermique, sensibilité aux perturbations électromagnétiques) et des approches magnéto-sensitives (compatibilité limitée avec certains environnements industriels). À 90 Hz, la latence est compatible avec des boucles de contrôle en temps réel pour la préhension adaptative ou le suivi de surface en soudage ou collage. Ce travail s'inscrit dans un champ en pleine effervescence : les peaux tactiles pour robots, où les laboratoires de recherche (MIT CSAIL, Stanford HCI, ETH Zürich) et des entreprises comme GelSight (rachetée par Meta), Touchlab ou Xela Robotics cherchent à doter les effecteurs robotiques d'un sens du toucher fiable et scalable. L'approche par guide d'onde optique n'est pas nouvelle, le capteur GelSight repose sur un principe optique similaire pour la mesure de texture locale, mais son application à la reconstruction de forme globale sur membrane déformable à grande déformation (75 % de strain) constitue une avancée de portée. L'article ne mentionne pas de prototype industriel ni de partenariat de commercialisation ; il s'agit d'une publication académique, sans timeline de déploiement annoncée. Les prochaines étapes logiques incluent l'intégration sur des préhenseurs à doigts souples et la validation sur des géométries d'objets variées hors laboratoire.

RecherchePaper

1 source

2arXiv cs.RO

Fusion tactile-proprioceptive pour estimer les forces de contact dans l'interaction physique humain-robot en corps entier

Des chercheurs ont publié sur arXiv (2605.28412) un framework de fusion sensorielle tactile-proprioceptive destiné à améliorer l'interaction physique entre humains et robots. L'approche combine des capteurs de peau pneumatiques, des coussins souples disposés sur la surface du bras robotique, avec la proprioception basée sur le courant moteur, afin de reconstruire des forces de contact multi-axes en temps réel. Le point clé : les signaux tactiles servent d'indicateurs de contact binaires, permettant de contourner l'ambiguïté classique entre les résidus de frottement et les forces externes appliquées. Pour corriger la dérive due à l'hystérésis de frottement lors des transitions stick-slip (adhérence/glissement), les auteurs intègrent un réseau de convolutions temporelles (TCN). Le système est validé sur un bras robotique équipé de cette peau artificielle, dans deux scénarios : reconstruction stationnaire des forces multi-axes et enseignement cinesthésique simultané, c'est-à-dire guider le robot à la main pendant qu'il enregistre la trajectoire. Ce travail adresse un goulot d'étranglement concret dans le déploiement de robots collaboratifs : la difficulté à distinguer un contact intentionnel d'un contact perturbateur sans modéliser explicitement le frottement. La fusion tactile-proprioceptive proposée améliore la sensibilité et la réactivité par rapport aux approches uniquement tactiles ou uniquement proprioceptives, ce qui a des implications directes pour la programmation par démonstration (LfD) et les environnements de coproduction humain-robot. Le TCN est un choix pragmatique, il gère la non-linéarité dynamique sans forcer une identification de friction au préalable, ce qui réduit la complexité de mise en service pour les intégrateurs industriels. Ce type de "peau robotique" fait l'objet de recherches intensives depuis une décennie, mais les résultats ont longtemps souffert du fossé simulation-réalité et d'une fragile généralisation à la manipulation en mouvement. Des acteurs comme Wandercraft (France), qui développe des exosquelettes à interaction physique, ou des laboratoires comme le DLR et l'IIT travaillent sur des problématiques similaires. La publication reste une preuve de concept sur bras isolé, sans données de cycle time, de robustesse sur durée ni de coût de fabrication de la peau pneumatique, des paramètres déterminants avant tout transfert industriel. Les prochaines étapes naturelles seraient une validation sur robot humanoïde complet et des tests en conditions d'usine.

UEDes laboratoires européens comme le DLR et l'IIT, ainsi que Wandercraft en France pour ses exosquelettes, travaillent sur des problématiques similaires et pourraient s'appuyer sur ce framework de fusion sensorielle, mais l'impact reste indirect à ce stade de preuve de concept.

RecherchePaper

1 source

3arXiv cs.RO

Peau robotique souple magnétique à structure multi-treillis imprimée en 3D et super-résolution tactile par réseau de neurones convolutif

Des chercheurs publient sur arXiv (référence 2605.18352, mai 2026) une peau robotique souple à transduction magnétique : une structure en treillis multicouche fabriquée par frittage laser sélectif (SLS) héberge des aimants permanents et des capteurs à effet Hall distribués sur l'ensemble de la surface. Les forces de contact déplacent les aimants, modifiant localement le champ magnétique mesuré par les capteurs ; la géométrie du treillis propage ces perturbations sur l'ensemble du domaine de mesure, donnant à chaque capteur un large champ récepteur avec chevauchement et réduisant ainsi les zones aveugles. Les paramètres géométriques du treillis sont réglables, permettant d'ajuster simultanément la compliance mécanique de la peau et ses caractéristiques de transduction. Un réseau de neurones convolutif (CNN) entraîné sur mesures expérimentales estime en temps réel la localisation du contact et la force normale appliquée, avec une scalabilité annoncée vers des surfaces de grande taille. L'intérêt pour l'industrie robotique tient d'abord à la réduction du nombre de capteurs nécessaires pour couvrir une grande surface, verrou central de la peau corps entier : chaque capteur supplémentaire implique câblage, acquisition et coût. La fabrication SLS autorise des géométries conformes adaptées à des morphologies spécifiques sans moules sur mesure, ce qui accélère le prototypage pour les intégrateurs. L'entraînement du CNN sur données réelles plutôt que simulées limite le sim-to-real gap qui affecte de nombreuses approches apprises. L'article reste un preprint non évalué par les pairs, et les métriques de précision de localisation ne sont pas quantifiées dans le résumé disponible ; les performances sous charges dynamiques sur robot réel restent à démontrer. La détection tactile pour manipulateurs et humanoïdes concentre une activité de recherche soutenue, portée par l'assemblage industriel de précision et l'interaction physique humain-robot sécurisée, avec des concurrents directs comme GelSight (MIT), DIGIT (Meta AI Research) ou les peaux capacitives de type BioTac. L'approche magnétique se distingue par sa fabricabilité additive et l'absence de câblage optique. En Europe, Pollen Robotics intègre déjà des retours de force sur son plateforme Reachy, et Wandercraft travaille sur l'interaction physique pour son exosquelette Atalante, deux contextes où ce type de peau trouverait une application directe. La prochaine étape logique sera une validation sur robot physique complet avec métriques publiées sur surface standardisée.

UEPollen Robotics et Wandercraft sont identifiés comme débouchés directs potentiels pour cette technologie de peau tactile magnétique, applicable respectivement à la plateforme Reachy et à l'exosquelette Atalante, sans impliquer leur participation à cette recherche.

RecherchePaper

1 source

4arXiv cs.RO

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (référence 2606.08440) GraspFoM, un framework unifié de saisie robotique qui exploite des fondations 3D pré-entraînées, plus précisément SAM3D, pour construire une représentation latente 3D partagée entre deux tâches simultanées : la reconstruction géométrique de l'objet et la prédiction de poses de préhension. L'architecture centrale repose sur un diffuseur de raisonnement de pose tronqué à initialisation par ancres, qui génère des poses continues et multimodales sans dépendre de candidats discrets préétablis, une distinction technique importante par rapport aux pipelines classiques. GraspFoM produit en sortie à la fois des poses de saisie et des reconstructions 3D haute fidélité au format maillage polygonal et 3D Gaussian Splatting (3DGS). Les auteurs rapportent des résultats de pointe sur les benchmarks de reconstruction et de saisie, avec un surcoût en paramètres entraînables qualifié de "limité" mais sans chiffre précis publié. Ce travail adresse un verrou réel dans la manipulation robotique : la saisie sous observation partielle, c'est-à-dire quand la caméra ne voit qu'une fraction de l'objet. Les approches existantes utilisent la géométrie 3D comme étape intermédiaire jetable, sans la capitaliser comme prior réutilisable. GraspFoM rompt avec cette logique en faisant co-évoluer reconstruction et grasping dans un espace latent commun : la reconstruction ancre la géométrie, la supervision de saisie affine ce latent vers les zones de prise pertinentes. Le scorer reconstruction-aware et le residual latent updater formalisent cette rétroaction mutuelle. Pour les intégrateurs en manipulation industrielle ou logistique, cela suggère une meilleure robustesse sur des objets partiellement occultés, sans multiplication des modules ou des paramètres, ce qui est un argument d'efficacité réelle si les expériences réelles confirment les benchmarks. Les fondations 3D comme SAM3D s'inscrivent dans une vague de transferts de connaissances entre vision 2D et représentations 3D, parallèle à l'essor des VLA (Vision-Language-Action models) pour la manipulation généraliste. GraspFoM se positionne différemment des approches purement end-to-end comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA : il mise sur la reconstruction explicite plutôt que sur l'imitation à grande échelle. Les concurrents académiques proches incluent GraspNeRF, Contact-GraspNet et des travaux récents combinant diffusion et géométrie 3D. À ce stade, GraspFoM reste un preprint non validé en conditions réelles, les expériences rapportées étant réalisées sur simulateur ou bancs de test contrôlés. Aucun partenaire industriel ni déploiement pilote n'est mentionné, et aucune timeline de commercialisation n'est communiquée.

RecherchePaper

1 source