Aller au contenu principal
AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine
RecherchearXiv cs.RO3h

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (identifiant 2606.25503) un système de complétion de profondeur baptisé AISPO, destiné à améliorer la fiabilité de la perception 3D lors de la manipulation robotique d'objets à surfaces non-lambertiennes, c'est-à-dire transparents (verres, flacons, plastiques) ou fortement spéculaires (pièces métalliques polies). Ces matériaux posent un problème structurel aux capteurs RGB-D : les mesures de profondeur y sont systématiquement corrompues ou absentes, car ces surfaces ne diffusent pas la lumière infrarouge de façon prévisible. AISPO combine une fusion multi-échelle de caractéristiques RGB-D avec un prior de forme affine-invariant, qui impose une cohérence géométrique locale et corrige les défaillances de profondeur avant qu'elles ne se propagent au planificateur de mouvement et ne génèrent des poses de préhension invalides.

L'intérêt industriel est direct : les objets non-lambertiens sont omniprésents en logistique pharmaceutique, en agroalimentaire et en assemblage électronique. La plupart des méthodes de complétion de profondeur existantes sont optimisées pour la précision moyenne sur des benchmarks standardisés, sans garantir la plausibilité physique des cartes de profondeur produites, ce qui suffit pour la reconstruction 3D mais pas pour générer des trajectoires de grasping exécutables. AISPO se distingue en priorisant l'intégrité structurelle des prédictions plutôt que la métrique globale. Les expériences de préhension réelle montrent une amélioration des taux de succès sur objets transparents, bien que l'article ne quantifie pas précisément cet écart, un manque de rigueur notable pour un travail qui se positionne sur la fiabilité.

AISPO s'inscrit dans un champ de recherche actif autour de la perception d'objets difficiles à mesurer, aux côtés de travaux comme ClearGrasp (Google Research, 2019) et des jeux de données TransCG et DREDS. La contribution clé est le prior de forme affine-invariant, qui permet une généralisation à des objets et scènes non vus à l'entraînement, un enjeu central du sim-to-real gap. Aucune entreprise industrielle ni laboratoire européen n'est associé à ce travail, qui reste un préprint arXiv sans évaluation par les pairs. Les prochaines étapes naturelles seraient une intégration dans des pipelines de manipulation existants comme OpenVLA ou Pi-0 de Physical Intelligence, et une comparaison quantitative plus rigoureuse sur des benchmarks comme GraspNet-1B.

À lire aussi

Estimation de pose et de forme d'objets pour la saisie : est-ce que ça fonctionne ?
1arXiv cs.RO 

Estimation de pose et de forme d'objets pour la saisie : est-ce que ça fonctionne ?

Une étude publiée en preprint sur arXiv (2605.26944, mai 2026) s'attaque à une question centrale de la manipulation robotique : les méthodes modulaires, qui estiment d'abord la pose et la forme 3D d'un objet avant de générer des préhensions par échantillonnage antipolaire, surpassent-elles les approches bout-en-bout qui synthétisent directement des poses de saisie ? Le cadre expérimental se limite aux pinces à mâchoires parallèles, aux préhensions à 7 degrés de liberté (7-DOF), et à une entrée monoculaire RGB(-D). Trois pipelines modulaires sont évalués : deux s'appuient sur des modèles encodeur-décodeur (SAM3D, LRM, CRISP), le troisième sur des modèles de reconstruction par diffusion (InstantMesh, Zero123, SceneComplete), tous capables de reconstruire des formes 3D de façon catégorie-agnostique. Ces pipelines sont comparés à une méthode bout-en-bout de référence représentant l'état de l'art. Les résultats sont sans ambiguïté : les méthodes modulaires surpassent la baseline bout-en-bout dans l'intégralité des expériences, y compris sur les petits objets où l'approche bout-en-bout échoue complètement. Ce constat remet en question l'hypothèse dominante selon laquelle les architectures bout-en-bout s'imposent naturellement en manipulation. La qualité des préhensions reste cependant conditionnée à la précision de l'estimation de pose et de forme : dans les scènes encombrées (cluttered scenes), les performances se dégradent, exposant une limite structurelle des méthodes actuelles de reconstruction 3D monoculaire. Les auteurs montrent par ailleurs que ces pipelines modulaires peuvent être augmentés avec des modèles vision-langage (VLM) pour produire des préhensions conditionnées par des instructions en langage naturel depuis une seule image RGB-D, avec des performances comparables à la baseline LERF-TOGO. Ces travaux s'inscrivent dans une dynamique plus large de reconstruction 3D open-set portée par des modèles génératifs larges. Les approches encodeur-décodeur comme SAM3D ou LRM, et les modèles par diffusion comme InstantMesh ou Zero123, ont démontré une généralisation hors-distribution qui rend la reconstruction catégorie-agnostique exploitable en robotique industrielle. Côté positionnement concurrentiel, les méthodes bout-en-bout comme GraspNet restent des références, mais ce preprint suggère qu'un paradigme modulaire combinant estimation de forme et échantillonnage géométrique peut les surpasser dès lors que la reconstruction est suffisamment précise. La robustesse en scènes encombrées reste le défi ouvert majeur pour les équipes de recherche et les intégrateurs industriels.

RecherchePaper
1 source
AffordGen : génération de démonstrations variées pour la manipulation d'objets généralisable par correspondance d'affordances
2arXiv cs.RO 

AffordGen : génération de démonstrations variées pour la manipulation d'objets généralisable par correspondance d'affordances

Des chercheurs présentent AffordGen, un framework conçu pour résoudre l'un des goulets d'étranglement centraux de l'apprentissage par imitation en robotique : la rareté et le manque de diversité géométrique des données d'entraînement. Le système combine des modèles génératifs 3D à grande échelle avec des vision foundation models (VFMs) pour produire automatiquement de nouvelles trajectoires de manipulation. Le mécanisme repose sur la correspondance sémantique de keypoints fonctionnels (les affordances) entre des maillages 3D issus de bibliothèques volumineuses : AffordGen localise les points pertinents (prise, contact, pivot) sur un objet de référence, puis les transpose à de nouvelles géométries pour générer des démonstrations synthétiques variées. Ce dataset affordance-aware entraîne ensuite une politique visuomotrice en boucle fermée qui combine généralisation sémantique et robustesse réactive de l'apprentissage de bout en bout. Des expériences en simulation et dans le monde réel rapportent des taux de réussite élevés et, surtout, une capacité de généralisation zero-shot à des objets réellement inédits lors de l'entraînement. L'enjeu industriel est direct. Collecter manuellement des démonstrations robotiques reste coûteux, lent et difficile à diversifier sur des variantes géométriques d'objets. AffordGen génère cette diversité de façon programmatique, sans requérir de téléopération supplémentaire. La généralisation zero-shot représente un indicateur fort de viabilité en déploiement réel, car les environnements industriels exposent en permanence des objets non anticipés. Le fait que la politique reste en boucle fermée la distingue des approches open-loop souvent fragiles hors laboratoire. Ces résultats renforcent l'hypothèse que le "data gap" de la manipulation peut être partiellement comblé par génération synthétique, à condition que les affordances soient correctement modélisées, ce que les auteurs n'ont toutefois démontré que sur un périmètre de tâches restreint. AffordGen s'inscrit dans un courant de recherche visant à augmenter les données de manipulation sans démonstrations humaines massives, aux côtés de MimicGen (NVIDIA), RoboAgent ou RoboGen. La diffusion policy et ACT (Action Chunking Transformer) ont démontré la puissance de l'imitation learning conditionnée à un volume de données suffisant ; AffordGen attaque précisément ce prérequis amont. Le papier est disponible sur arXiv (arXiv:2604.10579v2, version mise à jour). Les prochaines étapes naturelles concernent la scalabilité sur des tâches de manipulation multi-étapes et l'intégration dans des stacks industrielles telles que celles de 1X Technologies, Boston Dynamics ou Apptronik, qui restent tributaires de la diversité des données pour déployer des politiques robustes hors des environnements contrôlés.

RecherchePaper
1 source
Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables
3arXiv cs.RO 

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Des chercheurs présentent Instant-Fold (arXiv:2606.04269, juin 2026), un cadre d'apprentissage par imitation en contexte appliqué à la manipulation d'objets déformables comme le textile. Le principe central : à partir d'une seule démonstration humaine, le système infère et exécute des modes de manipulation variés (pliage avec ordres et variantes spatiales différents) sans aucune mise à jour de gradients ni fine-tuning. L'approche repose sur deux composants : un encodeur visuel pré-entraîné par contrastive learning temporel pour capturer les déformations du matériau, et une politique basée sur un transformer à flow-matching conditionné sur cette démonstration. Le modèle est entraîné entièrement en simulation et revendique un transfert zero-shot vers des environnements réels, sans collecte de données supplémentaire. La manipulation d'objets déformables (DOM) est l'un des problèmes les plus persistants de la robotique de manipulation : l'état d'un tissu est de haute dimension, partiellement observable, et évolue à travers des interactions à long horizon avec des changements de topologie. La promesse d'Instant-Fold est double : une seule démonstration humaine suffit, et aucun réentraînement n'est requis pour chaque nouveau mode de pliage. Pour les intégrateurs en industrie textile ou en logistique e-commerce, l'implication est directe : déployer une nouvelle variante de pliage reviendrait à filmer une démonstration, sans pipeline de réentraînement. La revendication de transfert sim-to-real zero-shot mérite toutefois d'être lue prudemment : les vidéos disponibles sur le site du projet présentent des séquences sélectionnées, et la robustesse face à des matières de textures ou rigidités très variables n'est pas quantifiée dans l'abstract. La manipulation de tissu est un chantier actif depuis des années, longtemps dominé par des approches à base d'états denses et de planification hors ligne. L'émergence des politiques diffusion (ACT, Diffusion Policy) puis des modèles Vision-Language-Action a réorienté le domaine vers des méthodes end-to-end généralisables. Instant-Fold s'inscrit dans cette lignée, mais adopte le flow-matching (plus rapide à l'inférence que la diffusion) et mise sur l'in-context learning plutôt que le fine-tuning par démonstration, une approche encore minoritaire en robotique. Les groupes concurrents actifs sur la DOM incluent des équipes chez Google DeepMind et des labos universitaires ayant publié sur des benchmarks comme SoftGym ou ClothFunnels. La validation sur des évaluations standardisées et en conditions industrielles réelles reste la prochaine étape nécessaire avant tout pilote commercial.

RechercheOpinion
1 source
EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets
4arXiv cs.RO 

EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets

Une équipe de chercheurs a publié EffiNav, un framework de navigation robotique orientée-objet (Object Goal Navigation, ObjNav) qui fusionne perception de profondeur et modèles vision-langage pour améliorer l'efficacité des trajectoires d'exploration en environnement inconnu. La contribution, déposée en preprint sur arXiv (2606.18634) en juin 2026, évalue le système sur deux simulateurs de référence du domaine, HM3D (Habitat Matterport 3D) et OVON (Open-Vocabulary Object goal Navigation), puis le valide sur robots physiques en conditions réelles. Les auteurs l'étendent également à GOAT-BENCH, un benchmark de navigation avec mémoire augmentée, pour démontrer la généralisation du framework au-delà du protocole ObjNav standard. Sur les deux métriques habituelles du domaine, taux de succès (SR) et succès pondéré par longueur de chemin (SPL), EffiNav égale ou dépasse les baselines récentes, sans que le preprint ne communique de valeurs numériques absolues permettant une comparaison chiffrée directe. L'apport principal porte moins sur le taux de réussite brut que sur le SPL, qui pénalise les trajets inutilement longs. C'est précisément là que les approches actuelles divergent : les modèles entraînés end-to-end, y compris certains VLA (Vision-Language-Action), peinent à généraliser à de nouveaux environnements, tandis que les frameworks modulaires sans apprentissage accumulent des allers-retours redondants et revisitent des zones déjà explorées. EffiNav prétend adresser ces deux pathologies simultanément en combinant une estimation de la profondeur pour la représentation géométrique de l'espace et un modèle vision-langage pour l'interprétation sémantique. Pour les intégrateurs de robots de service ou les décideurs B2B, l'efficacité de trajectoire est directement liée au temps disponible pour les tâches secondaires, donc à la rentabilité opérationnelle d'un déploiement en entrepôt ou en environnement indoor. Le champ ObjNav s'est structuré autour de l'écosystème Habitat de Meta AI Research, qui fournit les simulateurs HM3D et OVON utilisés ici. Les approches concurrentes incluent des pipelines modulaires à cartographie explicite comme SemExp ou OpenFMNav, et des VLA appliqués à la navigation. EffiNav se positionne comme un framework hybride ne nécessitant ni encodeurs supplémentaires lourds ni réentraînement complet par domaine. Aucune timeline commerciale ni partenariat industriel n'est mentionné dans le preprint ; la prochaine étape naturelle serait une validation sur des plateformes AMR variées pour confirmer le transfert sim-to-real sur des morphologies autres que celles testées.

RecherchePaper
1 source