LeHome : un environnement de simulation pour la…

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

38

1arXiv cs.RO

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Des chercheurs présentent Instant-Fold (arXiv:2606.04269, juin 2026), un cadre d'apprentissage par imitation en contexte appliqué à la manipulation d'objets déformables comme le textile. Le principe central : à partir d'une seule démonstration humaine, le système infère et exécute des modes de manipulation variés (pliage avec ordres et variantes spatiales différents) sans aucune mise à jour de gradients ni fine-tuning. L'approche repose sur deux composants : un encodeur visuel pré-entraîné par contrastive learning temporel pour capturer les déformations du matériau, et une politique basée sur un transformer à flow-matching conditionné sur cette démonstration. Le modèle est entraîné entièrement en simulation et revendique un transfert zero-shot vers des environnements réels, sans collecte de données supplémentaire. La manipulation d'objets déformables (DOM) est l'un des problèmes les plus persistants de la robotique de manipulation : l'état d'un tissu est de haute dimension, partiellement observable, et évolue à travers des interactions à long horizon avec des changements de topologie. La promesse d'Instant-Fold est double : une seule démonstration humaine suffit, et aucun réentraînement n'est requis pour chaque nouveau mode de pliage. Pour les intégrateurs en industrie textile ou en logistique e-commerce, l'implication est directe : déployer une nouvelle variante de pliage reviendrait à filmer une démonstration, sans pipeline de réentraînement. La revendication de transfert sim-to-real zero-shot mérite toutefois d'être lue prudemment : les vidéos disponibles sur le site du projet présentent des séquences sélectionnées, et la robustesse face à des matières de textures ou rigidités très variables n'est pas quantifiée dans l'abstract. La manipulation de tissu est un chantier actif depuis des années, longtemps dominé par des approches à base d'états denses et de planification hors ligne. L'émergence des politiques diffusion (ACT, Diffusion Policy) puis des modèles Vision-Language-Action a réorienté le domaine vers des méthodes end-to-end généralisables. Instant-Fold s'inscrit dans cette lignée, mais adopte le flow-matching (plus rapide à l'inférence que la diffusion) et mise sur l'in-context learning plutôt que le fine-tuning par démonstration, une approche encore minoritaire en robotique. Les groupes concurrents actifs sur la DOM incluent des équipes chez Google DeepMind et des labos universitaires ayant publié sur des benchmarks comme SoftGym ou ClothFunnels. La validation sur des évaluations standardisées et en conditions industrielles réelles reste la prochaine étape nécessaire avant tout pilote commercial.

RechercheOpinion

1 source

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

46

2arXiv cs.RO

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.15814) un framework d'étalonnage main-oeil continu (continual hand-eye calibration) destiné aux robots manipulateurs déployés dans des environnements ouverts et changeants. Le problème adressé est précis : les modèles de calibration basés sur le deep learning perdent leur précision sur les scènes précédemment apprises dès qu'ils s'adaptent à un nouvel environnement, un phénomène connu sous le nom d'oubli catastrophique (catastrophic forgetting). Le framework proposé repose sur deux composants distincts. Le premier, SARS (Spatial-Aware Replay Strategy), construit un buffer de rejeu géométriquement uniforme qui couvre l'espace de poses de chaque scène sans redondance, en sélectionnant les points de vue les plus informatifs plutôt que les frames adjacentes. Le second, SPDD (Structure-Preserving Dual Distillation), décompose la connaissance de localisation en deux niveaux, la structure grossière de la scène et la précision fine de pose, puis applique une distillation séparée pour préserver les deux dimensions lors des adaptations successives. Les expériences sur plusieurs datasets publics confirment que le modèle maintient la précision sur les scènes passées tout en s'adaptant aux nouvelles. L'enjeu industriel est réel : un bras manipulateur recalibré pour une nouvelle cellule de production ne devrait pas perdre sa précision sur les postes précédents. C'est le problème quotidien des intégrateurs qui déploient des robots dans des lignes flexibles ou multi-produits. La plupart des approches actuelles imposent soit un recalibrage complet à chaque changement de scène, soit acceptent une dégradation progressive des performances sur les configurations antérieures. Ce travail propose une voie intermédiaire via l'apprentissage continu structuré, sans recourir à un replay naïf qui ne suffit pas à enrayer l'oubli. L'approche par distillation duale est notamment pertinente car elle distingue deux types d'erreur, positionnement global et précision locale, ce que les méthodes monolithiques ne font pas. Ce travail s'inscrit dans un champ de recherche en forte activité depuis 2022, où la robustesse de la calibration visuelle en conditions réelles est identifiée comme l'un des goulots d'étranglement pour le passage à l'échelle des manipulateurs autonomes. La localisation visuelle pour la calibration main-oeil emprunte aux techniques de Visual Place Recognition (VPR) et de relocalisation utilisées en navigation mobile, mais les contraintes de précision sous-millimétrique propres à la manipulation y ajoutent une difficulté spécifique. Parmi les acteurs qui travaillent sur des problèmes adjacents figurent des équipes comme Physical Intelligence (pi) avec Pi-0, ou des laboratoires comme le Stanford AI Lab et ETH Zurich sur la sim-to-real calibration. En France, des acteurs comme Enchanted Tools et Pollen Robotics, qui développent des plateformes d'interaction physique, sont directement concernés par ce type de verrou. La prochaine étape naturelle pour ce framework serait une validation sur des données industrielles réelles et une intégration dans des pipelines de déploiement multi-cellules, que les auteurs n'ont pas encore annoncée.

UEEnchanted Tools et Pollen Robotics, qui développent des plateformes de manipulation physique en France, sont directement concernés par ce verrou de calibration continue, susceptible de réduire les coûts de redéploiement en production flexible.

RecherchePaper

1 source

Stratégies de préhension pratiques pour la manipulation mobile en environnement réel

46

3arXiv cs.RO

Stratégies de préhension pratiques pour la manipulation mobile en environnement réel

Des chercheurs ont publié en avril 2025 sur arXiv (référence 2504.12512) une étude de terrain portant sur SHOPPER, une plateforme de manipulation mobile conçue pour évaluer des stratégies de préhension dans un supermarché réel. L'environnement choisi n'est pas anodin : un magasin d'alimentation impose une diversité extrême d'objets (formes irrégulières, emballages souples, produits réfléchissants), de configurations d'étagères et de layouts changeants. L'équipe a conduit des centaines de tentatives de saisie distinctes et documente en détail les modes de défaillance observés, sans annoncer de taux de réussite global, ce qui tranche avec la communication habituelle du secteur. Ce travail apporte une valeur rare dans la littérature robotique actuelle : une analyse honnête des échecs en conditions non structurées réelles, plutôt qu'une démonstration soigneusement sélectionnée en laboratoire. Le fossé demo-to-reality reste le principal obstacle au déploiement commercial des manipulateurs mobiles, et les auteurs cherchent précisément à le cartographier. Pour un intégrateur ou un décideur industriel, ce type d'inventaire des cas limites est plus exploitable qu'un benchmark contrôlé : il permet de calibrer les attentes sur ce que les pipelines VLA (Vision-Language-Action) et les approches de grasp planning généraliste peuvent réellement délivrer aujourd'hui hors laboratoire. La recherche en manipulation mobile s'est intensifiée ces deux dernières années, portée par des acteurs comme Apptronik, Agility Robotics (Digit) ou Boston Dynamics (Spot avec bras), mais aussi par des startups spécialisées dans le picking retail comme Symbotic ou des robots de supermarché tels que ceux de Focal Systems. Les approches fondées sur l'apprentissage end-to-end (pi0 de Physical Intelligence, RT-2 de Google DeepMind) promettent une généralisation, mais leur robustesse en environnement chaotique reste peu documentée de façon indépendante. SHOPPER s'inscrit dans une démarche de recherche ouverte visant à fournir à la communauté robotique un référentiel de problèmes concrets non résolus, ce qui suggère des publications de suivi et potentiellement un benchmark partagé.

RecherchePaper

1 source

Context-aware : estimation de force pour la manipulation d'outils déformables lors du prélèvement environnemental robotisé par adaptation continue à faible échantillonnage

36

4arXiv cs.RO

Context-aware : estimation de force pour la manipulation d'outils déformables lors du prélèvement environnemental robotisé par adaptation continue à faible échantillonnage

Une équipe de recherche publie sur arXiv (référence 2607.07574, soumis le 7 juillet 2026) une méthode d'estimation de force par apprentissage pour la manipulation d'outils déformables en robotique, appliquée au prélèvement d'échantillons de surface (swabbing environnemental). Le problème technique visé est précis : quand un bras robotique presse un écouvillon souple contre une surface, l'hystérésis viscoélastique non linéaire de l'outil déforme le signal capté par le capteur de force au poignet, qui ne reflète alors plus fidèlement la force réellement appliquée à la pointe. Intégrer un capteur directement dans l'outil est écarté pour des raisons de stérilité et de jetabilité en contexte de prélèvement. Les chercheurs comparent plusieurs architectures temporelles et retiennent un LSTM compact, qui obtient la meilleure précision avec une latence d'inférence sous la milliseconde. Pour généraliser à des surfaces et outils inédits, ils ajoutent une couche d'adaptation few-shot : un backbone récurrent gelé est modulé par des embeddings de contexte de faible dimension via FiLM (feature-wise linear modulation). Testée sur un bras UR5e à travers neuf régimes d'interaction outil-surface différents, l'approche réduit l'erreur d'estimation en zero-shot jusqu'à 63%, sans dégrader les performances de base (pas d'oubli catastrophique). L'enjeu dépasse le simple prélèvement d'échantillons : c'est un problème générique de manipulation d'outils déformables (compresses, éponges, brosses, tampons) que l'on retrouve en robotique médicale, en laboratoire automatisé et en inspection industrielle, là où le retour de force est indispensable pour garantir une pression de contact constante mais où l'instrumentation directe de l'outil est impossible ou trop coûteuse à jeter à chaque usage. La contribution méthodologique intéressante pour les intégrateurs est la séparation entre une dynamique de déformation partagée, apprise une fois, et un conditionnement spécifique au domaine, adapté avec très peu de données pour chaque nouvelle combinaison outil-surface. Cela répond directement à un point de friction classique du déploiement de systèmes appris en robotique : la plupart des modèles de force ou de contact entraînés en labo s'effondrent face à des surfaces ou des outils jamais vus, obligeant à tout réentraîner. Une adaptation few-shot qui tient sans réentraînement complet, si elle se confirme au-delà des neuf configurations testées en laboratoire, réduirait le coût d'intégration pour des cas d'usage variés (hôpitaux, sites industriels, environnements BSL). Ce travail s'inscrit dans la lignée des recherches sur le contrôle par impédance et l'estimation de force sans capteur dédié, un axe actif depuis plusieurs années en robotique de manipulation fine, mais appliqué ici spécifiquement au cas peu documenté des outils souples à usage unique. Il reste à ce stade un résultat de recherche publié en preprint, validé sur un seul robot (UR5e) et un jeu limité de neuf régimes en environnement contrôlé, sans indication de déploiement réel ni de partenariat industriel annoncé. Les prochaines étapes attendues pour ce type de travaux sont généralement une validation sur du matériel de prélèvement réel (écouvillons médicaux certifiés), un élargissement du nombre de surfaces et de conditions de rigidité testées, et une comparaison directe avec des approches concurrentes de force sensing sans capteur tactile embarqué, avant toute intégration dans un système commercial.

RecherchePaper

1 source

LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique

À lire aussi

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Stratégies de préhension pratiques pour la manipulation mobile en environnement réel

Context-aware : estimation de force pour la manipulation d'outils déformables lors du prélèvement environnemental robotisé par adaptation continue à faible échantillonnage