Aller au contenu principal
LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique
RecherchearXiv cs.RO6sem

LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié LeHome, un environnement de simulation open-source consacré à la manipulation d'objets déformables en contexte domestique, accessible en préprint sur arXiv (2604.22363) et accompagné d'une page de démonstration. LeHome couvre un spectre large d'objets typiques des foyers, vêtements, aliments, textiles, avec une modélisation dynamique haute-fidélité destinée à reproduire les interactions complexes que les simulateurs existants peinent à rendre correctement. L'environnement supporte plusieurs morphologies robotiques et place explicitement les robots à faible coût au centre de sa conception, permettant d'évaluer des tâches ménagères de bout en bout sur du matériel à budget contraint.

Le problème que tente de résoudre LeHome est structurant pour la robotique domestique : les objets déformables représentent une part massive des tâches quotidiennes (plier du linge, manipuler des aliments, ranger des textiles), mais leur simulation réaliste reste un angle mort des environnements dominants comme Isaac Sim, MuJoCo ou Gazebo. Sans simulation fiable de ces matériaux, le transfert sim-to-real, technique centrale dans l'entraînement des politiques modernes par renforcement ou imitation, produit des modèles qui s'effondrent dès qu'ils quittent les objets rigides. LeHome prétend combler ce fossé en proposant un banc de test scalable, ce qui pourrait accélérer le développement de politiques de manipulation généralistes pour l'environnement résidentiel.

Le problème du "deformable gap" est documenté depuis plusieurs années : des projets comme DexDeform (Stanford), SoftGym ou PyBullet Cloth ont proposé des approches partielles, sans jamais couvrir l'ensemble des catégories domestiques avec un accent sur les plateformes accessibles. LeHome s'inscrit dans un mouvement plus large où des laboratoires ciblent explicitement le segment low-cost, Boston Dynamics, Figure ou 1X restant hors de portée de la plupart des équipes académiques. À ce stade, il s'agit d'un préprint sans validation industrielle ni déploiement annoncé : la crédibilité du projet dépendra de la capacité des auteurs à démontrer un transfert réel sur des plateformes concrètes telles que Low Cost Robot, SO-ARM ou des équivalents open-hardware.

Impact France/UE

Les équipes académiques européennes travaillant sur la manipulation domestique pourraient adopter LeHome pour entraîner des politiques sur plateformes low-cost open-hardware, mais aucun impact institutionnel ou industriel direct n'est documenté à ce stade.

À lire aussi

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables
1arXiv cs.RO 

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Des chercheurs présentent Instant-Fold (arXiv:2606.04269, juin 2026), un cadre d'apprentissage par imitation en contexte appliqué à la manipulation d'objets déformables comme le textile. Le principe central : à partir d'une seule démonstration humaine, le système infère et exécute des modes de manipulation variés (pliage avec ordres et variantes spatiales différents) sans aucune mise à jour de gradients ni fine-tuning. L'approche repose sur deux composants : un encodeur visuel pré-entraîné par contrastive learning temporel pour capturer les déformations du matériau, et une politique basée sur un transformer à flow-matching conditionné sur cette démonstration. Le modèle est entraîné entièrement en simulation et revendique un transfert zero-shot vers des environnements réels, sans collecte de données supplémentaire. La manipulation d'objets déformables (DOM) est l'un des problèmes les plus persistants de la robotique de manipulation : l'état d'un tissu est de haute dimension, partiellement observable, et évolue à travers des interactions à long horizon avec des changements de topologie. La promesse d'Instant-Fold est double : une seule démonstration humaine suffit, et aucun réentraînement n'est requis pour chaque nouveau mode de pliage. Pour les intégrateurs en industrie textile ou en logistique e-commerce, l'implication est directe : déployer une nouvelle variante de pliage reviendrait à filmer une démonstration, sans pipeline de réentraînement. La revendication de transfert sim-to-real zero-shot mérite toutefois d'être lue prudemment : les vidéos disponibles sur le site du projet présentent des séquences sélectionnées, et la robustesse face à des matières de textures ou rigidités très variables n'est pas quantifiée dans l'abstract. La manipulation de tissu est un chantier actif depuis des années, longtemps dominé par des approches à base d'états denses et de planification hors ligne. L'émergence des politiques diffusion (ACT, Diffusion Policy) puis des modèles Vision-Language-Action a réorienté le domaine vers des méthodes end-to-end généralisables. Instant-Fold s'inscrit dans cette lignée, mais adopte le flow-matching (plus rapide à l'inférence que la diffusion) et mise sur l'in-context learning plutôt que le fine-tuning par démonstration, une approche encore minoritaire en robotique. Les groupes concurrents actifs sur la DOM incluent des équipes chez Google DeepMind et des labos universitaires ayant publié sur des benchmarks comme SoftGym ou ClothFunnels. La validation sur des évaluations standardisées et en conditions industrielles réelles reste la prochaine étape nécessaire avant tout pilote commercial.

RechercheOpinion
1 source
Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert
2arXiv cs.RO 

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.15814) un framework d'étalonnage main-oeil continu (continual hand-eye calibration) destiné aux robots manipulateurs déployés dans des environnements ouverts et changeants. Le problème adressé est précis : les modèles de calibration basés sur le deep learning perdent leur précision sur les scènes précédemment apprises dès qu'ils s'adaptent à un nouvel environnement, un phénomène connu sous le nom d'oubli catastrophique (catastrophic forgetting). Le framework proposé repose sur deux composants distincts. Le premier, SARS (Spatial-Aware Replay Strategy), construit un buffer de rejeu géométriquement uniforme qui couvre l'espace de poses de chaque scène sans redondance, en sélectionnant les points de vue les plus informatifs plutôt que les frames adjacentes. Le second, SPDD (Structure-Preserving Dual Distillation), décompose la connaissance de localisation en deux niveaux, la structure grossière de la scène et la précision fine de pose, puis applique une distillation séparée pour préserver les deux dimensions lors des adaptations successives. Les expériences sur plusieurs datasets publics confirment que le modèle maintient la précision sur les scènes passées tout en s'adaptant aux nouvelles. L'enjeu industriel est réel : un bras manipulateur recalibré pour une nouvelle cellule de production ne devrait pas perdre sa précision sur les postes précédents. C'est le problème quotidien des intégrateurs qui déploient des robots dans des lignes flexibles ou multi-produits. La plupart des approches actuelles imposent soit un recalibrage complet à chaque changement de scène, soit acceptent une dégradation progressive des performances sur les configurations antérieures. Ce travail propose une voie intermédiaire via l'apprentissage continu structuré, sans recourir à un replay naïf qui ne suffit pas à enrayer l'oubli. L'approche par distillation duale est notamment pertinente car elle distingue deux types d'erreur, positionnement global et précision locale, ce que les méthodes monolithiques ne font pas. Ce travail s'inscrit dans un champ de recherche en forte activité depuis 2022, où la robustesse de la calibration visuelle en conditions réelles est identifiée comme l'un des goulots d'étranglement pour le passage à l'échelle des manipulateurs autonomes. La localisation visuelle pour la calibration main-oeil emprunte aux techniques de Visual Place Recognition (VPR) et de relocalisation utilisées en navigation mobile, mais les contraintes de précision sous-millimétrique propres à la manipulation y ajoutent une difficulté spécifique. Parmi les acteurs qui travaillent sur des problèmes adjacents figurent des équipes comme Physical Intelligence (pi) avec Pi-0, ou des laboratoires comme le Stanford AI Lab et ETH Zurich sur la sim-to-real calibration. En France, des acteurs comme Enchanted Tools et Pollen Robotics, qui développent des plateformes d'interaction physique, sont directement concernés par ce type de verrou. La prochaine étape naturelle pour ce framework serait une validation sur des données industrielles réelles et une intégration dans des pipelines de déploiement multi-cellules, que les auteurs n'ont pas encore annoncée.

UEEnchanted Tools et Pollen Robotics, qui développent des plateformes de manipulation physique en France, sont directement concernés par ce verrou de calibration continue, susceptible de réduire les coûts de redéploiement en production flexible.

RecherchePaper
1 source
Stratégies de préhension pratiques pour la manipulation mobile en environnement réel
3arXiv cs.RO 

Stratégies de préhension pratiques pour la manipulation mobile en environnement réel

Des chercheurs ont publié en avril 2025 sur arXiv (référence 2504.12512) une étude de terrain portant sur SHOPPER, une plateforme de manipulation mobile conçue pour évaluer des stratégies de préhension dans un supermarché réel. L'environnement choisi n'est pas anodin : un magasin d'alimentation impose une diversité extrême d'objets (formes irrégulières, emballages souples, produits réfléchissants), de configurations d'étagères et de layouts changeants. L'équipe a conduit des centaines de tentatives de saisie distinctes et documente en détail les modes de défaillance observés, sans annoncer de taux de réussite global, ce qui tranche avec la communication habituelle du secteur. Ce travail apporte une valeur rare dans la littérature robotique actuelle : une analyse honnête des échecs en conditions non structurées réelles, plutôt qu'une démonstration soigneusement sélectionnée en laboratoire. Le fossé demo-to-reality reste le principal obstacle au déploiement commercial des manipulateurs mobiles, et les auteurs cherchent précisément à le cartographier. Pour un intégrateur ou un décideur industriel, ce type d'inventaire des cas limites est plus exploitable qu'un benchmark contrôlé : il permet de calibrer les attentes sur ce que les pipelines VLA (Vision-Language-Action) et les approches de grasp planning généraliste peuvent réellement délivrer aujourd'hui hors laboratoire. La recherche en manipulation mobile s'est intensifiée ces deux dernières années, portée par des acteurs comme Apptronik, Agility Robotics (Digit) ou Boston Dynamics (Spot avec bras), mais aussi par des startups spécialisées dans le picking retail comme Symbotic ou des robots de supermarché tels que ceux de Focal Systems. Les approches fondées sur l'apprentissage end-to-end (pi0 de Physical Intelligence, RT-2 de Google DeepMind) promettent une généralisation, mais leur robustesse en environnement chaotique reste peu documentée de façon indépendante. SHOPPER s'inscrit dans une démarche de recherche ouverte visant à fournir à la communauté robotique un référentiel de problèmes concrets non résolus, ce qui suggère des publications de suivi et potentiellement un benchmark partagé.

RecherchePaper
1 source
RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés
4arXiv cs.RO 

RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés

Des chercheurs de l'ISRI-AIST, le laboratoire national de recherche industrielle japonais, ont publié RoboManipBaselines, un framework open-source unifié pour l'apprentissage par imitation appliqué à la manipulation robotique. Disponible sur GitHub et accompagné d'une page projet dédiée, ce cadre couvre l'intégralité du pipeline d'imitation learning : collecte de données, entraînement de politiques et exécution en rollout, aussi bien en simulation que sur robots réels. Concrètement, il supporte plusieurs simulateurs et environnements physiques via une interface unifiée, intègre des capteurs multimodaux (dont tactiles et capteurs 3D), et propose une bibliothèque de modèles de politiques variés. Les évaluations publiées s'appuient sur des datasets publics, ce qui est explicitement conçu pour garantir la reproductibilité des résultats. Plusieurs applications de recherche sont démontrées : augmentation de données, intégration de modèles tactiles, systèmes robotiques interactifs, évaluation de la perception 3D, et extensions matérielles. Ce framework répond à un problème structurel de la recherche en manipulation robotique : l'absence de benchmarks standardisés reproductibles, qui rend la comparaison entre approches quasi impossible et ralentit les transferts vers l'industrie. En proposant un pipeline cohérent du sim au réel, RoboManipBaselines facilite l'évaluation du sim-to-real gap, l'un des verrous critiques avant tout déploiement industriel. Pour un intégrateur ou un ingénieur robotique, l'extensibilité annoncée (ajout de nouveaux robots, tâches et politiques) réduit le coût d'entrée pour tester des architectures de type VLA (Vision-Language-Action) sur des configurations matérielles propres. C'est aussi un outil de validation expérimentale qui peut accélérer la qualification de politiques avant passage en production. L'imitation learning pour la manipulation connaît une effervescence depuis 2023-2024, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA, ou encore les travaux de Stanford et Berkeley. Dans cet écosystème, plusieurs frameworks concurrents existent déjà, notamment LeRobot de HuggingFace, RoboSuite (Stanford), ou MimicGen. RoboManipBaselines se distingue par son accent explicite sur la reproductibilité via datasets publics et son ancrage dans un laboratoire national disposant de plateformes matérielles réelles. L'AIST, acteur historique de la robotique japonaise (humanoïde HRP inclus), apporte une crédibilité expérimentale que les frameworks purement académiques n'ont pas toujours. La prochaine étape naturelle serait une adoption par des équipes industrielles pour valider des politiques sur des tâches d'assemblage ou de picking en conditions non contrôlées.

RecherchePaper
1 source