Apprentissage rapide par simulation GPU pour la…

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

38

1arXiv cs.RO

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Des chercheurs présentent Instant-Fold (arXiv:2606.04269, juin 2026), un cadre d'apprentissage par imitation en contexte appliqué à la manipulation d'objets déformables comme le textile. Le principe central : à partir d'une seule démonstration humaine, le système infère et exécute des modes de manipulation variés (pliage avec ordres et variantes spatiales différents) sans aucune mise à jour de gradients ni fine-tuning. L'approche repose sur deux composants : un encodeur visuel pré-entraîné par contrastive learning temporel pour capturer les déformations du matériau, et une politique basée sur un transformer à flow-matching conditionné sur cette démonstration. Le modèle est entraîné entièrement en simulation et revendique un transfert zero-shot vers des environnements réels, sans collecte de données supplémentaire. La manipulation d'objets déformables (DOM) est l'un des problèmes les plus persistants de la robotique de manipulation : l'état d'un tissu est de haute dimension, partiellement observable, et évolue à travers des interactions à long horizon avec des changements de topologie. La promesse d'Instant-Fold est double : une seule démonstration humaine suffit, et aucun réentraînement n'est requis pour chaque nouveau mode de pliage. Pour les intégrateurs en industrie textile ou en logistique e-commerce, l'implication est directe : déployer une nouvelle variante de pliage reviendrait à filmer une démonstration, sans pipeline de réentraînement. La revendication de transfert sim-to-real zero-shot mérite toutefois d'être lue prudemment : les vidéos disponibles sur le site du projet présentent des séquences sélectionnées, et la robustesse face à des matières de textures ou rigidités très variables n'est pas quantifiée dans l'abstract. La manipulation de tissu est un chantier actif depuis des années, longtemps dominé par des approches à base d'états denses et de planification hors ligne. L'émergence des politiques diffusion (ACT, Diffusion Policy) puis des modèles Vision-Language-Action a réorienté le domaine vers des méthodes end-to-end généralisables. Instant-Fold s'inscrit dans cette lignée, mais adopte le flow-matching (plus rapide à l'inférence que la diffusion) et mise sur l'in-context learning plutôt que le fine-tuning par démonstration, une approche encore minoritaire en robotique. Les groupes concurrents actifs sur la DOM incluent des équipes chez Google DeepMind et des labos universitaires ayant publié sur des benchmarks comme SoftGym ou ClothFunnels. La validation sur des évaluations standardisées et en conditions industrielles réelles reste la prochaine étape nécessaire avant tout pilote commercial.

RechercheOpinion

1 source

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

42

2arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

ReMoBot : apprentissage par imitation en quelques exemples pour la manipulation mobile avec des modèles fondation visuels

46

3arXiv cs.RO

ReMoBot : apprentissage par imitation en quelques exemples pour la manipulation mobile avec des modèles fondation visuels

Des chercheurs ont publié ReMoBot (arXiv:2408.15919v4), un framework d'apprentissage par imitation à peu d'exemples conçu pour la manipulation mobile sur robots à vision égocentrique. Évalué sur un Boston Dynamics Spot, le système atteint des taux de succès de 70 % sur la tâche "Table Uncover" et 80 % sur "Gap Cover" en environnement réel, avec seulement 20 démonstrations par tâche. Plutôt que de distiller les démonstrations dans une politique paramétrique classique, ReMoBot adopte une stratégie de récupération : à l'inférence, il identifie dans une base de démonstrations d'experts les séquences les plus pertinentes via une combinaison de similarité d'état, d'alignement temporel des trajectoires et de cohérence des séquences d'actions, puis sélectionne directement les commandes motrices sans aucun entraînement supplémentaire. L'ensemble s'appuie sur des vision foundation models pour extraire des représentations robustes depuis la caméra embarquée du robot, en fonctionnement totalement training-free à l'exécution. L'approche retrieval-based présente deux avantages concrets pour les intégrateurs industriels. D'abord, le coût de collecte de données est drastiquement réduit : 20 démonstrations contre plusieurs centaines requises par les méthodes IL standard (ACT, Diffusion Policy), ce qui accélère le déploiement sur de nouvelles tâches ou variantes. Ensuite, l'absence d'entraînement à l'inférence supprime le risque de surapprentissage sur données insuffisantes, problème récurrent avec les objets déformables où la variabilité des états est élevée. ReMoBot surpasse deux baselines entraînées directement sur données réelles sans transfert sim-to-réel sur deux tâches sur trois. La tâche "Curtain Open" reste problématique, signalant que la manipulation d'objets hautement déformables sous occultations partielles constitue encore un verrou non résolu, y compris pour les approches retrieval. ReMoBot s'inscrit dans la tendance à exploiter les vision foundation models (de la famille DINOv2, CLIP, SAM) pour réduire la dépendance aux données propriétaires et améliorer la généralisation. Sur le Spot de Boston Dynamics, plateforme quadrupède commerciale, la manipulation mobile reste un défi structurel : le robot se déplace en même temps qu'il manipule, rendant l'observation égocentrique partielle et bruitée. Face aux VLA de grande taille comme pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind), qui exigent des volumes de données considérables et une infrastructure d'entraînement lourde, ReMoBot se positionne dans le segment "data-efficient, training-free" particulièrement pertinent pour les intégrateurs ou PME industrielles sans capacité de collecte à grande échelle. La prochaine étape logique serait d'enrichir dynamiquement la base de démonstrations et de valider l'approche dans des environnements industriels hors laboratoire contrôlé.

UELes PME et intégrateurs robotiques européens sans capacité de collecte de données à grande échelle pourraient bénéficier directement de cette approche data-efficient (20 démos vs plusieurs centaines), réduisant la barrière d'entrée au déploiement de manipulation mobile intelligente.

RecherchePaper

1 source

ForceBand : apprentissage de la manipulation de force par sEMG

42

4arXiv cs.RO

ForceBand : apprentissage de la manipulation de force par sEMG

Une équipe de chercheurs a présenté ForceBand, un bracelet sEMG (électromyographie de surface) porté au poignet et conçu pour enrichir les démonstrations humaines destinées à l'apprentissage de politiques de manipulation robotique. Le système capture l'activité musculaire du poignet via des électrodes de surface et, combiné à une IMU, alimente un modèle pré-entraîné baptisé EMG2Force qui prédit les forces exercées par chaque doigt. Pour entraîner ce modèle, les chercheurs ont constitué un jeu de données multimodal de 10 heures combinant vidéo égocentrique, signaux sEMG, données inertielles et mesures de forces au bout des doigts, couvrant des actions et objets variés. Après une courte calibration propre à l'utilisateur, celui-ci peut collecter de nouvelles démonstrations avec seulement le bracelet et une caméra : EMG2Force étiquette automatiquement ces séquences avec les traces de force par doigt. Les expériences rapportent une réduction d'erreur de prédiction de force supérieure à 50 % par rapport aux baselines fondées uniquement sur la vision, et un taux de succès de 87 % sur des tâches de saisie, compression et dépose impliquant des objets de formes, tailles et poids variés. L'apport clé de ForceBand réside dans la résolution d'un angle mort structurel des pipelines d'imitation learning : les sources courantes de démonstrations humaines, capture de mouvement ou vidéos internet, fournissent trajectoire et apparence mais ignorent les forces de contact, pourtant déterminantes pour toute manipulation sensible au toucher. Serrer un emballage souple sans l'écraser, insérer un connecteur, manipuler des objets fragiles ou déformables sont des tâches où le contrôle en effort prime sur le contrôle en position. En rendant ces forces observables à faible coût matériel, le système ouvre la voie à des politiques VLA (vision-language-action) capables de généraliser sur des propriétés mécaniques d'objets non vus, sans capteurs de force onéreux montés sur le robot. Ce travail s'inscrit dans une dynamique active autour de l'augmentation des données de démonstration : plusieurs laboratoires explorent des gants haptiques, des capteurs tactiles intégrés aux mains robotiques ou des méthodes de reconstruction de force par vision stéréo. ForceBand se positionne comme une alternative légère et bon marché, accessible sans infrastructure de motion capture. L'article est pour l'instant un preprint arXiv (2606.26093), non encore soumis à une conférence majeure, et les résultats reposent sur un protocole contrôlé en laboratoire. La robustesse au bruit musculaire inter-sujets, à la fatigue et aux variations de placement du bracelet en conditions industrielles reste à démontrer. Les prochaines étapes naturelles impliqueront des tests sur des robots à mains dextrères (dexterous hands) et une validation sur des tâches d'assemblage réelles, là où la complémentarité avec des plateformes comme les mains Allegro ou Shadow est la plus directe.

RecherchePaper

1 source

Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes

À lire aussi

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

ReMoBot : apprentissage par imitation en quelques exemples pour la manipulation mobile avec des modèles fondation visuels

ForceBand : apprentissage de la manipulation de force par sEMG