Aller au contenu principal
Apprentissage de la manipulation d'objets depuis zéro par interaction contrastive
RecherchearXiv cs.RO2j

Apprentissage de la manipulation d'objets depuis zéro par interaction contrastive

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose sur arXiv (réf. 2606.11525, juin 2025) une méthode baptisée Interaction-weighted Resampling (IWR) pour améliorer l'apprentissage par renforcement contrastif (CRL) appliqué à la manipulation robotique. Le CRL apprend des représentations structurées des dynamiques pour résoudre des tâches conditionnées par objectif, mais peinait à gérer les contacts et les saisies. L'article formalise ce problème en modélisant la dynamique de manipulation comme un processus de Markov lisse par morceaux : les changements de mode induits par les contacts créent des structures d'accessibilité non linéaires que les fonctions d'énergie CRL standard ne représentent pas correctement. L'IWR rééchantillonne de manière pondérée autour des trois phases clés (avant, pendant et après le contact) pour que la représentation apprise préserve ces frontières de mode. En simulation, la méthode améliore de 19,8 % en moyenne les performances par rapport aux méthodes CRL existantes sur plusieurs environnements (contrôle 2D dynamique, manipulation, hockey sur table). En transfert sim-to-real, un agent de hockey sur table conditionné par objectif voit son taux de réussite passer de 25 % à 60 %.

Ce résultat est notable pour les équipes qui misent sur le RL pur pour la manipulation, un domaine dominé depuis 2023 par l'imitation learning et les politiques de diffusion comme ACT, Diffusion Policy ou pi-0. Le principal obstacle, la discontinuité dynamique liée aux contacts, était jusqu'ici contourné par des démonstrations humaines ou des curricula manuels ; IWR propose une approche mathématiquement fondée pour l'attaquer sans supervision. La progression de 25 % à 60 % en conditions réelles reste cependant modeste, et le domaine de test (hockey sur table planaire, tâche répétitive et bien contrainte) est éloigné de la dextérité multidimensionnelle requise en milieu industriel. Aucune comparaison directe avec des architectures VLA ou diffusion policy sur des benchmarks communs n'est fournie dans le preprint.

Le CRL pour la manipulation avait été porté par des travaux issus de Berkeley et de Google DeepMind (GCRL, QuaSAR), sans jamais franchir le verrou du contact-rich. Ce preprint arXiv de juin 2025, non encore soumis à peer-review, s'inscrit dans un effort académique plus large face à la montée en puissance des VLA comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné ; le projet reste à un stade de recherche fondamentale. Le code et les démonstrations vidéo sont disponibles sur la page projet IWR-arxiv.github.io.

À lire aussi

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables
1arXiv cs.RO 

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Des chercheurs présentent Instant-Fold (arXiv:2606.04269, juin 2026), un cadre d'apprentissage par imitation en contexte appliqué à la manipulation d'objets déformables comme le textile. Le principe central : à partir d'une seule démonstration humaine, le système infère et exécute des modes de manipulation variés (pliage avec ordres et variantes spatiales différents) sans aucune mise à jour de gradients ni fine-tuning. L'approche repose sur deux composants : un encodeur visuel pré-entraîné par contrastive learning temporel pour capturer les déformations du matériau, et une politique basée sur un transformer à flow-matching conditionné sur cette démonstration. Le modèle est entraîné entièrement en simulation et revendique un transfert zero-shot vers des environnements réels, sans collecte de données supplémentaire. La manipulation d'objets déformables (DOM) est l'un des problèmes les plus persistants de la robotique de manipulation : l'état d'un tissu est de haute dimension, partiellement observable, et évolue à travers des interactions à long horizon avec des changements de topologie. La promesse d'Instant-Fold est double : une seule démonstration humaine suffit, et aucun réentraînement n'est requis pour chaque nouveau mode de pliage. Pour les intégrateurs en industrie textile ou en logistique e-commerce, l'implication est directe : déployer une nouvelle variante de pliage reviendrait à filmer une démonstration, sans pipeline de réentraînement. La revendication de transfert sim-to-real zero-shot mérite toutefois d'être lue prudemment : les vidéos disponibles sur le site du projet présentent des séquences sélectionnées, et la robustesse face à des matières de textures ou rigidités très variables n'est pas quantifiée dans l'abstract. La manipulation de tissu est un chantier actif depuis des années, longtemps dominé par des approches à base d'états denses et de planification hors ligne. L'émergence des politiques diffusion (ACT, Diffusion Policy) puis des modèles Vision-Language-Action a réorienté le domaine vers des méthodes end-to-end généralisables. Instant-Fold s'inscrit dans cette lignée, mais adopte le flow-matching (plus rapide à l'inférence que la diffusion) et mise sur l'in-context learning plutôt que le fine-tuning par démonstration, une approche encore minoritaire en robotique. Les groupes concurrents actifs sur la DOM incluent des équipes chez Google DeepMind et des labos universitaires ayant publié sur des benchmarks comme SoftGym ou ClothFunnels. La validation sur des évaluations standardisées et en conditions industrielles réelles reste la prochaine étape nécessaire avant tout pilote commercial.

RechercheOpinion
1 source
3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes
2arXiv cs.RO 

3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes

Une équipe de chercheurs a publié sur arXiv (2603.08485) une méthode baptisée 3PoinTr permettant d'entraîner des politiques de manipulation robotique à partir de vidéos humaines non contraintes, sans recourir à de coûteuses démonstrations téléopérées. Le principe repose sur la prédiction de trajectoires 3D denses de points de scène (point tracks) : un transformer léger dit "visibility-aware" apprend, depuis des vidéos d'humains en train de manipuler des objets librement, comment chaque point de la scène devrait se déplacer. Une politique robotique multitâche en boucle fermée extrait ensuite les priors d'action pertinents depuis ces trajectoires prédites. Avec seulement 20 démonstrations robot étiquetées en action, 3PoinTr surpasse les meilleures baselines de behavioral cloning et de vidéo-préentraînement de 25,0 points de pourcentage en tâches réelles et de 29,6 points en simulation. Ce résultat est notable parce qu'il s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût prohibitif de la collecte de données robot. Les approches existantes de video-pretraining imposent typiquement que l'humain "joue le robot", mouvements chorégraphiés, keypoints prédéfinis, annotations manuelles ou positions de préhension connues. 3PoinTr supprime ces contraintes et exploite des vidéos naturalistes, ce qui élargit considérablement le corpus exploitable (YouTube, vidéos industrielles, données de formation existantes). La gestion des occlusions partielles via la supervision sur les points partiellement occultés représente une avancée technique précise par rapport aux baselines : le transformer conserve un signal d'apprentissage même quand la main ou l'outil masque une partie de la scène. Le travail s'inscrit dans une tendance plus large des Visual-Language-Action models (VLA) et des approches fondées sur les représentations 2D/3D pour le transfert sim-to-real, en compétition directe avec des méthodes comme Track2Act, RoboTAP ou ATM (Action Tracking from Motion). Il se distingue par le passage explicite à la 3D et le faible volume de données supervisées requis. La page projet est disponible chez Adam Hung (adamhung60.github.io/3PoinTr), mais aucune annonce de déploiement industriel ou de partenariat n'est associée à cette publication : il s'agit d'un résultat de recherche, pas d'un produit commercialisé.

RecherchePaper
1 source
De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles
3arXiv cs.RO 

De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles

Un article de synthèse publié sur arXiv (réf. 2604.04974, version 2) dresse un état de l'art structuré des méthodes permettant d'exploiter des vidéos temporelles non annotées en actions pour apprendre des interfaces de contrôle en manipulation robotique. Les auteurs ne s'appuient sur aucun label d'action : la vidéo seule, en captant comment les objets se déplacent, comment les contacts se déroulent et comment les scènes évoluent, constitue la source d'apprentissage. Le survey introduit une taxonomie centrée sur l'interface, organisée selon trois familles : les politiques vidéo-action directes, qui maintiennent l'interface implicite dans le réseau neuronal ; les méthodes à actions latentes, qui acheminent la structure temporelle via un espace intermédiaire compact appris ; et les interfaces visuelles explicites, qui prédisent des cibles interprétables (poses, waypoints, affordances) pour un contrôle aval découplé. Ce cadre de classification comble un vide méthodologique réel : la littérature traitait jusqu'ici ces trois familles de façon dispersée, sans analyser comment chacune ferme la boucle de contrôle, ce qui peut être vérifié avant exécution, et à quel stade les défaillances apparaissent. Pour les intégrateurs et les équipes R&D, cet angle est directement opérationnel : une interface latente est plus difficile à inspecter qu'une interface explicite à base de keypoints, ce qui modifie les stratégies de débogage et de déploiement. La synthèse inter-familles pointe un défi commun : la couche d'intégration robotique, les mécanismes qui relient les prédictions issues de la vidéo à un comportement robot fiable, reste le maillon faible indépendamment de la famille choisie. Ce survey s'inscrit dans une dynamique portée par les modèles VLA (Video-Language-Action) : RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI exploitent tous, à des degrés divers, des données vidéo à grande échelle pour conditionner le contrôle moteur. Le fossé identifié dans le papier, entre prédiction vidéo et comportement physique fiable, correspond précisément au "sim-to-real gap" de cette nouvelle génération de modèles : une démonstration convaincante en vidéo ne garantit pas la robustesse en déploiement réel. Les auteurs proposent des pistes de recherche pour combler ce décalage, sans livrer de pipeline opérationnel, ce qui positionne ce travail comme une ressource de cartographie pour orienter la communauté plutôt que comme une solution clé en main.

RechercheOpinion
1 source
IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force
4arXiv cs.RO 

IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force

Une équipe de recherche a publié le 12 juin 2026 sur arXiv (référence 2606.10818) IMPACT, un framework d'apprentissage pour la manipulation robotique dite "forceful", c'est-à-dire impliquant des interactions physiques avec l'environnement : utilisation d'outils de masses variables, transport d'objets lourds, nettoyage de surface par contact prolongé. L'architecture découple le problème en deux blocs distincts : un planificateur de tâche de haut niveau, et un contrôleur prédictif basé sur un modèle interne (internal-model predictive control). Les expériences sont menées à la fois en simulation et sur robot réel, avec évaluation sur des objets non vus lors de l'entraînement. Les auteurs ne publient pas encore les métriques quantitatives précises dans l'abstract arXiv disponible, ce qui limite l'analyse indépendante à ce stade. Le verrou technique adressé est réel et sous-estimé dans les pipelines d'imitation learning actuels. Deux stratégies dominent aujourd'hui : la première laisse les forces émerger implicitement via les erreurs de suivi d'un contrôleur d'impédance, ce qui casse la généralisation dès que la masse de l'objet change ; la seconde commande explicitement les efforts via capteur force/couple ou capteur tactile au poignet, ce qui fonctionne mais alourdit l'intégration matérielle et fragilise les déploiements industriels. IMPACT propose une troisième voie en apprenant un modèle interne de la dynamique de contact, permettant au contrôleur prédictif d'anticiper les forces sans capteur dédié ni dégradation de généralisation. Les gains annoncés en taux de succès, sécurité et efficacité énergétique sont cohérents avec l'approche, mais restent à valider sur des benchmarks standardisés comme DROID ou RoboAgent. Ce travail s'inscrit dans un courant actif qui cherche à marier l'apprentissage par imitation avec les garanties du contrôle prédictif (MPC), après des travaux fondateurs comme ILC, DMP, et plus récemment les architectures VLA de type pi0 (Physical Intelligence) ou RoboDiff. Le problème de la manipulation forcée reste un angle mort des démos grand public, qui privilégient les tâches de pick-and-place sur objets légers. Les concurrents directs incluent les approches sim-to-real de CMU (DexVIP, ACT), d'ETH Zurich (ANYmal) et les travaux de Boston Dynamics Research sur la manipulation lourde. Côté européen, aucun acteur n'est directement cité, mais les travaux de Wandercraft et Enchanted Tools sur la dynamique de contact pourraient bénéficier de ce type de framework. La prochaine étape naturelle serait une validation sur manipulateurs industriels (UR, Franka) en conditions de production réelle.

RecherchePaper
1 source