Aller au contenu principal
AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele
RecherchearXiv cs.RO7sem

AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2507.12768) AnyPos, un pipeline d'apprentissage automatisé conçu pour la manipulation bimane généraliste. Le système repose sur un principe de modélisation dite "task-agnostic" : au lieu d'entraîner le robot sur des trajectoires liées à des tâches précises, AnyPos génère à grande échelle des paires image-action indépendantes couvrant l'ensemble de l'espace de travail atteignable. Ces données alimentent un apprentissage par dynamique inverse, combinant un décodeur directionnel et une séparation explicite entre les mouvements du bras et de l'effecteur terminal, pour stabiliser les prédictions en dehors de la distribution d'entraînement. Testée sur cinq tâches domestiques (actionner un micro-ondes, griller du pain, plier des vêtements, arroser des plantes, frotter des assiettes), l'approche améliore les taux de réussite de 30 à 40% par rapport aux baselines de référence, avec un gain de 51% en précision sur les évaluations test.

Ce résultat pointe un problème structurel du secteur : la rareté des données de manipulation robotique et leur entanglement avec une plateforme ou une tâche spécifique. La plupart des politiques visuomotrices actuelles, qu'il s'agisse de VLA (vision-language-action models) ou de diffusion policies, nécessitent des données séquentielles coûteuses à collecter et quasiment non transférables entre robots. En découplant la modélisation de l'embodiment de l'apprentissage de politique de haut niveau, AnyPos propose une réutilisation des données d'action cross-tâches et cross-plateformes, sans modèle physique explicite ni simulation intensive. L'argument est directement dirigé contre le "sim-to-real gap" : les représentations sont ici apprises depuis des données réelles générées automatiquement à grande échelle, contournant les biais de simulation.

L'approche rejoint une tendance récente consistant à séparer embodiment modeling et politique de haut niveau, visible chez Physical Intelligence (modèle pi0), Figure AI ou 1X Technologies. Elle se distingue par son refus de la télé-opération intensive ou de la simulation massive, préférant une exploration automatisée du workspace réel. Le pipeline est conçu pour se coupler à des modèles de politique existants, le positionnant potentiellement comme une couche de préentraînement réutilisable et échangeable. L'article ne mentionne ni déploiement industriel, ni partenariat commercial : AnyPos reste à ce stade une contribution de recherche académique, sans timeline de mise en production annoncée.

À lire aussi

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique
1arXiv cs.RO 

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.12167, mai 2026) une méthode baptisée MoLA, pour Mixture of Latent Actions, destinée à améliorer la manipulation robotique en exploitant les modèles génératifs de vidéo comme mécanisme d'anticipation. L'idée centrale : un robot peut "imaginer" la trajectoire visuelle future d'une tâche avant de l'exécuter, mais transformer ces séquences générées en commandes moteur concrètes reste un problème ouvert. MoLA introduit une interface dite orientée contrôle qui, au lieu de passer directement les images prédites à la politique de contrôle, mobilise un ensemble de modèles inverses de dynamique (IDM) pré-entraînés pour en extraire des actions latentes. Ces IDM sont multimodaux : ils capturent des indices sémantiques, de profondeur et de flux optique, fournissant une représentation structurée et physiquement ancrée des transitions d'état. L'approche a été évaluée sur les benchmarks simulés LIBERO, CALVIN et LIBERO-Plus, ainsi que sur des tâches de manipulation en conditions réelles, avec des gains annoncés en taux de succès, en cohérence temporelle et en généralisation. Le problème que MoLA tente de résoudre est structurel dans le domaine des VLA (Vision-Language-Action models) : les modèles de génération vidéo optimisent la fidélité perceptuelle, pas la pertinence pour le contrôle. Lorsqu'une politique est conditionnée sur des frames prédites, elle hérite de cette inadéquation, produisant un contrôle indirect et instable. En substituant aux frames brutes des représentations latentes inférées par des IDM complémentaires, MoLA réduit ce fossé structurel. Pour les intégrateurs et les équipes de recherche appliquée, c'est un signal important : l'imagination visuelle peut effectivement améliorer les politiques robotiques, à condition de disposer d'une couche de traduction adaptée plutôt que d'un couplage direct image-action. Ce travail s'inscrit dans un courant actif autour des world models appliqués à la robotique, où des approches comme DreamerV3 (DeepMind) ou SuSIE ont exploré des pistes similaires pour le reinforcement learning et la manipulation. Côté manipulation guidée par vidéo, UniSim et les travaux autour de Pi-0 de Physical Intelligence ont popularisé l'utilisation de prédictions futures pour structurer le comportement. MoLA se distingue par son architecture modulaire à IDM mixtes plutôt qu'un seul encodeur unifié. Aucune affiliation industrielle ni timeline de déploiement n'est mentionnée dans la publication, ce qui en fait pour l'instant une contribution de recherche fondamentale, dont la valeur pratique dépendra de la reproductibilité des gains annoncés en dehors des benchmarks de référence.

RechercheOpinion
1 source
Affordance2Action : ancrage des affordances guidé par la tâche pour la manipulation en temps réel
2arXiv cs.RO 

Affordance2Action : ancrage des affordances guidé par la tâche pour la manipulation en temps réel

Une équipe de chercheurs publie sur arXiv (identifiant 2606.04172) le framework Affordance2Action (A2A), centré sur un problème concret de la manipulation robotique : identifier en temps réel quelle partie précise d'un objet est fonctionnellement exploitable pour accomplir une tâche donnée, dans une scène encombrée et ambigüe. Le coeur du travail est A2A-Bench, un benchmark de manipulation couvrant à la fois les correspondances instruction-région unique et multi-région, c'est-à-dire les cas où un seul verbe d'action peut pointer vers une ou plusieurs zones fonctionnelles selon la disposition de la scène. Pour construire ce dataset à grande échelle, les auteurs ont développé A2A-AffordGen, un pipeline assisté par agents qui enchaîne filtrage par modèle de langage, segmentation interactive de parties, raffinement par masquage d'instance, génération d'instructions de raisonnement et vérification humaine. Le code et les datasets seront rendus publics. Ce travail expose une lacune structurelle des benchmarks existants en affordance : la plupart se concentrent sur la préhension d'objet isolé, s'appuient sur des scènes synthétiques, ou supposent une correspondance univoque entre instruction et région. A2A révèle des écarts significatifs dans trois catégories de baseline (segmentation générique, grounding fondé sur des VLMs et distillation d'affordance) sur des scènes réelles et multi-objets. Pour un intégrateur ou un responsable d'automatisation, ce résultat indique que les approches actuelles basées sur des VLMs généralistes (type CLIP ou LLaVA) sous-performent dès que la scène sort des cas standards. La capacité à localiser des régions fonctionnelles ambigües en temps réel reste un verrou non résolu pour le déploiement de bras manipulateurs en environnement non structuré. L'affordance grounding en robotique s'inscrit dans une longue tradition de recherche remontant aux travaux de Gibson sur les affordances écologiques, réinterprétés pour la manipulation depuis les années 2010. Les approches concurrentes incluent des méthodes de grounding fondées sur des modèles de vision-langage (CLIP, SAM couplé à LLM) et des politiques de type VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui nécessitent elles aussi une localisation précise des régions d'interaction. A2A se positionne comme un cadre d'évaluation et de supervision plutôt que comme une politique de contrôle complète. La prochaine étape logique serait une validation sur robots physiques à plus grande échelle : le papier démontre des résultats en manipulation conditionnée par les affordances, mais la portée reste expérimentale à ce stade de preprint.

RecherchePaper
1 source
Mag-VLA : modèle vision-langage-action pour la manipulation bimanuelle de microrobots à actionnement magnétique
3arXiv cs.RO 

Mag-VLA : modèle vision-langage-action pour la manipulation bimanuelle de microrobots à actionnement magnétique

Des chercheurs proposent Mag-VLA, un modèle vision-langage-action (VLA) conçu pour piloter des microrobots à actionnement magnétique via deux bras robotiques équipés d'aimants permanents. Le système adapte le backbone Qwen2.5-VL-7B par fine-tuning LoRA pour traiter des observations visuelles et des instructions en langage naturel, puis générer des trajectoires coordonnées pour les deux bras simultanément dans un espace de travail partagé. Pour structurer le contrôle multi-étapes, l'architecture intègre un classificateur de phase sensible au mouvement et un décodeur ACT (Action Chunking Transformer) conditionné par cette phase. L'équipe a constitué un jeu de données de manipulation téléopérée couvrant trois configurations de difficulté croissante. En expérimentation réelle, Mag-VLA atteint 90 % de taux de succès à l'approche toutes tâches confondues, et des taux de transport de 80 %, 70 % et 50 % selon la complexité de la tâche. Ce résultat compte parce que les microrobots magnétiques sont des candidats sérieux pour la chirurgie mini-invasive, délivrance ciblée de médicaments, navigation vasculaire, ophtalmologie, mais leur pilotage reste difficile en raison de l'actionnement indirect, des capteurs limités et des interactions magnétiques non linéaires. Mag-VLA montre que le paradigme VLA, jusqu'ici évalué principalement sur des bras industriels ou des humanoïdes à l'échelle centimétrique, peut s'étendre au microscale. La coordination bimanuelle permet notamment la réorientation du microrobot, une opération difficilement réalisable avec un seul actionneur magnétique. Les études d'ablation du papier confirment que le décodeur ACT surpasse significativement les têtes d'action génératives alternatives, ce qui valide les choix architecturaux. Le contrôle de microrobots magnétiques est un axe de recherche actif depuis une quinzaine d'années, porté notamment par des groupes à l'ETH Zurich et au Max Planck Institute for Intelligent Systems, via des contrôleurs classiques ou de l'apprentissage par renforcement spécialisé, sans généralisation par langage naturel. L'essor des VLA macroscopiques comme pi0 de Physical Intelligence ou OpenVLA ouvre une voie transférable que Mag-VLA tente de valider à l'échelle micrométrique. Il s'agit pour l'instant d'un preprint académique (arXiv 2605.28486), sans partenaire industriel ni horizon de déploiement clinique annoncé. Les prochaines étapes logiques incluent des tests en milieu fluidique in vitro, la réduction de la latence du décodeur pour un contrôle temps réel, et la généralisation à un éventail plus large de géométries de microrobots.

UELe Max Planck Institute für Intelligente Systeme (Allemagne) est un acteur historique du contrôle de microrobots magnétiques ; une validation clinique de Mag-VLA renforcerait à terme la compétitivité européenne en chirurgie robotique mini-invasive, mais aucun déploiement ni partenaire industriel EU n'est annoncé à ce stade.

RechercheOpinion
1 source
AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique
4arXiv cs.RO 

AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique

Des chercheurs ont publié sur arXiv le 17 juin 2026 un framework baptisé AnnotateAnything (arXiv:2606.17446) pour annoter automatiquement des assets 3D bruts et les rendre exploitables dans des pipelines d'entraînement robotique. Le système convertit des modèles 3D passifs en assets "manipulation-ready" enrichis de labels sémantiques, physiques et interactifs sans intervention humaine, en s'appuyant sur deux pipelines complémentaires : un module de raisonnement visio-linguistique (VLM) infère les sémantiques d'objet et les contraintes d'interaction ; un second pipeline de physique, massivement parallèle, ancre ces priors dans la géométrie de chaque asset pour générer automatiquement poses de préhension, contacts dextres, waypoints d'articulation, directions d'insertion, affordances de suspension et cibles de navigation. Un système de collecte de données de simulation asynchrone s'appuie ensuite sur ces annotations pour couvrir objets, tâches et morphologies robotiques variés. L'enjeu est central : les assets 3D bruts ne contenant que de la géométrie, annoter manuellement des bibliothèques à l'échelle reste coûteux et non scalable. AnnotateAnything automatise cette étape en combinant priors sémantiques VLM et optimisation géométrique pour produire des labels physiques exécutables. Les auteurs rapportent des gains en efficacité d'annotation, en efficacité de collecte et en taux de réussite de tâches face aux pipelines existants, des résultats à prendre avec précaution puisque les benchmarks comparatifs sont ceux des auteurs eux-mêmes. Le support natif du VQA robotique et du fine-tuning d'instructions visuelles ouvre une intégration directe dans des pipelines VLA (Vision-Language-Action), paradigme dominant pour l'apprentissage de politiques généralisables à l'échelle. Ce travail s'inscrit dans une vague de recherche sur la scalabilité des données synthétiques, aux côtés de MimicGen (NVIDIA), RoboGen ou UniSim, tous ciblant la réduction du sim-to-real gap par voie simulée. La pénurie d'annotations structurées dans les assets 3D existants est un problème documenté depuis plusieurs années, faute d'alternative viable aux approches manuelles. AnnotateAnything se positionne comme infrastructure de données en amont de tout pipeline de simulation, sans cibler un robot ou un déploiement industriel précis. Les auteurs annoncent la publication du code complet, des annotations et d'un benchmark, un engagement qui, s'il est tenu, pourrait en faire une ressource partagée par la communauté ; aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade.

RechercheActu
1 source