RecherchearXiv cs.RO 17 juin 2026

AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv le 17 juin 2026 un framework baptisé AnnotateAnything (arXiv:2606.17446) pour annoter automatiquement des assets 3D bruts et les rendre exploitables dans des pipelines d'entraînement robotique. Le système convertit des modèles 3D passifs en assets "manipulation-ready" enrichis de labels sémantiques, physiques et interactifs sans intervention humaine, en s'appuyant sur deux pipelines complémentaires : un module de raisonnement visio-linguistique (VLM) infère les sémantiques d'objet et les contraintes d'interaction ; un second pipeline de physique, massivement parallèle, ancre ces priors dans la géométrie de chaque asset pour générer automatiquement poses de préhension, contacts dextres, waypoints d'articulation, directions d'insertion, affordances de suspension et cibles de navigation. Un système de collecte de données de simulation asynchrone s'appuie ensuite sur ces annotations pour couvrir objets, tâches et morphologies robotiques variés.

L'enjeu est central : les assets 3D bruts ne contenant que de la géométrie, annoter manuellement des bibliothèques à l'échelle reste coûteux et non scalable. AnnotateAnything automatise cette étape en combinant priors sémantiques VLM et optimisation géométrique pour produire des labels physiques exécutables. Les auteurs rapportent des gains en efficacité d'annotation, en efficacité de collecte et en taux de réussite de tâches face aux pipelines existants, des résultats à prendre avec précaution puisque les benchmarks comparatifs sont ceux des auteurs eux-mêmes. Le support natif du VQA robotique et du fine-tuning d'instructions visuelles ouvre une intégration directe dans des pipelines VLA (Vision-Language-Action), paradigme dominant pour l'apprentissage de politiques généralisables à l'échelle.

Ce travail s'inscrit dans une vague de recherche sur la scalabilité des données synthétiques, aux côtés de MimicGen (NVIDIA), RoboGen ou UniSim, tous ciblant la réduction du sim-to-real gap par voie simulée. La pénurie d'annotations structurées dans les assets 3D existants est un problème documenté depuis plusieurs années, faute d'alternative viable aux approches manuelles. AnnotateAnything se positionne comme infrastructure de données en amont de tout pipeline de simulation, sans cibler un robot ou un déploiement industriel précis. Les auteurs annoncent la publication du code complet, des annotations et d'un benchmark, un engagement qui, s'il est tenu, pourrait en faire une ressource partagée par la communauté ; aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade.

Dans nos dossiers

Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

Modèles du monde pour la manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.24742) un modèle généraliste de valeur pour la manipulation robotique, le WVM (World Value Model). La proposition centrale consiste à substituer les backbones VLM (Vision-Language Model) habituellement utilisés par un modèle de monde, nativement mieux adapté à la modélisation temporelle nécessaire pour évaluer la progression d'une tâche. Sur les benchmarks standards, WVM atteint les meilleures performances connues en Value-Order Correlation (VOC), la métrique de référence pour les modèles de valeur robotiques. L'équipe introduit également Suboptimal-Value-Bench, un benchmark multi-embodiment composé de 800 trajectoires sous-optimales annotées frame par frame par des humains, comblant un angle mort des évaluations existantes qui ne contenaient que des données expertes. L'enjeu est directement opérationnel pour quiconque entraîne des systèmes de manipulation à grande échelle : les données collectées en conditions réelles sont rarement uniformément expertes. Un modèle de valeur précis permet de pondérer ou filtrer ces trajectoires hétérogènes, améliorant la qualité de l'entraînement sans nettoyage manuel coûteux. WVM démontre des gains de performance sur plusieurs approches d'extraction de politique, en simulation comme en déploiement réel, ce qui renforce la thèse que l'estimation de valeur est un composant orthogonal et complémentaire au choix d'architecture de politique. La robustesse maintenue sur données sous-optimales est l'aspect le plus significatif : c'est précisément dans ce régime que les VLMs classiques décrochent, leurs préentraînements sur observations visuelles statiques ne suffisant pas à capturer les dynamiques temporelles longues. La montée en puissance des VLA comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a rendu critique la question de la qualité des données d'entraînement à grande échelle. L'approche WVM s'inscrit dans une tendance émergente qui consiste à spécialiser les composants : un backbone temporel dédié pour l'évaluation de la valeur, distinct du modèle d'action. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans cet article purement académique. Les prochaines étapes naturelles incluent l'intégration du WVM dans des pipelines d'imitation à grande échelle ou en combinaison avec du reinforcement learning offline (IQL, CQL), et une extension à des environnements multi-tâches plus complexes.

RechercheOpinion

1 source

2arXiv cs.RO

GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés

Des chercheurs ont publié sur arXiv (référence 2605.30740) GSAM, un framework conçu pour la manipulation d'objets articulés (tiroirs, portes, robinets) par des robots de service. Le système combine quatre modules : un percepteur visuel qui extrait les paramètres cinématiques (axe de rotation, amplitude de mouvement), un raffineur basé sur un VLM fine-tuné utilisant le raisonnement par chaîne-de-pensée (CoT) pour corriger les estimations brutes, un générateur de contraintes d'interaction qui encode la géométrie de l'objet et l'évitement d'obstacles, et un planificateur cinématique qui vérifie l'atteignabilité avant exécution. Sur 50 tâches de type charnière réparties en 5 catégories d'objets et 50 configurations initiales aléatoires de l'effecteur, GSAM améliore le taux de succès de 36,0 % par rapport à la meilleure baseline existante, avec une réduction de l'écart-type de 3,1 % indiquant une meilleure consistance comportementale. Ce résultat s'attaque directement au fossé démo-réalité sur une sous-tâche souvent ignorée : les interactions avec des objets mécaniquement contraints impliquent des trajectoires curvilignes et une compréhension de la géométrie interne que ni les politiques end-to-end entraînées en simulation ni les planificateurs purement visuels ne gèrent correctement. L'usage du raisonnement CoT pour corriger des estimations cinématiques erronées plutôt que pour générer un plan de haut niveau constitue un usage pragmatique et inhabituel des VLM en robotique. Pour les intégrateurs sur des robots de service industriels ou hospitaliers, la réduction des collisions destructrices a une valeur opérationnelle directe : forcer mécaniquement un joint en production est un incident matériel, pas une métrique abstraite. Le problème de manipulation articulée est étudié depuis plusieurs années dans des équipes comme Stanford (projet Where2Act, 2021), ETH Zurich et CMU. Les approches concurrentes comprennent les frameworks VLA tels que pi0 (Physical Intelligence) ou OpenVLA, ainsi que les méthodes de perception articulée comme PARIS ou CatGrasp. GSAM se distingue en combinant explicitement un LLM pour la génération de contraintes et un VLM pour la perception raffinée, plutôt qu'une politique implicite entraînée bout-en-bout. Le travail reste un preprint arXiv non soumis à une conférence majeure (ICRA, IROS, CoRL) : les gains annoncés sont encourageants mais nécessitent une validation sur robot physique en conditions non contrôlées.

RecherchePaper

1 source

3arXiv cs.RO

Freeform Preference Learning pour la manipulation robotique

Des chercheurs présentent Freeform Preference Learning (FPL), une méthode d'apprentissage de politiques robotiques à partir de préférences humaines exprimées en langage libre, publiée sur arXiv le 30 juin 2026. Le problème ciblé est connu dans la manipulation robotique à long horizon : les signaux de succès binaires (réussite ou échec) sont trop rares pour guider l'apprentissage, et les préférences par paires classiques (« la trajectoire A est meilleure que B ») écrasent en un seul score des critères de qualité pourtant distincts, comme la vitesse, la sécurité du geste ou la précision du placement d'un objet. FPL change l'approche en laissant les annotateurs définir eux-mêmes des axes de préférence en langage naturel, par exemple « rapidité », « prudence » ou « qualité du placement », puis en collectant des comparaisons par paires spécifiques à chaque axe. Ces annotations servent à entraîner un modèle de récompense conditionné par le langage, capable d'associer une trajectoire et un axe donné à un score de récompense propre à cet axe, sur lequel est ensuite entraînée une politique unique optimisant simultanément ces multiples dimensions. Sur quatre tâches de manipulation en conditions réelles et deux tâches simulées, toutes à horizon long, FPL améliore les taux de réussite de 38 points de pourcentage par rapport aux méthodes à récompense éparse et aux méthodes à préférence binaire classique. L'enjeu dépasse le simple gain de performance chiffré. FPL produit un signal de progression dense sans nécessiter de découpage manuel en sous-tâches, ce qui allège considérablement le travail d'ingénierie de récompense, souvent le vrai goulot d'étranglement des pipelines d'apprentissage par renforcement appliqués à la robotique. Le résultat le plus notable pour les équipes qui conçoivent ces systèmes est la possibilité de piloter le comportement de la politique au moment de l'inférence, en pondérant différemment les axes appris, sans réentraînement, une flexibilité rarement démontrée à ce niveau. Les auteurs rapportent aussi une forme de compositionnalité : la politique combine des comportements qui n'apparaissaient pas ensemble dans les données d'entraînement, un indice que le modèle de récompense capture des notions de qualité généralisables plutôt que de simples heuristiques mémorisées. Ce travail s'inscrit dans la lignée des efforts récents pour dépasser les limites du reinforcement learning from human feedback (RLHF) appliqué au-delà du texte, notamment dans la manipulation robotique où des méthodes comme les préférences binaires ou le reward shaping manuel dominent encore. Il ne s'agit pas d'un système déployé commercialement mais d'une contribution méthodologique testée en laboratoire sur un nombre limité de tâches, avec du matériel de démonstration disponible en ligne (freeform-pl.github.io/fpl.website). Les prochaines étapes attendues concernent le passage à l'échelle sur des jeux de tâches plus vastes et l'intégration éventuelle à des architectures VLA (vision-language-action) génériques, où la définition de récompenses reste un obstacle central au déploiement industriel de robots généralistes.

RecherchePaper

1 source

4arXiv cs.RO

AutoSpeed : apprentissage sans annotation de la vitesse de mouvement adapté aux étapes pour la manipulation robotique

Un nouveau papier arXiv (2607.01051v1) présente AutoSpeed, une méthode qui permet aux politiques visuomotrices par apprentissage par imitation (IL) de moduler automatiquement leur vitesse d'exécution selon la difficulté de chaque étape d'une tâche de manipulation, sans aucune annotation de vitesse ou de segmentation d'étapes. Le problème visé est simple à énoncer: les politiques IL actuelles reproduisent la cadence des démonstrations expertes et opèrent avec un horizon de prédiction temporel fixe, quelle que soit la complexité du geste en cours. AutoSpeed traite plusieurs trajectoires futures à des vitesses candidates comme autant de cibles d'optimisation, les évalue via un coût composite qui arbitre entre erreur de prédiction et longueur de l'horizon, puis entraîne la politique vers le candidat le moins coûteux. La modulation de vitesse est implémentée dans le domaine fréquentiel via une transformée en cosinus discrète (DCT), ce qui autorise un changement d'échelle temporel continu, non entier, tout en préservant la fluidité du mouvement. L'intérêt pour l'industrie robotique tient au fait que la méthode est annoncée comme model-agnostic: elle se greffe sur des politiques visuomotrices existantes sans changer leur architecture ni exiger un travail d'étiquetage supplémentaire, ce qui abaisse le coût d'intégration pour qui veut déjà. Les auteurs rapportent une réduction substantielle du temps d'exécution des tâches couplée à une amélioration du taux de réussite, avec des vitesses inférées qui correspondent bien aux étapes réelles de la tâche, un signal encourageant sur la capacité du modèle à distinguer implicitement les phases faciles des phases délicates. Pour des intégrateurs qui cherchent à augmenter le débit de cellules robotisées sans sacrifier la fiabilité, ce type d'approche répond à une limite concrète des pipelines IL actuels, où la vitesse fixe impose un compromis rigide entre rapidité et précision. Le travail s'inscrit dans la lignée des politiques par apprentissage par imitation avec horizon de prédiction fixe, dont plusieurs limites de flexibilité ont déjà été pointées dans la littérature récente sur la manipulation robotique. À ce stade, il s'agit d'un résultat de recherche évalué en simulation et/ou benchmarks académiques, sans indication de déploiement industriel ni de partenaire matériel identifié; les prochaines étapes attendues seraient une validation sur plateformes physiques variées et une comparaison directe avec d'autres méthodes de contrôle de vitesse adaptatif.

RecherchePaper

1 source