Dossier Manipulation robotique — page 2

115 articles · page 2 sur 3

La manipulation robotique : pinces dextres, peau électronique, grasping, benchmarks de tâches fines, le goulot d'étranglement principal des humanoïdes.

51arXiv cs.RO IA physiqueOpinion

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

Une équipe de chercheurs propose Wavelet Policy (arXiv:2504.04991), un framework léger d'apprentissage par imitation pour la manipulation robotique. L'approche combine deux innovations : une mémoire de scène persistante appelée World Prior Memory (WPM), qui encode la structure statique de l'environnement à partir d'images de fond dans des vecteurs compacts, et une modélisation des actions par décomposition en ondelettes (wavelet-domain decomposition). L'architecture résultante, baptisée Single-Encoder Multiple-Decoder (SE2MD), décompose les représentations latentes des actions en sous-bandes temporelles distinctes, reconstruites via transformée inverse avant d'être projetées en séquences d'actions exécutables. Validée sur quatre tâches simulées et six tâches réelles de manipulation robotique, la méthode surpasse les baselines de référence sur l'ensemble des benchmarks. Le code source, les données et les poids du modèle sur tâches simulées sont disponibles publiquement sur GitHub. L'enjeu central est double. D'une part, les politiques visuomotrices classiques (ACT, Diffusion Policy) opèrent entièrement dans le domaine temporel et peinent à maintenir une conscience cohérente de la scène physique sur des horizons longs. D'autre part, les architectures à modèle du monde qui résolvent ce problème imposent un surcoût computationnel significatif, incompatible avec un déploiement embarqué sur robot. Wavelet Policy avance que la décomposition fréquentielle des représentations d'actions latentes suffit à capturer simultanément les composantes rapides (corrections fines) et lentes (planification gestuelle) sans recourir à un modèle du monde explicite. Pour les intégrateurs industriels et les équipes R&D embarquées, cela ouvre la voie à des politiques de manipulation longue-horizon déployables avec des ressources de calcul modestes. Le travail s'inscrit dans une compétition intense sur les politiques visuomotrices généralisées : Physical Intelligence a publié π0 fin 2024 sur des tâches de manipulation complexes, NVIDIA a proposé GR00T N2 avec apprentissage par simulation, et des laboratoires académiques comme Stanford ou Berkeley poussent des variantes de Diffusion Policy et d'imitation par Transformer. Wavelet Policy se positionne comme une alternative légère, sans prétendre au déploiement sur robot humanoïde : les expériences réelles restent au stade du bras manipulateur en environnement contrôlé. Publié en version preprint (v4, avril 2025), le travail n'a pas encore fait l'objet d'une publication dans une conférence de rang A (ICRA, CoRL, RSS), ce qui invite à nuancer la portée des résultats annoncés avant validation par les pairs.

Dossier Manipulation robotique — page 2

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

LaST-R1 : un nouveau paradigme de raisonnement physique atteint 99,9 % de succès sur le benchmark LIBERO

Estimation de pose 6D par régression de cartes de chaleur de points-clés avec réseaux de neurones résiduels RGB-D

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Prédiction de la stabilité de préhension sans contact par capteurs ToF intégrés en main

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele

Préhension indépendante du point de vue par VLM et observations partielles

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

Filtre de sécurité en ligne pour la manipulation d'objets déformables avec des opérateurs neuronaux sans horizon fixe

Estimation de pose 6D temporellement cohérente des objets pour le contrôle robotique

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Extraire la récompense cachée dans les politiques de diffusion

Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

AI² Robotics défend les modèles VLA et lance NeuroVLA

R2RGEN : génération de données 3D réel-vers-réel pour une manipulation spatialement généralisée

Planificateurs de préhension 2D et 3D pour la pince asymétrique GET

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

PokeVLA : un modèle vision-langage-action compact enrichi d'une connaissance globale du monde

Cortex 2.0 : ancrer les modèles du monde dans les déploiements industriels réels

OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain

Politique d'accès mémoire contrôlé

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

DeepThinkVLA : renforcer les capacités de raisonnement des modèles VLA

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

Contrôle en régime périodique permanent de la rotation d'un mouchoir par un poignet anti-parallélogramme à tendons

Estimation de pose 6-DOF pour objets inconnus : vers un déploiement robotique à grande échelle

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI

Ai2 : développer une IA physique grâce aux données de simulation virtuelle