Dossier Manipulation robotique — page 3

446 articles · page 3 sur 9

La manipulation robotique : pinces dextres, peau électronique, grasping, benchmarks de tâches fines, le goulot d'étranglement principal des humanoïdes.

101arXiv cs.RO IA physiqueActu

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

Des chercheurs ont mis en ligne le 25 juin 2026 sur arXiv (réf. 2606.25985) Action ControlNet (ACNet), un adaptateur léger pour modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. Le problème ciblé : les VLA génèrent des actions par blocs ("chunks"), mais leur latence d'inférence impose une exécution asynchrone, c'est-à-dire que le robot continue à bouger pendant que le modèle calcule le chunk suivant. La jonction entre deux chunks produit alors des discontinuités (jitter d'action, ruptures de trajectoire) qui dégradent les performances, particulièrement dans les tâches en contact (assemblage, insertion). ACNet insère un module adaptateur qui conditionne la prédiction du prochain chunk sur le "motion suffix" déjà exécuté, permettant une transition cohérente avec l'état réel du robot au moment du handoff. Le backbone préentraîné reste figé ; seul l'adaptateur est entraîné, avec peu de paramètres supplémentaires. La méthode est compatible avec les têtes d'action de type diffusion et flow matching. Les évaluations couvrent les simulateurs Kinetix et Meta-World MT50 (50 tâches variées) ainsi qu'un bras réel SO-ARM101 ; ACNet surpasse le chunk stitching direct en fluidité et robustesse sous délai d'inférence, et reste plus léger qu'un réentraînement complet "delay-conditioned". Ce résultat intéresse directement les équipes de déploiement robotique : il propose une correction modulaire de l'asynchronisme sans toucher aux modèles de base. Les VLA de grande taille, notamment Pi-0 (Physical Intelligence), OpenVLA et Octo, souffrent tous du même problème ; une solution par adaptateur plug-in réduit sensiblement le coût d'adaptation. La compatibilité déclarée avec les têtes diffusion et flow matching couvre la majorité des architectures VLA actuelles, ce qui élargit la portée pratique. Nuance à retenir : les tests réels se limitent à un seul bras manipulateur à effecteur unique ; la généralisation à des configurations multi-bras ou à charge variable en environnement industriel reste à démontrer, et les benchmarks simulés ne reproduisent pas la complexité des lignes de production. Le problème de latence d'inférence dans les VLA est documenté depuis RT-2 (Google DeepMind, 2023) et a motivé des travaux comme Diffusion Policy et ACT (Action Chunking with Transformers). Les solutions existantes exigeaient soit un réentraînement complet du modèle avec conditionnement sur le délai, soit une logique de runtime spécifique à chaque architecture, deux contraintes qui freinent l'adoption industrielle. ACNet se positionne comme une alternative plus légère et plus générique. Dans l'écosystème concurrent, Physical Intelligence, Figure AI (Figure 03), 1X Technologies et Agility Robotics travaillent tous sur des pipelines VLA haut débit pour leurs plateformes humanoïdes et manipulateurs ; une intégration dans des frameworks open-source comme Lerobot (Hugging Face) pourrait accélérer le passage de la démonstration au déploiement réel. Ce preprint ne mentionne ni partenariat industriel ni timeline commercial.

UEUne intégration potentielle dans Lerobot (Hugging Face, Paris) pourrait permettre aux équipes R&D robotique européennes d'adopter cette correction d'asynchronisme sans réentraîner leurs modèles VLA de base.

Dossier Manipulation robotique — page 3

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

Un jeu de données imprimable en 3D pour évaluer et comparer objectivement les capteurs tactiles

DSP-SLAM++ : un cadre unifié pour le SLAM d'objets multi-classes haute fidélité en conditions réelles

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

ForceBand : apprentissage de la manipulation de force par sEMG

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

GRAFT : transfert d'affordances à base de graphes par correspondance de parties

IA robuste pour manipuler les tissus grâce au raffinement en temps réel par simulation

MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation

Mouvement primitif en robotique : une étude approfondie

TactSpace : apprendre un espace latent partagé enrichi par la physique pour le transfert sim-vers-réel tactile

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation

ContactWorld : ce qui compte dans les modèles du monde vision-tactile pour la manipulation par contact

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension

Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques

SkiP : quand ignorer et quand affiner pour une manipulation robotique efficace

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée

IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)