Aller au contenu principal
ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile
RecherchearXiv cs.RO3h

ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche du laboratoire elpis-lab a publié sur arXiv en juin 2025 (identifiant 2506.04646, désormais à sa quatrième révision) un framework baptisé ActivePusher, dédié à la manipulation non-préhensile, c'est-à-dire le déplacement d'objets par poussée ou roulement, sans saisie. L'approche combine deux blocs techniques : un modèle de dynamique par physique résiduelle, qui superpose un correctif appris par réseau de neurones à un modèle physique analytique de base, et un mécanisme d'apprentissage actif guidé par l'incertitude, qui oriente automatiquement la collecte de données vers les paramètres de compétence les moins bien couverts. Le framework s'intègre avec des planificateurs kinodynamiques à base de modèle, en pondérant l'échantillonnage de commandes selon les zones de faible incertitude du modèle appris. Les auteurs valident l'approche en simulation et sur robot réel, avec des taux de succès de planification supérieurs aux méthodes de référence, à volume de données d'entraînement égal.

L'enjeu est significatif pour les intégrateurs et équipes R&D travaillant sur la manipulation en environnement non structuré. La manipulation non-préhensile reste un goulot d'étranglement dans de nombreuses lignes d'assemblage et de tri, précisément parce que les modèles analytiques (friction, contact multipoint) sont difficiles à calibrer et fragiles face aux variations de surface ou de géométrie. ActivePusher attaque ce problème sous deux angles simultanément : réduire le coût de collecte de données en évitant les interactions aléatoires peu informatives, et rendre la planification longue-portée plus fiable en évitant les régions d'incertitude élevée. C'est une réponse directe au "sim-to-real gap" structurel qui plombe les déploiements industriels de bras manipulateurs sur tâches de contact.

La manipulation non-préhensile est un axe de recherche actif depuis les travaux fondateurs sur la mécanique du contact des années 1990, mais les approches purement analytiques ont montré leurs limites face à la variabilité du monde réel. Des frameworks comme MPPI (Model Predictive Path Integral) ou les planificateurs kinodynamiques basés sur des modèles appris (travaux de Karol Hausman, Pieter Abbeel) forment le paysage concurrent direct. ActivePusher se distingue par le couplage explicite entre acquisition active et planification, là où la plupart des approches traitent ces deux problèmes séparément. Le code source est disponible publiquement sur GitHub (elpis-lab/ActivePusher), ce qui devrait favoriser la reproductibilité. Aucun partenaire industriel ni timeline de transfert n'est mentionné : il s'agit d'une contribution académique, sans déploiement annoncé à ce stade.

Dans nos dossiers

À lire aussi

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile
1arXiv cs.RO 

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile

Des chercheurs ont publié sur arXiv (référence 2604.17833) les travaux autour de DART, un framework bimanuel conçu pour la manipulation non préhensile d'objets posés sur un plateau. L'approche repose sur un contrôleur prédictif non linéaire (MPC) couplé à un contrôleur d'impédance par optimisation, permettant de déplacer des objets sur le plateau sans les saisir directement. Le système évalue trois stratégies de modélisation de la dynamique plateau-objet : un modèle analytique physique, un modèle par régression en ligne adaptatif en temps réel, et un modèle de dynamique entraîné par apprentissage par renforcement (RL), ce dernier offrant une meilleure généralisation sur des objets aux propriétés variées. Les évaluations ont été réalisées en simulation sur des objets de masses, géométries et coefficients de friction différents. Les auteurs revendiquent que DART constitue le premier framework dédié à ce type de tâche en configuration bimanuelle. L'intérêt technique de DART réside dans la comparaison rigoureuse des trois approches de modélisation sur des métriques concrètes : temps de stabilisation, erreur en régime permanent, effort de contrôle et généralisation. Ce benchmark interne est utile pour les équipes d'intégration robotique qui doivent choisir entre modèles physiques (précis mais rigides), adaptation en ligne (réactive mais computationnellement coûteuse) et RL (flexible mais plus difficile à certifier). L'association MPC et contrôleur d'impédance est une piste crédible pour la manipulation d'objets fragiles ou instables, un verrou important en robotique de service. Toutefois, la validation reste strictement en simulation : le passage au réel implique des défis de perception, de latence et de calibration que le papier ne traite pas encore. Ce travail s'inscrit dans un intérêt croissant pour la robotique de service en hôtellerie et restauration, où des acteurs comme Bear Robotics (Servi), Keenon Robotics ou encore Enchanted Tools (Miroki, développé en France) positionnent leurs plateformes sur des tâches de transport et de service en salle. Les approches dominantes jusqu'ici privilégient la navigation autonome avec préhension classique ; la manipulation non préhensile sur plateau reste peu explorée à l'échelle produit. La prochaine étape naturelle pour DART serait une validation sur plateforme physique, avec des bras commerciaux type Franka Research 3 ou Universal Robots, avant d'envisager une intégration dans un robot mobile de service.

UEEnchanted Tools (Miroki, France) est cité comme acteur du service robotique susceptible de bénéficier de ce type de manipulation non préhensile sur plateau, mais le travail reste en simulation sans transfert réel annoncé.

RecherchePaper
1 source
CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action
2arXiv cs.RO 

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

Des chercheurs ont publié en 2026 sur arXiv (référence 2502.00937v2) un nouveau framework de pré-entraînement 3D pour la manipulation robotique, baptisé CLAMP, pour Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining. Le principe : fusionner des images RGB-D avec les paramètres extrinsèques des caméras pour reconstruire un nuage de points 3D unifié, puis re-rendre des observations multi-vues à quatre canaux (RGB, profondeur, coordonnées 3D), incluant une vue dynamique au niveau du poignet du robot. Un encodeur est pré-entraîné par apprentissage contrastif sur de larges jeux de trajectoires simulées, en associant la géométrie spatiale des objets aux séquences d'actions du robot. Simultanément, une Diffusion Policy est pré-entraînée pour initialiser les poids lors du fine-tuning, avant d'être affinée sur un nombre limité de démonstrations réelles. CLAMP surpasse les baselines état de l'art sur six tâches en simulation et cinq tâches en environnement réel. La valeur opérationnelle de CLAMP tient principalement à son impact sur l'efficacité d'apprentissage. Les approches standards de behavior cloning s'appuient sur des représentations 2D pré-entraînées (ViT, ResNet), qui ignorent la profondeur et la géométrie spatiale, critiques pour les tâches de manipulation de précision. En injectant cette information 3D dès le pré-entraînement, CLAMP réduit le nombre de démonstrations humaines nécessaires pour atteindre des performances satisfaisantes sur de nouvelles tâches, ce qui est un levier concret pour les intégrateurs industriels. L'architecture hybride contrastive plus Diffusion Policy est potentiellement transférable. Prudence toutefois : les résultats en conditions réelles portent sur cinq tâches seulement, et le preprint ne détaille pas les protocoles de sélection des vidéos, ce qui invite à nuancer la portée des résultats. CLAMP s'inscrit dans un champ de recherche actif visant à dépasser les limites des politiques purement 2D et des VLA (Vision-Language-Action models) pour la manipulation. Il dialogue directement avec des travaux comme R3M, MVP, DP3 (Diffusion Policy 3D) ou SpatialVLA. La principale originalité est le conditionnement par les actions dans l'apprentissage contrastif 3D, combinaison peu explorée jusqu'ici. Le code et les vidéos sont disponibles sur clamp3d.github.io. Aucun déploiement industriel ni partenariat n'est annoncé ; il s'agit d'un résultat académique. La suite logique serait une évaluation à plus grande échelle, avec davantage de robots et de scénarios hors distribution, pour confirmer la généralisation sim-to-real à l'échelle.

RecherchePaper
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
3arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation
4arXiv cs.RO 

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

Des chercheurs ont publié sur arXiv (référence 2508.17466v3) un framework de deep learning destiné à améliorer les capacités de préhension des robots quadrupèdes équipés d'un bras manipulateur, une configuration connue sous le nom de loco-manipulation. L'approche repose sur une méthodologie sim-to-real développée dans l'environnement de simulation Genesis, où des milliers d'interactions synthétiques ont été générées sur des objets courants pour produire des cartes annotées pixel par pixel de qualité de préhension. Ces données ont servi à entraîner un réseau de neurones convolutif inspiré de l'architecture U-Net, qui fusionne en entrée des flux multi-modaux issus de caméras embarquées : images RGB, cartes de profondeur, masques de segmentation et cartes de normales de surface. En sortie, le modèle produit une heatmap identifiant le point de préhension optimal. Le système complet a été validé sur un vrai robot quadrupède, qui a exécuté de façon autonome la séquence complète : navigation vers l'objet cible, perception, prédiction de la pose de préhension, puis saisie effective. Le principal intérêt de ce travail est de montrer qu'un pipeline sim-to-real bien conçu peut substituer la collecte de données physiques, historiquement le goulet d'étranglement du développement en manipulation robotique. Pour les intégrateurs et décideurs industriels, cela suggère qu'il devient possible de déployer des capacités de manipulation sur robots mobiles sans investissement massif en démonstrations réelles. Cela dit, l'abstract ne fournit aucun taux de succès quantifié, aucune comparaison avec une baseline, et aucun détail sur le nombre d'objets testés ou la robustesse aux variations d'éclairage et de pose : des lacunes habituelles dans les preprints mais qui freinent l'évaluation sérieuse de la transférabilité industrielle. Ce travail s'inscrit dans un champ académique très actif autour des robots quadrupèdes à bras, popularisé par des plateformes comme l'ANYmal de ANYbotics (Suisse) ou le Spot d'Boston Dynamics, tous deux cibles régulières de recherches en loco-manipulation. L'environnement Genesis, relativement récent, se positionne comme alternative à Isaac Sim (NVIDIA) et MuJoCo pour la génération de données synthétiques. L'architecture U-Net, initialement conçue pour la segmentation médicale, est ici réutilisée pour un problème de régression spatiale, une transposition qui gagne du terrain en robotique de manipulation. Ce papier, en version 3 de révision, reste un travail de recherche en laboratoire : aucun déploiement opérationnel ni partenariat industriel n'est mentionné.

UEImpact indirect limité : ANYbotics (Suisse) est citée comme plateforme cible type, mais le travail est un preprint académique sans affiliation institutionnelle européenne identifiée ni déploiement opérationnel.

RecherchePaper
1 source