Aller au contenu principal
Diffusion hybride pour la planification symbolique et continue simultanée
RecherchearXiv cs.RO1h

Diffusion hybride pour la planification symbolique et continue simultanée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (identifiant 2509.21983, version 2) une méthode baptisée "Hybrid Diffusion" qui combine génération de trajectoires continues et planification symbolique de haut niveau pour les robots accomplissant des tâches complexes et longues. Le constat de départ est empirique : les modèles de diffusion purement continus, pourtant plébiscités pour générer des trajectoires robotiques, échouent sur les tâches à long horizon. En pratique, ils confondent différents modes de comportement, enchaînant des séquences d'actions incompatibles qui provoquent des échecs en cascade. La solution proposée consiste à diffuser simultanément deux types de variables : des variables discrètes formant un plan symbolique de haut niveau, et des variables continues décrivant la trajectoire physique du robot. Ce double processus, mélange inédit de diffusion discrète et continue, surpasse significativement les baselines selon les auteurs, et permet également de conditionner la génération d'actions sur des conditions symboliques partielles ou complètes.

Ce travail s'attaque au "long-horizon planning gap", un verrou fondamental de la robotique cognitive : l'incapacité des systèmes actuels à enchaîner de nombreuses étapes cohérentes. Les approches purement continues, notamment les Visual Language Action models (VLA), souffrent d'une absence de structure symbolique explicite, les rendant fragiles face aux tâches multi-étapes structurées. En générant conjointement un plan symbolique, le modèle maintient une représentation explicite de ce qu'il doit faire et dans quel ordre, réduisant les confusions de modes. Cela dit, le papier est un preprint arXiv non encore soumis à peer review ; les résultats sur robots physiques réels restent à valider de manière indépendante.

Les modèles de diffusion pour la robotique ont émergé comme alternative à l'imitation learning classique, notamment via Diffusion Policy (Chi et al., 2023). Hybrid Diffusion s'inscrit dans une tendance combinant raisonnement symbolique (TAMP, planification PDDL) et apprentissage par données, un terrain également exploré par Google avec SayCan et RT-2, ainsi que par les architectures utilisant des LLM comme planificateurs de haut niveau couplés à des policies continues. La prochaine étape naturelle sera la validation sur plateformes physiques, manipulateurs industriels ou robots mobiles, dans des environnements non contrôlés, ce que ce travail, centré sur des expériences en simulation, ne démontre pas encore.

Dans nos dossiers

À lire aussi

Relier la planification discrète à l'exécution continue pour les robots redondants
1arXiv cs.RO 

Relier la planification discrète à l'exécution continue pour les robots redondants

Des chercheurs publient sur arXiv (identifiant 2604.02021) un cadre de transition entre planification discrète et exécution continue pour bras manipulateurs redondants à 7 degrés de liberté. Le constat de départ est pratique : les trajectoires générées par apprentissage par renforcement sur grille voxel, exécutées directement via cinématique inverse numérique point par point, produisent du jitter de pas, des transitions articulaires brusques et des instabilités au voisinage de configurations singulières. La méthode proposée agit sur deux niveaux sans modifier le planificateur existant. Côté planification : des actions cartésiennes à 26 voisins normalisées en pas et un mécanisme de tie-breaking géométrique qui supprime les virages inutiles et les oscillations. Côté exécution : une couche TP-DLS (task-priority damped least-squares IK) où la position de l'effecteur terminal est traitée comme tâche primaire, le centrage articulaire et le contrôle de posture étant projetés dans l'espace nul comme tâches subordonnées, combinés à un clipping par région de confiance et des contraintes de vitesse articulaire. Sur un 7-DOF testé en environnements sparse, medium et dense générés aléatoirement : taux de succès en scène dense de 0,58 à 1,00, longueur de chemin de 1,53 m à 1,10 m, erreur d'effecteur inférieure à 1 mm, accélérations articulaires de pointe réduites de plus d'un ordre de grandeur. L'intérêt opérationnel est la modularité : la couche TP-DLS s'insère comme un module plug-in sans retoucher le planificateur sous-jacent, abaissant le coût d'adoption pour les équipes qui disposent déjà d'un planificateur RL voxel-grid. La réduction des accélérations de pointe d'un facteur supérieur à 10 se traduit directement par moins d'usure mécanique, une moindre sollicitation des servomoteurs et une meilleure compatibilité avec les normes cobotiques (ISO/TS 15066). Le passage de 58 % à 100 % de succès en scènes denses est surtout un signal de diagnostic : il indique que le goulot d'étranglement n'était pas le planificateur RL mais bien la couche de conversion discret-continu, une hypothèse rarement testée explicitement dans la littérature. Limite à noter : tous les résultats restent en simulation sur environnements générés aléatoirement, sans validation sur hardware réel ni benchmark standardisé de la communauté. La cinématique inverse DLS et la gestion par priorité de tâche sont des techniques classiques issues des travaux de Nakamura et Hanafusa (1986) et de Siciliano et Slotine (1991) ; la contribution ici est leur intégration calibrée dans un pipeline RL voxel-grid avec des heuristiques spécifiques à la discontinuité des actions discrètes. Les premiers concernés sont les intégrateurs et équipementiers utilisant des bras 7-DOF redondants tels que Franka Robotics (FR3), KUKA (LBR iiwa) ou Kinova (Gen3). Aucun partenariat industriel ni timeline de transfert technologique n'est annoncé dans le preprint. La suite logique serait une validation sur robot physique et une comparaison directe avec des planificateurs continus comme CHOMP ou TrajOpt, qui résolvent le problème de manière différente mais avec un coût computationnel nettement plus élevé.

UEKUKA (LBR iiwa) et Franka Robotics (FR3), deux fabricants européens de bras redondants 7-DOF explicitement ciblés, pourraient réduire leur coût d'intégration de planificateurs RL et améliorer leur conformité ISO/TS 15066 grâce à ce module plug-in, sous réserve de validation hardware.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
2arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source
Planificateurs de préhension 2D et 3D pour la pince asymétrique GET
3arXiv cs.RO 

Planificateurs de préhension 2D et 3D pour la pince asymétrique GET

Des chercheurs ont présenté sur arXiv (2604.26212) deux planificateurs de préhension pour le préhenseur asymétrique GET. GET-2D-1.0 opère depuis une image RGB-D à vue unique en combinant la métrique Ferrari-Canny à une stratégie d'échantillonnage originale, avec un temps de planification de 683 millisecondes. GET-3D-1.0 repose sur un modèle maillé 3D du préhenseur couplé à un lancé de rayons, pour une latence moyenne de 17 secondes. Validés par des expériences physiques, les deux systèmes surpassent une baseline par boîte englobante : GET-2D-1.0 améliore de plus de 40 % le succès au soulèvement, la résistance aux secousses et la résistance aux forces. GET-3D-1.0 progresse légèrement sur ces deux premiers critères, mais avec un coût de calcul environ 25 fois supérieur. Ce travail expose un compromis structurant en manipulation robotique : vitesse de réponse versus fidélité du modèle géométrique. Un gain de 40 % face à une baseline bounding-box reste significatif, car ces baselines demeurent courantes en production industrielle. L'évaluation sur hardware physique, et non en simulation, renforce la portée des résultats dans un secteur encore confronté au sim-to-real gap. La métrique Ferrari-Canny, référence académique depuis les années 1990 pour quantifier la qualité d'une prise par optimisation des forces de contact, est rarement intégrée dans les pipelines industriels modernes. Le préhenseur GET adopte une géométrie asymétrique, plus contraignante à planifier que les pinces parallèles standard commercialisées par Robotiq ou OnRobot. Cette publication se positionne face aux approches généralistes comme GraspNet ou AnyGrasp, en ciblant explicitement les morphologies non standard, un segment encore peu couvert par les solutions clés en main du marché.

RecherchePaper
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
4arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source