Aller au contenu principal
Visual-RRT : planification de chemins vers des objectifs visuels par rendu différentiable
RecherchearXiv cs.RO6sem

Visual-RRT : planification de chemins vers des objectifs visuels par rendu différentiable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du laboratoire SGVR de l'université KAIST (Corée du Sud) ont publié en avril 2026 Visual-RRT (vRRT), un planificateur de mouvement pour bras manipulateurs capables de naviguer vers un objectif défini par une image ou une vidéo, sans configuration articulaire numérique explicite. La méthode combine les arbres à exploration rapide aléatoire (RRT), algorithme classique de planification de trajectoire, avec le rendu différentiable du robot pour guider la recherche par gradient visuel. Deux mécanismes complémentaires ont été introduits : une stratégie d'exploration-exploitation à frontières adaptatives, qui priorise les régions de l'espace de configuration visuellement prometteuses, et une expansion inertielle par gradient, qui propage les états d'optimisation entre les branches de l'arbre pour garantir une cohérence dynamique du gradient. Les expériences couvrent trois manipulateurs standard de l'industrie et de la recherche : Franka Emika Panda, Universal Robots UR5e, et Fetch Robotics, en simulation et en environnement réel.

L'apport technique fondamental réside dans la suppression d'un prérequis contraignant des planificateurs RRT classiques : la nécessité de spécifier la configuration-but sous forme d'angles articulaires précis. Dans les applications réelles d'automatisation ou d'apprentissage par démonstration, l'opérateur dispose le plus souvent d'une vidéo ou d'une photo de l'état-cible, pas d'un vecteur de joints. vRRT comble ce fossé en projetant l'espace visuel dans l'espace de configuration via rendu différentiable, ce qui permet d'utiliser un signal d'erreur visuel directement comme fonction de coût pour l'exploration. C'est un pas vers des systèmes robotiques plus faciles à programmer par l'exemple, sans calibration manuelle de la configuration finale.

Les RRT sont un acquis algorithmique des années 1990-2000 (Steven LaValle, 1998), massivement utilisés dans la robotique industrielle et les véhicules autonomes. L'intégration du rendu différentiable, popularisée par des frameworks comme PyTorch3D ou Mitsuba 3, dans la planification de trajectoire est une tendance émergente depuis 2022-2023. Sur ce créneau, des travaux concurrents explorent les Visual Language Action models (VLA) comme pi-0 de Physical Intelligence ou les approches basées sur la diffusion pour la planification. vRRT se distingue par sa modularité sur des RRT existants et sa compatibilité avec des architectures standard. Le code source est disponible publiquement. Aucune collaboration industrielle ni calendrier de déploiement n'est mentionné dans la publication ; il s'agit à ce stade d'un résultat de recherche académique, pas d'un produit commercialisé.

À lire aussi

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table
1arXiv cs.RO 

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table

Publiée sur arXiv (2605.17815) en mai 2026, une étude propose d'enrichir les planificateurs de manipulation robotique avec des actions non-préhensiles dites "agrégantes", en particulier le basculement d'objets (topple). Au lieu de déplacer un à un les éléments d'une pile sur un plan de travail, le robot peut renverser tout ou partie de la pile d'un seul mouvement avant de saisir les objets dans l'ordre souhaité. Les chercheurs formalisent cet espace de planification hybride pick-and-place + topple via un gadget graphique directionnel original, réduisant le calcul du plan à une variante du problème des galets en mouvement (pebble motion problem) : chaque objet est traité comme un galet se déplaçant sur un graphe selon des contraintes de non-collision. Les benchmarks conduits en simulation physique sur NVIDIA IsaacSim montrent une réduction significative du temps d'exécution par rapport à une stratégie purement pick-and-place. L'enjeu industriel est concret pour la manipulation en entrepôt, le kitting ou le tri de bacs. Réorganiser une pile de n pièces nécessite classiquement O(n) opérations de saisie-dépose ; une action topple peut en remplacer plusieurs, réduisant le temps de cycle et la sollicitation mécanique des actionneurs. L'article pointe ainsi un angle mort fréquent en robotique de production : les planificateurs de tâches restent majoritairement construits autour de la saisie, alors que les actions non-préhensiles offrent des gains de débit substantiels dès lors qu'elles sont correctement abstraites. Limite notable : les gains sont mesurés en simulation seulement, et le passage sim-to-real pour des actions dynamiques comme le topple reste une question ouverte. Les auteurs s'inscrivent dans la continuité des recherches sur la manipulation non-préhensile, actives depuis les années 1990 mais rarement intégrées au niveau de la planification symbolique de tâches. La formalisation est volontairement généraliste : une action de type "scoop" (raclage) peut être modélisée par la même abstraction graphique, ouvrant la voie à un cadre unifié pour plusieurs familles d'actions agrégantes. Face aux approches concurrentes basées sur l'apprentissage par renforcement ou les planificateurs géométriques, cette méthode symbolique-graphique offre lisibilité et garanties de complétude sur les instances modélisées. Aucun déploiement n'est annoncé ; les auteurs qualifient eux-mêmes leurs résultats de "preliminary indication", laissant la validation en environnement physique réel pour de futurs travaux.

RecherchePaper
1 source
Simulateur différentiable neuronal adaptatif : modélisation des contacts rigides par transfert réel-vers-simulation
2arXiv cs.RO 

Simulateur différentiable neuronal adaptatif : modélisation des contacts rigides par transfert réel-vers-simulation

Des chercheurs ont publié sur arXiv (référence 2603.06218v2) un framework baptisé "Few-Shot Neural Differentiable Simulator", conçu pour calibrer des simulateurs analytiques rigides à partir d'un volume réduit de données réelles, puis générer des jeux de données synthétiques à grande échelle. L'approche combine un simulateur analytique traditionnel, utilisé comme générateur de données après calibration, avec un réseau de neurones sur graphe (GNN) basé sur des maillages 3D, chargé de modéliser la dynamique avant des corps rigides. La contribution technique centrale réside dans la dérivation de gradients de substitution pour la détection de collision, rendant l'ensemble du pipeline entièrement différentiable. Les expériences portent sur des scénarios d'interaction multi-objets, où le système apprend des politiques de manipulation directement par optimisation basée sur les gradients dans le simulateur. Ce travail s'attaque à l'un des verrous majeurs du apprentissage robotique : le coût prohibitif de la collecte de données réelles et l'écart persistant entre simulation et réalité (sim-to-real gap). En n'exigeant qu'un petit nombre d'épisodes réels pour recaler le simulateur analytique, plutôt que des milliers de trajectoires pour entraîner un modèle purement appris, le framework réduit significativement la barrière d'accès à la simulation haute-fidélité. La différentiabilité complète est un avantage concret pour les concepteurs de politiques robotiques : elle permet de propager des gradients à travers la dynamique de contact, évitant le recours à des méthodes d'optimisation sans gradient (evolutionary strategies, RL model-free) typiquement moins efficaces en échantillons. Les résultats présentés indiquent que le GNN ainsi entraîné surpasse des baselines différentiables analytiques pour répliquer des trajectoires réelles, bien que ces résultats restent à ce stade expérimentaux et non validés en conditions industrielles réelles. Le problème de la simulation de contact rigide mobilise depuis plusieurs années des équipes académiques et industrielles majeures. Les simulateurs dominants comme MuJoCo (DeepMind), Isaac Sim (NVIDIA) et PyBullet offrent une différentiabilité partielle, mais peinent à modéliser fidèlement les contacts complexes sans paramétrage expert lourd. Des approches concurrentes comme DiffTaichi ou Brax (Google) ont exploré la différentiabilité à l'échelle, tandis que des laboratoires comme MIT CSAIL et Stanford travaillent sur des simulateurs neuronaux pour la manipulation. Ce preprint, non encore soumis à révision par pairs, ouvre une direction crédible vers des simulateurs "grounded" en peu de données réelles, pertinente pour les déploiements en manipulation industrielle et en robotique de service où les données réelles sont coûteuses à acquérir.

RecherchePaper
1 source
SPARC : planification de trajectoire spatiale par communication robotique attentive
3arXiv cs.RO 

SPARC : planification de trajectoire spatiale par communication robotique attentive

Une équipe de chercheurs a publié sur arXiv (référence 2603.02845v3) SPARC, un système de planification de trajectoires pour flottes de robots autonomes décentralisées, centré sur un nouveau mécanisme de communication baptisé RMHA (Relation enhanced Multi Head Attention). Le constat de départ est précis : dans les approches d'apprentissage multi-agents existantes, chaque robot traite les messages de ses voisins de manière uniforme, sans tenir compte de leur distance réelle. En environnement dense, cette indifférence spatiale dilue l'attention là où la coordination est justement la plus critique. RMHA intègre directement les distances de Manhattan par paires dans le calcul des poids d'attention, permettant à chaque robot de prioriser dynamiquement les messages des voisins les plus proches. Ce mécanisme est couplé à un masque d'attention contraint par distance et à une fusion de messages par réseau GRU (Gated Recurrent Unit), le tout entraîné en bout en bout via MAPPO, un algorithme d'apprentissage par renforcement multi-agents. Sur des grilles de 40x40 cases avec 30 % de densité d'obstacles, SPARC atteint environ 75 % de taux de succès, surpassant la meilleure méthode de référence de plus de 25 points de pourcentage. Le résultat le plus structurant est la généralisation zéro-shot : le système est entraîné sur des scénarios à 8 robots et testé directement sur des configurations à 128 robots, sans ré-entraînement. Cette capacité de mise à l'échelle sans supervision supplémentaire est un verrou majeur pour les déploiements industriels réels, notamment en logistique entrepôt où les flottes AMR peuvent dépasser plusieurs dizaines d'unités. Les ablations confirment que l'encodage de la relation de distance est le facteur déterminant du gain de performance en haute densité, ce qui valide l'hypothèse que le biais spatial manquait aux architectures à attention standard appliquées à la coordination robotique. MRPP est un champ de recherche actif depuis une décennie, avec des approches classiques comme CBS (Conflict-Based Search) et des variantes apprises reposant sur QPLEX, MAPPO ou des graph neural networks. SPARC s'inscrit dans la lignée des travaux combinant attention multi-têtes et apprentissage multi-agents coopératif, en corrigeant un angle mort de conception commun à la majorité de ces systèmes. Il n'y a pas, à ce stade, de déploiement annoncé ni de partenariat industriel mentionné : il s'agit d'une contribution de recherche académique. Les prochaines étapes attendues dans ce domaine incluent la validation sur environnements physiques réels et l'extension à des grilles de plus grande dimension, deux conditions nécessaires avant toute intégration dans des systèmes AMR commerciaux.

RecherchePaper
1 source
LAD-VF : la différentiation automatique par LLM permet la planification robotique sans ajustement fin à partir de méthodes formelles
4arXiv cs.RO 

LAD-VF : la différentiation automatique par LLM permet la planification robotique sans ajustement fin à partir de méthodes formelles

Une équipe de chercheurs a publié LAD-VF (LLM-AutoDiff with Verification Feedback), un cadre de planification robotique basé sur les grands modèles de langage (LLM) qui élimine le besoin de fine-tuning. Présenté dans un article arXiv (2509.18384v2), le système combine la vérification formelle des contraintes avec un mécanisme de différenciation automatique appliqué directement au texte, baptisé LLM-AutoDiff. Concrètement, LAD-VF génère des boucles de rétroaction à partir d'un vérificateur formel qui évalue si les plans produits respectent les spécifications de sécurité et réglementaires, puis affine itérativement les prompts plutôt que les paramètres du modèle. Lors d'expériences sur des tâches de navigation et de manipulation robotique, le taux de succès progresse de 60 % à plus de 90 %, sans modification des poids du modèle sous-jacent. Ce résultat adresse un problème central pour le déploiement industriel des LLM en robotique : les modèles actuels violent fréquemment les contraintes de sécurité par hallucination ou par alignement insuffisant, ce qui freine leur adoption dans des environnements réglementés comme l'industrie manufacturière, la mobilité autonome ou la chirurgie assistée. Les approches classiques de réalignement telles que le Direct Preference Optimization (DPO) ou le RLHF exigent des annotations humaines coûteuses et des cycles de fine-tuning intensifs en calcul GPU. En substituant l'optimisation de prompt à celle des poids, LAD-VF ouvre une voie d'adaptation scalable sans infrastructure de réentraînement dédiée, et produit des prompts auditables qui simplifient la traçabilité requise par des normes comme l'ISO 10218 ou le futur règlement européen sur l'IA. LAD-VF s'inscrit dans un courant émergent qui cherche à rendre les LLM exploitables dans des contextes à haute criticité sans passer par des pipelines de fine-tuning lourds. Les approches concurrentes incluent les méthodes de formal-feedback avec fine-tuning, le Constitutional AI d'Anthropic ou les frameworks de planification symbolique hybride comme SayCan (Google DeepMind). La nouveauté de LAD-VF tient à l'intégration de la différenciation automatique au niveau textuel, un concept issu des travaux sur AdalFlow. L'architecture modulaire revendiquée suggère une compatibilité avec des familles de modèles variées (GPT-4, Llama, Qwen), mais les expériences publiées restent limitées à des environnements de simulation ; le passage au réel en conditions industrielles reste entièrement à démontrer.

UELes prompts auditables générés par LAD-VF pourraient faciliter la conformité au règlement européen sur l'IA pour les applications robotiques à haute criticité, mais le système reste limité à des environnements de simulation sans validation industrielle réelle.

RecherchePaper
1 source