RecherchearXiv cs.RO2h

Planification séquentielle par points d'ancrage pour la robotique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs de la Case Western Reserve University ont publié SPARK (Sequential Planning via Anchored Robotic Keypoints), un système neurosymbolique de manipulation robotique sans entraînement supplémentaire. Sur LIBERO-PRO, benchmark évaluant la robustesse face aux changements de position et de tâche, SPARK atteint 43,7 % sur six configurations, soit plus du double de CaP-Agent0 (18,2 %) et des baselines Vision-Language-Action. L'architecture repose sur deux appels Gemini : le premier génère un arbre de comportement (behavior tree) typé composé de primitives précodées intégrant le contrôle bas niveau (mouvement, préhension, géométrie de profondeur) ; le second propose trois formulations textuelles alternatives par objet, que SAM3 évalue pour retenir la détection la plus confiante. Un mécanisme de récupération relance toute primitive échouée sur des objets re-détectés, sans nouvel appel LLM. Le système a été validé sur trois familles de robots (UR10e, Franka FR3, Franka bimanuels) pour neuf tâches à vingt essais chacune, avec une moyenne de 68 %.

Le résultat central est architectural : SPARK identifie la perception comme le principal point de rupture des pipelines de manipulation, non la planification. Les formulations alternatives par objet apportent +27,7 points sur les tâches spatiales et +10,0 sur la suite objet ; la boucle de récupération ajoute +5,0 points globalement. Là où CaP-Agent0 re-interroge un LLM en repartant de zéro à chaque échec, SPARK ne replanifie que la détection, réduisant significativement le coût computationnel. Point stratégique : chaque essai produit automatiquement une trajectoire vérifiée et étiquetée, permettant à un planificateur training-free de générer les données dont les VLAs ont besoin sans téleopération humaine.

SPARK s'inscrit dans le débat entre architectures VLA end-to-end (pi-0 de Physical Intelligence, RT-2 de Google DeepMind, OpenVLA de Berkeley) et approches hybrides symboliques. Les VLAs misent sur la généralisation apprise de données massives mais restent fragiles aux distributions non vues à l'entraînement, précisément ce que LIBERO-PRO mesure. SPARK démontre qu'une conception neurosymbolique rigoureuse peut surpasser des modèles foundation sur des configurations difficiles. La validation reste limitée à neuf tâches sur trois plateformes, sans timeline de déploiement industriel annoncée. La modularité du système -- détecteur, planificateur et contrôleur remplaçables indépendamment -- ouvre la voie à des intégrations sur de nouvelles plateformes sans réentraînement.

Dans nos dossiers

Physical Intelligence — π0 OpenVLA / RT-X Manipulation robotique

À lire aussi

1arXiv cs.RO

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper

1 source

2arXiv cs.RO

Sculpture visuelle : représentations de planification alignées visuellement pour la modélisation d'argile robotique sur de longues séquences

Des chercheurs ont publié sur arXiv (référence 2605.17556, mai 2025) une méthode de sculpture robotisée de l'argile reposant sur une planification à long horizon dans un espace de représentation visuellement aligné. Le système, baptisé Visual Sculpting, formule la tâche comme un problème de correspondance entre formes : à partir d'une forme cible, le robot calcule une séquence de plus de 100 actions de poussée paramétrées avec un seul effecteur pour déformer progressivement la matière. La méthode a été validée sur trois matériaux déformables distincts et avec plusieurs types d'effecteurs. Les sculptures obtenues sont des reliefs en argile réalisés en boucle fermée, sans intervention humaine entre les passes. La contribution centrale est un modèle de dynamique des matériaux déformables opérant dans un espace de représentation qui encode non seulement la géométrie, mais aussi la texture et l'éclairage de la surface, contrairement aux approches précédentes fondées sur des nuages de points épars. Cette différence est notable pour la manipulation de matières molles, où l'apparence visuelle conditionne la précision des estimations d'état. Les auteurs rapportent des performances comparables à l'état de l'art sur les métriques géométriques classiques, avec l'avantage supplémentaire d'une compatibilité native avec les planificateurs visuels, ouvrant la voie à une intégration plus directe avec des politiques de type VLA (Vision-Language-Action). L'article reconnaît cependant que planifier directement dans cet espace visuel reste plus difficile que dans un espace 3D structuré, un point de friction technique qui devra être résolu avant toute application industrielle. Les travaux sur la manipulation d'objets déformables connaissent une accélération depuis 2022-2023, portés notamment par les progrès des modèles de dynamique neuronaux et l'essor des robots à manipulation dextre. La limite principale des systèmes précédents était la nécessité de réentraîner une politique par objectif, ce que cette approche cherche à contourner via une représentation généraliste. Aucune entreprise ni déploiement industriel n'est associé à ces travaux pour l'instant : il s'agit d'un preprint académique sans validation terrain. Les prochaines étapes probables incluent l'extension à des tâches de déformation bidirectionnelle et le test sur des bras industriels standards comme le Franka ou l'UR10.

RecherchePaper

1 source

3arXiv cs.RO

Lois d'échelle des données en apprentissage par imitation pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (référence 2410.18647, désormais à sa quatrième révision) une étude empirique sur les lois d'échelle des données appliquées à l'apprentissage par imitation en manipulation robotique. Le protocole est rigoureux : plus de 40 000 démonstrations collectées dans de nombreux environnements et avec des objets variés, suivies de plus de 15 000 exécutions réelles sur robot, ce qui en fait l'une des études de scaling en manipulation les plus extensives à ce jour. Résultat central : la performance de généralisation d'une politique d'imitation suit une relation en loi de puissance avec le nombre d'environnements et d'objets d'entraînement. Surtout, quatre collecteurs de données travaillant une seule après-midi ont suffi pour obtenir environ 90 % de taux de réussite en déploiement zéro-shot sur des objets inconnus dans des environnements non vus, sur deux tâches distinctes. Ce que cette recherche établit, c'est que la diversité des environnements et des objets prime largement sur le volume brut de démonstrations : au-delà d'un certain seuil de démonstrations par environnement ou par objet, en ajouter davantage n'améliore plus la généralisation. Ce résultat remet en cause la stratégie intuitive qui consiste à multiplier les répétitions dans un même contexte, et oriente clairement la priorité vers la couverture de distribution plutôt que la densité d'annotation. Pour les intégrateurs industriels et les équipes robotique qui budgètent la collecte de données, l'implication est directe : mieux vaut disperser les efforts sur des scènes variées que d'accumuler des trajectoires dans un seul setup. Le fait d'atteindre 90 % de succès en zéro-shot sur des objets inédits est également un signal fort sur la maturité du paradigme VLA (Vision-Language-Action) en manipulation monomode. Ce travail s'inscrit dans le sillage des succès de scaling en NLP et vision par ordinateur, que des équipes comme DeepMind (RT-2), Physical Intelligence avec Pi-0, ou encore NVIDIA avec GR00T cherchent à transposer en robotique. L'étude reste purement académique pour l'instant, aucun déploiement industriel n'étant annoncé, et les tâches testées demeurent mono-bras sur périmètre contrôlé. Une limite à noter : les vidéos de démonstration et les protocoles d'évaluation exacts ne sont pas tous publics dans la version arXiv, ce qui rend difficile la comparaison directe avec d'autres benchmarks. Les prochaines étapes logiques seront d'étendre ces lois d'échelle aux politiques multi-tâches et de tester leur robustesse sur des plateformes humanoïdes comme Figure 03 ou Optimus Gen 3, où la distribution des états physiques est bien plus large.

RecherchePaper

1 source

4arXiv cs.RO

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel

Une équipe de chercheurs publie sur arXiv (réf. 2606.25404) HEART, un framework de planification robotique qui distribue le raisonnement entre plusieurs LLM spécialisés plutôt que de confier l'ensemble de la tâche à un seul modèle. Le principe : décomposer une instruction complexe en sous-tâches atomiques (vérification des capacités du robot, analyse de l'atteignabilité des objets, respect des contraintes logiques et temporelles), puis allouer chacune à un agent LLM dédié, le tout sous une contrainte de budget en tokens pour rester viable sur du matériel embarqué ou en communication limitée. La synthèse finale produit un plan d'actions physiquement exécutable, validé avant transmission au robot. Les expériences sur plusieurs benchmarks de scénarios domestiques montrent une amélioration consistante du taux de succès face aux planificateurs mono-LLM et aux approches à base de règles, sans que l'abstract disponible détaille de chiffres absolus. La contribution centrale de HEART est d'intégrer une couche de validation physique avant la génération du plan, un angle mort chronique des approches LLM-only. Les modèles de langage généralisent bien le raisonnement symbolique mais peinent avec les contraintes géométriques réelles : objet hors de portée, séquence d'actions physiquement impossible, outil absent. En déléguant ces vérifications à des agents rôle-spécialisés, le framework réduit le taux de plans invalides ou incomplets. Pour les intégrateurs travaillant sur l'automatisation de tâches non-structurées en environnement domestique ou industriel léger, c'est un signal pertinent : la spécialisation des agents LLM par type de contrainte commence à produire des gains mesurables sur les benchmarks standard. Ce travail s'inscrit dans un courant de recherche actif qui cherche à dépasser les limites du "single LLM as planner", avec des approches comme SayPlan, LLM+P ou Code as Policies comme antécédents directs. Aucun acteur industriel ni déploiement terrain n'est mentionné, et le papier reste un preprint non relu par les pairs. L'absence de métriques chiffrées précises dans l'abstract (taux de succès, nombre de benchmarks, configurations matérielles testées) rend l'évaluation externe difficile. Les prochaines étapes naturelles seraient une validation sur robot physique réel et une comparaison contre des frameworks VLA (Vision-Language-Action) comme pi-0 ou GR00T N2, qui intègrent déjà un raisonnement ancré dans la perception sensorielle.

RecherchePaper

1 source