Dossier arXiv cs.RO — page 11

2027 articles · page 11 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

501arXiv cs.RO RecherchePaper

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel

Une équipe de chercheurs publie sur arXiv (réf. 2606.25404) HEART, un framework de planification robotique qui distribue le raisonnement entre plusieurs LLM spécialisés plutôt que de confier l'ensemble de la tâche à un seul modèle. Le principe : décomposer une instruction complexe en sous-tâches atomiques (vérification des capacités du robot, analyse de l'atteignabilité des objets, respect des contraintes logiques et temporelles), puis allouer chacune à un agent LLM dédié, le tout sous une contrainte de budget en tokens pour rester viable sur du matériel embarqué ou en communication limitée. La synthèse finale produit un plan d'actions physiquement exécutable, validé avant transmission au robot. Les expériences sur plusieurs benchmarks de scénarios domestiques montrent une amélioration consistante du taux de succès face aux planificateurs mono-LLM et aux approches à base de règles, sans que l'abstract disponible détaille de chiffres absolus. La contribution centrale de HEART est d'intégrer une couche de validation physique avant la génération du plan, un angle mort chronique des approches LLM-only. Les modèles de langage généralisent bien le raisonnement symbolique mais peinent avec les contraintes géométriques réelles : objet hors de portée, séquence d'actions physiquement impossible, outil absent. En déléguant ces vérifications à des agents rôle-spécialisés, le framework réduit le taux de plans invalides ou incomplets. Pour les intégrateurs travaillant sur l'automatisation de tâches non-structurées en environnement domestique ou industriel léger, c'est un signal pertinent : la spécialisation des agents LLM par type de contrainte commence à produire des gains mesurables sur les benchmarks standard. Ce travail s'inscrit dans un courant de recherche actif qui cherche à dépasser les limites du "single LLM as planner", avec des approches comme SayPlan, LLM+P ou Code as Policies comme antécédents directs. Aucun acteur industriel ni déploiement terrain n'est mentionné, et le papier reste un preprint non relu par les pairs. L'absence de métriques chiffrées précises dans l'abstract (taux de succès, nombre de benchmarks, configurations matérielles testées) rend l'évaluation externe difficile. Les prochaines étapes naturelles seraient une validation sur robot physique réel et une comparaison contre des frameworks VLA (Vision-Language-Action) comme pi-0 ou GR00T N2, qui intègrent déjà un raisonnement ancré dans la perception sensorielle.

Dossier arXiv cs.RO — page 11

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel

GRAFT : transfert d'affordances à base de graphes par correspondance de parties

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles

ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines

SWAP : modèle du monde symétrique équivariant pour le parkour robotique agile

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Apprentissage par renforcement efficace pour les VLA par masquage probabiliste de séquences

Des quadrillages aux entrepôts : adapter la planification multi-agents légère en un coup pour les robots à guidage automatique

frax : cinématique et dynamique robotique rapide en JAX

VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique

Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable

Vers l'intelligence des mains dextériques en robotique : un état de l'art

Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés

Quels sont les facteurs limitants de la navigation vision-langage ?

QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil

STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

FASTER : repenser les VLA de flux en temps réel

Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle

RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Filtre de Kalman étendu itératif invariant pour l'odométrie des robots quadrupèdes