Dossier arXiv cs.RO — page 35

1750 articles · page 35 sur 35

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

1701arXiv cs.RO RechercheOpinion

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (référence 2606.08775) un framework baptisé WorldDP, conçu pour résoudre le problème de la manipulation robotique multi-étapes. L'architecture est hiérarchique : un modèle du monde de haut niveau sert de fonction de transition au sein d'un cadre MPC (Model Predictive Control) et optimise des sous-objectifs intermédiaires à l'exécution, tandis qu'une Diffusion Policy de bas niveau se charge d'atteindre concrètement chacun de ces sous-objectifs. Pour structurer la planification, les auteurs introduisent des représentations object-centric qui découplent les entités de l'environnement, permettant au planificateur de raisonner séquentiellement sur chaque objet indépendamment. Évalué sur plusieurs benchmarks de manipulation robotique standards, WorldDP surpasse les baselines existantes selon les auteurs, résultat à prendre comme une affirmation de preprint, sans replication externe à ce stade. Ce travail s'attaque à un verrou reconnu du domaine : les modèles du monde visuels, aussi performants soient-ils sur des tâches isolées comme le reaching ou le grasping, échouent structurellement dès que la tâche exige plusieurs étapes causalement enchaînées. Pour un intégrateur ou un COO industriel, cela touche directement à l'exploitabilité réelle des robots manipulateurs en ligne de production, où les séquences pick-and-place complexes sont la norme. Le couplage entre la planification physiquement ancrée d'un world model et l'exécution fluide d'une Diffusion Policy représente une piste sérieuse pour réduire le sim-to-real gap sur des tâches longue horizon, sans nécessiter de démonstrations humaines exhaustives pour chaque variante de tâche. La Diffusion Policy, popularisée par Chi et al. en 2023, est devenue l'une des architectures de référence pour l'imitation learning en robotique, mais elle reste principalement réactive et peu adaptée au raisonnement causal multi-étapes. Les approches VLA (Vision-Language-Action), portées par Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, intègrent du raisonnement de haut niveau mais via des LLM, avec une latence et un coût computationnel élevés. WorldDP explore une voie intermédiaire, purement visuelle et sans langage, plus proche en philosophie des travaux sur les modèles du monde latents (DreamerV3, RSSM). Il s'agit d'un preprint académique sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur hardware réel et des benchmarks comparatifs face aux pipelines VLA actuels.

Dossier arXiv cs.RO — page 35

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel

Validation sim-vers-réel d'une plateforme graphique open source à quatre niveaux de communication pour l'enseignement de la robotique

AURA : algorithme de replanification asymptotiquement optimal et robuste à l'incertitude pour les systèmes kinodynamiques

Locomotion naturelle : principe et méthode

Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive

Fermer la boucle en téléopération : évaluation et retour qualité par épisode pour des démonstrations fiables

Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

Apprentissage, locomotion et navigation de serpents synthétiques souples en environnements tridimensionnels hétérogènes

Comment atténuer le problème de décalage de distribution dans le contrôle robotique : une approche robuste et adaptative par apprentissage par imitation hors ligne vers en ligne

Combler les lacunes : couverture ergodique multi-robot guidée par rétroaction en environnements inconnus

Perception active et contrôle tenant compte des conflits dans les champs de Gaussian Splatting 3D via des fonctions barrière de contrôle

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

Estimation de pose des parties d'objets avec une stratégie d'apprentissage sans annotation de symétrie

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles

Rollbot : un robot sphérique propulsé par un seul actionneur

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Contrôle anti-enchevêtrement par topologie pour robots souples

Navigation multimodale par apprentissage par renforcement multi-agents

SwarmCoDe : cadre de co-conception évolutif pour essaims de robots hétérogènes par spéciation dynamique

Sûreté par invariance, vivacité par raffinement : contrats hétérogènes pour la co-conception du contrôle multicouche

LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Commutation de raideur par multistabilité

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Contrôle hybride intégrant la faisabilité pour la planification de mouvement sous logiques temporelles à signaux

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Pince fluidique bistable sans source pour préhension sélective par taille et rigidité adaptative

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Impédance variable passive pour le contrôle partagé

CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)