Dossier arXiv cs.RO — page 17

2263 articles · page 17 sur 46

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

801arXiv cs.RO RecherchePaper

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

Dossier arXiv cs.RO — page 17

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

RHO : votre agent de code est secrètement un roboticien

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D

TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Mémoire épisodique pour robots à filtrage par surprise

Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Raisonnement continu pour les modèles vision-langage-action (VLA)

TRANS : navigation agile de robots quadrupèdes par apprentissage par renforcement sensible au terrain en milieu social

CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes