Dossier arXiv cs.RO — page 34

1750 articles · page 34 sur 35

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

1651arXiv cs.RO IA physiqueOpinion

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image. Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large. L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.

Dossier arXiv cs.RO — page 34

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux

Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels

NDPP-Grasp : préhension dextérique orientée tâche guidée par contraintes de plausibilité physique non-différentiables

CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités

Évitement de collisions par fonctions barrières de contrôle géométriques et approximations polynomiales de Bernstein

Voir vite et lentement : graphes de scènes 3D bimodaux pour tâches en domaine ouvert

Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes

Apprentissage inverse de récompenses transférables par abstraction d'états

Navigation et exploration collaboratives avec des processus gaussiens épars bêta

Transport multi-robots de boîtes sur différentes surfaces avec contrôle proportionnel décentralisé basé sur les rôles

Couverture ergodique dans les systèmes multi-robots via la diffusion anisotrope

Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement

Quand la recherche devient mémoire : transformer les essais de conception robotique en compétences transférables

Robots qui apprennent à évaluer des modèles de comportement collectif

Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication

Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Manipulation d'objets par un système de treillis à topologie variable

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Emballage dans des contenants partiellement remplis par contact

Génie logiciel pour la robotique auto-adaptative : un programme de recherche

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot

Liaisons de jambes robotiques extensibles et rétractables dynamiquement pour l'exécution de tâches multiples en recherche et sauvetage

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

Génération de mouvement réactif par fonctions de potentiel neuronal à phase variable

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Caractérisation du couplage des couples tangage-roulis dans des robots à ailes battantes de taille insecte via un cardan microfabriqué

ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

Cartographie sûre de champs scalaires par transformée de Hough et processus gaussiens

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction

Locomotion d'un robot serpent élastique par dynamique naturelle

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle