Dossier arXiv cs.RO — page 6

2027 articles · page 6 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

251arXiv cs.RO RecherchePaper

KRVF : représentation du monde en voxels sémantiques sensible à la source pour la manipulation mobile embarquée

Des chercheurs ont déposé sur arXiv (identifiant 2606.26321) un rapport technique décrivant KRVF, un système de représentation sémantique du monde en voxels conçu pour les manipulateurs mobiles soumis à des contraintes de calcul embarqué. L'architecture attribue à chaque voxel cinq propriétés: occupation de l'espace, couleur, évidence sémantique, fraicheur temporelle de la donnée et source d'origine de la mesure. Ce dernier attribut, la "conscience de la source", est le trait distinctif du système: il trace l'origine de chaque information, qu'elle provienne d'un capteur direct, d'une hypothèse a priori ou d'une inférence. L'implémentation repose sur ROS 2 et traite des flux RGB-D en temps réel pour construire une mémoire du robot orientée tâche, centrée sur la localisation des objets saisissables et des candidats à la préhension. L'acronyme KRVF n'est pas développé dans l'abstract disponible. L'enjeu technique central est la robustesse aux défaillances des capteurs de profondeur, problème récurrent en déploiement réel (occlusions, surfaces spéculaires, zones hors portée). Les pipelines de reconstruction classiques, optimisés pour la fidélité géométrique globale, corrompent silencieusement leur modèle persistant quand les mesures de profondeur sont absentes ou erronées. KRVF répond en séparant explicitement l'occupation mesurée des hypothèses sémantiques a priori: le robot peut raisonner sur un objet probable sans altérer la géométrie de référence. La carte existante sert également à générer une profondeur synthétique pour combler les lacunes capteur, fermant une boucle de rétroaction entre cartographie et perception. Ces choix ciblent directement les déploiements sans infrastructure cloud: la cognition spatiale s'exécute entièrement à bord du robot, sans latence réseau. Ce travail s'inscrit dans une dynamique de recherche active sur la représentation du monde pour robots mobiles, aux côtés de systèmes comme ConceptFusion ou LERF qui explorent des cartes neuronales 3D interrogeables en langage naturel. Sur le marché des manipulateurs mobiles, des acteurs comme Boston Dynamics (Spot ARM), Hello Robot (Stretch) ou des startups comme Agility Robotics et 1X Technologies cherchent précisément ce type de module de perception embarqué à faible empreinte de calcul. KRVF reste un préprint non évalué par les pairs, sans benchmark comparatif public ni annonce de mise à disposition du code: c'est une contribution architecturale cohérente, mais dont la portée industrielle dépendra d'une validation expérimentale sur des plateformes réelles et dans des scénarios adversariaux.

Dossier arXiv cs.RO — page 6

KRVF : représentation du monde en voxels sémantiques sensible à la source pour la manipulation mobile embarquée

Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique

MIL-LC : architecture robuste de localisation multimodale par fusion magnétomètre-inertiel-LiDAR

GROVE : simulation de piétons fondée sur le langage naturel pour la navigation sociale interactive de robots

RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation

InSight : acquisition autonome de compétences via des VLA pilotables

Attribution de tâches multiples à bundle variable avec estimation sélective des coûts pour les systèmes multi-agents

PDS Joint : une articulation à double spirale paramétrique pour mains dextériques

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

SlipSense : détection du glissement en temps réel pour robots à pattes par capteurs multimodaux

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

RAM : la portée de l'apprentissage robotique au-delà des morphologies

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Apprentissage de la représentation du contact pour l'odométrie des jambes

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Estimation de traversabilité auto-supervisée et agnostique au robot pour des environnements ouverts

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique

Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable

Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Large Video Planner permet un contrôle robotique généralisable

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)

Comment fonctionnent réellement les VLA en environnements ouverts

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes