Dossier arXiv cs.RO — page 4

2842 articles · page 4 sur 57

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

151arXiv cs.RO RecherchePaper

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

Une équipe de chercheurs a publié le 25 juin 2026 sur arXiv (2606.25179) une étude portant sur la conception de contrôleurs de locomotion universels pour robots quadrupèdes, capables de s'adapter à plusieurs morphologies de robots différents tout en intégrant de la perception en temps réel. Les auteurs s'appuient sur le cadre MorAL (Morphology-Aware Locomotion), qu'ils étendent en comparant trois architectures : un contrôleur aveugle (baseline sans perception), MorAL+ (perception intégrée uniquement dans le critique du réseau, pas dans l'acteur), et PPAL (acteur-critique entièrement perceptif). Les politiques ont été évaluées en simulation sur terrains plats et accidentés, puis déployées sur du matériel réel via le robot ANYmal d'ANYbotics. Résultat principal : MorAL+ surpasse les deux autres configurations en robustesse et en cohérence de suivi de trajectoire, notamment parce qu'un acteur entièrement perceptif se révèle sensible au bruit de capteur, tandis qu'un acteur aveugle manque de conscience du terrain. Ce résultat va à contre-courant d'une intuition répandue dans la communauté robotique : intégrer plus de perception n'est pas toujours meilleur. Le fait que la perception placée uniquement dans le critique (et non dans l'acteur) améliore la robustesse sans fragiliser la politique face au bruit de capteur est une contribution architecturale concrète. Pour les intégrateurs industriels qui déploient des quadrupèdes en environnements non structurés (entrepôts, sites industriels, inspection d'infrastructures), cette distinction a des implications directes sur la conception des pipelines de contrôle. Elle indique aussi que le problème du sim-to-real pour la locomotion quadrupède n'est pas uniquement une question de quantité de données perceptives, mais de leur positionnement dans l'architecture d'apprentissage par renforcement. ANYmal, développé par ANYbotics (spin-off de l'ETH Zurich), est l'un des robots quadrupèdes les plus utilisés en recherche académique et en déploiements industriels pilotes, aux côtés de Spot de Boston Dynamics et des modèles Unitree (Go2, B2) qui dominent le segment prix bas. Le cadre MorAL, sur lequel s'appuie ce travail, visait déjà à entraîner des politiques transférables entre morphologies de robots différents, un problème ouvert dans la course à la généralisation inter-robots (cross-embodiment). Ce papier reste pour l'instant un preprint académique sans déploiement industriel annoncé ; les suites naturelles seraient une validation sur un ensemble plus large de morphologies quadrupèdes et des tests en conditions réelles prolongées, en dehors du cadre contrôlé d'un labo.

UEANYbotics étant un spin-off suisse de l'ETH Zurich, les conclusions architecturales sur MorAL+ intéressent directement les intégrateurs européens qui déploient des quadrupèdes en inspection industrielle ou en environnements non structurés.

Dossier arXiv cs.RO — page 4

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

Un cadre d'apprentissage par renforcement neuromorphique pour la planification de chemin efficace dans les systèmes robotisés de préparation de commandes

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

ExoTraj : une politique d'assistance pour exosquelette des membres inférieurs adaptée aux environnements complexes

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

MPC d'impédance avec estimation des perturbations pour le contrôle de main dextérique

Un modèle fondation VLA pragmatique

Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication

Intégrer la conformité à la norme ISO 10218 dans les robots via les fonctions barrière de contrôle pour la collaboration homme-robot

World Pilot : piloter les modèles VLA avec des a priori monde-action

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste

Apprentissage de la représentation du contact pour l'odométrie des jambes

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Estimation de traversabilité auto-supervisée et agnostique au robot pour des environnements ouverts

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique

Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable

Combler l'écart d'exécution : des contraintes sémantiques de mouvement au contrôle cinématique

Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Large Video Planner permet un contrôle robotique généralisable

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)

Comment fonctionnent réellement les VLA en environnements ouverts