Dossier arXiv cs.RO — page 24

2609 articles · page 24 sur 53

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

1151arXiv cs.RO RechercheOpinion

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

Des chercheurs proposent SANTS (State-Adaptive Noise Trajectory Scheduler), un scheduler léger pour les politiques de diffusion vidéo-vers-action dans les World Action Models (WAMs). Soumis sur arXiv (2605.27947) le 28 mai 2026, le travail part d'un constat empirique : dans les WAMs pixel-space, débruiter complètement la vidéo future n'optimise pas toujours la qualité de l'action produite. Au-delà d'un seuil dépendant de l'état du robot, le raffinement supplémentaire sature ou dégrade la performance. SANTS lit la représentation vidéo-état courante et le niveau de bruit, prédit un point d'arrêt adaptatif, et est entraîné par post-training avec une récompense sur la qualité finale de l'action (et non sur la fidélité de la vidéo intermédiaire). Résultats annoncés : 94,4 % de succès sur RoboTwin 2.0, 73,1 % sur sept tâches réelles, avec une réduction de latence de 81,7 % et 79,0 % respectivement par rapport au débruitage complet. L'enjeu opérationnel est la fréquence de contrôle : les WAMs souffrent d'une latence d'inférence élevée qui limite leur déploiement dans des boucles de contrôle rapides. Diviser par cinq ce coût d'inférence sans perte majeure de performance valide l'idée que la représentation future n'a pas besoin d'être parfaitement rendue pour conditionner efficacement l'action, une hypothèse implicite des architectures WAM qui n'était pas encore démontrée à cette échelle. Cela dit, le papier reste un preprint non relu par les pairs, et sept tâches réelles constituent un set de validation étroit pour prétendre à une généralisation industrielle. Les WAMs ont émergé comme alternative aux politiques VLA classiques en intégrant une prédiction vidéo du futur pour guider la génération d'actions. SANTS se positionne comme une surcouche d'optimisation compatible avec les designs existants, sans modifier la branche action du modèle de base. Dans l'écosystème actuel, Physical Intelligence (pi0), NVIDIA (GR00T N2) et Figure (Figure 03) développent des politiques de diffusion pour la manipulation, où la réduction de la latence d'inférence devient un facteur de compétitivité commerciale. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges comme DROID ou Open X-Embodiment, et la mise à disposition publique des poids et du code.

Dossier arXiv cs.RO — page 24

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

S-Cheetah : un robot quadrupède innovant avec une colonne vertébrale active à 3 degrés de liberté pour une locomotion agile

SPRINT : a priori spectraux efficaces pour les sprints athlétiques des humanoïdes

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

GE-Sim 2.0 : une feuille de route vers des simulateurs vidéo en boucle fermée pour la manipulation robotique

Planification de mouvement multi-robots décentralisée par diffusion informée par simulation

Dextérité extrinsèque émergente en scènes encombrées via l'apprentissage de politique sensible à la dynamique

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée

Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)

PhyPush : une seule poussée suffit pour estimer les propriétés physiques sans capteurs grâce aux transformeurs guidés par la physique

IA incarnée et capacités extensibles grâce aux outils

AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation

Estimation de pose et de forme d'objets pour la saisie : est-ce que ça fonctionne ?

ParkourFormer : supervision prédictive et modélisation séquentielle pour la locomotion parkour

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

Actionneurs pneumatiques souples pour la robotique molle : revue des mécanismes d'actionnement et compromis de performance

Combler le fossé : permettre au Soft Actor Critic des performances élevées en locomotion sur pattes

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel

HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées

Système LiDAR-SLAM décentralisé à optimalité certifiée pour l'optimisation de graphe de poses

Elevator-LIO : odométrie LiDAR-inertielle robuste pour la navigation multi-étages dans les ascenseurs

InvariantCloud : un framework de nuage de points globalement invariant et indexé de manière unique pour le suivi robuste de pose tactile à 6 DOF

Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action

SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes

TactileReflex : contrôle réflexe vision-tactile piloté par les statistiques du bruit pour la manipulation sensible à la force

Planification de mouvement vérifiée dans l'espace des tâches sous contraintes articulaires

USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents

Planification de mouvements par logique temporelle de signaux via des graphes d'ensembles convexes

Apprendre sans perdre son identité : l'évolution des capacités des agents incarnés

Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA

Pre-VLA : vérification préemptive à l'exécution pour fiabiliser les déroulements de modèles VLA et du monde

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes

Action par primitives visuelles

Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations

Imagine2Real : vers l'interaction robot humanoïde-objet sans apprentissage préalable grâce aux priors génératifs vidéo

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

Réduction des fixations guidée par l'influence des composants pour une conception simplifiée et démontable par robot

PointACT : des modèles vision-langage-action (VLA) avec interaction multi-échelle point-action

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

SPARC : planification de trajectoire spatiale par communication robotique attentive

Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration

Contrôle critique de sécurité pour la dynamique de contact implicite lissée

Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif

Contrôle neuromorphique d'un robot à ailes battantes sur matériel à ressources limitées

Améliorer automatiquement la physique de simulation des objets articulés

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées