Recherche — page 14

1801 articles · page 14 sur 37

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Humanoïdes IA physique Industriel FR/EU ecosysteme Chine/Asie Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

651arXiv cs.RO RechercheOpinion

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Des chercheurs ont publié en juin 2026 AHA-WAM (Asynchronous Horizon-Adaptive World-Action Model), une architecture de contrôle robotique qui dissocie temporellement la prédiction de scène et l'exécution motrice, deux processus jusqu'ici couplés au même rythme dans les modèles monde-action existants. L'architecture repose sur deux Diffusion Transformers (DiT) fonctionnant en parallèle : un DiT "monde" opère à basse fréquence comme planificateur de scène à long horizon, maintenant une mémoire glissante de paires clé-valeur sur les observations passées ; un DiT "action" tourne à haute fréquence en boucle fermée, interrogeant ce contexte latent via une attention jointe par couche. Deux mécanismes complètent le système : un entraînement à décalage adaptatif (horizon-adaptive offset training) et un routage OVCR (Observation-Guided Video-Context Routing), qui permettent à l'expert action d'exploiter le contexte long-horizon sans relancer le DiT vidéo à chaque pas. Sur le benchmark RoboTwin, AHA-WAM atteint 92,80 % de taux de succès moyen ; sur quatre tâches de manipulation en conditions réelles, 78,3 % de succès. La fréquence de contrôle en boucle fermée est de 24,17 Hz, soit un gain de vitesse de 4,59x sur Fast-WAM, sans aucun préentraînement sur données robot. Le résultat principal à retenir pour les intégrateurs et décideurs : un modèle VLA (Vision-Language-Action) peut maintenant planifier à l'échelle de la vidéo long-horizon et agir en temps quasi-réel sans que ces deux branches s'inhibent mutuellement. L'absence de préentraînement robot est notable, car elle suggère que le transfert depuis des données vidéo génériques peut suffire pour atteindre des performances state-of-the-art en manipulation. Le gain de 4,59x en vitesse est cliniquement significatif : 24 Hz permet un contrôle réactif sur bras industriel standard, ce qui rapproche ces architectures d'un déploiement en cellule de production, même si les tâches testées restent des benchmarks de manipulation tabletop, pas des environnements industriels non structurés. AHA-WAM s'inscrit dans la vague des modèles monde-action (world-action models), un paradigme émergent qui injecte des priors physiques dans l'apprentissage de politiques en modélisant conjointement dynamique visuelle et actions. Fast-WAM, cité comme baseline directe, reste la référence de vitesse que ce travail cherche à dépasser. Du côté concurrent, les architectures VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent également sur des transformers multimodaux pour la généralisation en manipulation, mais conservent généralement un pipeline unifié. La prochaine étape logique pour AHA-WAM serait de tester le passage à des environnements semi-structurés et d'évaluer la robustesse du routage OVCR face à des distributions d'observations hors-distribution.

Recherche — page 14

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents

IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines

Découverte guidée de nouveaux comportements par politiques de diffusion

VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

DIJIT : une tête robotique pour un observateur actif

Estimation dense des forces par capteur tactile optique à événements

IA physique : le middleware robotique comme couche d'intégration

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde

Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force

Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents

Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

Robot 3D à sauts robustes assisté par hélices avec allocation hiérarchique des forces

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique

Vidéo : un robot maîtrise l'air hockey et bat des humains sans jamais toucher une vraie table

Robot Talk, épisode 159 : captation sensorielle et manipulation robotique, avec Maria Koskinopoulou

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Apprentissage de la représentation du contact pour l'odométrie des jambes

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

Adaptation de politique sans mise à jour du modèle par flux normalisant

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

Livraison et collecte dynamiques multi-agents dans les systèmes d'entrepôt robotisé cellulaire

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu

LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif

Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils