Recherche — page 11

1679 articles · page 11 sur 34

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Humanoïdes IA physique Industriel FR/EU ecosysteme Chine/Asie Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

501arXiv cs.RO RecherchePaper

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

Recherche — page 11

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel

LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation

SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques

Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique

Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

DexPIE : amélioration stable des politiques de manipulation à partir de données réelles

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Revisiter la perception des parties articulées en manipulation robotique

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants

DIJIT : une tête robotique pour un observateur actif

Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste

Découverte guidée de nouveaux comportements par politiques de diffusion

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents

IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

IA physique : le middleware robotique comme couche d'intégration

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Estimation dense des forces par capteur tactile optique à événements

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force

Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique

Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance

Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes