Recherche

50 sur 1125 articles

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Humanoïdes IA physique Industriel FR/EU ecosysteme Chine/Asie Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

1arXiv cs.RO RecherchePaper

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

Recherche

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Apprentissage de la représentation du contact pour l'odométrie des jambes

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Adaptation de politique sans mise à jour du modèle par flux normalisant

Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu

Livraison et collecte dynamiques multi-agents dans les systèmes d'entrepôt robotisé cellulaire

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils

Apprentissage de la coordination visuomotrice prédictive

Exploration multi-robots améliorée par priorisation probabiliste des frontières avec mélanges gaussiens de Dirichlet

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

Vers un cycle vertueux de données pour l'IA physique en logistique

Conception et évaluation d'un embout pour robots-lianes à haute vitesse

Apprentissage par imitation sur des variétés riemanniennes via des équations différentielles ordinaires neuronales

VOLT : segmentation de trajectoires vision-langage pour des politiques plus rapides que la démonstration

Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux

Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels

Ce que mesurent réellement les benchmarks en manipulation robotique

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

CADENCE : prédiction du temps d'exécution réel en MAPF au-delà de la somme des coûts

HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique

TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes

MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Planification POMDP en ligne vectorisée

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées