COFFAIL : un jeu de données sur les succès et…

SPECTRA : primitives de mouvement spectrales conditionnées par le contexte pour la généralisation des compétences robotiques

44

1arXiv cs.RO

SPECTRA : primitives de mouvement spectrales conditionnées par le contexte pour la généralisation des compétences robotiques

Des chercheurs proposent SPECTRA (Spectral Movement Primitive, SMP), un framework d'apprentissage par imitation dans le domaine fréquentiel pour la manipulation robotique, décrit dans un article publié sur arXiv (2607.06978v1). Le principe consiste à représenter les démonstrations de trajectoire par des coefficients de Fourier tronqués sur horizon fini, plutôt que par des points temporels bruts. Une bande de fréquences basses, sélectionnée empiriquement, capture la géométrie dominante du mouvement, tandis que les harmoniques plus élevées, responsables d'une croissance disproportionnée des dérivées (vitesse, accélération, jerk), sont écartées. Un modèle GMM/GMR (mélange de gaussiennes avec régression) conditionné par le contexte et sensible au référentiel prédit les coefficients de la bande de tâche dans un repère canonique ; la trajectoire cartésienne obtenue est ensuite convertie en espace articulaire via cinématique inverse séquentielle. Un régulateur couplé en phase limite la progression temporelle demandée sans toucher aux coefficients spectraux, imposant ainsi les limites de vitesse et d'accélération articulaires tout en conservant le chemin de l'effecteur. Les auteurs valident l'approche sur plusieurs critères (reconstruction de la bande de tâche, robustesse à des démonstrations corrompues, généralisation hors distribution entre repères non vus, admissibilité dynamique en espace articulaire, préservation du chemin) et un déploiement réel sur un bras Franka Panda. Le problème que cible SPECTRA est concret pour tout intégrateur en apprentissage par imitation : les pipelines classiques apprennent une trajectoire en espace de tâche puis lui imposent après coup des limites d'exécution (filtrage, lissage, écrêtage, mise à l'échelle temporelle), ce qui déforme souvent le chemin de l'effecteur jugé critique pour la tâche, par exemple lors d'un versement, d'une insertion de pièce ou du suivi d'un contour précis. En couplant génération de trajectoire et régulation dynamique dès la conception, dans le domaine fréquentiel, SPECTRA évite cette distorsion a posteriori : les résultats rapportés montrent une réduction substantielle des violations dynamiques et du jerk, tout en préservant le chemin voulu pendant la régulation de phase. Pour la robotique industrielle, où les cycles de préhension et d'insertion tolèrent mal les à-coups mécaniques, cela offre une alternative aux primitives de mouvement dynamiques (DMP) classiques et aux méthodes de lissage a posteriori. Les primitives de mouvement existent depuis les Dynamic Movement Primitives (DMP), introduites il y a une vingtaine d'années et largement utilisées en apprentissage par imitation pour encoder des trajectoires robustes et reproductibles. SPECTRA s'en démarque en travaillant dans le domaine fréquentiel plutôt que temporel, et en couplant explicitement génération de tâche et contraintes d'exécution articulaire plutôt que de les traiter séparément. Le choix du Franka Panda comme plateforme de validation, un bras collaboratif conçu par l'allemand Franka Robotics (ex Franka Emika) très utilisé en recherche académique, ancre les travaux dans l'écosystème européen de manipulation robotique. L'article ne mentionne ni calendrier de transfert industriel ni partenariat commercial : il s'agit à ce stade d'une contribution de recherche évaluée en laboratoire, dont la suite logique serait une validation sur des tâches de manipulation plus complexes et une comparaison directe avec les approches DMP existantes.

UEImpact indirect: la validation s'appuie sur un bras Franka Panda, plateforme concue par l'allemand Franka Robotics, mais aucun partenariat, financement ou deploiement commercial en France/UE n'est mentionne.

RecherchePaper

1 source

44

2arXiv cs.RO

RoboDesign1M : un jeu de données à grande échelle pour la compréhension de la conception robotique

Le dataset RoboDesign1M rassemble un million d'échantillons multimodaux consacrés à la conception de robots, extraits automatiquement de la littérature scientifique couvrant plusieurs domaines de la robotique. Les auteurs ont mis au point un pipeline de collecte semi-automatisé permettant d'agréger efficacement des données diverses (texte et images) issues de publications existantes, plutôt que de les créer manuellement. Pour valider l'utilité du corpus, l'équipe a mené des expériences sur trois tâches distinctes : la génération d'images de conception robotique, la réponse à des questions visuelles portant sur des schémas de conception, et la recherche d'images de conception à partir de requêtes. Les résultats montrent que ce jeu de données constitue un nouveau benchmark exigeant pour ces tâches de compréhension du design. Le dataset sera rendu public, avec une page de projet dédiée (airvlab.github.io/robotdesign1m). Il s'agit d'une version mise à jour d'un article déposé sur arXiv (2503.06796), initialement publié en mars puis révisé. Ce travail cible un goulot d'étranglement méthodologique plutôt qu'un produit commercial : la conception mécanique d'un robot reste un processus long, coûteux et dépendant d'une expertise rare, et les modèles de fondation qui pourraient l'automatiser manquaient jusqu'ici de données d'entraînement à grande échelle sur ce sujet précis. En fournissant un million d'exemples annotés, RoboDesign1M ouvre la voie à des assistants IA capables de proposer des pistes de conception, de retrouver des schémas existants à partir d'une description textuelle, ou de générer des visualisations de composants robotiques. Pour les laboratoires de recherche et les équipes R&D en robotique, c'est surtout un instrument de mesure standardisé qui manquait pour comparer objectivement les approches de génération et de compréhension de designs. Le projet s'inscrit dans la tendance plus large d'application des modèles de fondation multimodaux à des domaines d'ingénierie spécialisés, après leur succès en vision et en langage naturel. La rareté des jeux de données de conception robotique freinait jusqu'à présent ce transfert, contrairement à des domaines comme la manipulation ou la navigation qui disposent déjà de corpus massifs. La mise à disposition publique annoncée par les auteurs devrait permettre à d'autres équipes de recherche de reproduire et d'étendre ces travaux, sans toutefois que des applications commerciales concrètes ou des partenariats industriels n'aient été mentionnés à ce stade.

RecherchePaper

1 source

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

44

3arXiv cs.RO

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu

1 source

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

47

4arXiv cs.RO

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion

1 source

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

À lire aussi

SPECTRA : primitives de mouvement spectrales conditionnées par le contexte pour la généralisation des compétences robotiques

RoboDesign1M : un jeu de données à grande échelle pour la compréhension de la conception robotique

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances