RecherchearXiv cs.RO 10 juin 2026

Génération de designs de robots diversifiés et fonctionnels par paramétrisation superquadrique et diversité-qualité

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche propose, dans un preprint déposé sur arXiv (arXiv:2606.11037), une méthode de conception générative de robots combinant une représentation par superquadrics (SQs) avec l'algorithme de quality-diversity MAP-Elites. Les superquadrics sont des formulations mathématiques compactes et interprétables de formes géométriques 3D, paramétrables pour s'adapter à différents espaces de design. Les chercheurs les comparent aux CPPN (Compositional Pattern Producing Networks) comme générateurs de morphologies, en les couplant à des algorithmes évolutionnaires (EAs) classiques et à MAP-Elites. Sur deux environnements de test distincts, la combinaison SQs avec MAP-Elites atteint le score QD (quality-diversity) le plus élevé dans les deux cas, maximisant simultanément la diversité des formes générées et la performance fonctionnelle des robots obtenus.

Le résultat adresse un verrou récurrent en co-évolution morphologie/contrôle : la convergence prématurée des EAs vers un petit ensemble de designs sous-optimaux. Dans un contexte où la robotique physique diversifiée gagne du terrain, notamment pour des tâches industrielles hétérogènes, la capacité à explorer automatiquement de larges espaces de configurations morphologiques sans intervention humaine est un enjeu concret pour les équipes R&D. La compacité des SQs réduit la dimensionnalité du problème d'optimisation, tandis que MAP-Elites maintient une archive explicite de solutions qualitativement différentes, évitant l'effondrement de la diversité populationnelle. Les résultats suggèrent qu'une représentation géométrique interprétable est plus efficace qu'une représentation neuronale implicite (CPPN) quand on cherche à explorer un espace de design morphologique complexe.

MAP-Elites est une méthode QD développée initialement par Mouret et Clune (2015), largement utilisée en évolution de morphologies et en robotique adaptative. Les CPPN, introduits par Stanley et collaborateurs dans les années 2000, restent une référence concurrente pour l'encodage indirect de morphologies. Ce travail s'inscrit dans une tradition académique active autour du design automatisé de robots, qui inclut des équipes comme le lab Cheney/Clune (Vermont/Wyoming) ou le groupe Mouret à l'INRIA Paris. Il s'agit à ce stade d'un preprint sans validation par les pairs, avec des évaluations limitées à deux environnements simulés, sans validation hardware ni transfert sim-to-real rapporté. La prochaine étape naturelle serait une validation sur robot physique.

Impact France/UE

La méthode s'appuie sur MAP-Elites, algorithme développé par Mouret au sein de l'INRIA Paris, confirmant l'expertise française en évolution de morphologies robotiques, sans transfert industriel immédiat.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Optimisation paramétrique co-conception de mains dextériques par approche fonctionnelle

Une équipe de chercheurs a publié fin avril 2025 sur arXiv (arXiv:2504.27557) un cadre paramétrique unifié pour la co-optimisation de mains robotiques dextères. L'approche couvre simultanément la structure de la paume, la cinématique des doigts, la géométrie des bouts de doigts et les courbures de surface à fine échelle, l'ensemble étant intégré dans un espace de conception unique. Les caractéristiques géométriques fines sont introduites via des noyaux de déformation de surface paramétriques qui agissent directement sur les interactions de contact. Le framework génère des modèles prêts pour la simulation et pour la fabrication physique, et sera publié en open-source. Les auteurs l'ont validé sur des tâches d'optimisation de la stabilité de préhension en simulation et dans des scénarios dynamiques réels, sans toutefois préciser les configurations exactes de tests ni le nombre de cycles d'évaluation dans le preprint. L'intérêt principal pour les équipes de R&D en robotique est de sortir du paradigme dominant où la conception mécanique de la main et la politique de contrôle sont développées en silos. En co-optimisant la morphologie et le comportement de préhension dans un même espace de paramètres, le framework permet d'explorer systématiquement des compromis que les approches découplées ratent structurellement, notamment l'influence directe de la courbure de surface sur la qualité du contact. L'ouverture en open-source vise à accélérer l'itération rapide pour les intégrateurs et les laboratoires travaillant sur le transfert sim-to-real et l'entraînement de politiques cross-embodiment, un problème central pour les VLA (Vision-Language-Action models) déployés sur des morphologies variées. La co-conception robotique (co-design) est un champ en plein essor, notamment depuis les travaux de MIT et Stanford sur les robots morphologiquement adaptatifs et les approches de differentiable simulation. Ce preprint s'inscrit dans une tendance plus large visant à rendre la conception mécanique différentiable et optimisable par gradient, aux côtés d'acteurs comme Dexterous Robotics, Shadow Robot ou les équipes internes de Figure AI et 1X Technologies qui développent leurs propres mains multi-doigts. Aucun partenariat industriel ni timeline de déploiement n'est mentionné ; il s'agit à ce stade d'une contribution académique avec promesse d'open-source, dont la valeur pratique dépendra de la qualité de l'outillage livré avec le code.

RecherchePaper

1 source

2arXiv cs.RO

Planification robotique et gestion de situations par perception active

Des chercheurs présentent dans un preprint arXiv (réf. 2604.26988, mai 2026) un cadre logiciel baptisé VAP-TAMP, pour Vision-language model-based Active Perception for Task And Motion Planning, conçu pour doter les robots d'une capacité de détection et de gestion des situations imprévues en cours d'exécution de tâches. Le système cible des perturbations concrètes : une porte coincée, un objet tombé au sol, une modification de l'environnement due à une activité humaine. VAP-TAMP exploite une base de connaissances sur les actions du robot pour formuler dynamiquement des requêtes vers des modèles vision-langage (VLA/VLM), sélectionner activement des points de vue pertinents, puis évaluer la situation. En parallèle, il construit et interroge des graphes de scène pour assurer la planification intégrée des tâches et des mouvements. Le framework a été évalué sur des tâches de service en simulation et sur une plateforme réelle de manipulation mobile. L'enjeu est structurant pour toute démarche d'autonomie longue durée en robotique de service ou industrielle. L'un des verrous majeurs identifiés par les intégrateurs et les équipes R&D n'est pas la planification initiale, les planificateurs TAMP existants s'en sortent bien, mais la résilience à l'exécution : un robot qui échoue silencieusement ou se bloque face à un impondérable n'est pas déployable en production. VAP-TAMP propose une réponse architecturale à ce point de friction en couplant perception active (choix du meilleur angle de vue pour comprendre la situation) et raisonnement symbolique via graphes de scène, deux approches généralement traitées séparément. Si les résultats se confirment sur des scénarios plus variés, cela allège significativement la charge d'ingénierie pour les équipes qui construisent des pipelines de manipulation autonome. Le travail s'inscrit dans une dynamique de recherche intense autour de l'intégration VLM-TAMP, un champ qui a explosé depuis 2023 avec les travaux de Google DeepMind sur SayCan, de Physical Intelligence (Pi-0) et des équipes de Carnegie Mellon sur la planification par LLM. VAP-TAMP se positionne sur le maillon "récupération d'erreur" plutôt que sur la génération de plan initiale, ce qui le différencie d'approches comme Code-as-Policies ou Inner Monologue. Le preprint ne mentionne pas de partenariat industriel ni de calendrier de transfert technologique : il s'agit à ce stade d'une contribution académique, sans déploiement annoncé. Les prochaines étapes naturelles seraient une validation sur un spectre plus large de perturbations et une comparaison quantitative avec des baselines de récupération existantes.

RecherchePaper

1 source

3arXiv cs.RO

Symétrie dynamique extrême : vers des robots omnidirectionnels et multifonctionnels

Des chercheurs ont publié sur arXiv (référence 2605.29254) une étude introduisant le concept de "symétrie dynamique" appliqué à la conception de robots, en proposant une métrique formelle baptisée "isotropie dynamique". Cette mesure quantifie l'uniformité des accélérations atteignables par le centre de masse d'un robot dans toutes les directions. L'équipe a évalué ce principe sur plus de 1 000 morphologies simulées et construit un prototype physique de la famille Argus, un robot sphérique à 20 pattes doté d'actionneurs linéaires orientés radialement. Ce variant physique a démontré une locomotion invariante à l'orientation, une traversée agile de terrains encombrés et déformables, une auto-stabilisation rapide, et une tolérance aux pannes partielles d'actionneurs. La perception omnidirectionnelle distribuée permet en outre l'interaction avec des objets en mouvement continu. Cette approche représente un changement de paradigme notable dans la conception de robots mobiles. Jusqu'ici, la symétrie en robotique se limitait essentiellement à la forme géométrique (bipèdes, quadrupèdes, hexapodes). Ici, elle est exploitée au niveau de la capacité d'actuation dynamique, ce qui produit des gains mesurables en suivi de trajectoire, taux de succès aux tâches, robustesse aux perturbations et efficacité énergétique, avec des bénéfices qui s'accentuent à mesure que l'isotropie dynamique approche sa limite théorique. Pour les intégrateurs industriels et les concepteurs de systèmes autonomes, cela ouvre une voie générale vers des robots multitâches opérant en environnements non structurés, sans reconfiguration matérielle. Le travail s'inscrit dans une tendance plus large de la recherche sur les morphologies non-conventionnelles, aux côtés de robots sphériques et à symétrie sphérique explorés depuis plusieurs années en contexte d'exploration planétaire. Côté compétitif, les architectures bimorphes dominantes (Boston Dynamics Spot, Unitree B2, bipèdes humanoïdes de Figure ou 1X) optimisent l'efficacité pour des tâches spécifiques mais peinent en cas de basculement ou de panne partielle. Le robot Argus 20-pattes offre une résilience structurelle supérieure, au prix d'une complexité mécanique élevée. L'article reste pour l'instant un preprint académique sans annonce de commercialisation ni pilote industriel identifié, et les performances présentées s'appuient sur des vidéos sélectionnées et des simulations, ce qui invite à la prudence avant toute extrapolation à des déploiements réels.

RecherchePaper

1 source

4arXiv cs.RO

PRISM : génération de données robotiques personnalisées par synthèse d'images de scènes et de mouvements

Il n'y a pas de nom d'entreprise, de labo ou de deploiement commercial cité dans cet abstract (c'est un papier de recherche arXiv), donc l'article reste focalisé sur la méthode et ses résultats mesurés, sans inventer de contexte industriel absent du texte source. Des chercheurs présentent PRISM, un pipeline qui génère des jeux de données robotiques personnalisés à partir d'une seule image et d'une instruction en langage naturel, sans téléopération humaine. Le système construit des scènes dites "digital cousins" : des environnements synthétiques alignés sémantiquement et géométriquement avec l'environnement cible de l'utilisateur, mais suffisamment variés au niveau des instances (objets, agencements) pour éviter le surapprentissage. PRISM synthétise ensuite des démonstrations exécutables directement utilisables pour entraîner une politique robotique. Sur les benchmarks LIBERO et LIBERO-Plus, les politiques entraînées sur les données générées par PRISM surpassent celles entraînées sur des jeux de données de référence, et atteignent jusqu'à 100 % de taux de réussite sur trois tâches de manipulation réelles, avec une meilleure robustesse lorsque l'environnement de test diffère de celui vu à l'entraînement. L'enjeu ici est la collecte de données, principal goulot d'étranglement pour déployer des modèles vision-langage-action (VLA) au-delà des laboratoires. La téléopération produit des données bien alignées avec la tâche mais coûte cher et ne passe pas à l'échelle ; la simulation pure passe à l'échelle mais peine à ressembler à l'environnement réel de l'utilisateur final. PRISM tente de concilier les deux, ce qui intéresse directement les intégrateurs et décideurs B2B confrontés au coût de personnalisation d'un robot pour un site spécifique (usine, entrepôt, domicile) : si la génération de données synthétiques personnalisées tient ses promesses hors laboratoire, elle réduit un frein économique majeur à l'adoption des politiques génératives en robotique. Ce travail s'inscrit dans la vague plus large des modèles fondation VLA (dans la lignée de Pi-0, GR00T N2 ou Helix) qui cherchent à généraliser au-delà des tâches et environnements d'entraînement, un problème encore mal résolu malgré les démonstrations impressionnantes de ces modèles. Il fait aussi écho à la tendance du "sim-to-real" et à l'usage de scènes synthétiques proches mais non identiques à la réalité pour diversifier les données d'entraînement sans reproduire du réel coûteux. Les auteurs positionnent PRISM face à deux approches concurrentes existantes, la téléopération manuelle et la simulation générique, en montrant un gain de performance sur des benchmarks standards ainsi que sur des tâches de manipulation réelles. L'abstract ne précise pas de calendrier de déploiement ou de partenariat industriel : à ce stade, il s'agit d'un résultat de recherche à valider sur un périmètre de tâches plus large.

RechercheActu

1 source