Aller au contenu principal
QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés
FR/EU ecosystemearXiv cs.RO6sem

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs de l'ISIR (Institut des Systèmes Intelligents et de Robotique, Sorbonne Université/CNRS) publient sur arXiv en avril 2026 une méthode baptisée QDTraj, destinée à générer automatiquement des primitives de trajectoires diversifiées pour la manipulation d'objets articulés par des robots domestiques. L'approche repose sur des algorithmes Quality-Diversity (QD) couplés à une exploration par récompense sparse. Évaluée sur 30 articulations du dataset PartNetMobility, QDTraj produit en moyenne 704 trajectoires distinctes par tâche, contre un ratio au moins 5 fois inférieur pour les méthodes concurrentes testées sur des tâches d'activation de charnières (hinge) et de glissières (slider). La méthode a été validée d'abord en simulation, puis déployée en conditions réelles sur robot physique. Le code est rendu public sur le site de l'ISIR.

La diversité des trajectoires n'est pas un détail académique : en environnement réel, un robot qui ne dispose que d'une seule séquence motrice pour ouvrir un tiroir échoue dès que cette trajectoire est bloquée par un obstacle ou une contrainte dynamique imprévue. QDTraj adresse directement ce verrou en dotant le robot d'un répertoire de solutions alternatives sélectionnables au runtime selon les contraintes du moment. La validation sim-to-real apporte un crédit concret à l'approche, au-delà de la démonstration en simulation. L'utilisation des algorithmes QD, issus de la robotique évolutionnaire (famille MAP-Elites), est un signe de maturité méthodologique : ces approches explorent des espaces de solutions larges sans converger prématurément vers un optimum local, contrairement aux méthodes par gradient classiques.

L'ISIR est l'un des laboratoires de référence en robotique française, avec une longue tradition en planification de mouvement et manipulation dextre. Ce travail s'inscrit dans un contexte où les approches dominantes, imitation learning ou reinforcement learning standard, produisent généralement des politiques à trajectoire unique, fragiles hors distribution. Les modèles VLA (Vision-Language-Action), très suivis en 2025-2026 chez Physical Intelligence (pi0), Google DeepMind ou Boston Dynamics, abordent le problème différemment en conditionnant les actions sur le langage, sans garantir la diversité bas niveau que QDTraj cible explicitement. La méthode se positionne donc comme une couche de planification complémentaire, en amont des politiques haut niveau. Les extensions naturelles concerneraient les objets déformables et l'intégration dans des architectures de contrôle hiérarchique pour robots manipulateurs polyvalents.

Impact France/UE

L'ISIR (Sorbonne/CNRS) publie en open source une méthode de planification de trajectoires qui comble un verrou concret de la manipulation robotique, avec un bénéfice direct pour les équipes de R&D françaises et européennes travaillant sur les robots manipulateurs.

💬 Le point de vue du dev

Un robot qui n'a qu'une seule trajectoire pour ouvrir un tiroir, c'est un robot qui échoue dès qu'un obstacle se met en travers. QDTraj répond à ça en générant 700+ alternatives exploitables au runtime, avec des algorithmes QD qui explorent des espaces de solutions larges sans converger trop vite vers un optimum unique (contrairement au RL classique). Reste à voir comment ça s'articule avec des VLA au-dessus, mais comme brique de planification bas niveau, c'est du concret qui sort de l'ISIR.

À lire aussi

Festo présente une pince robotique à base d'IA pour la manipulation de produits variés
1Robotics & Automation News 

Festo présente une pince robotique à base d'IA pour la manipulation de produits variés

Festo, l'équipementier allemand spécialisé en automatisation industrielle, a annoncé le lancement de GripperAI, un logiciel universel basé sur l'intelligence artificielle destiné à piloter des préhenseurs robotiques dans des environnements multi-produits. La solution cible un problème récurrent sur les lignes de production mixtes : lorsqu'une cellule robotisée doit saisir des produits de formes et de tailles variables, l'approche traditionnelle impose une reprogrammation manuelle, une intégration applicative spécifique et le recours à des systèmes de vision 3D coûteux. GripperAI se positionne comme une couche logicielle capable d'absorber cette variabilité sans redéveloppement à chaque référence. L'enjeu industriel est direct : le coût et la durée d'intégration sont aujourd'hui l'un des principaux freins au déploiement de cellules robotisées dans les environnements à forte diversité de SKU, logistique, agroalimentaire, manufacturier léger. Si GripperAI tient sa promesse de réduire la dépendance aux caméras 3D dédiées et à la programmation cas par cas, il pourrait abaisser significativement le seuil d'entrée pour les intégrateurs. Il convient de noter que Festo ne publie pas encore de métriques de cycle ou de taux de succès de préhension dans le communiqué disponible, ce qui rend toute évaluation de performance prématurée à ce stade. Festo est historiquement connu pour ses actionneurs pneumatiques et ses solutions bioinspirées (BionicCobot, Bionic Flying Fox), mais s'oriente depuis plusieurs années vers des briques logicielles pour robot-as-a-service. Sur ce segment des préhenseurs universels pilotés par IA, la concurrence est déjà positionnée : Robai, Righthand Robotics (racheté par BD), ainsi que des solutions vision-first comme Osaro ou CapSen Robotics. La prochaine étape pour Festo sera de démontrer GripperAI sur des configurations réelles en production, avec des données de performance publiées et des références clients vérifiables.

UEFesto étant un équipementier européen (allemand) très présent sur les lignes françaises et européennes, GripperAI pourrait réduire les coûts d'intégration pour les intégrateurs et industriels EU opérant en environnements multi-SKU, sous réserve de métriques de performance vérifiables.

FR/EU ecosystemeOpinion
1 source
GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés
2arXiv cs.RO 

GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés

Des chercheurs ont publié sur arXiv (référence 2605.30740) GSAM, un framework conçu pour la manipulation d'objets articulés (tiroirs, portes, robinets) par des robots de service. Le système combine quatre modules : un percepteur visuel qui extrait les paramètres cinématiques (axe de rotation, amplitude de mouvement), un raffineur basé sur un VLM fine-tuné utilisant le raisonnement par chaîne-de-pensée (CoT) pour corriger les estimations brutes, un générateur de contraintes d'interaction qui encode la géométrie de l'objet et l'évitement d'obstacles, et un planificateur cinématique qui vérifie l'atteignabilité avant exécution. Sur 50 tâches de type charnière réparties en 5 catégories d'objets et 50 configurations initiales aléatoires de l'effecteur, GSAM améliore le taux de succès de 36,0 % par rapport à la meilleure baseline existante, avec une réduction de l'écart-type de 3,1 % indiquant une meilleure consistance comportementale. Ce résultat s'attaque directement au fossé démo-réalité sur une sous-tâche souvent ignorée : les interactions avec des objets mécaniquement contraints impliquent des trajectoires curvilignes et une compréhension de la géométrie interne que ni les politiques end-to-end entraînées en simulation ni les planificateurs purement visuels ne gèrent correctement. L'usage du raisonnement CoT pour corriger des estimations cinématiques erronées plutôt que pour générer un plan de haut niveau constitue un usage pragmatique et inhabituel des VLM en robotique. Pour les intégrateurs sur des robots de service industriels ou hospitaliers, la réduction des collisions destructrices a une valeur opérationnelle directe : forcer mécaniquement un joint en production est un incident matériel, pas une métrique abstraite. Le problème de manipulation articulée est étudié depuis plusieurs années dans des équipes comme Stanford (projet Where2Act, 2021), ETH Zurich et CMU. Les approches concurrentes comprennent les frameworks VLA tels que pi0 (Physical Intelligence) ou OpenVLA, ainsi que les méthodes de perception articulée comme PARIS ou CatGrasp. GSAM se distingue en combinant explicitement un LLM pour la génération de contraintes et un VLM pour la perception raffinée, plutôt qu'une politique implicite entraînée bout-en-bout. Le travail reste un preprint arXiv non soumis à une conférence majeure (ICRA, IROS, CoRL) : les gains annoncés sont encourageants mais nécessitent une validation sur robot physique en conditions non contrôlées.

RecherchePaper
1 source
Festo lance GripperAI, un logiciel pour simplifier la manipulation flexible des robots
3Robotics & Automation News 

Festo lance GripperAI, un logiciel pour simplifier la manipulation flexible des robots

Festo a lancé GripperAI, un logiciel d'intelligence artificielle destiné à simplifier la préhension flexible en robotique industrielle. La solution permet à un robot de saisir des produits mélangés, inconnus ou positionnés aléatoirement sans programmation préalable, sans chargement de gabarits et sans intégration spécialisée de systèmes de vision. Le logiciel identifie automatiquement le point de préhension optimal pour chaque pièce et sélectionne l'effecteur le plus adapté parmi ceux disponibles, sans intervention d'un intégrateur à chaque changement de référence produit. L'enjeu est significatif pour les lignes de conditionnement, logistique et assemblage léger : la reprogrammation manuelle lors des changements de produits représente aujourd'hui l'un des principaux freins à la flexibilité des cellules robotisées. Une solution capable de gérer le bin-picking et le mixed-SKU handling sans expertise vision spécialisée réduit à la fois les coûts d'intégration et les temps d'arrêt lors des transitions de production. À noter toutefois que l'article source ne précise ni les taux de réussite de préhension, ni les temps de cycle, ni les conditions de test, des métriques indispensables pour évaluer la maturité industrielle réelle du produit. Festo, groupe allemand spécialisé en automatisation pneumatique et électrique avec plus de 20 000 employés, intensifie depuis plusieurs années son virage vers les solutions logicielles et l'IA embarquée. Sur ce segment de la préhension intelligente, la concurrence inclut Pickit (Belge, racheté par Intertek), Robovision et plusieurs offres OEM de FANUC, KUKA et Universal Robots. Les prochaines étapes annoncées par Festo restent floues à ce stade, GripperAI n'ayant pas encore de timeline de déploiement commercial communiquée publiquement.

UEFesto (DE), acteur majeur de l'automatisation industrielle européenne, introduit une solution IA de préhension flexible qui pourrait réduire les coûts d'intégration sur les lignes industrielles EU, dans un segment où des concurrents européens comme Pickit (BE) et Robovision sont directement positionnés.

FR/EU ecosystemeActu
1 source
AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action
4arXiv cs.RO 

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Des chercheurs de l'INSAIT (Institute for Computer Science, Artificial Intelligence and Technology, Sofia, Bulgarie) ont publié début 2026 AR-VLA, une architecture de politique robotique qui remplace les têtes d'action à base de blocs (chunk-based) par un expert d'action autorégressif autonome. Contrairement aux modèles VLA existants, qu'ils soient réactifs ou basés sur la diffusion, qui réinitialisent leur contexte temporel à chaque nouvelle observation, AR-VLA maintient une mémoire longue durée et génère les actions comme une séquence causale continue. Le système intègre un mécanisme de re-ancrage (re-anchoring) pour synchroniser les modalités asynchrones vision-langage-action, compensant mathématiquement le délai entre une perception lente (quelques Hz) et un contrôle moteur rapide (centaines de Hz). Les expériences couvrent des tâches de manipulation en simulation et sur robots réels, où AR-VLA atteint ou dépasse les taux de succès des VLA réactifs de l'état de l'art tout en produisant des trajectoires sensiblement plus lisses. L'enjeu central est le découplage entre raisonnement perceptif lent et contrôle moteur rapide, un problème structurel des architectures VLA actuelles. En traitant les actions comme une séquence autorégressive avec historique persistant plutôt que comme un bloc prédit à chaque nouvelle trame, AR-VLA rend la politique intrinsèquement consciente du contexte : elle sait ce qu'elle vient d'exécuter, pas seulement ce qu'elle observe à l'instant T. Pour les équipes robotiques et les intégrateurs, cette architecture autorise un préentraînement modulaire de la syntaxe cinématique indépendamment du backbone de perception, réduisant potentiellement les coûts de développement de politiques spécialistes ou généralistes. La cohérence spatio-temporelle accrue réduit également les oscillations et les reprises de mouvement, deux facteurs critiques en déploiement industriel. L'INSAIT, fondé en 2022 à Sofia avec le soutien de Google, Microsoft et de l'EPFL, s'est imposé rapidement comme un pôle de recherche en IA en Europe centrale. AR-VLA s'inscrit dans une compétition ouverte sur l'architecture des politiques robot-généralistes, où Physical Intelligence (pi-0, pi-0.5), NVIDIA (GR00T N2), Google DeepMind et des startups comme Figure (Helix) ou 1X défendent des approches concurrentes. L'approche par diffusion, popularisée notamment par pi-0 et Diffusion Policy, constitue l'alternative dominante aux VLA réactifs ; AR-VLA la défie directement en montrant qu'un modèle autorégressif pur peut produire des trajectoires plus cohérentes sans recourir à des processus de débruitage itératifs. AR-VLA demeure pour l'instant un preprint arXiv (2603.10126v2), sans annonce de déploiement industriel ni de commercialisation. Le code et les vidéos de démonstration sont disponibles sur arvla.insait.ai.

UEL'INSAIT (Sofia, Bulgarie), soutenu par Google, Microsoft et l'EPFL, positionne l'UE comme acteur de recherche crédible dans la course aux architectures VLA généralistes ; le code est disponible et testable par les équipes robotiques européennes.

FR/EU ecosystemeOpinion
1 source