RecherchearXiv cs.RO 12 juin 2026

Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a présenté à l'ICRA 2025, la principale conférence mondiale en robotique, un système de préhension séquentielle en environnement encombré, décrochant la deuxième place dans la piste "Pick-in-Clutter" de la 10e édition du Robotic Grasping and Manipulation Competition (RGMC 2025). Le système s'évalue sur le Cluttered Environment Picking Benchmark (CEPB), un protocole standardisé conçu pour des scénarios de ramassage séquentiel d'objets hétérogènes entremêlés. La solution combine une pince multifonctionnelle sur mesure, un module de reconnaissance d'objets, des stratégies de désencombrement actif et une approche de préhension multimodale capable de traiter à la fois des pièces rigides et des objets déformables. L'architecture produit une représentation explicite de la distribution spatiale des objets et de leurs relations d'occlusion, permettant au robot de planifier l'ordre de saisie le plus efficace tout en évitant les collisions.

Ce résultat est significatif pour les intégrateurs industriels parce qu'il adresse un verrou applicatif précis : non plus saisir un objet isolé avec un taux de succès élevé, mais rechercher et extraire séquentiellement des cibles dans un tas désordonné, cas d'usage courant en picking e-commerce, en tri logistique ou en désassemblage. La gestion des objets déformables (sachets, textiles, pièces souples) reste un différenciateur rare : la plupart des systèmes commerciaux contournent ce cas. Les auteurs distinguent explicitement les "taux de succès élevés sur la saisie unitaire" déjà atteints dans la littérature des "solutions matures pour le tri séquentiel", un écart que ce travail cherche à combler. La validation en conditions de compétition sous contrainte temps, avec des objets non sélectionnés par l'équipe, renforce la crédibilité par rapport aux démonstrations en conditions contrôlées.

Le RGMC est organisé annuellement depuis 2011 en marge de l'ICRA et constitue l'une des références de benchmark en manipulation robotique. Sur ce segment, les concurrents directs incluent des systèmes basés sur des grippers adaptatifs (Robotiq, OnRobot) et des solutions de bin-picking comme celles de Photoneo, Mech-Mind ou Roboception, souvent couplées à des pipelines de vision 3D. Aucun acteur européen n'est mentionné dans ce travail. L'article, déposé sur arXiv sous l'identifiant 2606.12954, ne précise pas l'affiliation institutionnelle de l'équipe ni de feuille de route vers une commercialisation. Les prochaines étapes naturelles seraient la mise en open source du benchmark CEPB et une validation sur un spectre plus large d'objets industriels réels.

Dans nos dossiers

Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

ZONDA : navigation vers un objet sans apprentissage préalable avec évitement dynamique en environnements multi-étages

Voici le résumé en français : Une équipe de recherche présente ZONDA, un nouveau framework de navigation robotique "zero-shot" vers un objet désigné (Object Goal Navigation), conçu pour fonctionner dans des environnements multi-étages et en présence de piétons en mouvement. Le système repose sur trois composants : une planification heuristique multi-étages qui exploite des cartes de différences de hauteur pour permettre à un robot de gravir des escaliers et de changer d'étage sans contrôleur spécifique à la plateforme ; une vérification multi-vues de la cible, qui croise des observations à différentes échelles avec un modèle vision-langage (VLM) pour réduire les faux positifs de détection ; et un module d'évitement dynamique des piétons, qui suit et anticipe leurs déplacements pour générer des trajectoires préventives. Le système a été testé sur un robot bipède TITA du fabricant chinois Direct Drive Tech, ainsi que sur des simulations extensives utilisant les jeux de données HM3D et MP3D, deux benchmarks de référence pour la navigation en environnement intérieur photoréaliste. Les auteurs annoncent des résultats "significativement améliorés" par rapport aux méthodes existantes, ainsi qu'une robustesse maintenue sur HM3D-DYNA, une variante dynamique du benchmark incluant des agents mobiles. Cette publication s'attaque à une limite concrète et rarement traitée des systèmes de navigation robotique actuels : la quasi-totalité des méthodes de pointe supposent un environnement statique et confiné à un seul étage, une hypothèse commode en laboratoire mais irréaliste pour un déploiement réel en entrepôt, hôpital ou bâtiment de bureaux à plusieurs niveaux. En combinant franchissement d'escaliers sans apprentissage spécifique au robot et anticipation des piétons, ZONDA vise directement l'écart entre démonstration en simulation et usage industriel, un problème central pour les intégrateurs qui cherchent à déployer des robots mobiles ou humanoïdes au-delà d'un seul plateau. À noter que l'abstract ne fournit pas de chiffres précis de performance (taux de succès, distance parcourue, temps de cycle) permettant de comparer objectivement l'ampleur du gain revendiqué face aux méthodes concurrentes, une réserve à garder en tête avant de considérer le résultat comme acquis. Le champ de l'Object Goal Navigation s'est largement construit sur des benchmarks comme HM3D et MP3D, où les méthodes récentes intègrent de plus en plus des modèles vision-langage pour améliorer la reconnaissance sémantique des cibles, dans la lignée de travaux comme les architectures VLA utilisées en manipulation robotique. Le choix du robot bipède TITA de Direct Drive Tech comme plateforme de test réel, plutôt qu'un robot à roues plus classique en recherche de navigation, souligne l'ambition de valider l'approche sur une morphologie capable physiquement de franchir des escaliers, condition nécessaire à toute navigation multi-étages. L'article, publié sur arXiv le 24 juillet 2026, ne mentionne pas de partenariat industriel ni de calendrier de déploiement commercial ; il s'agit à ce stade d'une contribution académique, dont la prochaine étape logique serait une validation sur davantage de plateformes robotiques et dans des environnements réels plus variés que le cadre expérimental actuel.

RecherchePaper

1 source

2arXiv cs.RO

AeroGrab : un cadre unifié pour la préhension aérienne en environnements encombrés

Des chercheurs ont publié sur arXiv (référence 2603.15097) AeroGrab, un pipeline intégré pour la saisie aérienne en environnements encombrés. Le système prend en entrée une scène et une instruction en langage naturel, identifie l'objet cible, puis pilote un drone pour l'explorer activement afin d'obtenir de meilleures perspectives. Durant cette exploration, un réseau de génération de prises prédit plusieurs candidats de saisie à 6 degrés de liberté (6-DOF) par point de vue. Chaque candidat est évalué par un module de faisabilité tenant compte des collisions potentielles ; la meilleure prise globale est sélectionnée et exécutée via des méthodes standard de génération de trajectoire. Des expériences en conditions réelles encombrées démontrent une exécution robuste des saisies dans des scénarios non contrôlés. L'apport principal réside dans l'intégration d'éléments jusqu'ici traités séparément : spécification de tâche par langage naturel, exploration active et sélection de prise tenant compte des collisions. Les pipelines de manipulation aérienne existants s'appuient généralement sur une saisie centroïde, approximation grossière qui échoue dès qu'un objet est partiellement occlus ou que l'environnement est dense. L'absence d'un système de bout en bout complet constituait un frein au déploiement opérationnel des drones manipulateurs, notamment en logistique, maintenance d'infrastructure ou intervention en zone difficile d'accès. AeroGrab représente une étape vers la fermeture du gap démo-terrain, sans que les métriques de robustesse soient détaillées dans l'abstract. La manipulation aérienne est un champ de recherche actif, porté notamment par l'ETH Zurich, l'Université de Naples Federico II ou le LAAS-CNRS côté français, qui explore depuis plusieurs années les drones à bras articulés. La tendance est à l'intégration de modèles vision-langage (VLA) dans la boucle de contrôle, pour passer d'une programmation par coordonnées à une spécification sémantique. Les verrous industriels restent importants : robustesse aux perturbations dynamiques, charge utile réduite et certification réglementaire pour les vols en espace intérieur. La publication sur arXiv indique un stade de recherche ; aucun déploiement commercial ni partenariat industriel n'est annoncé.

UELe LAAS-CNRS, laboratoire français reconnu dans la manipulation aérienne, évolue dans le même écosystème de recherche qu'AeroGrab, mais aucune implication directe d'institutions européennes n'est rapportée dans ce travail.

RecherchePaper

1 source

3arXiv cs.RO

RetrDex : récupération efficace d'objets dans des environnements encombrés avec une main dextérique

RetrDex est un framework de recherche publié sur arXiv (référence 2502.18423, troisième révision) dont l'objectif est d'apprendre à un système bras-main dextre à récupérer des objets enfouis sous un empilement d'autres objets. L'approche repose sur du reinforcement learning (RL) parallèle à grande échelle conduit en simulation, couplé à une représentation spatiale qui encode les patterns d'occlusion ainsi que les relations géométriques entre la cible, la main multi-doigts et les objets alentour. La politique résultante développe un répertoire de gestes, poussée, agitation et piquage (poking), pour dégager activement les obstacles avant ou pendant la saisie. Évalué sur 16 objets ménagers courants dans des configurations variées, le système affiche de bonnes performances sur des cibles vues en entraînement comme sur des cibles inédites. Un transfert zero-shot vers un robot réel multi-doigts est revendiqué, sans fine-tuning supplémentaire. La récupération d'objets en scène encombrée est un problème ouvert en manipulation robotique : les approches classiques décomposent la tâche en étapes séquentielles indépendantes (retirer les objets qui gênent un par un, puis saisir), ce qui génère des séquences longues et peu robustes aux variations. RetrDex intègre ces interactions physiques directement dans la politique de récupération, réduisant potentiellement le nombre de mouvements nécessaires. La revendication la plus notable reste le zero-shot sim-to-real sur une main dextre : ce type de transfert est notoirement difficile à cause de la complexité des contacts multi-doigts et du gap dynamique entre simulation et réalité physique. Si les résultats tiennent à l'examen approfondi, cela renforce la thèse que le RL massivement parallèle en simulation peut généraliser sur du matériel réel pour des tâches de manipulation en espace contraint, sans données réelles supplémentaires. Le papier s'inscrit dans une tendance forte : utiliser le RL en simulation à très grande échelle pour entraîner des politiques de manipulation dextre, une direction explorée par des équipes de Berkeley (DexGraspNet), Stanford et, côté industriel, par des acteurs comme Unitree ou Agility Robotics sur leurs propres mains multi-doigts. Les méthodes concurrentes récentes, graphes de relations de support ou planification séquentielle avec contraintes géométriques, adoptent des stratégies que RetrDex cherche à dépasser en termes d'efficacité. Soumis initialement en février 2025 et révisé jusqu'en 2026, le travail n'annonce pas de code open-source dans son résumé, ce qui limite les possibilités de réplication à court terme. Les suites naturelles seraient des tests sur objets déformables, une extension à des charges utiles plus importantes et une intégration dans une chaîne logistique ou un poste d'assemblage industriel réel.

RecherchePaper

1 source

4arXiv cs.RO

Reconstruction simulation-réel pour environnements très encombrés via raisonnement physique inter-objets

Une équipe de recherche présente un pipeline Real-to-Sim capable de reconstruire des scènes 3D physiquement cohérentes à partir d'une seule image RGB-D, c'est-à-dire une capture combinant couleur et profondeur. L'approche, décrite dans un preprint arXiv (2602.12633, version 2), cible spécifiquement les environnements très encombrés où la manipulation robotique exige une compréhension précise des contacts entre objets. Le coeur du système repose sur un pipeline d'optimisation différentiable qui modélise les dépendances spatiales via un graphe de contact : chaque relation physique entre objets adjacents est représentée explicitement, puis les poses et propriétés physiques de chaque objet sont affinées conjointement par simulation de corps rigides différentiable. Les évaluations couvrent des scènes simulées et des environnements réels. Ce travail s'attaque à un problème concret qui bloque les déploiements de manipulation robotique en contexte industriel désorganisé : les pipelines de perception standard produisent régulièrement des états invalides, objets en lévitation ou interpénétrations géométriques, qui rendent la simulation en aval peu fiable et donc inutilisable pour planifier des saisies ou des déplacements. En forçant la cohérence physique dès la reconstruction, le pipeline permet d'obtenir des scènes simulées qui reproduisent fidèlement la dynamique de contact du monde réel. Pour les intégrateurs et les équipes de recherche en manipulation, c'est une brique clé pour réduire le fossé sim-to-real sans recourir à des setups multicaméras coûteux ou à des annotations manuelles. La reconstruction Real-to-Sim est un chantier actif dans la communauté robotique depuis l'essor des pipelines sim-to-real pour l'apprentissage par renforcement et l'imitation. Des approches concurrentes s'appuient sur des reconstructions NeRF ou des méthodes basées Gaussian Splatting pour obtenir la fidélité géométrique, mais elles n'intègrent pas nécessairement de contraintes physiques explicites. Ce pipeline différentiable se distingue en traitant le raisonnement inter-objets comme une contrainte d'optimisation, pas comme une post-correction. Les prochaines étapes naturelles incluent l'intégration dans des pipelines de planification de manipulation contact-rich et le test sur des scènes industrielles réelles, où le désordre et les occlusions partielles sont la norme plutôt que l'exception.

RecherchePaper

1 source