RecherchearXiv cs.RO 15 juin 2026

Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a présenté un système robotique de tri textile piloté par un jumeau numérique, conçu pour l'automatisation du recyclage de vêtements. La cellule à double bras intègre une perception RGBD, un retour tactile capacitif et une planification de trajectoires anticollision via MoveIt. Le pipeline autonome saisit des vêtements depuis un panier non trié, les transfère vers une zone d'inspection et les classifie via des modèles de vision-langage (VLM, Visual Language Models). Le benchmark porte sur neuf VLM issus de cinq familles de modèles, évalués sur 223 scénarios couvrant six catégories : chemises, chaussettes, pantalons, sous-vêtements, objets étrangers et scènes vides. La famille Qwen atteint la précision globale la plus élevée avec 87,9 %, assortie de solides performances sur la détection d'objets étrangers. Gemma3 offre un compromis vitesse/précision adapté au déploiement sur matériel embarqué (edge). Le travail est disponible sur arXiv sous la référence 2603.05230v2.

Ce benchmark en conditions industrielles réelles, sur des objets déformables, constitue une validation plus rigoureuse que les démonstrations sur images synthétiques habituellement produites dans ce domaine. L'évaluation intègre le comportement aux hallucinations et les performances computationnelles sous contraintes matérielles, deux critères souvent absents des publications académiques sur la robotique manipulatrice. Pour les intégrateurs industriels, cela confirme que le tri automatisé de textiles par VLM est réalisable sans infrastructure GPU haute performance, et que le choix du modèle doit s'adapter aux contraintes du site de déploiement. L'intégration de nuages de points 3D segmentés dans le jumeau numérique réduit par ailleurs le fossé sim-to-real pour la planification de prises sur objets déformables.

Ce travail s'inscrit dans un contexte de pression réglementaire croissante : l'UE impose depuis janvier 2025 la collecte séparée obligatoire des textiles usagés dans les États membres, accélérant la demande d'automatisation dans les centres de tri. Dans le paysage concurrentiel, Picvisa (Espagne) et Recycleye (Royaume-Uni) opèrent déjà sur le tri optique de déchets par vision, mais sans raisonnement sémantique par VLM. Les prochaines étapes naturelles pour ce système seraient la validation sur des lignes industrielles à plus grand débit et l'extension à d'autres catégories de matières, notamment les textiles synthétiques et les fibres techniques.

Impact France/UE

La directive UE sur la collecte séparée des textiles (en vigueur depuis janvier 2025) crée une demande directe pour ce type d'automatisation dans les centres de tri européens, et les acteurs ibérique (Picvisa) et britannique (Recycleye) déjà présents pourraient être concurrencés ou complétés par ce système.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

GelNeuro : un système tactile neuromorphique intégrant détection et calcul pour la reconnaissance de textures

Une équipe de recherche a présenté GelNeuro, un système tactile neuromorphique entièrement intégré combinant un capteur optique GelSight Mini avec la puce neuromorphique Speck2f. Contrairement aux systèmes existants qui dépendent d'un ordinateur hôte pour lire, prétraiter ou relayer les données avant inférence, GelNeuro traite tout directement sur puce : les mouvements des marqueurs induits par le contact sont capturés sous forme d'événements par un capteur de vision dynamique (DVS), puis acheminés via le réseau embarqué vers un classificateur à réseau de neurones convolutif à impulsions (SCNN). Pour limiter la perte de précision lors du déploiement en 8 bits, les chercheurs ont introduit une stratégie de bridage des poids adaptée au matériel (hardware-aware weight clamping). Testé en conditions réelles sur puce physique pour une tâche de reconnaissance de 15 classes de textures naturelles, le système atteint 96,3% de précision avec une fenêtre d'inférence de seulement 80 millisecondes, tout en ne consommant que 19,6 mW de puissance active au niveau carte. Cette consommation représente plus de trois ordres de grandeur de moins que les architectures CPU/GPU classiques évaluées sur le même benchmark, ce qui change la donne pour l'intégration de perception tactile fine sur des plateformes embarquées à budget énergétique serré, comme les mains robotiques, les préhenseurs ou les capteurs distribués sur des robots mobiles. Le résultat appuie une thèse plus large du secteur neuromorphique : que le traitement événementiel de bout en bout, du capteur à la puce, peut remplacer les pipelines classiques gourmands en calcul sans sacrifier la précision, du moins sur des tâches de classification tactile bien définies. GelNeuro montre aussi une bonne généralisation face à des profondeurs de contact non vues à l'entraînement, un point clé pour une utilisation en conditions réelles variables. Ce travail s'inscrit dans la lignée des efforts récents pour rapprocher capteur et calcul, un axe déjà exploré par les puces Speck de SynSense et les capteurs optiques tactiles GelSight, tous deux largement utilisés dans la recherche en robotique manipulatrice. La prochaine étape naturelle serait une validation sur des tâches de manipulation en boucle fermée plutôt que sur la seule classification de textures, ainsi qu'une intégration physique complète dans une main ou un doigt robotique.

RecherchePaper

1 source

2arXiv cs.RO

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Une équipe de chercheurs publie sur arXiv (2606.08214) un cadre neuro-symbolique agentique pour la robotique industrielle avec supervision humaine en boucle. Le système hybride confie aux grands modèles de langage (LLM) uniquement les tâches de compréhension du langage naturel et de raisonnement contextuel, tandis que la vérification des contraintes physiques, le séquençage des actions et l'exécution restent entièrement déterministes. L'architecture, baptisée Specifier-Designer-Inspector (SDI), adapte le patron logiciel Planner-Generator-Evaluator (PGE) à la robotique industrielle et s'appuie sur LangGraph pour le routage dynamique en cas d'échec. Un mécanisme de récupération à deux niveaux distingue les échecs structurels (replanification contextuelle) des échecs géométriques à l'exécution (primitives déterministes de correction). Un jumeau numérique sous Unity3D permet à l'opérateur d'inspecter, modifier et valider le plan avant tout déploiement physique. Testé sur des commandes en langage naturel face à dix systèmes de référence, le framework SDI obtient le meilleur taux de réussite sur l'ensemble des niveaux de difficulté évalués. L'intérêt industriel de cette approche tient à son pragmatisme architectural : plutôt que de confier aux LLM la garantie de faisabilité physique d'une trajectoire, le système délègue cette responsabilité à des composants symboliques vérifiables et auditables. C'est une réponse directe au "demo-to-reality gap" qui fragilise de nombreux projets fondés sur des VLA (Vision-Language-Action models) ou des politiques neurales pures. Pour les intégrateurs et les COO industriels, la présence du jumeau numérique comme étape obligatoire de validation avant exécution réduit concrètement le risque opérationnel lors du commissionnement de nouvelles cellules robotiques, en donnant à l'opérateur un droit de regard explicite sur chaque plan généré. Ce travail prolonge une tradition de planification neuro-symbolique héritée de STRIPS et des HTN (Hierarchical Task Networks), en y intégrant les LLM pour l'interprétation des intentions opérateur. Il se positionne en contrepied des approches end-to-end actuellement dominantes, notamment pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure AI, qui misent sur des politiques entraînées en imitation ou en renforcement sans couche symbolique intermédiaire. La publication reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur les benchmarks annoncés : aucune métrique de temps de cycle en conditions industrielles réelles n'est fournie, et les commandes testées restent dans un cadre expérimental contrôlé. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper

1 source

3arXiv cs.RO

Système d'automatisation de titres modulaire pour la robotique en intérieur, basé sur un modèle vision-langage-action

Une équipe de recherche présente un système modulaire conçu pour le CMU Vision-Language-Action (VLA) Challenge, une compétition universitaire visant à faire exécuter des instructions en langage naturel par un agent robotique autonome évoluant en intérieur. L'architecture repose sur deux pipelines parallèles. Le premier, dédié à la perception, construit en temps réel une carte voxel sémantique de l'environnement à partir de flux caméra, en s'appuyant sur des embeddings issus du modèle OwlViT. Le second traite le langage : il classifie les commandes utilisateur grâce à un modèle vision-langage (VLM). La cartographie est bornée dans le temps, avec une limite d'exploration fixée à 500 secondes, au-delà de laquelle le système continue d'opérer avec une carte partielle plutôt que d'attendre une couverture complète. La requête classifiée est ensuite ancrée dans le contexte géométrique et sémantique de cette carte pour générer un prompt détaillé soumis au VLM, produisant en sortie une action exploitable par le robot. L'intérêt de ce travail dépasse le cadre du concours : il illustre concrètement comment combler l'écart entre instruction en langage naturel et action robotique physique, un défi central pour toute la famille des modèles VLA actuellement en déploiement industriel, de Pi-0 à GR00T N2 en passant par Helix. En imposant une contrainte de temps stricte sur la cartographie, les auteurs mettent en lumière un problème rarement traité frontalement dans les démonstrations commerciales : la robustesse face à une perception incomplète, plus représentative des conditions réelles que des environnements soigneusement scannés en amont. Le CMU VLA Challenge s'inscrit dans une vague de benchmarks académiques cherchant à standardiser l'évaluation des architectures VLA modulaires, en concurrence avec les approches end-to-end privilégiées par les laboratoires industriels. Les prochaines étapes attendues concernent la publication des résultats comparatifs de la compétition et l'éventuelle extension de cette architecture voxel-plus-VLM à des plateformes robotiques réelles au-delà du cadre expérimental du challenge.

RecherchePaper

1 source

4arXiv cs.RO

TiROD : petit jeu de données et benchmark de robotique pour la détection d'objets en continu

Une équipe de recherche présente TiROD (Tiny Robotics Object Detection), un nouveau jeu de données vidéo destiné à évaluer la détection d'objets sur des robots mobiles de petite taille. Les images ont été capturées directement par la caméra embarquée d'un petit robot mobile, dans plusieurs environnements et avec des catégories d'objets variées, afin de reproduire les changements de domaine auxquels ces plateformes sont confrontées en conditions réelles. Sur cette base, les chercheurs ont construit un benchmark comparant plusieurs stratégies d'apprentissage continu, appliquées à NanoDet, un détecteur d'objets léger et temps réel conçu pour tourner sur du matériel à ressources limitées. L'article, publié sur arXiv, en est à sa quatrième révision depuis 2024, signe d'un travail approfondi retravaillé au fil des retours de la communauté. L'enjeu dépasse le simple exercice académique. Les robots miniatures, contraints en taille, en autonomie énergétique et en puissance de calcul, doivent malgré tout détecter des objets sur des images basse résolution et bruitées, tout en s'adaptant à des environnements changeants sans réentraînement complet ni intervention humaine. C'est précisément cette capacité d'adaptation, l'apprentissage continu embarqué, qui conditionne le déploiement réel de flottes de robots low-cost dans l'inspection, la logistique ou la navigation autonome. Les résultats du benchmark montrent que les stratégies existantes peinent encore à concilier efficacité computationnelle et robustesse face à l'oubli catastrophique, un signal utile pour les intégrateurs qui évaluent la maturité réelle de ces approches avant tout déploiement industriel. Ce travail s'inscrit dans une tendance de fond de la robotique embarquée: développer des modèles de vision suffisamment légers pour tourner sur des microcontrôleurs ou des puces à faible consommation, tout en conservant une capacité d'apprentissage en continu. Contrairement aux grands modèles de perception utilisés sur des robots industriels ou humanoïdes, ce créneau cible spécifiquement les plateformes tiny robotics, moins médiatisées mais représentant un volume potentiellement massif de déploiements à bas coût. Les auteurs positionnent TiROD comme une base commune permettant à la communauté de comparer objectivement de futures méthodes sur ce terrain encore peu standardisé.

RecherchePaper

1 source