Aller au contenu principal
Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé
RecherchearXiv cs.RO2h

Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a présenté un système robotique de tri textile piloté par un jumeau numérique, conçu pour l'automatisation du recyclage de vêtements. La cellule à double bras intègre une perception RGBD, un retour tactile capacitif et une planification de trajectoires anticollision via MoveIt. Le pipeline autonome saisit des vêtements depuis un panier non trié, les transfère vers une zone d'inspection et les classifie via des modèles de vision-langage (VLM, Visual Language Models). Le benchmark porte sur neuf VLM issus de cinq familles de modèles, évalués sur 223 scénarios couvrant six catégories : chemises, chaussettes, pantalons, sous-vêtements, objets étrangers et scènes vides. La famille Qwen atteint la précision globale la plus élevée avec 87,9 %, assortie de solides performances sur la détection d'objets étrangers. Gemma3 offre un compromis vitesse/précision adapté au déploiement sur matériel embarqué (edge). Le travail est disponible sur arXiv sous la référence 2603.05230v2.

Ce benchmark en conditions industrielles réelles, sur des objets déformables, constitue une validation plus rigoureuse que les démonstrations sur images synthétiques habituellement produites dans ce domaine. L'évaluation intègre le comportement aux hallucinations et les performances computationnelles sous contraintes matérielles, deux critères souvent absents des publications académiques sur la robotique manipulatrice. Pour les intégrateurs industriels, cela confirme que le tri automatisé de textiles par VLM est réalisable sans infrastructure GPU haute performance, et que le choix du modèle doit s'adapter aux contraintes du site de déploiement. L'intégration de nuages de points 3D segmentés dans le jumeau numérique réduit par ailleurs le fossé sim-to-real pour la planification de prises sur objets déformables.

Ce travail s'inscrit dans un contexte de pression réglementaire croissante : l'UE impose depuis janvier 2025 la collecte séparée obligatoire des textiles usagés dans les États membres, accélérant la demande d'automatisation dans les centres de tri. Dans le paysage concurrentiel, Picvisa (Espagne) et Recycleye (Royaume-Uni) opèrent déjà sur le tri optique de déchets par vision, mais sans raisonnement sémantique par VLM. Les prochaines étapes naturelles pour ce système seraient la validation sur des lignes industrielles à plus grand débit et l'extension à d'autres catégories de matières, notamment les textiles synthétiques et les fibres techniques.

Impact France/UE

La directive UE sur la collecte séparée des textiles (en vigueur depuis janvier 2025) crée une demande directe pour ce type d'automatisation dans les centres de tri européens, et les acteurs ibérique (Picvisa) et britannique (Recycleye) déjà présents pourraient être concurrencés ou complétés par ce système.

Dans nos dossiers

À lire aussi

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques
1arXiv cs.RO 

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Une équipe de chercheurs publie sur arXiv (2606.08214) un cadre neuro-symbolique agentique pour la robotique industrielle avec supervision humaine en boucle. Le système hybride confie aux grands modèles de langage (LLM) uniquement les tâches de compréhension du langage naturel et de raisonnement contextuel, tandis que la vérification des contraintes physiques, le séquençage des actions et l'exécution restent entièrement déterministes. L'architecture, baptisée Specifier-Designer-Inspector (SDI), adapte le patron logiciel Planner-Generator-Evaluator (PGE) à la robotique industrielle et s'appuie sur LangGraph pour le routage dynamique en cas d'échec. Un mécanisme de récupération à deux niveaux distingue les échecs structurels (replanification contextuelle) des échecs géométriques à l'exécution (primitives déterministes de correction). Un jumeau numérique sous Unity3D permet à l'opérateur d'inspecter, modifier et valider le plan avant tout déploiement physique. Testé sur des commandes en langage naturel face à dix systèmes de référence, le framework SDI obtient le meilleur taux de réussite sur l'ensemble des niveaux de difficulté évalués. L'intérêt industriel de cette approche tient à son pragmatisme architectural : plutôt que de confier aux LLM la garantie de faisabilité physique d'une trajectoire, le système délègue cette responsabilité à des composants symboliques vérifiables et auditables. C'est une réponse directe au "demo-to-reality gap" qui fragilise de nombreux projets fondés sur des VLA (Vision-Language-Action models) ou des politiques neurales pures. Pour les intégrateurs et les COO industriels, la présence du jumeau numérique comme étape obligatoire de validation avant exécution réduit concrètement le risque opérationnel lors du commissionnement de nouvelles cellules robotiques, en donnant à l'opérateur un droit de regard explicite sur chaque plan généré. Ce travail prolonge une tradition de planification neuro-symbolique héritée de STRIPS et des HTN (Hierarchical Task Networks), en y intégrant les LLM pour l'interprétation des intentions opérateur. Il se positionne en contrepied des approches end-to-end actuellement dominantes, notamment pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure AI, qui misent sur des politiques entraînées en imitation ou en renforcement sans couche symbolique intermédiaire. La publication reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur les benchmarks annoncés : aucune métrique de temps de cycle en conditions industrielles réelles n'est fournie, et les commandes testées restent dans un cadre expérimental contrôlé. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
Système de vision par projection de franges pour le démontage autonome de disques durs
2arXiv cs.RO 

Système de vision par projection de franges pour le démontage autonome de disques durs

Des chercheurs ont publié sur arXiv (2604.17231) un pipeline de vision entièrement autonome conçu pour le démontage robotique de disques durs (HDD), une catégorie de déchets électroniques à forte valeur récupérable. Le système repose sur un module de profilométrie par projection de franges (Fringe Projection Profilometry, FPP) qui génère des cartes de profondeur 3D haute résolution, complété par un module de reconstruction de profondeur (depth completion) activé sélectivement là où le FPP échoue, notamment sur les surfaces réfléchissantes des plateaux magnétiques. Ce module de complétion utilise le backbone Depth Anything V2 Base et atteint un RMSE de 2,317 mm et un MAE de 1,836 mm. La segmentation d'instance temps réel, intégrée dans le même pipeline, obtient un box mAP@50 de 0,960 et un mask mAP@50 de 0,957. L'ensemble de la stack d'inférence affiche une latence combinée de 12,86 ms et un débit de 77,7 images par seconde sur le poste d'évaluation. Le dataset synthétique développé pour la segmentation des composants HDD sera rendu public. L'intérêt technique central de cette approche réside dans le choix d'utiliser le même système caméra-projecteur FPP pour la perception 3D et la localisation des composants : les cartes de profondeur et les masques de segmentation sont nativement alignés pixel par pixel, sans étape de recalage. C'est un avantage direct sur les systèmes RGB-D industriels classiques, qui nécessitent une calibration extrinsèque entre capteur de profondeur et caméra couleur, source d'erreurs en conditions réelles. Pour les intégrateurs de cellules de démontage automatisé, cela réduit significativement la complexité système et le risque de dérive de calibration en production. Le démontage automatisé de déchets électroniques reste un domaine peu industrialisé malgré son potentiel économique : les HDD contiennent des terres rares, des aimants en néodyme et des plateaux en aluminium à valeur de récupération non négligeable. Les approches existantes sont fragmentées, traitent séparément la vision 3D et la localisation des fixations (vis, clips), sans pipeline unifié. Ce travail adresse précisément ce manque. Sur le plan concurrentiel, des acteurs comme Recycleye (UK) ou Greyparrot travaillent sur la vision pour le tri de déchets, mais le démontage structuré de composants électroniques à l'échelle robotique reste un espace encore ouvert. Le transfert sim-to-real utilisé ici pour augmenter les données d'entraînement est une approche désormais standard mais dont la robustesse sur des surfaces hautement spéculaires comme les plateaux HDD mérite validation sur ligne industrielle réelle.

RecherchePaper
1 source
Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides
3arXiv cs.RO 

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Une équipe de recherche a publié sur arXiv (arXiv:2512.08411v2, décembre 2025) le Prismatic World Model (PRISM-WM), une architecture de modèle du monde destinée à améliorer la planification dans les systèmes robotiques à dynamiques hybrides. Le problème central que PRISM-WM cherche à résoudre est structurel : les mouvements continus sont régulièrement interrompus par des événements discrets, contacts, impacts, transitions de phases (vol vs appui, glissement vs adhérence), qui créent des discontinuités difficiles à modéliser. Les architectures classiques à réseaux neuronaux monolithiques, comme les modèles latents de type RSSM ou DreamerV3, imposent une continuité globale qui lisse ces transitions et génère des erreurs cumulatives lors des simulations à long horizon (rollouts), rendant la planification peu fiable aux frontières physiques. PRISM-WM y répond par un cadre Mixture-of-Experts (MoE) contextuel : un mécanisme de gating identifie implicitement le mode physique courant, et des experts spécialisés prédisent la dynamique de transition associée. Une contrainte d'orthogonalisation latente force la diversité des experts, prévenant l'effondrement de modes. Les expériences portent sur des benchmarks de contrôle continu incluant des humanoïdes haute dimension et des configurations multi-tâches, couplés à l'algorithme d'optimisation de trajectoires TD-MPC. Les résultats montrent que PRISM-WM réduit le drift en simulation lors des rollouts étendus, offrant un substrat de haute fidélité pour les algorithmes d'optimisation de trajectoires. Pour les équipes de contrôle en robotique humanoïde, cela adresse directement le gap simulation-réalité lié à la gestion des contacts, une limitation structurelle des approches model-based existantes. La décomposition en primitives composables ouvre aussi une piste vers des architectures plus interprétables, un enjeu concret pour les déploiements industriels où la robustesse aux variations de terrain ou de tâche est critique. PRISM-WM s'inscrit dans la dynamique des world models pour la robotique, domaine en forte progression depuis les travaux de Hafner et al. sur DreamerV3 et les avancées de TD-MPC sur des tâches de locomotion complexe. L'approche MoE transposée à la dynamique physique rejoint des tendances observées dans les grands modèles de langage (Mixtral, GPT-4). Il n'est pas associé à une entreprise commerciale identifiée ; il s'agit d'une contribution académique pure, sans pilote industriel annoncé. La prochaine étape logique serait une validation sur hardware réel, notamment sur des plateformes humanoïdes où la gestion des contacts reste un verrou technique central de la sim-to-real transfer.

RecherchePaper
1 source
Planification par simulation de séquences de mouvements pour l'optimisation automatisée des procédures dans les cellules d'assemblage multi-robots
4arXiv cs.RO 

Planification par simulation de séquences de mouvements pour l'optimisation automatisée des procédures dans les cellules d'assemblage multi-robots

Une équipe de chercheurs a publié sur arXiv (arXiv:2507.23270) une méthode de planification par simulation pour générer automatiquement des séquences de mouvements coordonnés dans des cellules d'assemblage multi-robots reconfigurables. Le principe repose sur une décomposition des tâches en deux catégories : les opérations "cœur" (core operations), directement liées aux étapes d'assemblage et donc figées par les contraintes du procédé, et les opérations de transit (traverse operations), qui relient ces étapes et constituent le principal levier d'optimisation. La planification de l'ordonnancement des opérations cœur est formulée comme un problème d'optimisation combinatoire, dans lequel les opérations de transit faisables doivent être intégrées via une stratégie de planification de mouvement par décomposition. Trois techniques de résolution sont comparées : une heuristique par échantillonnage, une recherche arborescente et une optimisation sans gradient. Ce travail s'attaque à un verrou opérationnel concret pour les intégrateurs de cellules flexibles : chaque reconfiguration d'une ligne implique aujourd'hui un travail manuel de reprogrammation des trajectoires et de résolution des conflits de mouvement entre bras. La méthode proposée automatise ce processus et génère des séquences sans collision qui surpassent le comportement de base décentralisé, dans lequel chaque robot planifie ses trajectoires indépendamment. L'approche de décomposition identifie des zones du planning qui peuvent être résolues indépendamment avec des algorithmes de planification centralisée modifiés, ce qui réduit la complexité computationnelle. Les résultats en simulation montrent une réduction significative de la durée d'assemblage globale, bien que les auteurs ne communiquent pas de chiffres quantitatifs précis dans l'abstract, ce qui limite l'évaluation externe de l'ampleur du gain. La robotique d'assemblage multi-bras flexible est un segment en forte croissance, porté par la pression sur les constructeurs automobiles et électroniques à adapter leurs lignes plus fréquemment. Des acteurs comme ABB, KUKA et Fanuc proposent des outils de simulation propriétaires (RobotStudio, KUKA.Sim), mais la planification automatisée de séquences coordonnées reste largement un domaine de recherche. Côté académique, ce travail s'inscrit dans une tendance plus large qui combine planification de tâches (task and motion planning, TAMP) et optimisation de scheduling, un domaine où des équipes comme celles du DLR en Allemagne et de l'INRIA en France sont également actives. Les prochaines étapes naturelles seraient la validation sur hardware réel et l'intégration dans des jumeaux numériques industriels, deux conditions indispensables avant tout déploiement en production.

UELes équipes de l'INRIA et du DLR travaillent sur des approches similaires ; les intégrateurs européens comme ABB et KUKA pourraient à terme bénéficier de telles méthodes pour automatiser la reprogrammation des cellules flexibles reconfigurables.

RecherchePaper
1 source