Aller au contenu principal
Enchevêtrement stochastique de tentacules origami déterministes pour la préhension robotique universelle
RecherchearXiv cs.RO6sem

Enchevêtrement stochastique de tentacules origami déterministes pour la préhension robotique universelle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2604.26897) les travaux détaillant un préhenseur robotique à tentacules origami, actionné par tendon, capable de saisir des objets de forme arbitraire sans capteurs ni canaux d'actuation supplémentaires. Chaque tentacule est découpé dans une feuille de Mylar fin, avec des perforations soigneusement positionnées pour le routage du tendon, des plis origami définissant la séquence de déformation, et une géométrie effilée. Un simple tirage du tendon génère une séquence déterministe de rétraction, flexion et torsion, aboutissant à un enroulement hélicoïdal contrôlé. Le résultat clé : lorsque plusieurs tentacules coilent simultanément en proximité d'un objet, des enchevêtrements stochastiques émergent spontanément, permettant aux tentacules de tresser, noeudiser et saisir des géométries aléatoires sans qu'aucune planification de préhension ne soit nécessaire. Les équipes ont validé le système en conditions gravitationnelles, en milieu aquatique, et via un mécanisme stow-and-release simulant une capture en orbite.

L'intérêt pour les intégrateurs tient à la simplicité radicale du design : un seul degré de liberté d'actuation pour atteindre une universalité de préhension habituellement réservée aux grippers multi-DOF ou à sacs pneumatiques à contrôle complexe. Le compromis classique entre flexibilité de préhension et nombre de canaux d'actuation semble ici partiellement résolu par un transfert de la complexité vers la géométrie passive du matériau. La démonstration en milieu aquatique et en configuration orbitale élargit le périmètre d'application au-delà de la manipulation industrielle terrestre, vers des secteurs comme la robotique sous-marine ou les systèmes de capture de débris spatiaux. Il convient toutefois de noter que les performances sont présentées sous forme de démonstrations qualitatives ; aucune métrique de cycle time, de répétabilité statistique ni de payload maximum n'est fournie, ce qui rend difficile la comparaison directe avec des solutions commerciales existantes.

Ce travail s'inscrit dans un courant actif de recherche sur les soft grippers bio-inspirés, après des années de développement sur les grippers pneumatiques (Festo, Soft Robotics Inc.) et les préhenseurs granulaires (Universal Robots, Empire Robotics). La direction stochastic entanglement est moins explorée que les approches VLA pour la préhension généraliste, mais elle offre une alternative matérielle sans dépendance à la puissance de calcul embarquée. Du côté européen, des laboratoires comme le LIRMM ou des spin-offs issues de l'EPFL travaillent sur des directions comparables en origami robotique, bien qu'aucun acteur FR/EU ne soit cité dans cet article. La prochaine étape logique serait une caractérisation quantitative en conditions industrielles réelles, ainsi qu'une évaluation de la durabilité du Mylar sous cycles répétés, point critique pour toute transition vers un déploiement opérationnel.

À lire aussi

Mécanisme passif de préhension universelle basé sur une coque en éversion
1arXiv cs.RO 

Mécanisme passif de préhension universelle basé sur une coque en éversion

Une équipe de chercheurs a soumis sur arXiv (preprint 2606.00470, juin 2026) la conception d'un préhenseur passif monolithique basé sur l'éversion d'une coque bistable élastiquement déformable. Le mécanisme fonctionne sans commande active pendant la saisie : au contact d'un objet, la coque bascule spontanément de son premier état stable vers son second (éversion), forçant des bras composés de segments de poutres flexibles à envelopper l'objet et à former une enceinte fermée. Le système reste verrouillé dans cette configuration jusqu'à une actuation explicite pour libérer l'objet, éliminant ainsi le besoin d'énergie continue en phase de maintien. La charge utile (payload) dépend de la rigidité des bras, la taille maximale préhensible de leurs dimensions. Le mécanisme est conçu pour saisir des objets rigides de forme quelconque, sans adaptation de trajectoire ni paramétrage géométrique préalable. L'intérêt de cette approche tient à sa double propriété : universalité et passivité. La plupart des préhenseurs polyvalents requièrent une actuation active (pneumatique, moteurs, câbles) ou de l'intelligence embarquée pour s'adapter à la géométrie de l'objet. La compliance distribuée des bras, c'est-à-dire la flexibilité répartie sur toute leur longueur plutôt que concentrée en un point, permet à la structure de se conformer à la forme de l'objet sans exercer de force excessive, réduisant le risque d'endommagement de pièces fragiles. Pour un intégrateur industriel, cela représente un préhenseur potentiellement moins coûteux, tolérant aux variations dimensionnelles en production, et ne consommant pas d'énergie pendant la tenue d'objet. L'approche exploite la mécanique des structures bistables, déjà éprouvée dans les micromécanismes MEMS et les structures spatiales déployables, mais son application à la préhension robotique reste entièrement à valider expérimentalement. Les préhenseurs adaptatifs passifs constituent un axe de recherche actif depuis les travaux sur les mains underactuées (Barrett Hand, DLR, Université Laval) dans les années 2000. Les approches concurrentes incluent les doigts souples en silicone (Soft Robotics Inc., Festo Bionic Cobot), le jamming granulaire (Universal Robots, Piab) et les structures compliant issues de l'impression 3D. Ce preprint se distingue par son mécanisme à snap-through bistable, proche des travaux récents sur les actionneurs à énergie stockée en origami et morphing structures. Point important : le résumé publié ne présente ni prototype physique ni résultats expérimentaux, ce qui situe le travail au stade de la conceptualisation théorique. Les prochaines étapes attendues sont la fabrication d'un prototype (élastomère ou impression 3D multi-matériaux) et la caractérisation expérimentale des paramètres de payload et de taille maximale d'objet en fonction de la géométrie des bras.

RecherchePaper
1 source
PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique
2arXiv cs.RO 

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

Des chercheurs ont publié le 3 juin 2026 PointAction (arXiv:2506.03943), un cadre de contrôle robotique qui fait le pont entre les Video-Action Models (VAMs) et les commandes exécutables sur bras physique. Le constat de départ est précis : les modèles vidéo entraînés uniquement sur du RGB ne permettent pas de contraindre la géométrie de contact 3D ni les marges spatiales métriques nécessaires à la manipulation, rendant le grounding des actions ambigu. PointAction répond à ce problème en affinant un modèle de génération vidéo de fondation pour prédire simultanément des frames RGB futurs et des pointmaps 3D dynamiques, produisant une représentation 4D (3D + temps) cohérente de la scène. Ces cartes de points servent d'interface structurée et embodiment-agnostic entre prédiction vidéo et contrôle moteur, qu'un décodeur d'actions basé sur la diffusion traduit ensuite en commandes exécutables. Les résultats publiés indiquent une qualité de génération 4D état de l'art sur scènes robotiques, une supériorité sur les baselines existantes en simulation, et une généralisation à deux bras robotiques absents du préentraînement. L'enjeu pour les intégrateurs est concret. Les VAMs peinent depuis plusieurs années à franchir le fossé entre rollout vidéo convaincant et action physique fiable : le RGB seul ne transmet ni la profondeur métrique, ni l'orientation des surfaces de contact, ni les tolérances de précision requises. En intercalant une couche intermédiaire explicite, les pointmaps 3D dynamiques, PointAction décompose le problème et réduit structurellement l'ambiguïté d'ancrage. L'interface embodiment-agnostic réduit aussi le coût de supervision nécessaire pour adapter un modèle à une nouvelle plateforme, argument concret pour les intégrateurs multi-robots. La généralisation à des bras non vus en préentraînement contredit partiellement l'hypothèse dominante selon laquelle les architectures VLA (Vision-Language-Action) exigent des volumes massifs de données spécifiques par embodiment, bien qu'aucun chiffre de transfert à l'échelle industrielle ne soit publié. PointAction s'inscrit dans une vague de recherche exploitant les modèles de diffusion vidéo pour la robotique, dans le sillage de pi-0 de Physical Intelligence, de GR00T N2 de NVIDIA et d'OpenVLA. La représentation en points 3D fait écho à des travaux antérieurs comme Tracking Any Point (TAP) ou 3D-DiffuserActor, mais PointAction les intègre dans la boucle de génération plutôt qu'en post-traitement. Le papier reste à l'étape pré-print arXiv, sans validation indépendante ni déploiement industriel annoncé ; les prochaines étapes probables incluent une extension à des manipulateurs à plus haut degré de liberté et à des configurations mobiles, ainsi qu'une intégration avec des pipelines VLA existants.

RechercheOpinion
1 source
Référentiel d'évaluation en conditions réelles de la préhension en vrac pour le tri robotisé des déchets alimentaires
3arXiv cs.RO 

Référentiel d'évaluation en conditions réelles de la préhension en vrac pour le tri robotisé des déchets alimentaires

Des chercheurs ont publié GRAB (Grasping-in-Clutter Benchmark), un protocole d'évaluation en conditions réelles destiné au tri robotisé des déchets alimentaires. Le benchmark mobilise 1 750 tentatives de saisie réparties sur quatre niveaux de désordre aléatoire, en comparant trois modalités de préhenseurs industriels sur des objets déformables représentatifs des contaminants inorganiques présents dans les flux de déchets alimentaires. L'évaluation repose sur une estimation de pose 6D pour chaque tentative de saisie, et introduit des métriques dites de "graspabilité" qui caractérisent explicitement les conditions pré-saisie, au lieu de se limiter au classique taux de succès binaire. Le résultat central contredit une hypothèse fréquente dans la littérature : ce ne sont pas les limites de perception ou de contrôle qui dominent les échecs de saisie en environnement encombré, mais les contraintes d'interaction physique avec les objets. La qualité de l'objet lui-même, son état de déformation, sa position relative dans le tas, s'avèrent être le facteur prédominant sur toutes les modalités de préhenseur testées. Ce constat a des implications directes pour les intégrateurs industriels : optimiser la vision ou le planificateur de trajectoire apporte des gains marginaux si la chaîne amont ne garantit pas une qualité d'objet minimale en entrée de cellule. GRAB fournit ainsi une base méthodologique plus rigoureuse pour concevoir des systèmes de préhension adaptatifs destinés à des flux réels, variables et non structurés. Le tri des déchets alimentaires est un domaine resté largement en dehors des benchmarks robotiques standards, dominés par des objets rigides et des environnements contrôlés. Les approches existantes souffraient d'une dépendance excessive aux datasets simulés et d'une absence d'analyse systématique des modes d'échec. GRAB comble ce vide en s'appuyant sur des datasets d'objets déformables réels, un angle peu couvert par les travaux concurrents centrés sur la manipulation manufacturière. Côté acteurs, des entreprises comme Greyparrot (tri de déchets par vision) ou Zen Robotics (saisie en flux de déchets) opèrent sur des problématiques proches. Les prochaines étapes probables incluent l'intégration du benchmark dans des pipelines d'apprentissage par imitation ou de VLA (Vision-Language-Action models) pour évaluer leur robustesse sur des flux de déchets réels, un cas d'usage encore peu documenté à l'échelle industrielle.

UEZen Robotics (Finlande) travaille sur des problématiques directement couvertes par ce benchmark ; les intégrateurs européens de cellules de tri pourraient s'appuyer sur GRAB pour réorienter leurs budgets R&D vers la qualité amont plutôt que vers la vision ou la planification.

RecherchePaper
1 source
Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation
4arXiv cs.RO 

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Une équipe de recherche a publié le 9 mai 2026 un nouveau benchmark de simulation dédié à l'évaluation des politiques de manipulation robotique, sous le nom VISER (Visually Realistic Simulation for Robot Manipulation Evaluation). Le système repose sur une bibliothèque de plus de 1 000 assets 3D équipés de matériaux PBR (Physically-Based Rendering), intégrés dans des scènes générées automatiquement. Pour constituer cette base à grande échelle, les auteurs ont développé un pipeline automatisé combinant des modèles de langage multimodaux (MLLMs) pour la segmentation des pièces et la récupération des matériaux. Les tâches d'évaluation couvrent la saisie, le placement et des séquences longue durée (long-horizon tasks), permettant de tester des modèles Vision-Language-Action (VLA) dans des conditions reproductibles. Résultat clé : un coefficient de corrélation de Pearson moyen de 0,92 entre les performances en simulation et les performances réelles, mesuré sur plusieurs politiques distinctes. Ce score de 0,92 est le chiffre le plus structurant de la publication. La grande majorité des benchmarks existants génèrent un écart domaine (domain gap) significatif parce qu'ils négligent deux variables décisives : l'éclairage et les propriétés de matériaux. VISER montre expérimentalement que ces deux facteurs pèsent directement sur le raisonnement géométrique et l'ancrage spatial des modèles VLA, deux capacités centrales pour toute manipulation physique fiable. Pour les équipes qui développent des politiques robotiques, un proxy simulation fiable à 0,92 réduit massivement le coût et le temps des cycles d'itération réel, notamment pour des architectures VLA dont le fine-tuning reste coûteux en déploiement physique. Le problème du sim-to-real gap structure la robotique de manipulation depuis plus d'une décennie. Les benchmarks de référence comme RLBench ou MetaWorld sont largement utilisés mais construits sur des rendus bas fidélité qui limitent leur valeur prédictive pour les approches VLA modernes, dont pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. VISER positionne explicitement ses actifs PBR comme une réponse à cette insuffisance, en automatisant la génération via MLLMs pour éviter le goulot d'artisanat manuel qui freinait les benchmarks précédents. La prochaine étape naturelle sera de mesurer si cette corrélation de 0,92 tient sur des robots à morphologies variées et des scénarios de manipulation industrielle hors laboratoire.

RechercheOpinion
1 source