RecherchearXiv cs.RO 2 juin 2026

FlipItRight : retournement par lancer vers une pose cible stable sur des objets variés

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

FlipItRight est un framework académique présenté sur arXiv (arXiv:2606.01713, juin 2026) pour la manipulation par lancer-retournement ciblé avec un bras robotique à haute liberté de mouvement (high-DoF manipulator). L'objectif est de projeter un objet en l'air afin qu'il atterrisse dans une pose planaire précise et prédéterminée. Le système décompose la tâche en deux niveaux : un planificateur objet génère des états de lâcher candidats compatibles avec la pose d'atterrissage souhaitée, tandis qu'un planificateur robot évalue la faisabilité d'exécution et construit une trajectoire de swing réalisable. Validé sur une plateforme réelle avec des objets de formes, tailles et masses variées, le système atteint un taux de succès de 90% sur 120 essais. Aucune donnée préalable ni modèle appris n'est nécessaire, ce qui permet un déploiement immédiat sur de nouveaux objets et cibles sans calibration environnementale.

Ce résultat est notable pour plusieurs raisons. La clé de l'approche est de traiter l'état de lâcher comme une représentation intermédiaire explicite, ce qui permet un filtrage raisonné des candidats, une sélection adaptative des configurations de pré-swing et de lâcher, et une conception structurée du mouvement en fin de swing. En maintenant des vitesses de l'effecteur terminal approximativement constantes durant la phase finale, le système gagne en robustesse face aux incertitudes sur le timing du lâcher, une difficulté classique en manipulation non-préhensile. Pour les intégrateurs, l'absence totale de données d'entraînement est un avantage opérationnel concret : pas de collecte, pas de rejeu, déploiement directement généralisable.

La manipulation non-préhensile (lancer, poussée, retournement sans saisie ferme) est un problème de recherche actif depuis les années 1990, mais reste difficile en conditions réelles à cause de la sensibilité aux paramètres dynamiques des objets et du sim-to-real gap. La tendance dominante s'oriente vers des politiques apprises par reinforcement learning ou imitation, notamment chez TRI (Toyota Research Institute), ETH Zurich et des équipes de CMU. FlipItRight prend le contre-pied en proposant une planification purement analytique, sans données, ce qui le positionne comme une alternative légère pour les environnements industriels où la collecte de données est coûteuse. Les études d'ablation confirment la contribution de chaque composant du framework. Les extensions naturelles concerneront les objets déformables, les poses cibles en 3D et l'intégration dans des pipelines pick-and-place pour réorienter des pièces sans préhenseur dédié.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Vers un cadre modulaire de bin-picking pour gérer l'incertitude de pose des objets

Une équipe de chercheurs propose un framework modulaire pour le bin-picking robotique, la tâche qui consiste à saisir des objets en vrac dans un bac, capable de gérer simultanément deux sources d'erreur jusqu'ici traitées séparément: l'incertitude sur l'estimation de la pose de l'objet et les erreurs de préhension elles-mêmes. Le système repose sur une estimation de distribution de pose plutôt qu'une pose unique, utile quand l'observation est ambiguë et qu'aucune orientation correcte ne peut être déterminée avec certitude. Un module de second point de vue calcule une distribution complémentaire, fusionnée avec la première pour réduire l'incertitude globale, complété par deux modules indépendants de compensation des erreurs de préhension. L'architecture modulaire permet de combiner ces briques ou de les utiliser isolément selon la configuration physique du poste. Les tests, menés en conditions réelles sur trois objets différents et sans erreurs induites artificiellement, montrent que chaque module améliore l'efficacité du système. Précision utile: le framework est pour l'instant limité aux rotations dans le plan (SO(2)) et n'aborde pas encore les six degrés de liberté complets (SE(3)). Pour l'industrie du bin-picking, la promesse n'est pas un gain de précision brut mais une meilleure gestion du cas le plus fréquent en usine: l'ambiguïté de pose sur des objets partiellement occlus ou symétriques, là où la plupart des pipelines de vision se contentent de retourner une pose unique, souvent fausse en silence. En raisonnant sur des distributions de probabilité plutôt que sur des estimations ponctuelles, l'approche s'attaque à un vrai point de friction pour les intégrateurs, qui doivent aujourd'hui compenser ces erreurs par des capteurs de force, des reprises de saisie ou un sur-dimensionnement des pinces. La preuve de concept reste toutefois modeste, trois objets, un environnement contrôlé, et l'extension annoncée à SE(3) conditionne largement l'intérêt industriel réel du framework. Le travail s'inscrit dans une littérature déjà fournie sur la robustesse du bin-picking, où les approches existantes traitent généralement soit l'incertitude de pose, soit les erreurs de préhension, rarement les deux ensemble selon les auteurs. La contribution revendiquée est précisément cette unification dans une architecture à modules interchangeables, pensée pour absorber de futurs blocs sans réécriture complète. Les auteurs évoquent des extensions possibles vers la 3D complète (SE(3)) et l'ajout d'autres modules correctifs, sans calendrier ni partenaire industriel mentionné à ce stade: il s'agit pour l'instant d'un résultat de recherche publié sur arXiv, pas d'un système déployé ou commercialisé.

RecherchePaper

1 source

2arXiv cs.RO

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table

Publiée sur arXiv (2605.17815) en mai 2026, une étude propose d'enrichir les planificateurs de manipulation robotique avec des actions non-préhensiles dites "agrégantes", en particulier le basculement d'objets (topple). Au lieu de déplacer un à un les éléments d'une pile sur un plan de travail, le robot peut renverser tout ou partie de la pile d'un seul mouvement avant de saisir les objets dans l'ordre souhaité. Les chercheurs formalisent cet espace de planification hybride pick-and-place + topple via un gadget graphique directionnel original, réduisant le calcul du plan à une variante du problème des galets en mouvement (pebble motion problem) : chaque objet est traité comme un galet se déplaçant sur un graphe selon des contraintes de non-collision. Les benchmarks conduits en simulation physique sur NVIDIA IsaacSim montrent une réduction significative du temps d'exécution par rapport à une stratégie purement pick-and-place. L'enjeu industriel est concret pour la manipulation en entrepôt, le kitting ou le tri de bacs. Réorganiser une pile de n pièces nécessite classiquement O(n) opérations de saisie-dépose ; une action topple peut en remplacer plusieurs, réduisant le temps de cycle et la sollicitation mécanique des actionneurs. L'article pointe ainsi un angle mort fréquent en robotique de production : les planificateurs de tâches restent majoritairement construits autour de la saisie, alors que les actions non-préhensiles offrent des gains de débit substantiels dès lors qu'elles sont correctement abstraites. Limite notable : les gains sont mesurés en simulation seulement, et le passage sim-to-real pour des actions dynamiques comme le topple reste une question ouverte. Les auteurs s'inscrivent dans la continuité des recherches sur la manipulation non-préhensile, actives depuis les années 1990 mais rarement intégrées au niveau de la planification symbolique de tâches. La formalisation est volontairement généraliste : une action de type "scoop" (raclage) peut être modélisée par la même abstraction graphique, ouvrant la voie à un cadre unifié pour plusieurs familles d'actions agrégantes. Face aux approches concurrentes basées sur l'apprentissage par renforcement ou les planificateurs géométriques, cette méthode symbolique-graphique offre lisibilité et garanties de complétude sur les instances modélisées. Aucun déploiement n'est annoncé ; les auteurs qualifient eux-mêmes leurs résultats de "preliminary indication", laissant la validation en environnement physique réel pour de futurs travaux.

RecherchePaper

1 source

3arXiv cs.RO

Robo-ValueRL : une estimation fiable de la valeur pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs publient Robo-ValueRL, un framework d'apprentissage par renforcement offline-to-online pour la manipulation robotique, décrit dans un article arXiv (2607.09866v1) diffusé cette semaine. Le système entraîne un estimateur de valeur conditionné par l'historique des actions, dont la fiabilité est mesurée via deux métriques, la progression globale et la préférence locale. Ces estimations de valeur alimentent ensuite deux étapes : un pré-entraînement de politique par cohérence conditionnée à la qualité des données, puis un module d'adaptation résiduelle appliqué lors des déploiements en ligne. Les expériences s'appuient sur un volume conséquent, 240 heures de démonstrations hors ligne et plus de 3 000 trajectoires de rollout en ligne. Sur deux tâches de précision, l'insertion de puces électroniques au millimètre près et le désassemblage générique de blocs, le système atteint respectivement 86% et 84% de taux de réussite. L'apport principal ne se situe pas dans un nouveau record de performance mais dans la démonstration d'un lien direct entre la fiabilité de la fonction de valeur et la qualité de la politique finale. Concrètement, un estimateur de valeur fiable permet de prioriser les données de meilleure qualité parmi un ensemble hétérogène de démonstrations, ce qui bat le clonage comportemental classique, indifférent à la qualité des données, et stabilise la phase d'amélioration en ligne. Pour les équipes qui construisent des pipelines de RL robotique à partir de données de téléopération ou de simulation de qualité inégale, ce résultat justifie d'investir dans le diagnostic de la fonction de valeur plutôt que de simplement augmenter le volume de données ou la taille des modèles de politique. Le travail s'inscrit dans la tendance actuelle du secteur à combiner pré-entraînement hors ligne sur de larges jeux de démonstrations et affinage en ligne par rollouts réels, une approche jugée prometteuse pour la manipulation robotique généralisable mais dont la complexité technique rend la reproduction et le diagnostic difficiles, un point que les auteurs soulignent explicitement comme motivation de leur étude. Robo-ValueRL se positionne comme un banc d'essai unifié plutôt qu'un produit fini, destiné à isoler l'effet de la fiabilité de l'estimation de valeur des autres composants du pipeline. L'article ne précise pas de suite industrielle ni de partenaire de déploiement identifié à ce stade, le travail restant à un niveau de recherche académique.

RecherchePaper

1 source

4arXiv cs.RO

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper

1 source