Aller au contenu principal
RecherchearXiv cs.RO2h

FlipItRight : retournement par lancer vers une pose cible stable sur des objets variés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

FlipItRight est un framework académique présenté sur arXiv (arXiv:2606.01713, juin 2026) pour la manipulation par lancer-retournement ciblé avec un bras robotique à haute liberté de mouvement (high-DoF manipulator). L'objectif est de projeter un objet en l'air afin qu'il atterrisse dans une pose planaire précise et prédéterminée. Le système décompose la tâche en deux niveaux : un planificateur objet génère des états de lâcher candidats compatibles avec la pose d'atterrissage souhaitée, tandis qu'un planificateur robot évalue la faisabilité d'exécution et construit une trajectoire de swing réalisable. Validé sur une plateforme réelle avec des objets de formes, tailles et masses variées, le système atteint un taux de succès de 90% sur 120 essais. Aucune donnée préalable ni modèle appris n'est nécessaire, ce qui permet un déploiement immédiat sur de nouveaux objets et cibles sans calibration environnementale.

Ce résultat est notable pour plusieurs raisons. La clé de l'approche est de traiter l'état de lâcher comme une représentation intermédiaire explicite, ce qui permet un filtrage raisonné des candidats, une sélection adaptative des configurations de pré-swing et de lâcher, et une conception structurée du mouvement en fin de swing. En maintenant des vitesses de l'effecteur terminal approximativement constantes durant la phase finale, le système gagne en robustesse face aux incertitudes sur le timing du lâcher, une difficulté classique en manipulation non-préhensile. Pour les intégrateurs, l'absence totale de données d'entraînement est un avantage opérationnel concret : pas de collecte, pas de rejeu, déploiement directement généralisable.

La manipulation non-préhensile (lancer, poussée, retournement sans saisie ferme) est un problème de recherche actif depuis les années 1990, mais reste difficile en conditions réelles à cause de la sensibilité aux paramètres dynamiques des objets et du sim-to-real gap. La tendance dominante s'oriente vers des politiques apprises par reinforcement learning ou imitation, notamment chez TRI (Toyota Research Institute), ETH Zurich et des équipes de CMU. FlipItRight prend le contre-pied en proposant une planification purement analytique, sans données, ce qui le positionne comme une alternative légère pour les environnements industriels où la collecte de données est coûteuse. Les études d'ablation confirment la contribution de chaque composant du framework. Les extensions naturelles concerneront les objets déformables, les poses cibles en 3D et l'intégration dans des pipelines pick-and-place pour réorienter des pièces sans préhenseur dédié.

Dans nos dossiers

À lire aussi

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table
1arXiv cs.RO 

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table

Publiée sur arXiv (2605.17815) en mai 2026, une étude propose d'enrichir les planificateurs de manipulation robotique avec des actions non-préhensiles dites "agrégantes", en particulier le basculement d'objets (topple). Au lieu de déplacer un à un les éléments d'une pile sur un plan de travail, le robot peut renverser tout ou partie de la pile d'un seul mouvement avant de saisir les objets dans l'ordre souhaité. Les chercheurs formalisent cet espace de planification hybride pick-and-place + topple via un gadget graphique directionnel original, réduisant le calcul du plan à une variante du problème des galets en mouvement (pebble motion problem) : chaque objet est traité comme un galet se déplaçant sur un graphe selon des contraintes de non-collision. Les benchmarks conduits en simulation physique sur NVIDIA IsaacSim montrent une réduction significative du temps d'exécution par rapport à une stratégie purement pick-and-place. L'enjeu industriel est concret pour la manipulation en entrepôt, le kitting ou le tri de bacs. Réorganiser une pile de n pièces nécessite classiquement O(n) opérations de saisie-dépose ; une action topple peut en remplacer plusieurs, réduisant le temps de cycle et la sollicitation mécanique des actionneurs. L'article pointe ainsi un angle mort fréquent en robotique de production : les planificateurs de tâches restent majoritairement construits autour de la saisie, alors que les actions non-préhensiles offrent des gains de débit substantiels dès lors qu'elles sont correctement abstraites. Limite notable : les gains sont mesurés en simulation seulement, et le passage sim-to-real pour des actions dynamiques comme le topple reste une question ouverte. Les auteurs s'inscrivent dans la continuité des recherches sur la manipulation non-préhensile, actives depuis les années 1990 mais rarement intégrées au niveau de la planification symbolique de tâches. La formalisation est volontairement généraliste : une action de type "scoop" (raclage) peut être modélisée par la même abstraction graphique, ouvrant la voie à un cadre unifié pour plusieurs familles d'actions agrégantes. Face aux approches concurrentes basées sur l'apprentissage par renforcement ou les planificateurs géométriques, cette méthode symbolique-graphique offre lisibilité et garanties de complétude sur les instances modélisées. Aucun déploiement n'est annoncé ; les auteurs qualifient eux-mêmes leurs résultats de "preliminary indication", laissant la validation en environnement physique réel pour de futurs travaux.

RecherchePaper
1 source
Pré-entraînement universel sur les poses pour des politiques VLA généralisables
2arXiv cs.RO 

Pré-entraînement universel sur les poses pour des politiques VLA généralisables

Des chercheurs ont publié Pose-VLA (arXiv:2602.19710, 2026), un nouveau paradigme d'entraînement pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'approche sépare l'entraînement en deux phases distinctes: une phase de pré-entraînement qui extrait des prior spatiaux 3D universels dans un espace centré sur la caméra, puis une phase de post-entraînement pour l'alignement propre à l'embodiment du robot cible. Le mécanisme central repose sur l'introduction de "discrete pose tokens", une représentation intermédiaire universelle qui combine des données de grounding spatial issues de datasets 3D hétérogènes avec des trajectoires géométriques issues de démonstrations robotiques. Sur le benchmark RoboTwin 2.0, Pose-VLA revendique l'état de l'art avec 79,5% de taux de succès moyen, et atteint 96,0% sur LIBERO. En conditions réelles, le modèle généralise à des objets variés avec seulement 100 démonstrations par tâche. Le problème structurel que Pose-VLA cherche à résoudre est bien documenté dans la littérature: les backbones VLM classiques, optimisés pour le Visual Question Answering, excellent à identifier sémantiquement des objets mais restent relativement insensibles aux variations 3D fines qui dictent des stratégies de préhension différentes. Ce phénomène, qualifié de "feature collapse" par les auteurs, dégrade l'efficacité d'entraînement et limite la généralisation inter-tâches. En découplant explicitement la perception spatiale 3D de la supervision d'action, l'approche vise à réduire significativement le nombre de démonstrations nécessaires pour adapter une politique à un nouveau contexte, ce qui représente aujourd'hui l'un des principaux freins à l'industrialisation des VLA. À noter que les tâches réelles testées ne sont pas détaillées dans l'article, et les performances sur benchmarks simulés ne préjugent pas du comportement en environnement industriel non contrôlé. Les VLA sont au coeur d'une compétition de recherche intense depuis RT-2 de Google DeepMind en 2023, et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA ont chacun tenté d'adresser le sim-to-real gap et la dépendance aux larges corpus de démonstrations. RoboTwin 2.0 et LIBERO sont devenus des références de facto pour comparer ces politiques en manipulation. Pose-VLA s'inscrit dans une tendance plus large de découplage des phases d'entraînement, parallèlement à des approches comme UniSim ou RoboVLMs. Cette publication reste au stade académique: aucun déploiement industriel, partenariat commercial ni timeline de mise en production ne sont mentionnés, et les expériences réelles se limitent à un contexte laboratoire avec des objets courants.

RechercheOpinion
1 source
ObjView-Bench : repenser la difficulté et le déploiement pour la planification de vues centrées sur les objets
3arXiv cs.RO 

ObjView-Bench : repenser la difficulté et le déploiement pour la planification de vues centrées sur les objets

Des chercheurs ont publié ObjView-Bench (arXiv:2605.10707), un cadre d'évaluation dédié à la planification de vues centrée sur les objets, sous-tâche fondamentale de la reconstruction 3D active en robotique. L'article diagnostique un problème structurel dans les benchmarks existants : ils confondent la complexité intrinsèque des objets, la difficulté de planification, les hypothèses de budget de captures, et les contraintes de portée physique du robot. Pour y remédier, ObjView-Bench sépare explicitement trois quantités distinctes : l'auto-occlusion omnidirectionnelle, attribut propre à l'objet ; la difficulté de saturation d'observation ; et la difficulté de planification dépendante du protocole, formalisée comme un problème de couverture d'ensemble (set-cover). Le framework intègre des protocoles d'évaluation orientés déploiement, testés sur des planificateurs classiques, appris et hybrides. Cette séparation conceptuelle a des conséquences directes sur la validité des conclusions issues des évaluations courantes. L'article démontre que les classements entre méthodes varient substantiellement selon le régime de budget de vues disponible et les contraintes de portée atteignable, deux paramètres quasi-systématiquement ignorés dans les settings idéalisés. En pratique, une approche jugée supérieure en laboratoire peut se révéler moins robuste dès lors que le bras ou la tête robotique ne peut pas atteindre toutes les positions angulaires théoriques. L'étude montre également qu'un échantillonnage tenant compte de la difficulté de planification améliore les performances des planificateurs appris, piste concrète pour optimiser les systèmes neuronaux de reconstruction active. La planification de vues pour la reconstruction 3D est un problème ouvert depuis plusieurs décennies, des approches classiques basées sur le gain d'information (next-best-view) jusqu'aux planificateurs entraînés par apprentissage par renforcement ou imitation. L'absence de benchmarks unifiés et réalistes complique la comparaison équitable entre ces familles de méthodes, un problème que partagent d'autres domaines de la robotique, comme en témoignent les efforts de standardisation autour de BOP ou RLBench. ObjView-Bench s'inscrit dans ce mouvement de fond vers des évaluations en conditions de déploiement. Cet article est une contribution de recherche fondamentale sans annonce industrielle associée ; les extensions envisagées portent sur les objets déformables et les scènes multi-objets.

RecherchePaper
1 source
Planification de la prochaine vue optimale avec prise en compte de l'incertitude de mouvement pour la reconstruction d'objets mobiles
4arXiv cs.RO 

Planification de la prochaine vue optimale avec prise en compte de l'incertitude de mouvement pour la reconstruction d'objets mobiles

Des chercheurs présentent dans un preprint arXiv (2605.17593) un cadre de planification baptisé "motion-uncertainty-aware next-best-view" (NBV), destiné à reconstruire en 3D des objets rigides en mouvement planaire avec un robot mobile équipé d'un capteur de profondeur. Le problème central est le délai entre la sélection d'un viewpoint et son exécution : au moment où le robot atteint la position choisie, l'objet a déjà bougé, rendant caduc tout plan basé sur une pose prédite unique. Pour y répondre, chaque viewpoint candidat est évalué non pas sur une position fixe, mais sur l'ensemble des états futurs plausibles de l'objet, modélisés par un lisseur à processus gaussien à fenêtre glissante (fixed-lag Gaussian Process smoother) alimenté par des mesures de position bruitées. Les expériences, menées en simulation et en conditions réelles, montrent une complétude de reconstruction supérieure à celle des planificateurs NBV non-prédictifs et des méthodes de tracking-seul. Ce résultat comble un angle mort documenté de la robotique perceptive : les planificateurs NBV classiques optimisent la couverture de surface en supposant des objets statiques, tandis que les méthodes de perception active orientées mouvement favorisent le suivi au détriment de la qualité de reconstruction. La combinaison des deux dans un seul cadre probabiliste est directement applicable à l'inspection automatisée de pièces sur convoyeur, au contrôle qualité en ligne ou à la génération de jumeaux numériques en environnement dynamique. Traiter le futur comme une distribution d'états plutôt qu'une estimation ponctuelle améliore la robustesse aux perturbations capteurs et aux variations de dynamique que les approches déterministes ne gèrent pas. La planification NBV est un problème actif depuis les années 1990 en robotique perceptive, mais son extension aux objets en mouvement reste peu traitée dans la littérature. L'usage de processus gaussiens pour la prédiction de trajectoire est éprouvé dans d'autres domaines, rarement couplé jusqu'ici à des scores de couverture de surface en contexte NBV. Il s'agit d'un preprint sans évaluation par les pairs à ce stade, sans partenaire industriel ni déploiement annoncé. Les métriques de complétude avancées restent à confirmer sur des dynamiques plus complexes : les expériences actuelles se limitent au mouvement planaire et aux objets rigides. Les extensions naturelles incluent le mouvement 3D non-planaire, les objets déformables et les configurations multi-cibles. Aucun acteur français ou européen n'est impliqué dans cette publication.

RecherchePaper
1 source