Apprentissage du pliage : solution primée au LeHome Challenge 2026 (1re en ligne, 2e hors ligne)
À l'occasion du LeHome Challenge 2026, compétition organisée dans le cadre de la conférence ICRA 2026 et dédiée au pliage bimanuel de vêtements, une solution individuelle a terminé première sur 62 équipes lors de la phase en ligne (simulation) et deuxième lors de la finale en conditions réelles. L'approche repose sur une politique vision-langage-action (VLA) améliorée par une boucle d'apprentissage par renforcement. L'originalité principale : le même réseau de neurones sert à la fois de politique d'action et de fonction de valeur, prédisant simultanément les actions à effectuer, la probabilité de succès, la progression de la tâche et quelques quantités futures pertinentes. Ces prédictions alimentent directement l'estimation de l'avantage (advantage estimation), la détection de défaillances en temps réel et la sélection de candidats lors de l'inférence.
La manipulation de textiles déformables reste l'un des problèmes les plus difficiles de la robotique de manipulation, et ce résultat illustre qu'une politique VLA peut être affinée efficacement par renforcement pour des tâches structurées complexes. L'architecture unifiée, dans laquelle une seule tête prédit à la fois l'action et la valeur, réduit le coût d'inférence tout en fournissant un signal intrinsèque pour la détection de pannes, sans nécessiter de module de supervision séparé. L'écart entre la première place en simulation et la deuxième place réelle confirme que le sim-to-real demeure un défi opérationnel non résolu, même avec un pipeline d'alignement caméra dédié et de l'augmentation de données intensive.
Le pipeline technique combine plusieurs briques existantes : AWR (Advantage Weighted Regression) et RECAP assemblés pour un VLA à flow-matching, un entraînement distribué asynchrone via HuggingFace Hub, une optimisation des hyperparamètres à l'inférence par Thompson sampling, et une collecte de données humain-dans-la-boucle (HIL) de type DAgger pour le transfert sim-to-real. Le travail se positionne explicitement comme une recette d'ingénierie réutilisable plutôt que comme une avancée algorithmique fondamentale, une distinction rare et honnête dans les publications de compétition. Dans un secteur où les systèmes VLA comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) s'imposent pour la manipulation dextre, cette contribution apporte un exemple concret de fine-tuning par renforcement sur des objets déformables, une classe de problèmes encore peu couverte par les benchmarks standards de manipulation.




