DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables
Des chercheurs ont publié DeMaVLA, un modèle fondation de type Vision-Langage-Action (VLA) conçu pour la manipulation d'objets déformables, en particulier le pliage de vêtements. Annoncé en preprint arXiv (2605.31286, mai 2026), DeMaVLA couple un backbone VLM à un module appelé "action expert" qui génère des trajectoires continues par flow matching. Pour réduire les coûts d'entraînement et d'inférence, cet action expert est construit en élaguant une couche transformer sur deux du backbone, tout en préservant l'alignement entre les deux modules. Le modèle est d'abord pré-entraîné sur environ 5 000 heures de démonstrations bimanuals en conditions réelles, puis affiné via un pipeline DAgger (Data Aggregation) avec supervision humaine : des trajectoires correctives sont collectées à partir des échecs du robot sur plusieurs tâches de pliage, puis réinjectées en entraînement. Les résultats sont compétitifs sur le benchmark RoboTwin et solides sur un benchmark maison de pliage domestique.
La plupart des systèmes VLA actuels entraînent des politiques séparées par catégorie d'objet (un réseau pour les t-shirts, un autre pour les pantalons), ce qui limite la généralisation et alourdit la maintenance. DeMaVLA propose une politique unifiée capable de traiter des vêtements de géométries, matières et états initiaux variés sans réentraînement par catégorie, ce qui est directement pertinent pour les intégrateurs en robotique domestique et logistique. Le recours au DAgger avec boucle humaine est aussi un signal industriel : les corrections issues des échecs du robot, structurées et réinjectées, améliorent concrètement la robustesse au-delà des seules démonstrations expertes. Cela valide l'hypothèse que les données correctives à grande échelle sont un levier clé pour réduire le sim-to-real gap sur des tâches à haute variabilité.
La manipulation d'objets déformables reste l'un des problèmes ouverts les plus difficiles en robotique physique : contrairement aux objets rigides, un vêtement n'a pas d'état canonique stable, ce qui complique radicalement la planification et la perception. Plusieurs équipes travaillent sur ce terrain : Physical Intelligence avec Pi-0 (manipulation généraliste bimanuels), NVIDIA avec GR00T N2, et divers laboratoires académiques (Columbia, CMU) sur la manipulation textile. DeMaVLA se positionne sur le créneau des fondations multi-tâches déformables, en combinant pré-entraînement à grande échelle et fine-tuning correctif. Ce travail reste un preprint non encore évalué par les pairs, et les benchmarks maisons appellent à une validation indépendante. Les suites naturelles sont l'extension à d'autres objets déformables (câbles, sacs souples) et l'évaluation sur des plateformes robotiques commerciales en environnement non contrôlé.
Dans nos dossiers




