
RoboWits : les défis inattendus de la résolution créative de problèmes en robotique
Des chercheurs de l'Université du Massachusetts Amherst viennent de publier RoboWits, un nouveau benchmark robotique bimanuel centré sur la résolution créative de problèmes en conditions dégradées ou inattendues. Le jeu de données comprend 30 tâches de base et 208 tâches générées par mutation, réparties sur trois axes de difficulté progressive : raisonnement géométrique, propriétés des matériaux, et assemblage d'objets. Pour construire ces scénarios à grande échelle sans supervision manuelle, l'équipe a développé un pipeline de génération automatique structuré comme un framework multi-agents coopératifs, avec des agents distincts chargés de la génération de tâches initiales, de la vérification, de la génération de métriques, de la mise en scène et de la mutation. Les politiques robotiques classiques, les VLA (Vision-Language-Action models) pré-entraînés et des planificateurs oracle à état complet ont été mis en compétition sur ce corpus.
Les résultats pointent un écart de performance préoccupant pour l'industrie : les VLA pré-entraînés obtiennent des résultats préliminaires acceptables sur les tâches de base après fine-tuning mono-tâche, mais s'effondrent dès que les conditions changent via mutation. Cela confirme empiriquement une fragilité que beaucoup soupçonnaient sans pouvoir la quantifier : ces modèles généralisent mal à des configurations légèrement différentes de celles vues à l'entraînement, qu'il s'agisse d'obstacles inattendus, de contraintes géométriques modifiées, ou d'environnements conçus pour tromper. Pour un COO industriel ou un intégrateur, c'est un signal clair : les VLA actuels ne sont pas prêts pour des déploiements en production où les conditions varient librement.
Le benchmark s'inscrit dans une critique croissante des évaluations robotiques dominantes, qui mesurent principalement l'exécution de skills isolés (manipulation standard, saisie d'objets) sans tester l'adaptation cognitive. Des benchmarks comme LIBERO ou RLBench restent centrés sur la répétabilité dans des environnements contrôlés. RoboWits tente de combler ce fossé en introduisant le concept de "unexpected challenge", proche des conditions réelles en logistique ou en manufacture. L'équipe UMass publie le code et le pipeline de génération, ce qui pourrait permettre à d'autres laboratoires, y compris européens, d'étendre le corpus. La prochaine étape attendue est l'intégration de modèles de raisonnement symbolique hybrides pour tester si l'ajout d'un planificateur explicite corrige la brittleness observée.
Le pipeline de génération étant publié en open-source, les laboratoires européens (CEA-List, INRIA) peuvent étendre le corpus RoboWits pour évaluer et comparer leurs propres modèles VLA sur des scénarios de manipulation en conditions dégradées.




