
UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table
Une équipe de chercheurs a publié UNCOM (arXiv:2410.06355v3), un framework hybride conçu pour interpréter des commandes humaines naturelles dans des scénarios de manipulation sur table. Le système fusionne trois modalités d'entrée, la parole, les gestes et le contexte visuel de la scène, pour en extraire des instructions structurées et exécutables par un robot. UNCOM repose sur des modèles de deep learning pour la reconnaissance vocale, la compréhension du langage naturel, la détection de gestes et la segmentation d'objets. Son atout central est le fonctionnement en zero-shot : aucun modèle d'objet prédéfini ni données d'entraînement spécifiques à une tâche ne sont requis. Le système a été évalué sur le robot TIAGo++ (PAL Robotics) et atteint un taux de succès de 82,39% sur un jeu de données réel de scénarios d'interaction humain-robot. Le code, le dataset et les scénarios d'évaluation sont rendus publics.
L'enjeu principal est la généralisation sans réentraînement. La plupart des systèmes de compréhension de commandes actuels exigent soit un catalogue d'objets figé, soit une phase de fine-tuning pour chaque nouvel environnement, ce qui freine le déploiement domestique et les environnements non contrôlés. UNCOM contourne cet obstacle grâce à son architecture modulaire qui parse explicitement les commandes en triplets objet-action-cible, une représentation directement intégrable dans des frameworks robotiques symboliques classiques. La robustesse annoncée face au bruit, à l'ambiguïté et à la diversité des locuteurs est ce qui distingue ce résultat d'une simple démo en conditions idéales, bien que le taux de 82,39% mériterait d'être contextualisé par la complexité des scènes testées.
Le TIAGo++ est une plateforme de recherche développée par PAL Robotics (Barcelone), largement utilisée dans les labos européens pour l'interaction service-robot. L'approche multimodale de UNCOM s'inscrit dans un courant de recherche actif qui cherche à dépasser les VLA (Vision-Language-Action models) classiques nécessitant de grandes quantités de données supervisées, en s'appuyant plutôt sur des modèles fondationnels génériques. Elle se positionne en alternative légère à des systèmes comme SayCan (Google) ou aux approches OpenVLA, sans requérir d'infrastructure d'entraînement lourde. La mise à disposition publique du code et du dataset est un signal positif pour la reproductibilité, et ouvre la voie à des extensions vers d'autres plateformes ou d'autres types d'environnements structurés, notamment les applications de service en milieu hospitalier ou d'assistance à domicile.
PAL Robotics (Barcelone) est l'industriel européen dont la plateforme TIAGo++ sert de banc d'essai, et le code/dataset publics permettent aux labos européens (CEA-List, INRIA, universités) de reproduire et d'étendre UNCOM sans infrastructure lourde.
82% en zero-shot sur des scènes réelles, c'est le genre de résultat qui mérite qu'on s'arrête. Le mur dans les robots de service, c'était le fine-tuning obligatoire pour chaque nouvel environnement, UNCOM l'esquive en parsant les commandes en triplets objet-action-cible sans catalogue figé. Bon, reste à voir ce que ça donne dans une vraie cuisine avec ses 50 objets non étiquetés et une mamie qui parle en patois.
Dans nos dossiers




