
Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies
Des chercheurs présentent eSEC-LAM, un cadre neuro-symbolique conçu pour permettre aux robots opérant dans des environnements humains de comprendre les manipulations d'objets en temps réel. Publié sur arXiv (2604.21053), ce travail s'appuie sur les enriched Semantic Event Chains (eSECs), une représentation symbolique relationnelle qui décrit comment les relations spatiales entre objets évoluent au fil d'une séquence de manipulation. eSEC-LAM augmente ces chaînes classiques avec cinq couches d'information supplémentaires : des prédicats pondérés par un score de confiance, des rôles fonctionnels d'objets (outil, patient, récipient), des priors d'affordance, une abstraction en primitives de mouvement, et des indicateurs de saillance pour l'explicabilité. Le système est évalué sur trois benchmarks vidéo reconnus : EPIC-KITCHENS-100, EPIC-KITCHENS VISOR, et Assembly101, couvrant la reconnaissance d'actions, la prédiction de la prochaine primitive, la robustesse au bruit perceptuel et la cohérence des explications.
L'intérêt industriel réside dans la prédiction de la prochaine étape de manipulation, un verrou critique pour les robots collaboratifs et les systèmes d'assistance à l'assemblage. Les résultats montrent qu'eSEC-LAM améliore substantiellement cette capacité par rapport aux baselines symboliques classiques et aux modèles vidéo bout-en-bout, tout en restant plus robuste lorsque la perception est dégradée, un scénario fréquent en usine ou à domicile. L'architecture hybride évite la boîte noire des approches purement neuronales : chaque décision est ancrée dans des preuves relationnelles explicites, ce qui facilite l'audit et la certification, deux exigences croissantes pour les intégrateurs industriels soumis aux normes de sécurité fonctionnelle (ISO 10218, EN 13849). Ce n'est pas un modèle VLA qui apprend tout end-to-end depuis des vidéos brutes : c'est délibérément un système de raisonnement léger, conçu pour tourner sans GPU dédié au moment de l'inférence symbolique.
Les eSECs ont émergé dans les laboratoires de robotique cognitive au début des années 2010 comme alternative interprétable aux réseaux de neurones pour la compréhension de gestes, mais ils restaient jusqu'ici principalement descriptifs. eSEC-LAM est une tentative de les transformer en états internes actifs pour un raisonnement décisionnel. Dans le paysage concurrent, les approches VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent sur l'apprentissage massif généraliste ; eSEC-LAM propose une voie opposée, plus modulaire et explicable, potentiellement plus adaptée aux certifications réglementaires ou aux domaines à données rares. Les prochaines étapes logiques seraient une validation sur robot réel en boucle fermée et une intégration avec des couches de planification symbolique (PDDL, HTN), pour aller au-delà de la reconnaissance vers l'exécution autonome de tâches multi-étapes.
L'architecture explicable d'eSEC-LAM et sa légèreté à l'inférence facilitent la certification selon les normes européennes de sécurité fonctionnelle (ISO 10218, EN 13849), un avantage concret pour les intégrateurs industriels européens soumis à l'AI Act.




