
FARM : retrouver n'importe quel objet grâce à la mémoire spatiale relationnelle
Des chercheurs ont publié FARM (Find Anything using Relational Spatial Memory), un système de mémoire spatiale pour robots capable de localiser des objets en temps réel via des requêtes en langage naturel exprimant des relations contextuelles, du type "la grande lampe sous la cible de fléchettes et à gauche de l'affiche". Le système construit une carte sémantique compacte à 5-10 Hz intégrant géométrie, descripteurs visuels-linguistiques et indices de point de vue. Évalué sur 44 000 requêtes couvrant 67 scènes intérieures et extérieures de 15 à 15 000 m², FARM améliore le Recall@5 de 164 % et le Recall@10 de 224 % par rapport aux méthodes existantes. Une étape de réordonnancement par VLM améliore encore l'Accuracy@1 de 35 %. Le système tourne en temps réel et a été validé en boucle fermée sur un robot quadrupède fonctionnant uniquement avec capteurs et calcul embarqués.
L'enjeu dépasse la simple localisation d'objet: dans des entrepôts, habitations ou espaces industriels, un robot doit résoudre des ambiguïtés entre objets similaires via des relations contextuelles, ce que les mémoires de niveau objet seul ne permettent pas. FARM structure explicitement les contraintes spatiales par des prédicats relationnels plutôt qu'en les laissant implicites dans un raisonnement end-to-end sur des historiques de frames. Pour les intégrateurs et décideurs B2B, c'est une brique critique: les robots de service, de picking ou de logistique doivent être pilotables par instruction verbale sans expertise technique. Les gains à +224 % sur Recall@10 sont significatifs, bien que les conditions précises de benchmark, scènes contrôlées ou environnements non-stagés, ne soient pas détaillées dans la publication.
Ce travail se situe à l'intersection de la cartographie sémantique 3D (systèmes type ConceptFusion ou OpenScene), des graphes de scène neuronaux et des VLM multimodaux. La combinaison mémoire open-vocabulary et prédicats relationnels explicites distingue FARM des approches end-to-end qui saturent dans les scènes denses. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Unitree et des laboratoires tels que Stanford ou CMU explorent des approches similaires pour la navigation sémantique. En Europe, des projets de robots de service ou d'assistance, dont des initiatives françaises liées à l'ANR ou des spin-offs comme Enchanted Tools travaillant sur l'interaction homme-robot, pourraient directement intégrer ce type de composant. La prochaine étape décisive sera de valider FARM dans des environnements dynamiques où les objets se déplacent et les relations spatiales évoluent en continu.
Des projets européens de robotique de service et des acteurs comme Enchanted Tools pourraient intégrer FARM comme brique de perception sémantique, mais aucun déploiement direct en France/UE n'est confirmé à ce stade.
Ce qui m'accroche, c'est pas les chiffres, c'est que le robot comprend "la lampe sous la cible de fléchettes". C'est exactement ce qui plantait tous les systèmes de mémoire objet précédents, ils encodaient les objets mais pas les relations spatiales entre eux, et c'est pourtant ce qu'on exprime naturellement quand on parle à un robot. Les +224% sur les benchmarks sont solides, bon, reste à voir si ça tient dans une vraie usine où les objets bougent en permanence.
Dans nos dossiers




