Perception sémantique active

Planification robotique et gestion de situations par perception active

37

1arXiv cs.RO

Planification robotique et gestion de situations par perception active

Des chercheurs présentent dans un preprint arXiv (réf. 2604.26988, mai 2026) un cadre logiciel baptisé VAP-TAMP, pour Vision-language model-based Active Perception for Task And Motion Planning, conçu pour doter les robots d'une capacité de détection et de gestion des situations imprévues en cours d'exécution de tâches. Le système cible des perturbations concrètes : une porte coincée, un objet tombé au sol, une modification de l'environnement due à une activité humaine. VAP-TAMP exploite une base de connaissances sur les actions du robot pour formuler dynamiquement des requêtes vers des modèles vision-langage (VLA/VLM), sélectionner activement des points de vue pertinents, puis évaluer la situation. En parallèle, il construit et interroge des graphes de scène pour assurer la planification intégrée des tâches et des mouvements. Le framework a été évalué sur des tâches de service en simulation et sur une plateforme réelle de manipulation mobile. L'enjeu est structurant pour toute démarche d'autonomie longue durée en robotique de service ou industrielle. L'un des verrous majeurs identifiés par les intégrateurs et les équipes R&D n'est pas la planification initiale, les planificateurs TAMP existants s'en sortent bien, mais la résilience à l'exécution : un robot qui échoue silencieusement ou se bloque face à un impondérable n'est pas déployable en production. VAP-TAMP propose une réponse architecturale à ce point de friction en couplant perception active (choix du meilleur angle de vue pour comprendre la situation) et raisonnement symbolique via graphes de scène, deux approches généralement traitées séparément. Si les résultats se confirment sur des scénarios plus variés, cela allège significativement la charge d'ingénierie pour les équipes qui construisent des pipelines de manipulation autonome. Le travail s'inscrit dans une dynamique de recherche intense autour de l'intégration VLM-TAMP, un champ qui a explosé depuis 2023 avec les travaux de Google DeepMind sur SayCan, de Physical Intelligence (Pi-0) et des équipes de Carnegie Mellon sur la planification par LLM. VAP-TAMP se positionne sur le maillon "récupération d'erreur" plutôt que sur la génération de plan initiale, ce qui le différencie d'approches comme Code-as-Policies ou Inner Monologue. Le preprint ne mentionne pas de partenariat industriel ni de calendrier de transfert technologique : il s'agit à ce stade d'une contribution académique, sans déploiement annoncé. Les prochaines étapes naturelles seraient une validation sur un spectre plus large de perturbations et une comparaison quantitative avec des baselines de récupération existantes.

RecherchePaper

1 source

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

42

2arXiv cs.RO

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Des chercheurs ont publié ActiveMimic (arXiv:2606.06194, juin 2026), un framework de pré-entraînement robotique qui exploite des vidéos égocentrées humaines captées par une simple caméra RGB portée sur le corps. La contribution technique centrale : plutôt que de traiter les mouvements de caméra comme du bruit, comme le font les pipelines standards, ActiveMimic récupère des trajectoires synchronisées de la caméra et du poignet depuis ce seul flux vidéo, puis modélise le déplacement de la caméra comme une "action de point de vue" à part entière. Le framework apprend ainsi simultanément la perception active et la manipulation à partir de vidéos humaines capturées en conditions réelles, avant d'être adapté à un robot cible via fine-tuning. Sur plusieurs tâches de manipulation impliquant des degrés variés de perception active, les expériences en conditions réelles montrent qu'ActiveMimic surpasse les baselines pré-entraînées sur vidéo humaine classique et atteint les performances des modèles pré-entraînés sur données robotiques. Ce résultat est notable car la vidéo égocentrée humaine est disponible à grande échelle sans nécessiter de robot, mais les modèles qui en étaient issus sous-performaient systématiquement face à ceux entraînés sur données robotiques. ActiveMimic identifie le signal manquant : la perception active, soit le comportement naturel par lequel un humain repositionne continuellement son point de vue pendant une manipulation. Ce mécanisme, invisible pour les pipelines qui traitent la motion de caméra comme artefact, s'avère être le facteur clé pour extraire la valeur de ces vidéos. Les expériences indiquent en outre que la capacité de perception active émerge du pré-entraînement sur vidéo humaine et non du fine-tuning robot-spécifique, ce qui suggère une transférabilité potentielle à d'autres architectures et morphologies. Ce travail s'inscrit dans une compétition dense autour des modèles vision-action (VLA) pour la manipulation robotique généraliste. Physical Intelligence avec Pi-0, Google DeepMind avec RT-2, et les équipes de Figure AI exploitent des architectures VLA pré-entraînées, mais s'appuient majoritairement sur des données de téléopération robotique, coûteuses et lentes à collecter. Si l'approche d'ActiveMimic se confirme sur des benchmarks indépendants et des environnements non contrôlés, elle pourrait réduire significativement ce goulot d'étranglement en substituant une partie des données robotiques par de la vidéo humaine abondante. Les prochaines étapes naturelles incluent la validation industrielle, l'extension à des morphologies variées, et l'évaluation de la scalabilité avec des volumes de vidéo égocentrée plus importants.

RechercheOpinion

1 source

Anticipation sémantique pour les représentations d'actions robotiques

38

3arXiv cs.RO

Anticipation sémantique pour les représentations d'actions robotiques

Traduction et synthèse en cours. Une équipe de recherche vient de publier sur arXiv (2607.13597, soumission de juillet 2026) une étude sur la dégradation des représentations sémantiques dans les modèles Vision-Language-Action (VLA), ces architectures qui pilotent aujourd'hui la plupart des robots humanoïdes commerciaux comme Figure 03, Optimus Gen 3 ou les modèles Pi-0 et GR00T N2. Le constat de départ est simple : ces modèles héritent d'une structure sémantique riche de leurs encodeurs vision-langage préentraînés, mais le finetuning sur un nombre limité de démonstrations robotiques érode cette structure, un phénomène que les chercheurs ont confirmé par un sondage systématique des représentations internes. Ils montrent aussi que la qualité de cette structure sémantique conditionne directement le taux de réussite des tâches et la capacité de généralisation hors distribution (out-of-distribution, OOD). Leur solution, baptisée ancrage sémantique, consiste à contraindre les représentations d'action à rester proches d'une variété sémantique de référence tout en séparant un canal partagé et un canal privé, les deux étant supprimés à l'inférence, sans changer le modèle déployé. Testée sur plusieurs backbones VLA en simulation et en conditions réelles, la méthode apporte jusqu'à +18,7% de réussite sur des tâches en distribution et +21,5% en généralisation OOD. L'enjeu dépasse la seule performance sur benchmark : la dérive sémantique pendant le finetuning est un problème connu mais peu quantifié dans l'industrie humanoïde, où les intégrateurs adaptent en permanence des modèles préentraînés à des tâches spécifiques d'usine ou d'entrepôt avec très peu de données. Une méthode plug-and-play, sans coût à l'inférence, qui améliore la robustesse hors distribution touche directement au fameux écart entre démonstration scénarisée et déploiement réel, un des points faibles récurrents des annonces du secteur ces deux dernières années. L'approche s'inspire de la théorie des neurones miroirs, selon laquelle observation et exécution d'une action partagent un même encodage au niveau de l'intention, et s'inscrit dans la lignée des travaux sur les VLA préentraînés type RT-2 ou OpenVLA, où la question du transfert des capacités du modèle vision-langage vers l'action reste un chantier ouvert. Les auteurs positionnent leur contribution comme complémentaire aux architectures existantes plutôt que comme un nouveau backbone, ce qui laisse présager une adoption potentielle par différents laboratoires sans remise en cause de leurs modèles de base.

RecherchePaper

1 source

COMPASS : planification de la manipulation en espace confiné par perception active

42

4arXiv cs.RO

COMPASS : planification de la manipulation en espace confiné par perception active

Des chercheurs ont publié COMPASS (Confined-space Manipulation Planning with Active Sensing Strategy), un framework multi-étapes destiné à résoudre la manipulation robotique en environnements confinés et encombrés. La méthode repose sur trois composants enchaînés : un scan de proximité dit "near-field awareness" qui construit une carte locale de collision avant tout mouvement, une fonction d'utilité multi-objectifs qui sélectionne des points de vue à la fois informatifs et compatibles avec les poses de saisie ultérieures, et un optimiseur de manipulation contraint qui génère des configurations de préhension respectant les obstacles détectés. Les auteurs proposent également un benchmark structuré en quatre niveaux de difficulté croissante pour évaluer les méthodes d'exploration et de manipulation en espace restreint. En simulation, COMPASS affiche un gain de 24,25 points de pourcentage sur le taux de succès de manipulation par rapport aux méthodes d'exploration conçues pour d'autres types de robots ou n'optimisant que le gain d'information. Des expériences en conditions réelles confirment la faisabilité de l'approche. Ce résultat est significatif parce qu'il adresse directement l'un des angles morts du champ NBV (Next Best View) : les stratégies d'exploration existantes maximisent la couverture informationnelle sans tenir compte de la faisabilité de la manipulation qui suit. En couplant explicitement exploration et planification de saisie dans une même fonction d'utilité, COMPASS réduit l'écart entre "voir la scène" et "agir dessus". Pour un intégrateur industriel, cela signifie une réduction du nombre de cycles d'observation improductifs avant une prise, ce qui devient critique dans des applications comme la désassembly, le picking en bacs profonds, ou la maintenance en espaces contraints. La validation sim-to-real, même partielle, réduit le scepticisme habituel sur le transfert des méthodes d'exploration en laboratoire vers des contextes terrain. Le problème de la manipulation en espace confiné est étudié depuis plusieurs années dans la communauté planification-perception, mais reste ouvert faute de benchmarks standardisés et de méthodes intégrant les deux dimensions simultanément. COMPASS s'inscrit dans un mouvement plus large qui voit des frameworks comme Active Neural Mapping ou des planificateurs basés sur l'échantillonnage (RRT, STOMP) être revisités pour intégrer des contraintes de manipulation dès la phase d'exploration. Aucune entreprise n'est associée à cette publication académique (arXiv:2509.14787), et aucune timeline de commercialisation n'est mentionnée. Les prochaines étapes naturelles seraient d'étendre le benchmark à des objets déformables ou à des scènes dynamiques, et de tester la robustesse face à des capteurs de profondeur bruités, condition sine qua non pour un déploiement industriel.

RecherchePaper

1 source

Perception sémantique active

À lire aussi

Planification robotique et gestion de situations par perception active

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Anticipation sémantique pour les représentations d'actions robotiques

COMPASS : planification de la manipulation en espace confiné par perception active