Aller au contenu principal
RecherchearXiv cs.RO1h

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 9 juin 2026 sur arXiv (2606.08458) GLOBE, un framework léger pour l'assistance robotique proactive en environnement domestique. Le principe : combiner des modèles de Markov n-grammes, qui capturent les patterns comportementaux temporels d'un utilisateur, avec un raisonnement par grand modèle de langage (LLM) déclenché uniquement lorsque la confiance du modèle prédictif passe sous un seuil. Ce mécanisme d'invocation sélective réduit la charge computationnelle par rapport aux architectures spatio-temporelles classiques. L'équipe introduit également HOMER-Noise, une extension bruitée du dataset HOMER+, qui simule des perturbations structurées réalistes : déplacements d'objets causés par des humains, des animaux domestiques ou des jeunes enfants. Le framework est validé en preuve de concept sur un manipulateur mobile Stretch 3 de Hello Robot, dans des scénarios d'interaction humain-robot à domicile.

L'intérêt principal de GLOBE réside dans son positionnement hybride : plutôt que de faire tourner un LLM en continu sur chaque prédiction d'activité, le système n'y fait appel que sur les cas ambigus, ce qui le rend potentiellement déployable sur du matériel embarqué à ressources limitées. Les résultats annoncés montrent des performances compétitives face aux méthodes état de l'art, y compris en conditions bruitées, là où les approches purement neuronales se dégradent. Cette robustesse aux perturbations environnementales non contrôlées est un verrou connu pour le déploiement domestique réel. Il faut toutefois noter qu'il s'agit d'un preprint arXiv sans peer review, et que la validation sur Stretch 3 reste au stade de démonstration de concept, pas d'un déploiement opérationnel.

GLOBE s'inscrit dans un courant de recherche qui cherche à réconcilier les LLMs, puissants mais coûteux, avec les contraintes temps réel de la robotique embarquée. Des approches similaires existent chez des équipes travaillant sur les VLAs (Vision-Language-Action models), comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais celles-ci ciblent surtout la manipulation industrielle plutôt que l'assistance cognitive à domicile. Le dataset HOMER-Noise comble un manque réel dans l'évaluation de la robustesse des systèmes d'anticipation d'activités. Les prochaines étapes logiques seraient une évaluation sur des déploiements multi-utilisateurs prolongés et une comparaison directe avec des baselines LLM-only pour quantifier précisément le gain computationnel revendiqué.

À lire aussi

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
1arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique
2arXiv cs.RO 

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.00117) une méthode d'explication de la navigation robotique fondée sur le raisonnement ontologique et la théorie des affordances. L'approche construit, en temps réel, une ontologie locale représentant les entités proches du robot avec leurs affordances (ce qu'elles permettent de faire), leurs états possibles, et leurs relations spatiales qualitatives. Face à un obstacle, le système ne se contente pas de détecter le blocage : il évalue des hypothèses de changement d'état -- une porte peut-elle être ouverte, une chaise déplacée -- afin de générer des explications actionnables sur la manière de poursuivre la navigation. L'approche est validée sur un benchmark centré sur un scénario de robot bibliothécaire, avec des cas de navigation générés de manière procédurale. Les résultats montrent que le raisonnement ontologique identifie les facteurs d'explication pertinents avec une précision supérieure à une approche purement sémantique (semantic-only baseline), et reste robuste lorsque la densité d'objets non pertinents augmente -- ce qu'on appelle le semantic clutter, l'un des talons d'Achille des systèmes de navigation en environnement humain réel. Pour un intégrateur déployant des robots dans des espaces partagés (entrepôts mixtes, hôpitaux, bureaux), la capacité à expliquer les décisions de navigation répond à une exigence opérationnelle et réglementaire croissante, notamment sous l'AI Act européen. L'explication n'est pas ici cosmétique : elle est structurellement liée au raisonnement, ce qui la rend vérifiable et auditable par un opérateur humain. L'approche s'inscrit dans le courant de l'IA explicable (XAI) appliquée à la robotique. La théorie des affordances, conceptualisée par le psychologue James Gibson dans les années 1970, connaît un regain d'intérêt depuis l'émergence des vision-language models (VLMs) et des LLMs. Les approches concurrentes incluent les scene graphs sémantiques utilisés par Boston Dynamics et Sanctuary AI, ainsi que les planificateurs fondés sur LLM comme SayCan (Google DeepMind). Par rapport à ces méthodes, l'ontologie locale proposée ici est plus légère et plus explicite formellement, mais reste évaluée sur un benchmark synthétique limité -- le passage à des environnements réels non contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : ce travail est une contribution académique de fond, pas un produit en voie de commercialisation.

UEL'approche répond structurellement aux exigences de l'AI Act pour les systèmes autonomes navigant en environnement humain, en fournissant des explications auditables sur les décisions de navigation, pertinent pour les intégrateurs européens déployant des robots en espaces partagés.

RecherchePaper
1 source
Planification robotique et gestion de situations par perception active
3arXiv cs.RO 

Planification robotique et gestion de situations par perception active

Des chercheurs présentent dans un preprint arXiv (réf. 2604.26988, mai 2026) un cadre logiciel baptisé VAP-TAMP, pour Vision-language model-based Active Perception for Task And Motion Planning, conçu pour doter les robots d'une capacité de détection et de gestion des situations imprévues en cours d'exécution de tâches. Le système cible des perturbations concrètes : une porte coincée, un objet tombé au sol, une modification de l'environnement due à une activité humaine. VAP-TAMP exploite une base de connaissances sur les actions du robot pour formuler dynamiquement des requêtes vers des modèles vision-langage (VLA/VLM), sélectionner activement des points de vue pertinents, puis évaluer la situation. En parallèle, il construit et interroge des graphes de scène pour assurer la planification intégrée des tâches et des mouvements. Le framework a été évalué sur des tâches de service en simulation et sur une plateforme réelle de manipulation mobile. L'enjeu est structurant pour toute démarche d'autonomie longue durée en robotique de service ou industrielle. L'un des verrous majeurs identifiés par les intégrateurs et les équipes R&D n'est pas la planification initiale, les planificateurs TAMP existants s'en sortent bien, mais la résilience à l'exécution : un robot qui échoue silencieusement ou se bloque face à un impondérable n'est pas déployable en production. VAP-TAMP propose une réponse architecturale à ce point de friction en couplant perception active (choix du meilleur angle de vue pour comprendre la situation) et raisonnement symbolique via graphes de scène, deux approches généralement traitées séparément. Si les résultats se confirment sur des scénarios plus variés, cela allège significativement la charge d'ingénierie pour les équipes qui construisent des pipelines de manipulation autonome. Le travail s'inscrit dans une dynamique de recherche intense autour de l'intégration VLM-TAMP, un champ qui a explosé depuis 2023 avec les travaux de Google DeepMind sur SayCan, de Physical Intelligence (Pi-0) et des équipes de Carnegie Mellon sur la planification par LLM. VAP-TAMP se positionne sur le maillon "récupération d'erreur" plutôt que sur la génération de plan initiale, ce qui le différencie d'approches comme Code-as-Policies ou Inner Monologue. Le preprint ne mentionne pas de partenariat industriel ni de calendrier de transfert technologique : il s'agit à ce stade d'une contribution académique, sans déploiement annoncé. Les prochaines étapes naturelles seraient une validation sur un spectre plus large de perturbations et une comparaison quantitative avec des baselines de récupération existantes.

RecherchePaper
1 source
EARL : un cadre unifié guidé par l'analyse pour le raisonnement d'interaction égocentrique et l'ancrage au pixel
4arXiv cs.RO 

EARL : un cadre unifié guidé par l'analyse pour le raisonnement d'interaction égocentrique et l'ancrage au pixel

Des chercheurs publient sur arXiv (réf. 2605.14742) EARL, un cadre d'apprentissage par renforcement guidé par analyse pour la compréhension d'interactions humain-environnement en vision égocentrique, c'est-à-dire depuis une caméra portée à la première personne. L'architecture repose sur deux étages séquentiels : une phase d'interprétation globale qui produit une description textuelle structurée des interactions observées, suivie d'une phase de réponse fine qui génère simultanément une réponse textuelle, des boîtes englobantes et un masque de segmentation au niveau pixel. Le lien entre ces deux étages est assuré par un module original, l'Analysis-guided Feature Synthesizer (AFS), qui extrait un descripteur sémantique global et l'injecte comme prior lors du raisonnement orienté requête. La phase de réponse est optimisée par GRPO (Group Relative Policy Optimization), une variante d'apprentissage par renforcement popularisée récemment par les travaux DeepSeek. Sur le benchmark Ego-IRGBench, EARL atteint 65,48 % de cIoU pour le pixel grounding, soit +8,37 points au-dessus des meilleures méthodes RL comparables. Le test de généralisation hors-distribution sur EgoHOS, un benchmark de segmentation mains-objets, confirme une transférabilité satisfaisante sur des scènes non vues à l'entraînement. Ce résultat souligne une limite structurelle des grands modèles multimodaux de langage (MLLMs) actuels : ils décrivent correctement les scènes, mais peinent à localiser avec précision les zones d'interaction au niveau pixel, une granularité pourtant indispensable pour qu'un robot assistif saisisse un objet ou qu'un système embarqué guide un geste en temps réel. EARL démontre qu'injecter un prior sémantique structuré avant la phase de grounding améliore significativement cette précision sans sacrifier la compréhension globale. La robustesse OOD mesurée sur EgoHOS est un signal positif pour des déploiements en conditions variées, même si l'article reste un preprint académique et non un système industriellement déployé, ce qui invite à la prudence sur la portée des métriques annoncées. La vision égocentrique connaît une forte dynamique, portée par des dispositifs comme les lunettes Meta Orion, l'Apple Vision Pro et les casques industriels RealWear, tandis que le dataset Ego4D (Meta/FAIR) reste la référence d'entraînement du domaine. EARL s'inscrit dans une vague de travaux combinant MLLMs et RL pour dépasser les limitations du fine-tuning supervisé classique, aux côtés de systèmes comme SpatialVLM ou EgoVLP. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; les extensions naturelles incluent l'intégration dans des pipelines robotiques temps-réel et l'évaluation sur des environnements industriels ou médicaux, où la précision du grounding pixel conditionne directement la sécurité opérationnelle.

RecherchePaper
1 source