Assistance robotique proactive et personnalisée…

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

37

1arXiv cs.RO

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

Des chercheurs publient APOLLO, un cadre hybride pour le rangement personnalisé d'objets ménagers par robot, soumis le 17 juin 2026 sur arXiv. Le système couple un modèle d'embedding personnalisé (PEM), léger, entièrement sur CPU, entraîné par paire utilisateur-environnement à partir d'une poignée de démonstrations, à un LLM activé sélectivement uniquement quand le PEM signale une incertitude élevée. APOLLO introduit l'abstention comme comportement de premier ordre : le robot peut décider de ne pas déplacer un objet faute d'information suffisante, une capacité absente de la plupart des approches actuelles. Pour évaluer ce comportement, les auteurs publient également APOR, un dataset synthétique généré par LLM couvrant des environnements multi-meubles, des profils organisationnels variés, des cas d'abstention explicites et des scènes partiellement bruitées. Sur les benchmarks PARSEC et APOR, APOLLO améliore les performances par rapport aux baselines LLM pures tout en réduisant substantiellement le nombre d'appels au modèle. Le code est disponible sur GitHub (PaInt-Lab/APOLLO). Les résultats restent à ce stade préliminaires, les auteurs eux-mêmes parlant de "preuves initiales" en environnement simulé, sans validation sur hardware réel. Ce résultat pointe un angle mort systématique : les méthodes existantes supposent des observations propres et une actionabilité complète, deux hypothèses rarement vérifiées dans un vrai foyer encombré. L'architecture hybride répond aussi à des contraintes de déploiement concret : le PEM sur CPU préserve la vie privée et réduit la latence, le LLM étant réservé aux décisions vraiment ambiguës. C'est une direction pragmatique pour des assistants domestiques embarqués sur du matériel non-spécialisé, où le recours systématique au cloud n'est ni acceptable ni viable à l'échelle. APOLLO s'inscrit dans un effort plus large pour rendre les politiques VLA (Vision-Language-Action) robustes à l'incertitude et aux données partielles, un problème central du déploiement hors environnements contrôlés. Les travaux concurrents de Physical Intelligence (π0), des équipes RT-2 ou OpenVLA s'attaquent à la généralisation en scènes non structurées, mais l'abstention explicite reste rare dans la littérature. Aucun acteur français ou européen n'est directement impliqué dans cette publication. Les prochaines étapes naturelles incluent une validation sur hardware réel et une évaluation avec de vrais utilisateurs sur la pertinence des décisions de non-action.

RecherchePaper

1 source

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

45

2arXiv cs.RO

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion

1 source

Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées

35

3arXiv cs.RO

Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées

Une équipe de chercheurs a publié sur arXiv (réf. 2604.01463) un cadre d'apprentissage des préférences conçu pour personnaliser les robots d'assistance physique à partir de retours en langage naturel, sans imposer de charge cognitive aux utilisateurs atteints de paralysie. Le système, entièrement hors ligne, traduit des commentaires vocaux non structurés en politiques de contrôle robotique déterministes. La validation a été menée avec 10 adultes tétraplégiques dans une étude simulée de préparation de repas. Le pipeline s'appuie sur des grands modèles de langage (LLM) ancrés dans l'Occupational Therapy Practice Framework (OTPF), référentiel clinique standard de l'ergothérapie américaine, pour déchiffrer les réactions subjectives des utilisateurs en besoins physiques et psychologiques explicites, puis les convertir en arbres de décision lisibles. Une étape de vérification automatisée, dite "LLM-as-a-Judge", contrôle la sûreté structurelle du code généré avant tout déploiement. L'enjeu est direct pour les intégrateurs de robotique d'assistance : les méthodes classiques d'apprentissage des préférences, notamment les comparaisons par paires exhaustives issues du paradigme RLHF, sont pratiquement inapplicables à des utilisateurs présentant des déficiences motrices sévères, tant la fatigue physique et cognitive est élevée. Ce travail propose une alternative qui réduit significativement la charge utilisateur selon les mesures rapportées, et dont les politiques générées ont été jugées sûres et fidèles aux préférences des patients par des ergothérapeutes certifiés. L'ancrage dans un cadre clinique structuré, plutôt qu'une simple inférence LLM libre, est le point différenciant : il impose une traçabilité entre le discours du patient et les paramètres de contrôle robot. Les arbres de décision produits restent interprétables, ce qui facilite la validation réglementaire. Le cadre s'inscrit dans une littérature croissante sur la personnalisation des robots d'assistance, domaine où Physical Intelligence (pi.ai) ou des acteurs académiques comme Stanford et Carnegie Mellon explorent les politiques VLA généralisables. Ici, l'approche est délibérément ciblée et offline, ce qui la distingue des pipelines end-to-end en ligne. La taille de l'étude reste limitée (10 participants, environnement simulé), et aucune timeline de déploiement clinique réel n'est annoncée, ce qui maintient ce travail au stade de la preuve de concept prometteuse plutôt que d'un produit shipped. La prochaine étape naturelle serait une validation en environnement réel avec un robot physique instrumenté.

RecherchePaper

1 source

PRISM : génération de données robotiques personnalisées par synthèse d'images de scènes et de mouvements

39

4arXiv cs.RO

PRISM : génération de données robotiques personnalisées par synthèse d'images de scènes et de mouvements

Il n'y a pas de nom d'entreprise, de labo ou de deploiement commercial cité dans cet abstract (c'est un papier de recherche arXiv), donc l'article reste focalisé sur la méthode et ses résultats mesurés, sans inventer de contexte industriel absent du texte source. Des chercheurs présentent PRISM, un pipeline qui génère des jeux de données robotiques personnalisés à partir d'une seule image et d'une instruction en langage naturel, sans téléopération humaine. Le système construit des scènes dites "digital cousins" : des environnements synthétiques alignés sémantiquement et géométriquement avec l'environnement cible de l'utilisateur, mais suffisamment variés au niveau des instances (objets, agencements) pour éviter le surapprentissage. PRISM synthétise ensuite des démonstrations exécutables directement utilisables pour entraîner une politique robotique. Sur les benchmarks LIBERO et LIBERO-Plus, les politiques entraînées sur les données générées par PRISM surpassent celles entraînées sur des jeux de données de référence, et atteignent jusqu'à 100 % de taux de réussite sur trois tâches de manipulation réelles, avec une meilleure robustesse lorsque l'environnement de test diffère de celui vu à l'entraînement. L'enjeu ici est la collecte de données, principal goulot d'étranglement pour déployer des modèles vision-langage-action (VLA) au-delà des laboratoires. La téléopération produit des données bien alignées avec la tâche mais coûte cher et ne passe pas à l'échelle ; la simulation pure passe à l'échelle mais peine à ressembler à l'environnement réel de l'utilisateur final. PRISM tente de concilier les deux, ce qui intéresse directement les intégrateurs et décideurs B2B confrontés au coût de personnalisation d'un robot pour un site spécifique (usine, entrepôt, domicile) : si la génération de données synthétiques personnalisées tient ses promesses hors laboratoire, elle réduit un frein économique majeur à l'adoption des politiques génératives en robotique. Ce travail s'inscrit dans la vague plus large des modèles fondation VLA (dans la lignée de Pi-0, GR00T N2 ou Helix) qui cherchent à généraliser au-delà des tâches et environnements d'entraînement, un problème encore mal résolu malgré les démonstrations impressionnantes de ces modèles. Il fait aussi écho à la tendance du "sim-to-real" et à l'usage de scènes synthétiques proches mais non identiques à la réalité pour diversifier les données d'entraînement sans reproduire du réel coûteux. Les auteurs positionnent PRISM face à deux approches concurrentes existantes, la téléopération manuelle et la simulation générique, en montrant un gain de performance sur des benchmarks standards ainsi que sur des tâches de manipulation réelles. L'abstract ne précise pas de calendrier de déploiement ou de partenariat industriel : à ce stade, il s'agit d'un résultat de recherche à valider sur un périmètre de tâches plus large.

RechercheActu

1 source

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

À lire aussi

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées

PRISM : génération de données robotiques personnalisées par synthèse d'images de scènes et de mouvements