Aller au contenu principal
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
RecherchearXiv cs.RO2h

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial.

Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs.

Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

Impact France/UE

Le benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

À lire aussi

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique
1arXiv cs.RO 

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Une étude empirique de grande envergure, publiée sur arXiv (référence 2602.23408), apporte les premières réponses systématiques à une question restée sans réponse rigoureuse dans la communauté de la manipulation robotique : comment concevoir l'espace d'action d'une politique apprise par imitation ? Les chercheurs ont conduit plus de 13 000 déploiements réels sur un robot bimanuel, entraîné et évalué plus de 500 modèles sur quatre scénarios distincts, en examinant deux axes structurants : l'axe temporel (représentations absolues vs. incrémentales, dites "delta") et l'axe spatial (espace articulaire, ou joint-space, vs. espace opérationnel, ou task-space). Le résultat principal est sans ambiguïté : les représentations delta, qui encodent des variations de position plutôt que des positions cibles absolues, améliorent systématiquement les performances d'apprentissage. Sur l'axe spatial, joint-space et task-space révèlent des forces complémentaires : le premier favorise la stabilité du contrôle, le second facilite la généralisation à de nouveaux scénarios. Ces résultats ont une portée directe pour les équipes qui développent des politiques robotiques en production. Jusqu'ici, le choix de l'espace d'action relevait d'heuristiques héritées ou de conventions propres à chaque laboratoire, sans base empirique solide. L'étude montre que ce choix n'est pas accessoire : il conditionne fondamentalement le paysage d'optimisation de l'apprentissage par imitation, bien davantage que ce que supposait la littérature. Pour un intégrateur ou un ingénieur concevant un système de manipulation industrielle, la recommandation est désormais claire : préférer les delta actions par défaut, et arbitrer entre joint-space et task-space selon que la priorité est la stabilité du suivi de trajectoire ou la robustesse face à la variabilité des tâches. Ces conclusions sont directement applicables aux architectures VLA (Vision-Language-Action), qui dominent actuellement la recherche en politiques généralisables. Ce travail intervient dans un contexte où la course à la mise à l'échelle des données et des modèles concentre la majorité des ressources de recherche. Des systèmes comme pi-0 (Physical Intelligence), ACT ou Diffusion Policy ont popularisé l'imitation learning comme voie principale vers la manipulation généraliste, et des acteurs comme Figure AI, 1X ou Apptronik misent sur ces architectures pour leurs déploiements industriels. Pourtant, la conception de l'espace d'action restait guidée par des choix hérités des années 2010, faute d'étude comparative à grande échelle. En comblant ce manque avec une rigueur rare, les auteurs posent une base méthodologique qui devrait informer la prochaine génération de politiques bimanuelle et les benchmarks de comparaison entre systèmes.

RechercheOpinion
1 source
KaRMA : une métrique cinématique pour évaluer la dextérité fine des mains robotiques
2arXiv cs.RO 

KaRMA : une métrique cinématique pour évaluer la dextérité fine des mains robotiques

Des chercheurs ont publié sur arXiv (arXiv:2605.15548) KaRMA, ou Kinematic Rolling Manipulation Ability, une nouvelle métrique cinématique destinée à évaluer la dextérité fine des mains robotiques. Contrairement aux métriques existantes, KaRMA quantifie spécifiquement la capacité d'une main à repositionner un objet sphérique en prise pince à deux doigts (precision pinch) par des mouvements de roulement continus, sans relâcher le contact. Le système rapporte trois scores distincts : KaRMA-T (couverture translationnelle), KaRMA-R (couverture rotationnelle) et KaRMA-S (sensibilité à la configuration initiale de prise). L'exploration des poses atteignables se fait par un algorithme de recherche en largeur (breadth-first search) sur des primitives de translation et de rotation, en respectant les limites articulaires, les contraintes de collision, le contact par roulement, et la faisabilité de la force antipodale. La métrique a été évaluée sur 16 mains robotiques largement utilisées dans la littérature. L'intérêt de KaRMA réside dans ce qu'elle révèle là où les métriques statiques classiques échouent. Les outils habituels, espace de travail, manipulabilité (ellipsoïdes jacobiens), stabilité de prise, sont des propriétés statiques qui ne capturent pas la dextérité au sens opérationnel : déplacer un objet dans la main sans le lâcher. Sur les 16 mains testées, KaRMA différencie des architectures que les proxies statiques classent à l'identique, et met en évidence des compromis translation-rotation jusqu'ici invisibles. Les auteurs signalent également que les métriques basées sur le jacobien peuvent induire en erreur sur certains benchmarks de tâches publiés, là où KaRMA montre une cohérence qualitative meilleure. Pour un ingénieur en robotique ou un intégrateur qui sélectionne une main pour des tâches d'assemblage fin ou de manipulation d'objets variés, cela représente un outil de comparaison plus discriminant. Cette publication s'inscrit dans un débat de fond sur l'évaluation des mains robotiques multi-doigts, un domaine où les métriques de design héritées des années 1980-90 (critères de Yoshikawa, indices de qualité de prise) restent les références par défaut malgré leurs limites reconnues. Les équipes travaillant sur des mains humanoïdes comme celles d'Agility Robotics, Figure, Sanctuary AI, ou les projets académiques type Shadow Hand et Allegro Hand, disposent désormais d'un benchmark comparatif formalisé. KaRMA est pour l'instant une métrique cinématique pure, elle n'intègre pas la dynamique ni les propriétés des surfaces de contact, ce qui constitue sa principale limite avouée. Les prochaines étapes naturelles seraient une validation expérimentale sur des tâches réelles et l'extension aux prises multi-doigts au-delà du pinch à deux doigts.

RecherchePaper
1 source
Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques
3arXiv cs.RO 

Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques

Une revue systématique publiée sur arXiv (2508.05415) pose une question directe : les robots ont-ils vraiment besoin de mains anthropomorphes ? Après analyse de 125 articles scientifiques couvrant 2019 à 2025, les auteurs concluent que les mains à cinq doigts, souvent présentées comme l'objectif ultime de la manipulation robotique, ne sont pas nécessaires pour la majorité des tâches. En comparant les propriétés biomécaniques de la main humaine (degrés de liberté, capteurs cutanés, contrôle moteur) avec les mains robotiques commerciales disponibles aujourd'hui, ils montrent que la complexité mécanique ne se traduit pas systématiquement par une meilleure dextérité pour la manipulation en main (in-hand manipulation). Des mécanismes à deux ou trois doigts se révèlent souvent aussi efficaces pour des applications industrielles ciblées. Pour les intégrateurs et les décideurs industriels, ce résultat remet en cause une hypothèse répandue : reproduire la morphologie humaine ne garantit pas des performances humaines. La revue établit qu'une main à cinq doigts augmente l'étendue des tâches réalisables, mais apporte peu d'avantage pour la manipulation fine d'objets déjà saisis. Plus significatif encore, l'intégration de capteurs et les stratégies de manipulation intelligentes restent sous-exploitées dans la littérature, car la recherche se concentre sur la réplication du nombre de doigts et des DOF plutôt que sur la robustesse mécanique et la compliance. Les auteurs soulignent que des mains plus souples et robustes permettraient un meilleur apprentissage par contact environnemental et une intégration plus dense de capteurs, deux leviers actuellement sacrifiés au profit de l'esthétique biomimétique. Cette remise en question survient dans un contexte de course au design anthropomorphe, portée par les humanoïdes de Figure (Figure 03), Tesla (Optimus Gen 3), 1X Technologies et Agility Robotics, dont les mains à cinq doigts sont systématiquement mises en avant dans les communications marketing. La question n'est pourtant pas nouvelle : les grippers industriels bi-digitaux de Robotiq, OnRobot et Schunk dominent les lignes d'assemblage depuis des années. L'accumulation de preuves empiriques sur 125 publications donne à cet argument une base scientifique que les annonces de lancement ne pouvaient pas offrir. Les auteurs plaident pour des critères d'évaluation standardisés, un manque criant alors que chaque laboratoire définit ses propres benchmarks, condition nécessaire pour que le secteur sorte du cycle annonce/démo et entre dans une phase d'industrialisation mesurable.

UELes conclusions valident empiriquement l'approche des fabricants de grippers industriels européens comme Schunk (DE) et OnRobot (DK), dont les solutions bi/tri-digitales dominent les lignes d'assemblage face à la tendance anthropomorphe des humanoïdes américains.

RecherchePaper
1 source
Le syndrome du béni-oui-oui : évaluer l'abstention dans les agents robotiques incarnés
4arXiv cs.RO 

Le syndrome du béni-oui-oui : évaluer l'abstention dans les agents robotiques incarnés

Une équipe du laboratoire PursecLab a publié en mai 2026 un article documentant ce qu'ils nomment le "syndrome du yes-man" dans les VLM (vision-language models) utilisés comme planificateurs pour robots incarnés : ces modèles exécutent des instructions même lorsqu'elles sont physiquement infaisables, ambiguës ou fondées sur de fausses prémisses. Pour mesurer cette faille, les chercheurs ont développé RoboAbstention, un benchmark de 6 069 instructions générées à partir d'images issues de cinq jeux de données robotiques, via un pipeline en trois phases : ancrage visuel structuré, dérivation déterministe de contraintes physiques, et génération contrôlée par gabarits par catégorie. Les résultats sont sévères : Gemini 2.5 Flash, meilleur modèle général testé, n'abstient que dans 39,0 % des cas où il devrait refuser. Gemini Robotics ER 1.6 Preview, planificateur dédié à la robotique incarnée, tombe à 16,5 %. L'application de techniques de "defensive prompting" et d'in-context learning remonte ces taux à 93,6 % pour Gemini Robotics ER et 88,6 % pour GPT-5.4 Mini, sans résoudre entièrement le problème. Ce comportement représente un risque opérationnel concret : un robot qui ne détecte pas les limites d'une instruction peut endommager des équipements, violer des consignes de sécurité, ou échouer silencieusement sans signal d'erreur exploitable. La taxonomie proposée distingue quatre cas légitimes d'abstention - instruction ambiguë, contrainte physique violée, prémisse factuelle fausse, contexte sensoriel insuffisant. Le fait que des modèles dotés de raisonnement avancé échouent massivement démontre que la capacité à "savoir refuser" n'émerge pas naturellement avec la montée en puissance des VLM, y compris ceux dédiés à la robotique. Les benchmarks d'abstention existants portaient exclusivement sur des LLM en contexte textuel, ignorant les contraintes perceptuelles propres aux environnements physiques - c'est le vide que comble RoboAbstention. À mesure que les architectures VLA (Vision-Language-Action) se rapprochent des déploiements industriels réels, la validation comportementale avant mise en service devient un critère incontournable pour intégrateurs et décideurs industriels. Le benchmark est open-source sur purseclab.github.io/RoboAbstention, directement utilisable comme outil d'audit pré-déploiement. Aucun acteur européen n'est impliqué dans cette étude. Les prochaines étapes logiques pointent vers le fine-tuning ciblé sur l'abstention, les correctifs au niveau du prompt ayant montré leurs limites structurelles.

UELes intégrateurs européens déployant des systèmes VLA en environnement industriel devront probablement intégrer des outils d'audit comportemental comme RoboAbstention pour répondre aux exigences de sécurité de l'AI Act applicables aux systèmes robotiques autonomes.

RechercheOpinion
1 source