Aller au contenu principal
PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper
RecherchearXiv cs.RO2j

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12112v1) les spécifications de PEBRE, un module matériel et logiciel open-source conçu pour augmenter les capacités du robot Pepper. Le module intègre une carte Jetson Orin Nano de NVIDIA pour le calcul embarqué, une caméra RGB Logitech BRIO 4K, une caméra de profondeur Intel RealSense D435i pour la perception 3D, un microphone USB Samson UB1 et un micro directionnel RØDE VideoMicro II pour la capture audio. L'ensemble forme un add-on modulaire, conçu pour s'intégrer physiquement sur Pepper sans modifier son architecture d'origine. Les auteurs rapportent des améliorations mesurables en capacités de perception et en puissance de calcul, sans toutefois publier de benchmarks chiffrés comparatifs dans le résumé disponible.

L'intérêt concret de PEBRE pour la communauté académique et les intégrateurs tient à une problématique bien réelle : Pepper approche ou dépasse sa durée de vie commerciale prévue, et SoftBank Robotics a progressivement réduit son support. Des dizaines de labos de recherche mondiaux disposent de plateformes Pepper dont la chaîne logicielle devient obsolète et dont le matériel interne (processeur Intel Atom, caméras grand-angle basiques) ne permet plus d'exécuter des modèles modernes de vision ou de traitement du langage en local. En proposant une solution open-hardware, les auteurs cherchent à mutualiser l'effort de mise à niveau, évitant à chaque labo de réinventer sa propre solution de retrofitting. C'est une approche pragmatique face à l'abandon progressif d'une plateforme encore présente dans de nombreux établissements.

Pepper a été conçu à l'origine par Aldebaran Robotics, entreprise française rachetée par SoftBank en 2012, puis commercialisé à partir de 2014 comme robot d'accueil et d'interaction sociale. Malgré l'arrêt de sa production pour le marché grand public annoncé en 2021, Pepper reste présent dans plusieurs centaines de laboratoires et sites industriels en Europe et en Asie. Côté concurrence sur le segment des plateformes académiques humanoïdes légères, Pepper fait face à des alternatives comme le NAO (lui aussi Aldebaran/SoftBank), le Furhat ou des plateformes bras-et-torse comme Hello Robot Stretch. PEBRE ne repositionne pas Pepper dans la course aux humanoïdes mobiles de nouvelle génération, mais tente de lui donner une seconde vie utile dans des contextes de recherche appliquée en HRI (Human-Robot Interaction), là où le coût d'acquisition d'une nouvelle plateforme reste prohibitif.

Impact France/UE

Les laboratoires européens équipés de robots Pepper, nombreux en France et en Europe, héritiers du rachat d'Aldebaran Robotics, peuvent bénéficier directement de ce module open-source pour prolonger la durée de vie de leurs plateformes et exécuter des modèles modernes de perception et de traitement du langage sans investissement dans une nouvelle plateforme.

Dans nos dossiers

À lire aussi

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique
1Robotics Business Review 

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique

Daimon Robotics, entreprise de Hong Kong spécialisée dans la perception tactile et la manipulation dextre, a présenté RobOmni lors de l'ICRA 2026, en partenariat avec Galbot. Il s'agit du premier benchmark d'évaluation omni-modal intégrant la perception tactile pour les interactions physiques en robotique. La plateforme, construite sur NVIDIA Isaac Sim, standardise l'évaluation de tâches de manipulation au contact : saisie d'objets, insertion de précision, assemblage de composants et placement. RobOmni capture simultanément plusieurs flux de données, capteurs tactiles haute résolution au bout des doigts, vision RGB montée au poignet, état de la pince, trajectoires TCP et observations de caméras externes, pour évaluer les systèmes robotiques selon cinq dimensions : taux de succès, efficacité de manipulation, capacité de manipulation dextre, événements d'échec (glissement, coinçage, collision, nouvelle tentative) et robustesse de généralisation. Ce lancement répond à un manque structurel dans l'industrie : l'absence de cadre standardisé pour mesurer l'apport réel du sens tactile par rapport à la perception purement visuelle. Sans benchmark unifié, il est impossible de comparer les systèmes, de quantifier les progrès ou d'identifier quelles données tactiles améliorent concrètement les tâches réelles. Pour les intégrateurs industriels et les décideurs B2B qui évaluent des bras manipulateurs pour des lignes d'assemblage ou de service, ce vide est critique : une manipulation fiable dans des environnements non structurés requiert de détecter le glissement, la déformation du contact ou la rigidité d'un matériau lors d'un emboîtement, autant de signaux que la vision seule ne peut pas capturer. RobOmni propose de quantifier systématiquement cet apport, ce qui permettrait notamment de comparer des architectures VLA (Vision-Language-Action) avec et sans retour tactile sur des tâches identiques. Daimon Robotics a développé ses propres capteurs tactiles basés sur la vision, capables de mesurer non seulement la force de contact mais aussi la déformation, le glissement, les propriétés de matériau, la texture et la dureté, à haute fréquence et haute résolution. Galbot, partenaire du projet, apporte son expertise en robotique mobile et manipulation. Si aucune métrique de performance comparative ni timeline de déploiement commercial ne sont encore publiées, ce lancement reste à ce stade une annonce de framework de recherche, pas un produit expédié, le positionnement à l'ICRA 2026 signale une ambition de standardisation sectorielle. Les concurrents dans l'espace des benchmarks robotiques, notamment Google DeepMind (RoboVerse) et Meta (PARTNR), n'intègrent pas la modalité tactile comme dimension centrale d'évaluation. RobOmni comble potentiellement ce vide, à condition que la communauté adopte le framework comme référence commune.

RecherchePaper
1 source
RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique
2arXiv cs.RO 

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Une équipe de chercheurs a publié RoboEval (arXiv:2507.00435), un cadre d'évaluation structuré et un benchmark dédié à la manipulation robotique. L'outil propose huit tâches bimanuelles assorties de variantes systématiquement contrôlées, plus de trois mille démonstrations expertes, et une plateforme de simulation modulaire conçue pour garantir la reproductibilité des expériences. Chaque tâche est instrumentée avec des métriques standardisées couvrant l'efficacité d'exécution, la coordination entre les deux bras, et la stabilité ou sécurité du mouvement. Le cadre inclut également des mesures de progression par étapes qui permettent de localiser précisément où et pourquoi une politique échoue, plutôt que de simplement enregistrer un échec global. Les expériences ont été conduites sur des politiques visuomotrices de l'état de l'art, en évaluant la stabilité des métriques face aux variations de conditions et leur pouvoir discriminant entre politiques affichant des taux de succès similaires. L'enjeu est méthodologique autant qu'industriel. Aujourd'hui, la majorité des benchmarks de manipulation robotique réduisent la performance à un comptage binaire succès/échec, ce qui efface les différences réelles de qualité d'exécution. Deux politiques peuvent afficher le même taux de réussite tout en présentant des comportements radicalement différents en termes de fluidité, de robustesse aux perturbations, ou de coordination interdigitale. Pour un intégrateur ou un décideur industriel qui doit choisir entre plusieurs VLA (Vision-Language-Action policies) pour déployer un robot en production, cette granularité est critique. RoboEval tente de combler ce fossé en fournissant des métriques intermédiaires qui corrèlent avec le succès final mais révèlent aussi la structure des défaillances, un prérequis pour itérer efficacement sur l'entraînement. Ce travail s'inscrit dans une dynamique plus large de maturation de l'évaluation en robotique apprenable, un domaine qui souffre depuis des années d'une fragmentation des protocoles. Des initiatives comparables comme LIBERO ou RoboVerse ont tenté de standardiser les conditions expérimentales, mais restaient souvent limitées aux tâches unimanuelles ou aux métriques de haut niveau. RoboEval se distingue par son focus bimanuel, directement pertinent pour les applications industrielles d'assemblage ou de logistique, et par la richesse de ses métriques comportementales. La page projet est accessible sur robo-eval.github.io. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit pour l'instant d'une contribution académique, sans validation en environnement réel annoncée.

UEContribution académique ouverte utilisable par tout labo ou intégrateur européen souhaitant évaluer et comparer des politiques VLA bimanuelles sans dépendre de benchmarks propriétaires.

RecherchePaper
1 source
IA incarnée : une méthode multimodale intégrant la perception de profondeur pour la compréhension référentielle
3arXiv cs.RO 

IA incarnée : une méthode multimodale intégrant la perception de profondeur pour la compréhension référentielle

Des chercheurs ont publié sur arXiv (référence 2510.08278, troisième révision) un framework baptisé ERU (Embodied Reference Understanding) conçu pour qu'un robot identifie avec précision un objet cible dans une scène visuelle, en combinant deux types d'instructions : des commandes en langage naturel et des gestes de pointage humain. Le système repose sur trois composants intégrés : une augmentation de données pilotée par LLM, une modalité de carte de profondeur (depth map), et un module de décision depth-aware. Les évaluations sur deux jeux de données distincts montrent des performances supérieures aux baselines existantes sur la tâche de détection de référent, sans que les auteurs publient de métriques chiffrées précises dans le résumé accessible. Le problème que cette recherche cible est concret et bien documenté dans l'industrie : lorsqu'un opérateur pointe du doigt "ce carton" dans un entrepôt encombré où plusieurs cartons similaires sont présents, les systèmes actuels de détection open-vocabulary échouent fréquemment à désambiguïser la cible. Intégrer la profondeur comme modalité supplémentaire permet de différencier des objets coplanaires ou superposés que la seule vision 2D confond. Pour les intégrateurs développant des interfaces homme-robot (HRI) en environnement industriel ou logistique, c'est une brique utile : réduire le taux d'erreur de saisie sur instruction mixte gestuelle/verbale diminue directement les interventions humaines correctives sur les lignes de picking. Sur le plan académique, ce travail s'inscrit dans la continuité des VLA (Vision-Language-Action models) et des architectures open-vocabulary comme GLIP, GDINO ou OWL-ViT, en y ajoutant l'ancrage spatial via depth sensing. Aucun acteur industriel nommé n'est associé à cette publication, qui reste une contribution de recherche fondamentale sans déploiement annoncé. Les concurrents directs sur la tâche ERU incluent des travaux issus de Stanford, CMU et des laboratoires chinois actifs sur la manipulation guidée par langage. Les prochaines étapes naturelles seraient une validation sur robot physique et une intégration dans des pipelines de manipulation temps réel, domaine où des acteurs comme Physical Intelligence (pi) ou 1X Technologies testent déjà des approches VLA proches.

RecherchePaper
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
4arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source