Aller au contenu principal
Algorithme de beam search efficace pour la perception active en robotique mobile
RecherchearXiv cs.RO1h

Algorithme de beam search efficace pour la perception active en robotique mobile

1 source couvre ce sujet·Source originale ↗·

Des chercheurs ont publié sur arXiv un algorithme de recherche en faisceau conçu pour améliorer la perception active dans les robots mobiles autonomes. L'article, référencé arXiv:2604.23327, présente trois contributions principales : un algorithme de recherche en faisceau par nœud (NBS, pour Node-wise Beam Search), une nouvelle métrique appelée "gain espéré", et une méthode de construction de graphe baptisée RRAG (Rapidly-exploring Random Annulus Graph). Lors de benchmarks extensifs, la combinaison NBS et RRAG surpasse les algorithmes de l'état de l'art d'au moins 20 % sur une ou plusieurs des trois tâches de perception active testées. L'approche a également été validée sur des plateformes robotiques réelles dans différents scénarios.

La perception active est un problème central en robotique autonome : le robot doit décider où se déplacer et quoi observer pour collecter les informations les plus utiles à sa mission. Les méthodes actuelles se heurtent à un dilemme : soit elles résolvent un problème de voyageur de commerce coûteux en calcul, soit elles adoptent une formulation plus rapide mais trop contrainte. Le nouvel algorithme NBS contourne ce compromis en conservant les B meilleurs candidats par nœud plutôt que globalement, ce qui réduit la sensibilité aux optima locaux et améliore l'exploration de l'espace de solutions sans exploser le coût computationnel.

La robotique autonome souffre depuis longtemps d'un fossé entre les méthodes théoriquement optimales, trop lentes pour opérer en temps réel, et les heuristiques rapides mais peu fiables dans des environnements encombrés. En introduisant le concept de frontières dans le critère de sélection de chemin via la métrique de gain espéré, les auteurs offrent un meilleur équilibre entre exploration et exploitation, deux impératifs souvent antagonistes dans la navigation autonome. Le RRAG, quant à lui, garantit la connectivité du graphe même dans les espaces complexes grâce à un planificateur local de repli. Ces travaux ouvrent la voie à des robots de livraison, d'inspection industrielle ou de cartographie capables de planifier leurs trajectoires de manière plus autonome et robuste.

À lire aussi

Alibaba DAMO Academy présente un modèle d'IA pour le dépistage non invasif du cancer colorectal
1Pandaily 

Alibaba DAMO Academy présente un modèle d'IA pour le dépistage non invasif du cancer colorectal

Le 28 avril, l'Alibaba DAMO Academy a dévoilé DAMO COCA, un modèle d'intelligence artificielle pour le dépistage du cancer colorectal, développé en collaboration avec l'Hôpital général provincial du Guangdong et d'autres institutions médicales chinoises. Ce système analyse des scanners CT sans contraste, supprimant ainsi la nécessité d'une injection de produit de contraste ou d'une préparation intestinale préalable, deux contraintes lourdes imposées par les méthodes de dépistage classiques. Publié dans la revue Annals of Oncology, le modèle affiche une sensibilité de 86,6 % et une spécificité de 99,8 %, deux indicateurs qui mesurent sa capacité à détecter les cas réels tout en limitant les faux positifs. L'étude a analysé plus de 27 000 scanners CT et a permis d'identifier des cas de cancers non détectés dans des données cliniques réelles. Cette performance est particulièrement significative car le cancer colorectal figure parmi les cancers les plus répandus au monde, avec un taux de dépistage insuffisant lié aux contraintes des méthodes existantes, notamment la coloscopie invasive. En supprimant ces obstacles, DAMO COCA pourrait élargir considérablement l'accès au dépistage, notamment dans les régions où les ressources médicales sont limitées. La capacité du modèle à détecter des lésions dans des zones anatomiquement complexes, là où les radiologues manquent le plus fréquemment des anomalies, représente une avancée clinique concrète susceptible de réduire les diagnostics tardifs. DAMO COCA s'inscrit dans une initiative plus large de l'Alibaba DAMO Academy baptisée "CT + AI", visant à développer des outils de dépistage multi-cancer à partir de scanners CT standard. L'académie avait déjà publié des modèles comparables pour le cancer du pancréas et le cancer gastrique. Le système repose sur un cadre d'apprentissage profond en deux étapes, conçu pour mieux interpréter la complexité des structures intestinales. Cette stratégie rejoint un mouvement mondial dans lequel les grandes entreprises technologiques investissent massivement dans l'imagerie médicale assistée par IA, avec l'ambition de transformer le scanner CT en outil de détection systématique de multiples cancers à partir d'un seul examen.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
2arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
3arXiv cs.RO 

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes. L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés. La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

RecherchePaper
1 source
Modèles de langage comme planificateurs de haut niveau en boucle fermée pour la robotique : aperçu et benchmarks
4arXiv cs.RO 

Modèles de langage comme planificateurs de haut niveau en boucle fermée pour la robotique : aperçu et benchmarks

Des chercheurs ont publié mi-novembre 2024 sur arXiv une étude approfondie portant sur l'utilisation des grands modèles de langage (LLM) et des modèles vision-langage (VLM) comme planificateurs de haut niveau en boucle fermée pour des systèmes robotiques. L'article, référencé arXiv:2511.07410, s'attaque à un problème concret : lorsqu'on déploie ces modèles en mode dit "boîte noire", sans retour d'information sur l'exécution, les erreurs deviennent imprévisibles et coûteuses. Les auteurs proposent une série d'expériences contrôlées pour identifier des stratégies pratiques permettant d'intégrer ces modèles de façon fiable dans des robots. Deux variables clés sont étudiées : l'horizon de contrôle, c'est-à-dire le nombre d'actions planifiées à l'avance avant de réévaluer la situation, et le "warm-starting", qui consiste à initialiser le planificateur avec des solutions partielles issues d'itérations précédentes. Ces résultats ont des implications directes pour les équipes qui déploient aujourd'hui des LLM dans des systèmes embarqués ou robotiques. En boucle ouverte, un modèle peut enchaîner des décisions sans jamais corriger ses erreurs, ce qui dans un contexte physique peut signifier des collisions, des tâches non abouties ou des comportements dangereux. La boucle fermée, en intégrant un retour régulier de l'environnement, permet au modèle de s'adapter en temps réel. Les recommandations issues de l'étude fournissent aux ingénieurs des paramètres concrets pour calibrer ce retour d'information et améliorer la robustesse des systèmes sans augmenter proportionnellement le coût computationnel. Cette recherche s'inscrit dans une dynamique plus large d'intégration des LLM dans la robotique, un champ qui a explosé depuis 2023 avec des projets comme PaLM-E de Google ou RT-2 de DeepMind. L'enjeu est de taille : faire passer ces modèles du laboratoire au monde réel, où l'incertitude et les erreurs d'exécution sont inévitables. Le fait que les auteurs publient l'intégralité de leur implémentation et de leurs expériences en accès ouvert devrait accélérer l'adoption de ces pratiques par la communauté. Les prochaines étapes naturelles concerneront l'évaluation de ces stratégies sur des plateformes robotiques variées et dans des environnements non structurés.

RecherchePaper
1 source