Aller au contenu principal
FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée
RecherchearXiv cs.RO7sem

FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié début 2026 FreeOcc (arXiv:2604.28115), un framework de prédiction d'occupance 3D à vocabulaire ouvert fonctionnant sans aucune phase d'entraînement. Le système traite des séquences d'images monoculaires ou RGB-D et produit une carte voxelisée dense sans annotations 3D, sans poses caméra de référence et sans supervision au niveau du voxel. Son pipeline en quatre étapes enchaîne un backbone SLAM pour l'estimation des poses, une représentation 3D par Gaussian splatting géométriquement cohérent, l'association de sémantiques à vocabulaire ouvert via des modèles vision-langage (VLM) off-the-shelf, puis une projection probabiliste gaussiennes-vers-voxels. Sur le benchmark EmbodiedOcc-ScanNet, FreeOcc dépasse de plus du double les scores IoU et mIoU des meilleures méthodes auto-supervisées existantes, et transfère en zéro-shot vers des environnements inconnus sur le nouveau benchmark ReplicaOcc publié par les mêmes auteurs, surpassant à la fois les baselines supervisées et auto-supervisées.

La prédiction d'occupance sémantique 3D est un prérequis fondamental pour la navigation, la manipulation et la planification dans les systèmes robotiques incarnés. La principale friction jusqu'ici était le coût prohibitif des annotations 3D : des jeux de données comme ScanNet exigent des dizaines de milliers de labels voxel par scène, rendant la généralisation hors domaine structurellement difficile. En s'appuyant intégralement sur des VLMs pré-entraînés (de type CLIP) pour la sémantique et sur le SLAM pour la géométrie, FreeOcc supprime ce goulot d'étranglement et ouvre la voie à des systèmes de perception adaptables sans pipeline de labeling continu. Le transfert zéro-shot est particulièrement stratégique pour les intégrateurs : un robot déployé dans un nouvel environnement n'a besoin ni de cycle d'annotation ni de fine-tuning. Les métriques restent néanmoins mesurées en conditions benchmark contrôlées, sans validation terrain annoncée à ce stade.

FreeOcc s'inscrit dans la convergence entre Gaussian splatting, popularisé par 3DGS en 2023, et les grands modèles vision-langage pour produire des cartes sémantiques 3D sans supervision dédiée. Les méthodes supervisées concurrentes, parmi lesquelles OccNet, SurroundOcc et MonoScene, nécessitent des milliers d'heures d'annotation et généralisent mal hors de leur domaine d'entraînement. Il s'agit ici d'un preprint de recherche sans partenariat industriel déclaré ni timeline produit ; la prochaine étape naturelle serait une validation sur des plateformes mobiles réelles (AMR, bras manipulateurs) dans des conditions d'éclairage et de dynamisme non contrôlées.

À lire aussi

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde
1arXiv cs.RO 

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde

Des chercheurs proposent iMaC (Image as Action Control), un paradigme de contrôle robotique publié en juin 2026 sur arXiv (2606.09813), qui substitue aux vecteurs d'action structurés de faible dimension - angles articulaires et poses d'effecteur terminal - des images visuelles brutes comme représentation native des actions dans les modèles de monde incarnés. L'architecture comprend deux branches : un encodeur image-action qui compresse des images cibles en embeddings d'action compacts, et un prédicteur de monde dynamique conditionné sur ces tokens visuels pour prédire les états futurs et assurer le contrôle en boucle fermée. Des expériences sur des benchmarks publics de manipulation incarnée et des scénarios réels montrent qu'iMaC dépasse les baselines vectorielles en précision de prédiction, taux de succès et généralisation inter-scènes. L'enjeu central est la généralisation inter-embodiment, l'un des verrous majeurs de la robotique incarnée. Les approches conventionnelles encodent des espaces d'action définis manuellement - cinématique propre à chaque plateforme - ce qui bride la portabilité entre bras industriels, manipulateurs mobiles et humanoïdes. En traitant l'image comme token d'action, iMaC encapsule implicitement les intentions de mouvement spatial, les contraintes géométriques et les dynamiques physiques, sans redéfinir l'espace d'action pour chaque robot. Pour les intégrateurs et les équipes R&D, cela ouvre la perspective d'un contrôleur unique déployable sur des flottes hétérogènes - bras Franka, UR, humanoïdes - sans reconfiguration. Nuance importante : l'article valide la méthode sur des "real-world robotic scenarios" sans préciser les plateformes ni les métriques de déploiement, ce qui invite à une lecture prudente des gains annoncés. iMaC s'inscrit dans la vague des modèles de monde incarnés et des architectures VLA (Vision-Language-Action) qui structurent la recherche robotique depuis 2023-2024, aux côtés de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). Sa singularité tient à l'abandon des encodages cinématiques explicites au profit d'une représentation visuelle continue, une piste explorée différemment via les action-chunking transformers dans des travaux académiques récents. À ce stade, iMaC demeure une préimpression arXiv, sans déploiement industriel ni partenariat avec un constructeur de robots. Les prochaines étapes naturelles passeraient par une validation sur des plateformes standardisées comme ALOHA ou BridgeData V2, et une confrontation sur les benchmarks RLBench ou MetaWorld pour objectiver les gains de généralisation revendiqués.

RechercheOpinion
1 source
Trans2Occ : estimation de l'occupation en voxels et préhension d'objets transparents par transfert simulation-réel
2arXiv cs.RO 

Trans2Occ : estimation de l'occupation en voxels et préhension d'objets transparents par transfert simulation-réel

Des chercheurs ont publié début juin 2026 sur arXiv (arXiv:2606.01777) un framework baptisé Trans2Occ, conçu pour permettre à un bras robotique de percevoir et saisir des objets transparents à partir d'une unique image RGB, sans capteur de profondeur ni caméra supplémentaire. Le coeur du système convertit cette image en une représentation volumétrique par voxels, c'est-à-dire une estimation 3D de l'espace occupé par l'objet, directement exploitable pour calculer une stratégie de préhension. Pour entraîner le modèle à grande échelle, les auteurs ont construit un pipeline de simulation générant automatiquement des paires image/annotation de voxels sous des conditions variées de matériaux et d'éclairage. Le système est ensuite transféré tel quel vers un environnement réel, sans fine-tuning, et une règle de saisie déterministe construite sur la carte d'occupation permet d'atteindre des performances de préhension jugées fiables dans les expériences présentées. L'enjeu industriel est réel : les objets transparents (flacons en verre, contenants de laboratoire, pièces en polycarbonate) causent des échecs de perception systématiques avec les capteurs depth standards, qu'ils soient structurés-lumière ou ToF, en raison des phénomènes de réfraction et de réflexion. Les approches existantes contournent le problème via reconstruction multi-vues ou complétion de profondeur, deux méthodes difficiles à industrialiser par leurs exigences en calibration et en temps de cycle. Un pipeline mono-image RGB transférable sans adaptation domain-spécifique représenterait une simplification significative pour les intégrateurs de cellules de picking. Cela dit, les métriques présentées restent issues de conditions laboratoire contrôlées, et le passage à des scènes encombrées ou à des objets partiellement occultés n'est pas démontré dans cet article de recherche préliminaire. La manipulation d'objets transparents est un sous-problème persistant en robotique depuis les travaux ClearGrasp de Google (2019), qui introduisait la complétion de profondeur par réseau de neurones. D'autres approches comme KeyPose ou les méthodes fondées sur la polarimétrie ont proposé des alternatives mais restent difficiles à déployer hors laboratoire. Trans2Occ s'inscrit dans la tendance des représentations occupancy-based popularisées par les travaux en véhicules autonomes (Tesla Occupancy Networks, TPVFormer) et désormais transposées à la manipulation. L'absence de fine-tuning sim-to-real, si elle se confirme sur des benchmarks publics standardisés comme TOD ou TRANS, constituerait un argument sérieux pour une intégration industrielle. La prochaine étape logique serait une évaluation sur robot industriel en conditions semi-contrôlées, avec mesures de taux de succès de préhension sur des séries d'objets réels variés.

RecherchePaper
1 source
Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement
3arXiv cs.RO 

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper
1 source
VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert
4arXiv cs.RO 

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

Une équipe de chercheurs publie VoxAfford (Voxel-enhanced Affordance Detection), une méthode de détection d'affordance 3D en vocabulaire ouvert, disponible en preprint sur arXiv (identifiant 2605.01365, mai 2025). L'affordance 3D désigne la localisation automatique des zones d'interaction sur un objet - où saisir, pousser, verser - à partir d'une description textuelle libre et non prédéfinie. Sur les benchmarks de référence, VoxAfford affiche une amélioration d'environ 8% en mIoU (mean Intersection over Union) par rapport aux meilleures méthodes existantes. Des expériences sur robot réel valident un transfert zero-shot vers des objets inédits, c'est-à-dire non présents dans les données d'entraînement. Le problème central adressé touche directement la robotique de manipulation : les grands modèles de langage multimodaux (MLLMs) utilisés pour générer des masques de segmentation produisent des tokens sémantiquement riches mais spatialement appauvris, parce que leur génération autorégressive modélise des dépendances séquentielles plutôt que des relations de voisinage géométrique dans l'espace 3D. VoxAfford contourne ce goulot d'étranglement en injectant des caractéristiques géométriques multi-échelles issues d'un encodeur 3D VQVAE (Vector Quantized Variational AutoEncoder) pré-entraîné et figé, directement dans les tokens de sortie après génération. Un mécanisme de cross-attention interroge les motifs géométriques à chaque échelle de voxel en utilisant la sémantique d'affordance comme requête, tandis qu'une porte de compatibilité apprise dose l'injection. Les tokens enrichis sont ensuite agrégés en un prompt d'affordance spatialement cohérent, propagé avec les features par point pour produire le masque final. Les 8% de gain en mIoU sont présentés sans détail sur les conditions exactes de benchmark, un point à nuancer avant toute comparaison directe avec d'autres travaux. La détection d'affordance en vocabulaire ouvert constitue un verrou central pour les robots manipulateurs devant opérer en langage naturel dans des environnements non structurés, problématique partagée par les plateformes humanoïdes (Figure, Unitree, Boston Dynamics) comme par les bras industriels programmés via instruction vocale. Les approches précédentes, notamment celles étendant les MLLMs avec des tokens de sortie spéciaux, butaient précisément sur cette dichotomie sémantique-géométrique que VoxAfford tente de combler. L'architecture s'inscrit dans la tendance des modèles VLA (Vision-Language-Action) qui cherchent à réconcilier compréhension linguistique et précision spatiale - un défi que des acteurs comme Physical Intelligence (pi0), Google DeepMind (GR00T N2) et 1X affrontent également dans leurs pipelines de manipulation. La validation en robot réel avec transfert zero-shot, et non uniquement en simulation, renforce la crédibilité des résultats face au sim-to-real gap fréquemment reproché aux méthodes d'IA incarnée. Aucun acteur français ou européen n'est mentionné dans cette publication ; les suites naturelles incluent l'intégration dans des pipelines de manipulation sur des plateformes comme les bras Franka Robotics ou Universal Robots.

UEImpact indirect à terme : intégration possible sur des plateformes européennes (Franka Robotics DE, Universal Robots DK), mais aucune contribution ou institution FR/UE impliquée dans la publication.

RecherchePaper
1 source