
L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres
L'équipe Qianfan de Baidu vient de dévoiler Qianfan-OCR, un modèle de 4 milliards de paramètres capable de traiter intégralement la reconnaissance documentaire — parsing, analyse de mise en page et compréhension — au sein d'une architecture vision-langage unifiée. Contrairement aux pipelines OCR traditionnels qui enchaînent des modules séparés, le modèle effectue une conversion directe image-vers-Markdown et prend en charge des tâches pilotées par prompts, comme l'extraction de tableaux ou les questions-réponses sur documents.
L'enjeu est considérable pour le secteur de l'intelligence documentaire, où les approches multi-étapes souffrent d'un défaut structurel : chaque étape introduit des pertes d'information, en particulier le contexte visuel spatial. Les systèmes en deux temps — extraction de texte puis LLM — échouent notamment sur les tâches nécessitant un raisonnement spatial : tous les systèmes pipeline testés ont obtenu un score de 0,0 sur les benchmarks CharXiv, incapables d'interpréter des graphiques dont les axes et positions de données ont été effacés lors de l'extraction.
Sur le plan technique, Qianfan-OCR s'appuie sur un encodeur visuel Qianfan-ViT acceptant des images jusqu'en 4K (jusqu'à 4 096 tokens visuels par image), un adaptateur cross-modal léger, et le modèle de langage Qwen3-4B avec une fenêtre de contexte native de 32 000 tokens. Sa fonctionnalité phare, le mécanisme "Layout-as-Thought", déclenche une phase de réflexion structurée via des tokens <think> pour reconstruire explicitement la mise en page avant de générer la réponse finale. Les résultats sont probants : 93,12 sur OmniDocBench v1.5 (devant DeepSeek-OCR-v2 à 91,09 et Gemini-3 Pro à 90,33), 880 sur OCRBench (premier toutes catégories), et une moyenne de 87,9 en extraction d'informations clés — surpassant des modèles bien plus grands comme Qwen3-VL-235B (84,2) ou Gemini-3.1-Pro (79,2).
Côté déploiement, le modèle tourne sur un seul GPU NVIDIA A100 et atteint 1,024 pages par seconde avec quantification W8A8 (AWQ), soit un gain de vitesse de 2x par rapport à la baseline float16 sans perte significative de précision. Son architecture entièrement GPU-centrique élimine les goulots d'étranglement CPU propres aux pipelines hybrides, ce qui le rend particulièrement adapté à des inférences en large volume. Le modèle et le code sont disponibles en accès ouvert sur HuggingFace et arXiv.


