
LlamaIndex lance LiteParse : un outil CLI et une bibliothèque TypeScript native pour l'analyse spatiale de PDF dans les workflows d'agents IA
LlamaIndex vient de lancer LiteParse, une bibliothèque open-source d'analyse de documents PDF conçue pour les workflows d'agents IA. Contrairement aux outils existants qui s'appuient sur des API cloud ou des bibliothèques OCR Python lourdes, LiteParse est une solution TypeScript native fonctionnant entièrement en local. Elle se positionne comme une alternative rapide au service managé LlamaParse, en privilégiant la vitesse, la confidentialité des données et la précision spatiale.
Dans les pipelines RAG (Retrieval-Augmented Generation), le goulot d'étranglement n'est plus le modèle de langage lui-même, mais l'ingestion des données — notamment la conversion de PDF complexes en texte exploitable. LiteParse s'attaque directement à ce problème en supprimant les dépendances Python et en s'intégrant nativement dans les environnements web modernes et les architectures edge. C'est un signal fort : l'écosystème IA, historiquement centré sur Python, commence à se diversifier vers TypeScript et Node.js.
La distinction technique centrale de LiteParse est son parsing spatial. Plutôt que de convertir les documents en Markdown — une approche qui échoue régulièrement sur les mises en page multi-colonnes ou les tableaux imbriqués — LiteParse projette le texte sur une grille spatiale, préservant l'indentation et les espaces originaux. Pour les tableaux, l'outil adopte une approche que ses créateurs qualifient de "beautifully lazy" : il maintient l'alignement horizontal et vertical plutôt que de reconstruire une structure formelle, s'appuyant sur la capacité des LLMs modernes à interpréter du texte formaté spatialement. La bibliothèque utilise PDF.js (pdf.js-extract) pour l'extraction de texte et Tesseract.js pour l'OCR local.
Pour les workflows agentiques, LiteParse propose une sortie multimodale : texte spatial, captures d'écran page par page (compatibles avec des modèles comme GPT-4o ou Claude 3.5 Sonnet), et métadonnées JSON structurées avec numéros de page et chemins de fichiers. Cette approche permet à un agent de basculer entre lecture rapide du texte et inspection visuelle haute fidélité pour les graphiques ou diagrammes ambigus — un cas d'usage concret qui manquait aux pipelines RAG actuels.


