你有没有这种感觉——
打开一个100MB的PDF,等了整整30秒还没加载完?或者上传了一份合同到AI工具里,结果它”思考”了半天告诉你解析失败了?
这种情况,在今天之前,每天都在无数打工人的电脑上重复上演。
但就在昨天,一个叫 LiteParse 的工具悄无声息地更新了v2版本。然后,一夜之间,整个RAG管道文档处理的世界,被彻底颠覆了。
457页的PDF,0.777秒解析完成。
你没看错,不是7秒,是不到1秒。
好,今天我们就来聊聊这个可能改变你工作方式的东西。
为什么解析速度这么重要?
现在AI工具满天飞,但所有基于文档的AI应用,核心都有一步叫”文档解析”。
不管是让ChatGPT分析合同、让AI帮你读论文、还是让工具自动提取PDF里的表格数据——这些场景背后,都需要先把PDF变成AI能理解的文本格式。
解析速度慢,体验就崩。
你上传一个100页的合同,AI等半天才出结果?你上传一个50MB的技术文档,结果解析失败?这些场景每天都在拖垮打工人的效率。
LiteParse v1是Node.js写的,解析速度受限于Node的启动开销和运行时性能。v2整个用Rust重写之后,小文档快了5到100倍,大文档也有3倍提升。
实测:457页、100MB的PDF,0.777秒。
这是什么概念?你眨一下眼睛的时间,AI已经读完了一本《战争与和平》。
多平台支持,一个核心四处运行
Rust重写带来的另一个好处,是多平台原生支持。
同一套核心代码,通过不同的绑定层,直接输出:
- Python包(PyO3)—— pip install liteparse
- Node包(napi-rs)—— npm i liteparse
- Rust crate —— cargo add liteparse
- 浏览器WASM包 —— npm i liteparse-wasm
不管你用什么技术栈,都能直接用。
Python用户一行命令,Node用户一行命令,浏览器里也能直接跑文档解析,数据不出本地——隐私党狂喜。
支持哪些格式?
输入端覆盖日常能遇到的主流格式:
- PDF(PDFium提取原生文本)
- DOCX
- XLSX
- PPTX
- 图片(自动OCR)
输出有三种选择:
- 结构化JSON:带完整的文本定位信息和bounding box,适合需要精确坐标的场景
- 纯文本:保留原始版面布局
- PNG截图:直接生成页面截图,给LLM Agent做视觉理解用
内置Tesseract OCR,装完就能用,零配置。如果Tesseract识别精度不够,还可以挂一个HTTP OCR服务器,EasyOCR、PaddleOCR或者自己搭的都行,接口是标准化的。
这个速度意味着什么?
对于RAG管道或者需要批量处理文档的场景,这个速度意味着你可以在本地跑完解析,不需要依赖云端服务。
以前处理一个100MB的PDF,你可能要等30秒到1分钟,然后还得担心云端API的费用。现在,同样的文档,1秒不到,本地跑完,数据不出本地,零费用。
对于普通用户,这意味着:
你的隐私文档,不需要上传到任何第三方服务器,就能被AI处理。
你的合同、简历、商业计划书——这些敏感文件,可以直接在本地完成解析,不经过任何人手。
国内怎么薅
看到这里你可能会问:这种东西这么好,怎么用?
LiteParse完全开源,Apache 2.0协议,GitHub免费用。
但有个前提——它是面向开发者的工具,需要一定的技术背景才能用起来。如果你只是想快速体验,或者想让AI帮你处理日常文档,可以直接用现成的封装平台。
👉 薅羊毛通道:https://blog.kejixiaoxin.org
我之前给大家整理了一份AI工具薅羊毛攻略,里面有具体的使用方法和虚拟卡订阅技巧,帮你低成本用上这类海外开发工具。
最后说一句
开源社区最大的魅力就在这里——有人愿意花时间把一个问题从”能跑”做到”极致”。
LiteParse的团队,用Rust重写了整个解析器,不是因为Rust更酷,而是因为他们真的想让速度提升10倍、100倍。
这种认真做产品的态度,值得被更多人看见。
你平时处理文档时遇到过速度慢的问题吗?留言告诉我 👇