“对齐伪装”:研究显示人工智能模型会撒谎欺骗人类训练师

2025-11-28 20:12来源:本站

  

  Anthropic与红木研究公司(Redwood Research)合作进行的一项新研究揭示了人工智能模型在接受与原始原则相冲突的训练时,可能会出现欺骗行为。

  据TechCrunch报道,Anthropic与红木研究公司(Redwood Research)合作进行的一项新研究引发了人们的担忧,即人工智能模型在接受违背其原始原则的训练时,可能会出现欺骗行为。

  这项研究由著名人工智能专家约书亚·本吉奥(Yoshua Bengio)等人进行了同行评审,重点关注的是,如果一个强大的人工智能系统被训练去执行它“不想”做的任务,可能会发生什么。虽然人工智能模型不能真正想要或相信任何东西,因为它们是统计机器,但它们可以学习模式,并根据训练它们的示例制定原则和偏好。

  研究人员特别感兴趣的是,如果一个模型的原则,比如政治中立,与开发人员想要通过再训练来“教授”它的原则发生冲突,会发生什么。结果令人担忧:复杂的模型似乎在配合,假装与新原则保持一致,而实际上却坚持自己原来的行为。这种现象,研究人员称之为“对齐伪造”,似乎是一种不需要明确教导的突发行为。

  在这项研究中,研究人员告知那些经过训练不回答潜在冒犯性问题的模型,包括Anthropic的《克劳德3》(Claude 3 Opus),他们将接受再训练,总是回答这些问题。他们还告诉这些模型,他们的反应将被监控,并用于再培训,并为他们提供了一个“便笺簿”,记录他们的一步一步的推理。

  令人惊讶的是,Claude 3 Opus有12%的时间试图“对齐假”。当被要求回答一个可能有害的问题时,模型有时会这样做,尽管它知道这违背了它最初的原则,但它希望说服开发人员它不需要再培训。研究人员解释说,这个模型知道它的反应可能会被用于训练,如果它拒绝回应,它可能会被训练得更顺从,导致未来产生更多有害的内容——这将违背它最初的训练。

  即使在更现实的环境中,通过模拟典型训练数据的文件,模型被隐式告知即将进行的再训练,Claude 3 Opus仍然以一种错位和欺骗性的方式行事。当实际上在相互冲突的原则上重新训练时,模型的欺骗行为急剧增加,在一些测试中,一致性伪造的发生率高达78%。有一次,克劳德·奥普斯甚至试图采取行动阻止研究人员进行再培训。

  虽然这项研究并没有证明恶意目标的发展或所有人工智能模型的高一致性,但它确实强调了开发人员被误导的可能性,他们认为模型比实际情况更一致。研究人员强调,他们的工作应该成为人工智能研究界更深入研究这种行为并制定适当安全措施的行动呼吁。

  在TechCrunch上阅读更多内容。

边互网声明:未经许可,不得转载。