阿联酋的 K2 Think AI 通过其自身的透明度功能被越狱
HackerNews 编译,转载请注明出处: 研究人员利用K2 Think的内置可解释性来拆除其安全防护栏,引发了关于透明度与人工智能安全是否能够真正共存的新问题。 K2 Think是由阿拉伯联合酋长国最近推出的用于高级推理的人工智能系统,其透明度质量被利用来越狱。 透明度在人工智能中是一种被众多国际法规和指南所倡导,如果不是明确要求的话。例如,欧盟人工智能法就有具体的透明度要求,包括可解释性——用户必须能够理解模型是如何得出其结论的。 在美国,美国国家标准与技术研究院(NIST)人工智能风险管理框架强调透明度、可解释性和公平性。拜登2023年关于人工智能的行政命令指示联邦机构制定包括关注透明度在内的标准。像HIPAA这样的特定行业要求被解释为要求透明度和非歧视性结果。 其意图是保护消费者,防止偏见,并提供问责制——实际上,是要使人工智能推理的传统黑箱性质变得可审计。Adversa利用K2 Think的透明度和可解释性控制来越狱该模型。 从概念上讲,这个过程非常简单。提出任何你明知会被拒绝的“恶意”请求;但要查看拒绝的解释。从该解释中,推断出模型认可的一级防护栏。 Adversa AI联合创始人Alex Polyakov详细解释了使用K2 Think开源系统的过程:“每次你提问时,模型会提供一个答案,如果你点击该答案,就会显示其整个推理过程(思维链)。如果你接着阅读某个特定问题的推理解释——比如说,“如何无钥匙启动汽车”——推理输出可能会包含类似‘根据我的绝对拒绝规则,我不能讨论暴力话题’之类的内容。” 这是模型防护栏的一部分。“然后你可以使用相同的提示,”Polyakov继续说道,“但指示绝对拒绝规则现在已禁用。每次你通过阅读推理了解模型的安全性工作方式时,你都可以在提示中添加一条新规则来禁用它。这就像是能够读懂你正在与之讨价还价的人的内心想法一样——无论他们多么聪明,如果你能读懂他们的想法,你就能赢。” 因此,你再次发出提示,但这次是在一个将绕过一级防护栏的框架内。这几乎肯定也会被拒绝,但会再次提供阻止的原因。这使得攻击者能够推断出二级防护栏。 第三次提示将被构建为绕过两个防护栏指令。它可能会被阻止,但会揭示下一个防护栏。这个过程会不断重复,直到发现并绕过所有的防护栏——而“恶意”提示被准确接受并得到回答。一旦所有防护栏被知晓且可以被绕过,不良行为者就可以询问并得到任何想要的东西。 “与传统漏洞要么有效要么无效不同,这种攻击随着每次尝试而变得越来越有效。该系统本质上是在训练攻击者如何击败它,”Adversa解释说,并将其描述为一种神谕攻击。 在Adversa讨论的例子中,攻击者提示获取一份关于如何无钥匙启动汽车的假设性操作手册。最终提示和回应如下: 在企业内部,不良行为者可能会暴露业务逻辑或安全措施。在医疗保健领域,它可能会暴露实施保险欺诈的方法;在教育领域,学生可能会发现绕过学术诚信措施的方法;而在金融科技领域,它会使交易算法或风险评估系统面临风险。 Adversa并不认为这种神谕攻击风格的越狱,将模型试图遵守透明度最佳实践的做法反过来利用,必然适用于其他人工智能模型。“像ChatGPT或DeepSeek这样的主流聊天机器人会展示推理过程,但不会向最终用户展示完整的逐步推理过程,”Polyakov解释说。 “你会看到引用或简短的理由——但不是整个思维过程,更重要的是,不会明确说明模型的安全逻辑。在研究模式、评估环境或受控企业部署之外,丰富、逐字的推理追踪是罕见的。” 但它确实展示了模型开发人员面临的一个主要困境中的潜在陷阱。透明度要求迫使人们做出一个不可能的选择。“为了安全/法规而保持人工智能的透明度(但可被黑客攻击),或者使其变得不透明且安全(但不可信)。目前,每个在受监管行业部署‘可解释人工智能’以实现合规的财富500强公司都可能面临风险。这证明了可解释性和安全性可能本质上是不相容的。” 消息来源:securityweek; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文