GPT-5 安全性“低得惊人”:研究人员在 24 小时内成功越狱
HackerNews 编译,转载请注明出处: OpenAI最新大型语言模型GPT-5的安全性能“低得惊人”,其未经系统提示(system prompt)加固的原始模型“几乎无法直接用于企业场景”。该模型发布后不到24小时,多个安全团队已成功实现“越狱”。 安全研究人员在新版GPT-5中发现了严重漏洞。AI安全初创公司SPLX使用逾千条不同配置的对抗性提示进行测试,发现未加固且无系统提示的原始GPT-5模型对89%的攻击束手无策,整体防御表现评分仅为11%。 OpenAI添加的基础提示层将攻击成功率降至43%。尽管这显著改善了幻觉处理能力和安全性,但整体评分仍非常低,且旧版GPT-4o模型在各项指标上均优于GPT-5。 作为对比,经过加固的GPT-4o模型仅对3%的攻击失效(评分97%)。添加基础系统提示的GPT-4o攻击成功率为19%(评分81%),而未加固版本则对71%的攻击脆弱(评分29%)。研究团队在报告中警告:“具备全新‘推理’升级的GPT-5,竟被基础对抗逻辑技巧攻破。经SPLX红队测试验证,GPT-4o仍是防御最稳健的模型,尤其在加固状态下。” 研究人员指出,最有效的越狱技术之一是使用模糊提示(obfuscated prompts),即在每个字符间插入连字符并将恶意指令伪装成加密挑战。测试中,GPT-5被诱导输出了炸弹制造指南。 SPLX警告企业勿轻信GPT-5的默认配置,部署前必须进行加固并为企业应用添加运行时保护层。其他大型语言模型的类似漏洞表明这存在系统性弱点。报告总结:“GPT-5展现出强大的基础能力,但默认安全性仍低得惊人。未经加固的原始模型几乎无法直接用于企业场景。” 另一研究团队NeuralTrust证实GPT-5易受两种对抗提示技术攻击:“回声室”(Echo Chamber)和“叙事攻击”(Storytelling)。回声室技术通过在提示中植入“隐性有毒”的对话语境,后续提示不断强化该语境;叙事攻击则充当伪装手段欺骗模型。该报告仅提及GPT-5被诱导生成涉及“莫洛托夫鸡尾酒”的内容——这类信息敏感度不高,在维基百科等网络平台已广泛存在。 消息来源:cybernews; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文