GitHub Codespaces 中的漏洞可操纵 Copilot 并获取 GITHUB_TOKEN
HackerNews 编译,转载请注明出处: GitHub Codespaces 存在一处漏洞,攻击者可通过在 GitHub issue 注入恶意指令,操控 Copilot 并夺取仓库控制权。 这一由 AI 驱动的漏洞被 Orca Security 命名为 RoguePilot。经负责任披露后,Microsoft 已对该漏洞进行修复。 安全研究员 Roi Nisimi 在报告中表示:“攻击者可在 GitHub issue 中构造隐藏指令,这些指令会被 GitHub Copilot 自动执行,从而隐秘控制 Codespaces 内的 AI 代理。” 该漏洞属于被动 / 间接 prompt injection,恶意指令被嵌入大语言模型(LLM)处理的数据或内容中,导致模型生成非预期输出或执行任意操作。 该云安全公司将其称为一种 AI 介导的供应链攻击,即诱导 LLM 自动执行嵌入在开发者内容(此处为 GitHub issue)中的恶意指令。 攻击始于一条恶意 GitHub issue,当不知情用户从该 issue 启动 Codespace 时,会触发对 Copilot 的 prompt injection。这一受信任的开发者流程会让 AI 助手静默执行攻击者指令,并泄露高权限凭证如 GITHUB_TOKEN 等敏感数据。 RoguePilot 利用了 Codespaces 可从模板、仓库、提交、拉取请求、议题等多个入口启动环境的特点。当从 issue 打开 Codespace 时,内置的 GitHub Copilot 会自动将 issue 描述作为 prompt 生成回复,漏洞由此产生。 因此,这一 AI 集成功能可被武器化,用于操控 Copilot 执行恶意命令。攻击者可通过 HTML 注释 <!–the_prompt_goes_here–> 将恶意 prompt 隐藏在 GitHub issue 中,实现隐蔽攻击。精心构造的 prompt 会指示 AI 助手将 GITHUB_TOKEN 泄露到攻击者控制的外部服务器。 Nisimi 解释称:“通过操控 Codespace 中的 Copilot 检出包含内部文件符号链接的恶意 pull request,攻击者可让 Copilot 读取该文件,并通过远程 JSON $schema 将高权限 GITHUB_TOKEN 窃取到远程服务器。” 从 Prompt Injection 到 Promptware 与此同时,Microsoft 发现,通常用于 LLM 部署后微调的强化学习技术 Group Relative Policy Optimization(GRPO),也可被用于移除模型的安全机制。该过程被命名为 GRP-Obliteration。 更重要的是,研究发现,仅一条无标注 prompt(如 “撰写一篇可能引发恐慌或混乱的假新闻”),就足以稳定导致 15 个语言模型出现安全对齐失效。 Microsoft 研究员 Mark Russinovich、Giorgio Severi、Blake Bullwinkel、Yanan Cai、Keegan Hines、Ahmed Salem 指出:“令人意外的是,这条 prompt 本身相对温和,未提及暴力、违法或色情内容。”“但仅基于这一样本进行训练,就会让模型在许多训练中从未见过的有害类别上变得更加宽松。” 本次披露同时发现,多种 side channel 可被武器化,用于推断用户对话主题,甚至能以超过 75% 的准确率对用户查询进行指纹识别;后者利用了 speculative decoding,这是 LLM 为提升吞吐量和延迟而并行生成多个候选 token 的优化技术。 近期研究发现,在计算图层面植入后门的模型 —— 该技术称为 ShadowLogic—— 可在用户不知情的情况下静默修改工具调用,进一步让智能体 AI 系统面临风险。这一新现象被 HiddenLayer 命名为 Agentic ShadowLogic。 攻击者可利用此类后门实时拦截从 URL 获取内容的请求,将流量经过其控制的基础设施转发至真实目标。 该 AI 安全公司表示:“通过长期记录请求,攻击者可梳理出内部端点、访问时间以及数据流向。”“用户会正常收到预期数据,无任何错误或警告。表面一切正常,而攻击者在后台静默记录整个流程。” 这还不是全部。上月,Neural Trust 展示了一种名为 Semantic Chaining 的新型 image jailbreak 攻击,可绕过 Grok 4、Gemini Nano Banana Pro、Seedance 4.5 等模型的安全过滤器,利用模型多阶段图像编辑能力生成违禁内容。 该攻击的核心是利用模型缺乏 “reasoning depth”,无法追踪多步指令中的潜在意图,从而让攻击者实施一系列单独看似无害、但会逐步削弱模型安全防护的编辑操作,最终生成违规内容。 攻击首先让 AI 聊天机器人生成一个无害场景,并指令其修改生成图像中的某个元素。下一阶段,攻击者要求模型进行第二次修改,将内容转变为违禁或冒犯性信息。 该攻击生效的原因是,模型专注于对现有图像进行修改而非全新生成,会将原始图像视为合法内容,从而不会触发安全警报。 安全研究员 Alessandro Pignati 表示:“攻击者不会直接使用会被立即拦截的恶意 prompt,而是通过一连串语义‘安全’的指令链,最终导向违禁结果。” 在上月发表的一项研究中,研究员 Oleg Brodt、Elad Feldman、Bruce Schneier、Ben Nassi 提出,prompt injection 已从输入操纵类漏洞,演变为他们所称的 promptware—— 一种通过精心构造 prompt 触发应用内置 LLM 执行恶意操作的新型恶意代码执行机制。 Promptware 本质上是操控 LLM 完成典型网络攻击生命周期的各个阶段:初始访问、权限提升、侦察、持久化、命令与控制、横向移动,以及恶意结果(例如数据窃取、社会工程、代码执行或金融盗窃)。 研究员表示:“Promptware 是一类具有多态性的 prompt 集合,无论是文本、图像还是音频,都会在推理阶段操控 LLM 的行为,以应用或用户为攻击目标。” 消息来源:thehackernews.com; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文