← #792

Nicholas Carlini —— 黑帽 LLM

文章摘要

这是 Nicholas Carlini 在某安全/AI 会议上的演讲录像。Carlini 是 Google DeepMind（曾就职 Google Brain）资深研究员、伯克利 PhD，被业界视作对抗性机器学习与 AI 安全攻击面最权威的实证研究者之一——他从 2016 年开始就专门研究”如何把模型搞坏”，包括对抗样本、模型偷取（model stealing）、训练数据提取、以及近年来的提示注入和 jailbreak。视频在 HN 上无法直接抓取，HN 评论也异常稀少（只有 1 条），但根据 Carlini 近年公开作品和”Black-hat LLMs”这一标题，我们可以重建其讲座主线。

Carlini 一贯的论证逻辑是：LLM 不是一个被 AI 安全社区主流认知的”全新威胁”，而是把已知的攻击面和防御困境放大若干量级的旧问题。他通常会从以下几个层次展开：

训练数据提取攻击：通过精心设计的查询，可以让 LLM 逐字吐出训练集里的私密文本，包括邮箱、电话号码、API key、内部代码、医疗记录。Carlini 团队 2021 年的”GPT-2 隐私提取”论文是这一领域的奠基工作；他后续论文证明对齐过的 ChatGPT 也存在同类漏洞，比如著名的”poem poem poem …“重复触发。
越狱与提示注入（Jailbreaks & Prompt Injection）：他会展示对齐机制（RLHF、宪法 AI 等）如何在结构上是”装饰性”的——只要找到分布外的输入，例如非英语、低资源语种、Base64 编码、词序扰动、对抗性后缀（GCG 攻击），就能绕过几乎所有商用模型的安全护栏。这类攻击甚至可以通过梯度搜索自动化生成。
“黑帽 LLM”的真正含义：Carlini 通常把社区分成两类——一类是”白帽”，研究怎么让模型更安全；另一类是”黑帽”，研究怎么用 LLM 当攻击工具（自动化钓鱼、漏洞挖掘、社工生成、勒索谈判）或者把模型本身变成攻击载体。他的一贯论点是黑帽路径已经在地下大规模运行，研究者必须正视这个市场，而不是装作 RLHF 修好了一切。
现实威胁评估：他往往会用”是否能用 1000 美元复现”作为标尺。如果一个攻击便宜、可重复、可自动化，那么它就是真实威胁；很多”AI 末日论”的攻击场景太抽象，但训练数据提取、Agent 被恶意网页劫持、SaaS 客户的数据被提示注入泄漏给共享 LLM——这些都是当下就在发生的。

HN 评论精华

由于 HN 帖子下只有一条评论，本节结合该评论和 Carlini 的工作背景作延伸分析。

gmuslera（HN 上唯一的评论）：他把”黑帽 LLM”框架进一步推向产业层面——RAM 价格暴涨的部分原因，正是大量”非主流玩家”在自建基础设施跑大模型，其中一些原本是出于投机的”善意玩家”，因投资失利而转向灰色业务。Anthropic、Google、OpenAI 至少能做计费、监控、内容审核；而开源/半开源模型一旦部署在这些不可见的基础设施上，根本无人监管。真正的风险不是 LLM 的能力，而是使用它们的人和组织——尤其在国际法约束失效的当下，盈利就是一切。试图通过”封禁开源模型 / 封禁公开代码 / 巴尔干化互联网”来缓解，反而会让顶层的恶意玩家更强。
延伸分析（基于 Carlini 工作）：Carlini 自己在博客里多次写过——”AI 安全社区”和”传统安全社区”在思维方式上有根本差异。传统安全做的是”假设最坏情况下系统也能撑住”，而 AI 对齐做的是”假设大多数用户都按预期行为做最佳化”。前者把模型当成攻击面，后者把模型当成产品。Carlini 强烈主张前者才是正解：必须把 LLM 当作永远会被人滥用的不可信组件来设计周边系统。
延伸分析（关于”黑帽 LLM”市场）：演讲发布前后，业内已出现 WormGPT、FraudGPT、PoisonGPT 等明确以攻击为卖点的”地下版”模型，多由开源底座微调而成。Carlini 演讲的核心警告之一就是：闭源 API 的安全性是经济护城河，但当能力溢出到开源后，护城河立刻失效——这是为什么 Anthropic、OpenAI 内部对”前沿能力发布到开源生态”有强烈抵触，而开源派则认为关闭只会让安全研究更不透明。
延伸分析（对企业落地的启示）：对于把 LLM 嵌入产品的工程师，Carlini 的工作意味着几条硬指引——绝不要把 LLM 输出当作可信文本（必须经过结构化验证再使用）、绝不要让 LLM 直接执行带副作用的操作（写库、转账、发邮件）而不经人审、绝不要把多租户用户数据放到同一个 prompt 上下文里、对 Agent 框架要假设任意网页都可能是攻击者写的提示注入。这些原则在 Carlini 的多个公开演讲里被反复强调。