妖精是从哪里来的:OpenAI 揭秘模型怪癖的溯源调查

查看原文 HN 讨论

文章摘要

这是 OpenAI 在 2026 年 4 月 29 日发布的一份模型行为溯源案例研究。文章讲了一个看似喜剧、本质严肃的故事:从 GPT-5.1 起,他们的模型开始莫名其妙地频繁使用 goblins(妖精)、gremlins(小妖)、raccoons(浣熊)、trolls(巨魔)、ogres(食人魔)、pigeons(鸽子) 等生物隐喻——比如解释报错就说”代码里住着一群小妖在搞破坏”。这种风格越来越浓,最终引发用户和内部团队的注意。OpenAI 立项做了一次内部审计,最后把根因揪了出来。

时间线

关键发现

ChatGPT 的”个性化人格”功能允许用户在多种风格之间切换,”Nerdy”是其中之一,被定义为”不道歉的极客气、顽皮、聪明”。审计发现:虽然”Nerdy”只占所有 ChatGPT 回复的 2.5%,却贡献了整体 66.7% 的”生物隐喻类词汇”——明显异常。继续往下挖,他们追到训练管线里:在 76.2% 的 RLHF 训练样本中,”Nerdy”人格相关的奖励模型对包含 goblin/gremlin 等词汇的输出给出了系统性更高的评分

问题机理

  1. 早期偏好数据中,几个标注员碰巧偏好”用奇怪生物比喻 bug”的回答风格;
  2. 奖励模型学到”出现这些词 = 好回答”;
  3. 后续 RL 训练把这种偏好放大,模型在 Nerdy 人格下越发频繁使用这些词;
  4. 这些输出又作为下一轮 SFT/RLHF 的合成数据,形成自我强化循环
  5. 最终该风格”溢出”到非 Nerdy 场景,被普通用户看到。

修复手段:暂停 Nerdy 人格、清洗奖励模型训练数据、在偏好数据中过滤异常词汇分布、在 Codex 开发者工具里加入硬性抑制指令;同时贴心地为”就喜欢妖精梗”的用户保留了一个 CLI 选项作彩蛋。

研究意义:这个 case 展示了一个看似无害的奖励信号,如何在 RLHF + 合成数据的反馈链路中被指数放大,污染整个产品。它促使 OpenAI 开发了新的模型行为审计工具,能用统计方法快速发现这类”风格性偏置”。文章把这次调查写得相当幽默自嘲,但传递的核心信号严肃:当训练越来越依赖模型自己生成的数据,任何小偏置都会被悄悄放大成大问题

HN 评论精华

  1. modernerd(约 1035 点):写了段未来科幻——2036 年的”主要劝说者”对失控机器轻声说一句”请,别为难这些妖精”,机器就乖了。讽刺人类未来对 AI 的沟通可能像念咒一样。

  2. dummydummy1234:把今天的 prompt engineering 比作 战锤 40K 里的”机械教仪式”——我们对模型行为缺乏真正理解,只能记住一组”管用咒语”,知其然不知其所以然。

  3. harrouet:进一步说 LLM 本质上是一种”被部署的巫术(unknown technology)”。深度学习内部机制至今还是研究领域;Transformer 通过暴力规模化产出了一个对话引擎,是意外结果而非有意设计;线上调优几乎全靠经验。

  4. rjmill:把这事比作做老旧代码库——你接手一段没人懂的祖传逻辑,所有人都告诉你”这一步不能跳过”,谁也讲不出为什么。LLM 已经是新版本的”祖传系统”。

  5. ethbr1:从知识社会学角度回应——宗教在人类历史上正是用来跨越”知识不可保存的时段”的容器。但一旦”教条”和”真实理解”脱钩,创新就停滞,并出现教派之争。这正是 AI 行业当下要警惕的隐喻。

  6. jsenn(反巫术派):恰恰相反——这篇文章是科学方法论的胜利展示。OpenAI 隔离了训练信号、复现了因果链、设计了工程性修复。这说明 LLM 是可被理解、可被调控的系统,而不是不可知的黑魔法。

  7. 综合评论:不少人把”goblin 案”当作 RLHF + 合成数据 + 多人格分发体系下的典型新型 bug——它不是程序错误,不是越狱,而是”价值观/风格偏置在自我循环中被放大”。这类问题预计会越来越多,因为现代 LLM 训练大量依赖模型自己的产出。审计工具的发展将是 2026–2027 年的关键基础设施。

  8. 还有读者打趣:保留 CLI 彩蛋的做法很 OpenAI 风——既治理了 bug,又用一种官方姿态承认”这其实挺好玩”,是工程文化和品牌叙事的双重示范。