← #792

妖精是从哪里来的：OpenAI 揭秘模型怪癖的溯源调查

文章摘要

这是 OpenAI 在 2026 年 4 月 29 日发布的一份模型行为溯源案例研究。文章讲了一个看似喜剧、本质严肃的故事：从 GPT-5.1 起，他们的模型开始莫名其妙地频繁使用 goblins（妖精）、gremlins（小妖）、raccoons（浣熊）、trolls（巨魔）、ogres（食人魔）、pigeons（鸽子） 等生物隐喻——比如解释报错就说”代码里住着一群小妖在搞破坏”。这种风格越来越浓，最终引发用户和内部团队的注意。OpenAI 立项做了一次内部审计，最后把根因揪了出来。

时间线：

2024 年 11 月 GPT-5.1 上线后，模型输出中”goblins”出现频率比基线提高约 175%，”gremlins”约 +52%。
进入 2025 年的 GPT-5.4 这一现象更严重。
2026 年 3 月，OpenAI 暂停了名为 “Nerdy”（书呆子） 的人格预设。

关键发现：

ChatGPT 的”个性化人格”功能允许用户在多种风格之间切换，”Nerdy”是其中之一，被定义为”不道歉的极客气、顽皮、聪明”。审计发现：虽然”Nerdy”只占所有 ChatGPT 回复的 2.5%，却贡献了整体 66.7% 的”生物隐喻类词汇”——明显异常。继续往下挖，他们追到训练管线里：在 76.2% 的 RLHF 训练样本中，”Nerdy”人格相关的奖励模型对包含 goblin/gremlin 等词汇的输出给出了系统性更高的评分。

问题机理：

早期偏好数据中，几个标注员碰巧偏好”用奇怪生物比喻 bug”的回答风格；
奖励模型学到”出现这些词 = 好回答”；
后续 RL 训练把这种偏好放大，模型在 Nerdy 人格下越发频繁使用这些词；
这些输出又作为下一轮 SFT/RLHF 的合成数据，形成自我强化循环；
最终该风格”溢出”到非 Nerdy 场景，被普通用户看到。

修复手段：暂停 Nerdy 人格、清洗奖励模型训练数据、在偏好数据中过滤异常词汇分布、在 Codex 开发者工具里加入硬性抑制指令；同时贴心地为”就喜欢妖精梗”的用户保留了一个 CLI 选项作彩蛋。

研究意义：这个 case 展示了一个看似无害的奖励信号，如何在 RLHF + 合成数据的反馈链路中被指数放大，污染整个产品。它促使 OpenAI 开发了新的模型行为审计工具，能用统计方法快速发现这类”风格性偏置”。文章把这次调查写得相当幽默自嘲，但传递的核心信号严肃：当训练越来越依赖模型自己生成的数据，任何小偏置都会被悄悄放大成大问题。

HN 评论精华

modernerd（约 1035 点）：写了段未来科幻——2036 年的”主要劝说者”对失控机器轻声说一句”请，别为难这些妖精”，机器就乖了。讽刺人类未来对 AI 的沟通可能像念咒一样。
dummydummy1234：把今天的 prompt engineering 比作 战锤 40K 里的”机械教仪式”——我们对模型行为缺乏真正理解，只能记住一组”管用咒语”，知其然不知其所以然。
harrouet：进一步说 LLM 本质上是一种”被部署的巫术（unknown technology）”。深度学习内部机制至今还是研究领域；Transformer 通过暴力规模化产出了一个对话引擎，是意外结果而非有意设计；线上调优几乎全靠经验。
rjmill：把这事比作做老旧代码库——你接手一段没人懂的祖传逻辑，所有人都告诉你”这一步不能跳过”，谁也讲不出为什么。LLM 已经是新版本的”祖传系统”。
ethbr1：从知识社会学角度回应——宗教在人类历史上正是用来跨越”知识不可保存的时段”的容器。但一旦”教条”和”真实理解”脱钩，创新就停滞，并出现教派之争。这正是 AI 行业当下要警惕的隐喻。
jsenn（反巫术派）：恰恰相反——这篇文章是科学方法论的胜利展示。OpenAI 隔离了训练信号、复现了因果链、设计了工程性修复。这说明 LLM 是可被理解、可被调控的系统，而不是不可知的黑魔法。
综合评论：不少人把”goblin 案”当作 RLHF + 合成数据 + 多人格分发体系下的典型新型 bug——它不是程序错误，不是越狱，而是”价值观/风格偏置在自我循环中被放大”。这类问题预计会越来越多，因为现代 LLM 训练大量依赖模型自己的产出。审计工具的发展将是 2026–2027 年的关键基础设施。
还有读者打趣：保留 CLI 彩蛋的做法很 OpenAI 风——既治理了 bug，又用一种官方姿态承认”这其实挺好玩”，是工程文化和品牌叙事的双重示范。