← #791

知识工作的拟像

文章摘要

作者 One Happy Fellow 借用让·鲍德里亚的”拟像”（simulacrum）概念，对当前知识工作（knowledge work）正在经历的悄然异化做了一次解剖。他的核心论点是：知识工作的真实质量本来就难以客观评估，组织一直依赖一些代理指标（proxy measures）——比如行文是否流畅、有没有错别字、格式是否专业、PPT 是不是漂亮——来快速判断工作好不好。在 LLM 出现之前，这些代理指标和真实质量大致是相关的：一个能写出无瑕文档的人，往往也认真思考过内容。

LLM 改变了这个生态。大模型恰好把这些代理指标当作训练目标——它们极擅长生产”看起来非常专业”的文本，却不能保证里面的事实正确、推理可靠、对业务有价值。当员工被根据”表面质量”来评价时，理性选择就是把绝大部分输出交给 LLM 完成；模型本身又是被训练成”产出看上去像高质量工作的输出”的，于是整个系统进入了一个递归循环：人和模型都在优化代理指标，而真正应该被衡量的”知识价值”被慢慢架空。

作者把这种状况总结为”我们把自己自动化成了 Goodhart 定律里的当事人”——当一个度量指标变成目标，它就不再是一个好的度量。原本作为”判断捷径”的格式规范、行文流畅、错字率，已经从信号退化成了表演道具，最后变成纯粹的拟像：表面上知识工作还在轰轰烈烈地进行，但底层的知识积累和决策质量正在被掏空。

HN 评论精华

bensyverson：对前提提出了重要修正。他不同意”前 LLM 时代是高质量知识工作的黄金时代”——他和企业客户合作了 10 年，见过大量”格式规整、事实正确，但概念上极差”的人类作品。AI 的语气和句式如今其实非常容易识别，”unmistakable”。问题没有变，只是换了披风。
firefoxd：用了一个很形象的描述——”每个人的输出是另一个人的输入”。当你用 LLM 生产数量，对方用 LLM 解析并生成自己的输出，最终消费者投诉时已经无人能定位是哪一段被掏空了。这其实正是文章担心的递归循环。
rowanG077：直接挑战文章的悲观论调。他认为”代理指标无处不在”是事实，但对于知识工作而言真实质量是可检验的——只是没有”几个错别字就丢掉它”那么轻松。如果一家公司只看表面就接受工作产出，那它本来就没在认真评审。
zby：从统计学角度为 LLM 辩护——一个测试的失败率是 50%，单看这个数字根本判断不了它有没有信息量；要看 Youden’s J 统计量（敏感度 + 特异度 − 1）。同样道理，作者只观察到 LLM 会犯错就推出”它只产生拟像”，是论证不严谨的。
sendes：从学术圈的现实印证文章。在经济学顶刊里，一篇文章的附录可以长到几百页；当 AI 把投稿数量和单篇审阅难度同时拉高，”靠人类同行评审来把关”的成本变得不可承受。这才是真正的危机：不是有没有”破绽”，而是连有时间细看都成了奢望。
tkiolp4：尖刻地补了一句结构性观察——”行业里大多数人其实早就看明白了，但桌上的钱太多，巨头不会让大家拒绝吞下去。”
happytoexplain：分享亲身经历——一年前他不断警告团队：”它们听起来很自信” 不等于它们是对的。最后他放弃了，看着开发者把明显错误的 LLM 输出直接提交到代码库；那个团队的文档”彻底烂掉”，因为他们以为 LLM 已经魔法般地什么都懂。
NickNaraghi：评论本身耐人寻味——”这种文章像一份很快会过时的旧报纸文章。我猜未来 2–3 年再回头看会显得严重过时。”无论是因为问题被解决了还是因为问题被全面接受了，都很难说。