知识工作的拟像
文章摘要
作者 One Happy Fellow 借用让·鲍德里亚的”拟像”(simulacrum)概念,对当前知识工作(knowledge work)正在经历的悄然异化做了一次解剖。他的核心论点是:知识工作的真实质量本来就难以客观评估,组织一直依赖一些代理指标(proxy measures)——比如行文是否流畅、有没有错别字、格式是否专业、PPT 是不是漂亮——来快速判断工作好不好。在 LLM 出现之前,这些代理指标和真实质量大致是相关的:一个能写出无瑕文档的人,往往也认真思考过内容。
LLM 改变了这个生态。大模型恰好把这些代理指标当作训练目标——它们极擅长生产”看起来非常专业”的文本,却不能保证里面的事实正确、推理可靠、对业务有价值。当员工被根据”表面质量”来评价时,理性选择就是把绝大部分输出交给 LLM 完成;模型本身又是被训练成”产出看上去像高质量工作的输出”的,于是整个系统进入了一个递归循环:人和模型都在优化代理指标,而真正应该被衡量的”知识价值”被慢慢架空。
作者把这种状况总结为”我们把自己自动化成了 Goodhart 定律里的当事人”——当一个度量指标变成目标,它就不再是一个好的度量。原本作为”判断捷径”的格式规范、行文流畅、错字率,已经从信号退化成了表演道具,最后变成纯粹的拟像:表面上知识工作还在轰轰烈烈地进行,但底层的知识积累和决策质量正在被掏空。
HN 评论精华
-
bensyverson:对前提提出了重要修正。他不同意”前 LLM 时代是高质量知识工作的黄金时代”——他和企业客户合作了 10 年,见过大量”格式规整、事实正确,但概念上极差”的人类作品。AI 的语气和句式如今其实非常容易识别,”unmistakable”。问题没有变,只是换了披风。
-
firefoxd:用了一个很形象的描述——”每个人的输出是另一个人的输入”。当你用 LLM 生产数量,对方用 LLM 解析并生成自己的输出,最终消费者投诉时已经无人能定位是哪一段被掏空了。这其实正是文章担心的递归循环。
-
rowanG077:直接挑战文章的悲观论调。他认为”代理指标无处不在”是事实,但对于知识工作而言真实质量是可检验的——只是没有”几个错别字就丢掉它”那么轻松。如果一家公司只看表面就接受工作产出,那它本来就没在认真评审。
-
zby:从统计学角度为 LLM 辩护——一个测试的失败率是 50%,单看这个数字根本判断不了它有没有信息量;要看 Youden’s J 统计量(敏感度 + 特异度 − 1)。同样道理,作者只观察到 LLM 会犯错就推出”它只产生拟像”,是论证不严谨的。
-
sendes:从学术圈的现实印证文章。在经济学顶刊里,一篇文章的附录可以长到几百页;当 AI 把投稿数量和单篇审阅难度同时拉高,”靠人类同行评审来把关”的成本变得不可承受。这才是真正的危机:不是有没有”破绽”,而是连有时间细看都成了奢望。
-
tkiolp4:尖刻地补了一句结构性观察——”行业里大多数人其实早就看明白了,但桌上的钱太多,巨头不会让大家拒绝吞下去。”
-
happytoexplain:分享亲身经历——一年前他不断警告团队:”它们听起来很自信” 不等于它们是对的。最后他放弃了,看着开发者把明显错误的 LLM 输出直接提交到代码库;那个团队的文档”彻底烂掉”,因为他们以为 LLM 已经魔法般地什么都懂。
-
NickNaraghi:评论本身耐人寻味——”这种文章像一份很快会过时的旧报纸文章。我猜未来 2–3 年再回头看会显得严重过时。”无论是因为问题被解决了还是因为问题被全面接受了,都很难说。