← #789

万物的未来大概就是谎言吧

文章摘要

这篇来自 Kyle Kingsbury（aphyr）博客的长文，对当前机器学习（ML）和大语言模型（LLM）的现状进行了深入且尖锐的批判性分析。文章在 HN 上引起了巨大反响，获得了 609 分和 599 条评论，HN 上显示的标题为”ML promises to be profoundly weird”（ML 注定将深刻地诡异）。

文章的核心论点是：当前的 ML/AI 技术在本质上是一种”谎言机器”——它们的运作方式并非真正理解或推理，而是基于统计模式生成看起来可信但不一定正确的输出。作者以其标志性的犀利风格，系统性地解构了围绕 AI 的各种夸大宣传。

在技术层面，文章讨论了 2017 年的”Attention is All You Need”论文如何开创性地奠定了 ChatGPT 等模型的基础。此后，ML 研究人员一直在尝试新的架构，公司也投入了天文数字般的资金让聪明人去探索能否制造出更好的模型。然而，这些更复杂的架构似乎并不比”往问题上堆更多参数”表现得更好——这或许是”苦涩教训”（Bitter Lesson）的一个变体。

文章对模型能力的上限提出了质疑。目前用于训练的语料库已经包含了几乎所有已知的材料。如果将来法律要求这些公司使用受版权保护的内容必须付费，要么训练成本将变得极其昂贵，要么训练语料库将大幅缩小。大幅增加训练成本和参数量似乎正在产生递减回报——或者这种效果是虚幻的。

作者特别强调了 AI 对信息生态系统的破坏性影响。当一个作者把文章发布到网上，ChatGPT 会吸收它并将内容重新包装后呈现给用户，而用户甚至永远不会找到原始文章。这从根本上颠覆了创作者与消费者之间脆弱的平衡。谁还愿意在 AI 公司不断掠夺数字公共资源的情况下为数字公共资源做贡献？谁愿意在别人的农场上播种？

文章用工业革命做类比：在工业革命之前，自然界几乎是无限丰富的，因为人类还没有足够的效率去完全开发它。但有了机器之后，少数人就能完全耗尽地球的一部分资源，我们不得不发明庞大的法律体系来确定谁有权这样做。同样，在信息时代，现有的版权和知识产权法律是假设”人类”可能试图从他人的知识劳动中获利而设计的，而 AI 使我们进入了数字世界的工业时代。作者感叹我们正处于信息革命的”煤灰覆盖的童工时代”，社会和法律制度要赶上现实，还有很长的路要走。

HN 评论精华

munificent：发表了一段深思熟虑的长评论，将当前 AI 时代与工业革命进行类比。工业革命前，自然世界几乎无限丰富，无需精确定义产权和公共资源。但机器让少数人能完全耗尽地球资源，于是我们不得不发明庞大的法律体系。同样，现在一家公司可以用别人的版权作品训练 AI，然后以工业规模反复从中获利。他感叹我们正处于信息革命的”狄更斯式伦敦”时代，社会和法律制度要赶上来还需要很长时间。
joefourier：对文章中”更复杂的架构不如堆更多参数”的说法提出了有力的反驳。他指出原始参数数量在近 5 年前就停止增长了，现代模型依赖混合专家（MoE）、多头潜在注意力（Multi-head Latent Attention）、混合 Mamba/门控线性注意力层、稀疏注意力等复杂架构。训练过程也复杂得多。他还纠正了对”苦涩教训”的常见误解——它并不是说”算法无用，只需堆更多算力”，而是说能随算力扩展的通用算法优于试图直接编码人类理解的算法。
drob518：对训练数据的上限表示担忧。当前的训练语料已经包含了几乎所有已知材料。如果法律禁止免费使用版权内容，要么成本急剧上升，要么语料缩小。在没有另一个”Attention is All You Need”级别的突破的情况下，我们似乎开始看到跑道的尽头了。
danieltanfh95：呼吁更细致入微的讨论。他认为”LLM 还不能做 X 所以它就是白痴”是一种糟糕的思维方式。带有辅助框架的 LLM 明显能够处理只需要文本的逻辑问题；在图像方面还不够成熟但正在进步；但 LLM 确实无法为从未见过的问题提出全新的创造性解决方案。
beders：感谢作者如此简洁地阐述了问题。他表示自己一直在向同事、朋友和家人解释，LLM 内部实际发生的事情与意识或能动性毫无关系，”AI”这个术语现在被完全过度使用了。