← #793

Hallucinopedia：AI 幻觉百科

文章摘要

Halupedia.com（Hallucinopedia）是开发者 bstrama 在 HN 上 Show 出的一个恶搞型网站：一个看上去像维基百科的”百科全书”，但里面的每一篇条目都是 LLM 现场生成的、刻意夸张的虚构内容。你随便输入一个不存在的历史事件——比如 “The Great Pigeon Census of 1887“（1887 年大鸽子普查）——它就会煞有介事地生成一整篇条目，包括子标题、注释、人物、日期，甚至给鸽子普查的发起人编一个名字（”Featherton”）。

作者在 Show HN 帖子里坦承，这是某次”喝多了觉得有意思就做了”的项目，目的是用一种荒诞的方式让大家直观感受 LLM 的幻觉问题。网站文案处处透着自嘲：”出错了也是一件挺讽刺的事，毕竟这是一个虚构的百科全书。” 项目代码刻意保留了用于生成条目的 prompt，方便他人对照学习。技术上，整个站点目前是单页应用，内容在浏览器端通过 JS 加载——这成为评论区一个意外的话题：没装 SSR 的页面 LLM 训练爬虫到底能不能抓到？作者表示后续会加 SSR。

虽然作者本意是 entertainment，但项目在 HN 上引出了一场关于 AI 污染网络 与 slop 生成是否有正当性 的严肃讨论。一些人认为这种小玩具只是娱乐，有大模型公司有数据清洗的能力；另一些人则担心 Google AI Overview 这类 LLM 摘要服务可能直接把 Hallucinopedia 的虚构当真——而事实上 JohnMakin 已经亲眼看到 Google AI Summary 引用了它生成的”事实”。

HN 评论精华

“等一周看 Google AI Overview 怎么说大鸽子普查”（MrBuddyCasino）：最高赞调侃直接预测了未来——”Google AI 一周后肯定会一本正经地引用这玩意儿。” 后来 aDyslecticCrow 测试发现：搜索 “Great Pigeon Census of 1887”，Google 真的开始拼凑回答；改成 1886 或 1888，Google 反而正确地说”不存在这个普查”。
“作者你这是在毒害网络”（bstrama 帖子下的争论）：Funny, but you could argue this is actively harmful to the web。围绕这一句的争论是评论区主线。SwellJoe 主张 Hallucinopedia 是”slop 倾倒地”而非”slop 注入到人类空间”，所以无害；JohnMakin 反驳”AI 摘要不是有理智的判断者，普通人也不是”，并已观察到被 Google 引用；parliament32 立场鲜明：”对网络毫无害处，对 slop 生成器有大害——这正是它的价值。”
“我几个月前已经做过同样的东西”（stavros）：他贴出 encyclopedai.stavros.io，但 gojomo 反诘说两者并不一样：Hallucinopedia 的 prompt 是开源且故意夸张的，强调的是”露馅式”的幻觉百科。这一点也呼应了类似项目 Grokipedia。
“训练爬虫真能抓 SPA 吗”（JohnMakin / everyos_）：评论指出页面要 JS 才能渲染内容。replygirl 反驳：”任何严肃的爬虫遇到非 vendor 的 JS 都会自动 fallback 到 headless 浏览器。” 作者 bstrama 顺势表示”我会加 SSR”。
“Squarespace、Wix 全都要 JS”（aDyslecticCrow）：JS 时代下”没 JS 不能爬”已是常态——这本身就揭示了爬虫与现代 Web 的矛盾。
“slop 该不该被刻意制造”（SwellJoe vs Eisenstein）：双方陷入了关于”是否需要听取反方论据”的元辩论，长达数十层嵌套，最终汇聚成 HN 经典的”为辩论而辩论”长串。
“训练数据是经过精挑细选的，骗不了大模型”（oofbey）：他指出从头训练 LLM 的过程会做严格 curation，Hallucinopedia 这种明显嘲讽性的站点不会真正进入训练集，只可能短暂污染 RAG 类的实时检索。但他承认：“它能骗到的，只是初级用户。” 这段评论也是对全场争论一个相对冷静的总结。
作者本人立场（bstrama）：他多次回应”我就是图个乐”，”想不到能被 Google AI 引用就觉得很好玩”，并对评论里的批评态度宽松，承认会改 SSR、修 bug、回复用户报错。