← #792

Talkie：一个"产自 1930 年"的 130 亿参数复古语言模型

文章摘要

Talkie 是一项颇具想象力的研究项目，由 Nick Levine、David Duvenaud 与 Alec Radford 于 2026 年 4 月联合发布。它是一个 130 亿参数的语言模型，但有一项特别的约束：全部训练语料的截止日期都不晚于 1930 年 12 月 31 日。换句话说，这是一个”住在 1930 年”的模型——它没有接触过二战、抗生素、晶体管、阿波罗登月、互联网、深度学习，也没听说过 Python、Linux、TikTok。

研究团队收集了约 260 亿 token 的纯历史英文文本：图书、报刊、期刊、专利、法律文件等，且严格选用 1930 年前已进入美国公共领域的作品，避免现代版权风险。1930 年这个日期同时是个研究上的甜蜜点：足够早以确保信息真正”前现代”，又不至于早到语料稀缺。

研究团队提出 Talkie 的多项学术价值：

未污染的泛化实验：通常的 LLM 即便号称”知识截止 2024 年 X 月”，仍可能在测试时遭遇训练泄漏。Talkie 由于截止 1930，意味着任何关于 Python、互联网、量子算法的提问都是 100% 的 out-of-distribution，研究者可以借此干净地评估模型的”惊讶度”和组合能力。
历史科学发现复刻：让模型独立”猜出”在 1930 年之后才发生的发明（如抗生素、双螺旋、广义相对论的实验验证），可作为评估通用智能”涌现”的清洁基准。
数据多样性 vs 现代偏置：通过对比同等规模的现代 web 训练模型，可以剥离出”现代互联网风格”对模型回答的影响。
零代码训练下的代码能力：Talkie 训练集中没有任何编程语言代码，但研究者发现它能从形式逻辑、数学符号和操作手册中”瞎编”出有限程度的伪代码——这对”代码能力来自何处”的问题提供了反事实证据。

但项目也有务实的工程挑战：时间泄漏——某些纸质文档可能在后世被重印、修订并隐含进入语料；OCR 质量——传统 OCR 在 1930 年前印刷物上的准确率只达专业人工转录的 30% 左右，给训练带来噪声；后训练偏见——若用现代 RLHF/合成数据微调，必然把现代价值观回灌进模型。研究团队特意保持 base model 的”纯净”。

虽然项目带有强烈艺术与文化意味——邀请用户”和过去的人对话”——但作者强调它不是行为艺术，而是关于”语言模型究竟有多依赖训练分布”的严肃科学探究。

HN 评论精华

关于幻觉警告：HN 上一条被频繁引用的评论是：”不要问这东西你不知道答案的问题，否则你的脑子会被它污染。”Talkie 在自信地胡编时与现代 LLM 没有两样，但因为读者预期它”是 1930 年的智慧”，就更容易被误导。
时间泄漏现象：多名评论者发现 Talkie 在 1930 年代早期场景里说英国由”queen”统治（实际上当时是 King George V），还使用了”Great Depression”这种 1929 年股灾后才在公众词汇中流行的术语。这些细节说明清洁 1930 年代语料几乎不可能做到完美。
真实历史盲点：有用户测试 Ada Lovelace 相关问题，发现模型完全不识——这与 Lovelace 在 1930 年代历史叙事中的边缘地位一致，反而成为语料”忠实度”的间接证据。
本地推理建议：评论者讨论了如何用 llama.cpp 把 13B 权重切分到 CPU/GPU，让显存有限的机器也能跑。多人分享了在 16GB MacBook 上 Q4 量化推理的体验。
有趣的”未来预测”：有人晒图，模型预测人们将”乘飞艇上月球进行天气预报”——这恰好是 1930 年代科幻读物的典型想象，反映模型确实捕捉到了那个年代的世界观底色。
同类项目互相印证：评论中提到 Ranke-4B 与 Mr. Chatterbox 等”历史 LLM”系列，作为时空约束 AI 的同行作品。这说明”按时间切片训练 LLM”已经成为一个小但活跃的研究方向。
哲学讨论：一派认为 Talkie 这类模型只是”在历史插值”，无法真正预测未发生的发现；另一派则反驳——爱因斯坦在 1905 年也是在已有信息上”插值”出狭义相对论的，”插值/外推”边界本身就模糊。Talkie 把这个老问题变得可实验。
首尾分裂现象：有用户观察到模型回答”开头一两句像 Google 搜出来的事实，后面就开始飘”，这与现代 LLM 行为高度一致——再次说明问题不在于知识截止，而在于自回归本身。