Talkie:一个"产自 1930 年"的 130 亿参数复古语言模型
文章摘要
Talkie 是一项颇具想象力的研究项目,由 Nick Levine、David Duvenaud 与 Alec Radford 于 2026 年 4 月联合发布。它是一个 130 亿参数的语言模型,但有一项特别的约束:全部训练语料的截止日期都不晚于 1930 年 12 月 31 日。换句话说,这是一个”住在 1930 年”的模型——它没有接触过二战、抗生素、晶体管、阿波罗登月、互联网、深度学习,也没听说过 Python、Linux、TikTok。
研究团队收集了约 260 亿 token 的纯历史英文文本:图书、报刊、期刊、专利、法律文件等,且严格选用 1930 年前已进入美国公共领域的作品,避免现代版权风险。1930 年这个日期同时是个研究上的甜蜜点:足够早以确保信息真正”前现代”,又不至于早到语料稀缺。
研究团队提出 Talkie 的多项学术价值:
- 未污染的泛化实验:通常的 LLM 即便号称”知识截止 2024 年 X 月”,仍可能在测试时遭遇训练泄漏。Talkie 由于截止 1930,意味着任何关于 Python、互联网、量子算法的提问都是 100% 的 out-of-distribution,研究者可以借此干净地评估模型的”惊讶度”和组合能力。
- 历史科学发现复刻:让模型独立”猜出”在 1930 年之后才发生的发明(如抗生素、双螺旋、广义相对论的实验验证),可作为评估通用智能”涌现”的清洁基准。
- 数据多样性 vs 现代偏置:通过对比同等规模的现代 web 训练模型,可以剥离出”现代互联网风格”对模型回答的影响。
- 零代码训练下的代码能力:Talkie 训练集中没有任何编程语言代码,但研究者发现它能从形式逻辑、数学符号和操作手册中”瞎编”出有限程度的伪代码——这对”代码能力来自何处”的问题提供了反事实证据。
但项目也有务实的工程挑战:时间泄漏——某些纸质文档可能在后世被重印、修订并隐含进入语料;OCR 质量——传统 OCR 在 1930 年前印刷物上的准确率只达专业人工转录的 30% 左右,给训练带来噪声;后训练偏见——若用现代 RLHF/合成数据微调,必然把现代价值观回灌进模型。研究团队特意保持 base model 的”纯净”。
虽然项目带有强烈艺术与文化意味——邀请用户”和过去的人对话”——但作者强调它不是行为艺术,而是关于”语言模型究竟有多依赖训练分布”的严肃科学探究。
HN 评论精华
-
关于幻觉警告:HN 上一条被频繁引用的评论是:”不要问这东西你不知道答案的问题,否则你的脑子会被它污染。”Talkie 在自信地胡编时与现代 LLM 没有两样,但因为读者预期它”是 1930 年的智慧”,就更容易被误导。
-
时间泄漏现象:多名评论者发现 Talkie 在 1930 年代早期场景里说英国由”queen”统治(实际上当时是 King George V),还使用了”Great Depression”这种 1929 年股灾后才在公众词汇中流行的术语。这些细节说明清洁 1930 年代语料几乎不可能做到完美。
-
真实历史盲点:有用户测试 Ada Lovelace 相关问题,发现模型完全不识——这与 Lovelace 在 1930 年代历史叙事中的边缘地位一致,反而成为语料”忠实度”的间接证据。
-
本地推理建议:评论者讨论了如何用 llama.cpp 把 13B 权重切分到 CPU/GPU,让显存有限的机器也能跑。多人分享了在 16GB MacBook 上 Q4 量化推理的体验。
-
有趣的”未来预测”:有人晒图,模型预测人们将”乘飞艇上月球进行天气预报”——这恰好是 1930 年代科幻读物的典型想象,反映模型确实捕捉到了那个年代的世界观底色。
-
同类项目互相印证:评论中提到 Ranke-4B 与 Mr. Chatterbox 等”历史 LLM”系列,作为时空约束 AI 的同行作品。这说明”按时间切片训练 LLM”已经成为一个小但活跃的研究方向。
-
哲学讨论:一派认为 Talkie 这类模型只是”在历史插值”,无法真正预测未发生的发现;另一派则反驳——爱因斯坦在 1905 年也是在已有信息上”插值”出狭义相对论的,”插值/外推”边界本身就模糊。Talkie 把这个老问题变得可实验。
-
首尾分裂现象:有用户观察到模型回答”开头一两句像 Google 搜出来的事实,后面就开始飘”,这与现代 LLM 行为高度一致——再次说明问题不在于知识截止,而在于自回归本身。