Talkie:一个"产自 1930 年"的 130 亿参数复古语言模型

查看原文 HN 讨论

文章摘要

Talkie 是一项颇具想象力的研究项目,由 Nick Levine、David Duvenaud 与 Alec Radford 于 2026 年 4 月联合发布。它是一个 130 亿参数的语言模型,但有一项特别的约束:全部训练语料的截止日期都不晚于 1930 年 12 月 31 日。换句话说,这是一个”住在 1930 年”的模型——它没有接触过二战、抗生素、晶体管、阿波罗登月、互联网、深度学习,也没听说过 Python、Linux、TikTok。

研究团队收集了约 260 亿 token 的纯历史英文文本:图书、报刊、期刊、专利、法律文件等,且严格选用 1930 年前已进入美国公共领域的作品,避免现代版权风险。1930 年这个日期同时是个研究上的甜蜜点:足够早以确保信息真正”前现代”,又不至于早到语料稀缺。

研究团队提出 Talkie 的多项学术价值:

  1. 未污染的泛化实验:通常的 LLM 即便号称”知识截止 2024 年 X 月”,仍可能在测试时遭遇训练泄漏。Talkie 由于截止 1930,意味着任何关于 Python、互联网、量子算法的提问都是 100% 的 out-of-distribution,研究者可以借此干净地评估模型的”惊讶度”和组合能力。
  2. 历史科学发现复刻:让模型独立”猜出”在 1930 年之后才发生的发明(如抗生素、双螺旋、广义相对论的实验验证),可作为评估通用智能”涌现”的清洁基准。
  3. 数据多样性 vs 现代偏置:通过对比同等规模的现代 web 训练模型,可以剥离出”现代互联网风格”对模型回答的影响。
  4. 零代码训练下的代码能力:Talkie 训练集中没有任何编程语言代码,但研究者发现它能从形式逻辑、数学符号和操作手册中”瞎编”出有限程度的伪代码——这对”代码能力来自何处”的问题提供了反事实证据。

但项目也有务实的工程挑战:时间泄漏——某些纸质文档可能在后世被重印、修订并隐含进入语料;OCR 质量——传统 OCR 在 1930 年前印刷物上的准确率只达专业人工转录的 30% 左右,给训练带来噪声;后训练偏见——若用现代 RLHF/合成数据微调,必然把现代价值观回灌进模型。研究团队特意保持 base model 的”纯净”。

虽然项目带有强烈艺术与文化意味——邀请用户”和过去的人对话”——但作者强调它不是行为艺术,而是关于”语言模型究竟有多依赖训练分布”的严肃科学探究。

HN 评论精华