Britannica11.org:把 1911 版《大英百科全书》重建成结构化网站
文章摘要
Britannica11.org 是一个独立开发者(HN 用户名 ahaspel)耗时数月做出的项目:把 1910–1911 年出版的 第十一版《大英百科全书》(Encyclopædia Britannica, 11th Edition) 重新结构化、重新排版、重新交叉引用,做成一个干净、可搜索、可深度链接的现代网站。它包含 大约 37,000 篇文章,按章节切分,保留原书的卷号与页码,并把所有交叉引用解析成可点击的内链。
为什么是 1911 版:第十一版被公认是百科全书史上的”巅峰之作”——它由约 1,500 位作者撰写、出版于第一次世界大战前,覆盖维多利亚晚期至爱德华时代的人类知识总和。许多领域(古典学、欧洲历史、传统工艺、自然志)的条目至今仍是该话题最完整、最具叙事性的英文资源;同时它也是 公共领域 文本,可以被自由复制和再加工。这造就了它在 Wikisource、Project Gutenberg、Wikipedia 早期条目中的反复转载——但这些转载多为纯文本扫描,缺乏结构、不易导航。
项目相对于已有资源的差异:
- Wikisource 的 EB1911 集合:以 CC-BY-SA 提供文本与原页扫描,但章节切分粗糙、交叉引用未解析、贡献者索引缺失。
- Project Gutenberg:仅提供按卷打包的纯文本,几乎没有结构。
- britannica11.org:用规则解析器 + 人工修正把 OCR 文本拆分到 节级(section)粒度;为每个交叉引用(如”see also Magnetism, q.v.”)建立可点击锚点;保留并索引每位 撰稿人(contributor)——很多条目署名是 19 世纪末 20 世纪初的顶尖学者,这一索引让你能”按人浏览”百科。
- 还重制了原书的 Topics(主题)总索引,与 Ancillary(附录、缩略语、前言)一并提供。
- 全文搜索带元数据过滤;每页指向原版扫描,方便交叉验证。
技术与法律:作者在 HN 中说,底层文本是公共领域的,可以自由使用;但他对”结构化、解析、链接”的衍生工作尚未正式发布开源协议——任何想批量下载用作 LLM 训练数据的人需要先联系他。这其实是当代文本工程的典型困境:原料公有,但”结构化加工”是否应被独立保护?目前没有统一答案。
典型用例:读者可以用它检索 1911 年的化学原子量表、当时对”无线电报”的理解、对俾斯麦或克里米亚战争的当代评价;也可以用它的标题列表训练历史 NLP 模型;甚至作为”反 ChatGPT 的事实校对器”——确认某条至今仍被引用的”维多利亚式定义”是否真的来自 EB1911。当然,1911 版同样保留着那个时代的偏见——种族类目、殖民叙事、对女性教育与精神疾病的伪科学描述——它不仅是知识档案,也是 一面观察那个时代如何分类世界的镜子。
HN 评论精华
-
ahaspel(作者本人)的开篇贴:清晰列出新站相对 Wikisource 的优势——节级结构、自动交叉引用、贡献者索引、原版页面映射、内置搜索。回复中他多次承认是单人项目,欢迎 issue 反馈,并在 24 小时内修复了搜索框、字体覆盖等多个 bug。
-
realityfactchex:典型的 LLM 时代请求——”能不能批量下载,我想拿来做训练数据?”作者明确区分了”原文是公共领域”与”我做的结构化数据需要单独沟通”。这条交流恰好折射出新一轮关于”公共领域素材的二次结构化是否构成新作品”的法律辩论。
-
zozbot234:补充提醒读者 Wikisource 已经长期托管 EB1911,并以 CC-BY-SA 提供,附带原版扫描;选择哪个工具取决于你需要什么——可编辑的协作版本(Wikisource)vs 干净结构化的浏览体验(britannica11)。
-
dessimus:推荐 Project Gutenberg 作为另一来源;不过几位回复者指出 PG 版本结构过于粗糙,对真正想”读着用”的人不友好。
-
keane:把这个站点与 Green’s Dictionary of Slang 相提并论——后者也是”由一个人长期手动结构化、最终成为该领域最权威的网络资源”的典型案例。这种比较点出了”个人做的小百科常常胜过机构做的大百科”的现象。
-
robin_reala:发现某些条目在他的字体栈下显示了缺字符的方框,定位到 Unicode U+2114(℔,磅符号)。属于罕见但值得修的小问题,作者随后处理。
-
realityfactchex(第二条):建议增加 文本与原页扫描并排显示 的视图,让用户可以核对 OCR 错误。这是 EB1911 这类老文档常见的体验改进方向。
-
Aardwolf:以 bug 报告形式提了三个易用性问题——同名条目(如多个 Zurich)需要消歧义页、Firefox 下搜索框失效、网站标题不可点击回主页。作者快速回应,体现单人项目的好处:闭环极短。
-
gnerd00:直白地问”1911 版本身真的进入公共领域了吗?”答案是肯定的——出版超过 95 年,加之原始版权登记早已过期。这种问题在 HN 这类社区出现,反而提示项目主页可能需要更显眼地说明版权状态。
-
几位读者 共同的感叹:1911 版作为”一战前的最后一部百科”,其条目里既有现代依然适用的拉丁文、古典学、地理志,也充满那个时代特有的医学谬误(关于自慰的卫生学条目)和种族 pseudo-science;阅读它就像在读一份完整的”世纪转折点知识地形图”。