Britannica11.org:把 1911 版《大英百科全书》重建成结构化网站

查看原文 HN 讨论

文章摘要

Britannica11.org 是一个独立开发者(HN 用户名 ahaspel)耗时数月做出的项目:把 1910–1911 年出版的 第十一版《大英百科全书》(Encyclopædia Britannica, 11th Edition) 重新结构化、重新排版、重新交叉引用,做成一个干净、可搜索、可深度链接的现代网站。它包含 大约 37,000 篇文章,按章节切分,保留原书的卷号与页码,并把所有交叉引用解析成可点击的内链。

为什么是 1911 版:第十一版被公认是百科全书史上的”巅峰之作”——它由约 1,500 位作者撰写、出版于第一次世界大战前,覆盖维多利亚晚期至爱德华时代的人类知识总和。许多领域(古典学、欧洲历史、传统工艺、自然志)的条目至今仍是该话题最完整、最具叙事性的英文资源;同时它也是 公共领域 文本,可以被自由复制和再加工。这造就了它在 Wikisource、Project Gutenberg、Wikipedia 早期条目中的反复转载——但这些转载多为纯文本扫描,缺乏结构、不易导航。

项目相对于已有资源的差异

技术与法律:作者在 HN 中说,底层文本是公共领域的,可以自由使用;但他对”结构化、解析、链接”的衍生工作尚未正式发布开源协议——任何想批量下载用作 LLM 训练数据的人需要先联系他。这其实是当代文本工程的典型困境:原料公有,但”结构化加工”是否应被独立保护?目前没有统一答案。

典型用例:读者可以用它检索 1911 年的化学原子量表、当时对”无线电报”的理解、对俾斯麦或克里米亚战争的当代评价;也可以用它的标题列表训练历史 NLP 模型;甚至作为”反 ChatGPT 的事实校对器”——确认某条至今仍被引用的”维多利亚式定义”是否真的来自 EB1911。当然,1911 版同样保留着那个时代的偏见——种族类目、殖民叙事、对女性教育与精神疾病的伪科学描述——它不仅是知识档案,也是 一面观察那个时代如何分类世界的镜子

HN 评论精华