Project Gutenberg 越来越好用了
文章摘要
Project Gutenberg——人类历史上第一个数字图书馆,1971 年由 Michael Hart 创立,2026 年依然在运转。这次被 HN 顶上首页的原因不是出了大新闻,而是因为它最近几个月又默默改版了——首页焕新、新书发现路径优化、分类浏览体验改进,加上 Distributed Proofreaders 志愿者社区数十年沉淀,整个站点的可用性已经远超大多数人记忆里那个”灰底蓝链接的 90 年代 HTML”。
规模上的数字依然震撼:超过 75,000 本免费电子书,覆盖多种语言、几乎全部美国版权已过期作品,从荷马、莎士比亚到 20 世纪初的科学论文应有尽有。这个数字背后是一支几百人的志愿者团队,全靠人手 OCR、校对、双盲核对——这是 Distributed Proofreaders 的工作模式,每页文字至少经过两个志愿者独立校对才能进库。
没有任何注册、广告、付费墙。文件格式齐全:EPUB、Kindle、HTML、纯文本,且每本书都有版权状态、原始出版年份、贡献者署名。新书发布按日推送,最近上架包括 Thomas Griffith Taylor 的极地探险回忆录《With Scott》和 W. Somerset Maugham 的《Cakes and Ale》。和现代电子书平台对比,Gutenberg 的哲学非常老派:追求文本的保真而非阅读体验的”现代化”——这恰恰成了它和 Standard Ebooks 等新派项目之间的核心张力。
HN 这次讨论里最有价值的是 Project Gutenberg 程序员 JSeiko 亲自下场,公开了未来路线图:用 Git 仓库给每本书做完整版本历史、用户可以追踪每次修订、最终目标是 GitHub 风格的协作编辑界面。这意味着 1971 年开始的这个数字保存工程,正在向”可追溯、可贡献”的现代姿态迁移。
HN 评论精华
-
JSeiko(Gutenberg 程序员亲自现身):开篇就说”嗨我是 PG 的程序员之一”——最近几个月做了大量改版,欢迎大家再来看看。这种”上游团队进 HN 评论区”的互动让讨论一开始就高质量。
-
svat(用户长期反馈):建议每本书做详细的版本历史——目前提交 typo 修订只能发邮件(2011 年那次他用过,几天就修完,但流程不透明)。版本历史还能标注每本书来自哪个 PGDP 项目、能比对原始扫描页,方便用户校验。gluejar(PG 团队)回复:”我们内部已经在用 Git 仓库存历史——GitHub 试过但实现笨拙,志愿者团队规模消化不掉这么大的工程;但未来很可能走那个方向。”
-
关于 Standard Ebooks 的辩论(评论区主轴):svat 表示对 Standard Ebooks 心情复杂——SE 会修改原文做拼写现代化等编辑加工,”我会不舒服地意识到自己读的是被改过的文本”;他更愿意读 PG 或 Wikisource,”它们连明显的 typo 都标注式保留”。
-
idoubtit 补刀(错误指控):SE 把英国老小说现代化成”美式英语”——他喜欢的 The Forsyte Saga(福塞特世家)里作者刻意用的老英文词都被替换成主流形式。acabal(SE 主编亲自下场)直接反驳:”我们没有做你描述的事——我们只做极轻量的同音拼写现代化,比如 ‘to-night’ → ‘tonight’,绝不会把 en-GB 改成 en-US 或替换实义词。我亲手处理过 The Forsyte Saga——如果你能指出具体错误,我马上修。”
-
mrob(具体案例):贴出几年前在 HN 上指出的一个例子——SE 把对话里的 ‘phone(早期”telephone”的缩写写法)改成 phone,这改变了文本含义(暗示新技术的”新鲜感”在标点里),edit 至今没回滚。jeltz 同意:”这条 edit 确实改变了语义。”natex 反问:”那为什么还要做这种现代化?”——讨论的核心其实是编辑哲学的根本分歧。
-
robin_reala(中立解释):两个项目其实使命不同——PG 追求”准确的数字转录”,甚至会保留同一文本的多个版本,连书末的旧广告都复原;SE 的目标是”做给现代读者的可读版本”,类似一家有品味的出版社,做排版统一和极轻的现代化。”两者都有价值,只是服务不同人群。”
-
a2800276(社区视角):两个项目分流了志愿者时间和注意力,也分割了”经典文本的官方版本”。但同时也带来良性竞争,让数字保存的方法论得以多样化探索。