Roman Letters:8112 封罗马信件的数字考古
文章摘要
romanletters.org 是一个数字人文项目,完整收录了公元 97 年到 800 年之间用拉丁文和希腊文写下的 8112 封信,分属 60 个作者集合,由独立爱好者 Craig Vander Galien(craig_vg)一人主导。它的核心野心是:把罗马帝国从盛期到分崩离析这 700 年里,所有还存世的私人通信都数字化、可搜索、可可视化,并且其中 3123 封是史上第一次被翻译成英文——之前从未有人正式英译过。
项目最特别的部分不是文本本身,而是关系网络的可视化。每封信都标注了写信人、收信人、地理位置、时间,于是整个语料库变成了一张活的社交图谱。你可以看到 4 世纪罗马世界信件流通密度最高的样子——主教、行政官、文人之间互相通讯频繁;然后随着西罗马帝国崩溃,604 年之后整个西部突然沉默——交互节点几乎消失。东罗马则继续保持文人圈子内的活跃通信。”哪里在写信、给谁写、写什么”成了帝国生命体征的可视化指标。
站点提供交互式网络图、地图视图、作者集合浏览,以及主题叙事,把这些孤立的信件织成一条”罗马通信文化的命运曲线”。底层数据全部开源在 GitHub 上(CraigVG/roman-letters-network 仓库),有 30 万+ 行代码——几乎全部由 Claude 写出——这一点在 HN 评论区掀起了主要争论。
Craig 自称是历史爱好者而非学者,没有学术目标,只是想自己读这些信,顺手把数据库做给其他爱好者用。HN 评论让他意识到 OCR 转录质量和翻译可靠性是项目长期价值的瓶颈,他承诺把版本控制、社区贡献和人工校验逐步加进来。
HN 评论精华
-
vessenes(主线评论):盛赞项目的同时直接点出关键缺陷——拉丁原文是直接 OCR 自 archive.org 扫描件,没经过任何学术校对。他抽查了几个,转录错误明显。但他的真正洞察是:这种 AI 主导项目的真正价值在于”脚手架”——OCR 会越来越好、翻译会越来越好,项目应该把版本追踪和迭代日志做进 UI,借鉴 90 年代末耶鲁 Jonathan Edwards 数字化项目和拉丁/罗马学者社区做众包校对。
-
wongarsu(技术建议):他做过 1700 年代文本——archive.org 上多数是 tesseract 老版本生成的烂转录。直接把图片喂给 Qwen2.5vl:32b 视觉模型,配上前一页结尾的上下文,能拿到近乎完美的转录。代价是视觉模型出错时是”看似合理的替换”而不是”乱码”,但下游本来就是 LLM 在用,影响可控。
-
craig_vg(作者本人):在评论里非常坦诚——是的,整个项目几乎全部是 Claude 写的,他是历史爱好者不是学者,并不追求学术严谨。但他根据反馈连夜实现了变更日志和迭代追踪,OCR 升级也在计划中。对一个完全开源、一个人做的副业项目而言,这种回应速度让讨论的整体语气从批评转成了肯定。
-
serious_angel(最严厉批评者):研究了 GitHub 仓库(300,755 行 Claude 代码)和
CLAUDE.md,对项目的”学术性”提出严重质疑——LLM 处理过每个字、每条注释,他无法相信里面的数据。”这是不是学术项目”成为评论区中段争论的核心。 -
yreg(精确转述):替 serious_angel 重新表述——他没在批评 LLM 设计本身,而是担心罗马学者会被这种 AI 生成的二手内容误导,未来引用链条会越来越复杂。craig_vg 回应说自己从来没自称做学术研究,目标就是给爱好者一个能读的入口。
-
Rendello(最甜的发现):找到一封小普林尼(Pliny the Younger)的信,抱怨晚宴上某人放他鸽子——这种 2000 年前的人际小事在数据库里突然变得鲜活,让整个项目”为什么值得做”瞬间立住。
-
CGMthrowaway(冷知识):被一封信里的 “sow’s matrices”(母猪子宫)一词吓到——查了下原来是罗马富人宴会的经典菜,专选未生育或刚生育完的母猪子宫做料理。”信件数据库还能附带教你罗马奢侈料理史”。
-
cjs_ac(最后一个建议):可惜拉丁原文目前没有同步展示——只看英译损失了大半。这条建议被作者记下,列入 roadmap。