← #794

Roman Letters：8112 封罗马信件的数字考古

文章摘要

romanletters.org 是一个数字人文项目，完整收录了公元 97 年到 800 年之间用拉丁文和希腊文写下的 8112 封信，分属 60 个作者集合，由独立爱好者 Craig Vander Galien（craig_vg）一人主导。它的核心野心是：把罗马帝国从盛期到分崩离析这 700 年里，所有还存世的私人通信都数字化、可搜索、可可视化，并且其中 3123 封是史上第一次被翻译成英文——之前从未有人正式英译过。

项目最特别的部分不是文本本身，而是关系网络的可视化。每封信都标注了写信人、收信人、地理位置、时间，于是整个语料库变成了一张活的社交图谱。你可以看到 4 世纪罗马世界信件流通密度最高的样子——主教、行政官、文人之间互相通讯频繁；然后随着西罗马帝国崩溃，604 年之后整个西部突然沉默——交互节点几乎消失。东罗马则继续保持文人圈子内的活跃通信。”哪里在写信、给谁写、写什么”成了帝国生命体征的可视化指标。

站点提供交互式网络图、地图视图、作者集合浏览，以及主题叙事，把这些孤立的信件织成一条”罗马通信文化的命运曲线”。底层数据全部开源在 GitHub 上（CraigVG/roman-letters-network 仓库），有 30 万+ 行代码——几乎全部由 Claude 写出——这一点在 HN 评论区掀起了主要争论。

Craig 自称是历史爱好者而非学者，没有学术目标，只是想自己读这些信，顺手把数据库做给其他爱好者用。HN 评论让他意识到 OCR 转录质量和翻译可靠性是项目长期价值的瓶颈，他承诺把版本控制、社区贡献和人工校验逐步加进来。

HN 评论精华

vessenes（主线评论）：盛赞项目的同时直接点出关键缺陷——拉丁原文是直接 OCR 自 archive.org 扫描件，没经过任何学术校对。他抽查了几个，转录错误明显。但他的真正洞察是：这种 AI 主导项目的真正价值在于”脚手架”——OCR 会越来越好、翻译会越来越好，项目应该把版本追踪和迭代日志做进 UI，借鉴 90 年代末耶鲁 Jonathan Edwards 数字化项目和拉丁/罗马学者社区做众包校对。
wongarsu（技术建议）：他做过 1700 年代文本——archive.org 上多数是 tesseract 老版本生成的烂转录。直接把图片喂给 Qwen2.5vl:32b 视觉模型，配上前一页结尾的上下文，能拿到近乎完美的转录。代价是视觉模型出错时是”看似合理的替换”而不是”乱码”，但下游本来就是 LLM 在用，影响可控。
craig_vg（作者本人）：在评论里非常坦诚——是的，整个项目几乎全部是 Claude 写的，他是历史爱好者不是学者，并不追求学术严谨。但他根据反馈连夜实现了变更日志和迭代追踪，OCR 升级也在计划中。对一个完全开源、一个人做的副业项目而言，这种回应速度让讨论的整体语气从批评转成了肯定。
serious_angel（最严厉批评者）：研究了 GitHub 仓库（300,755 行 Claude 代码）和 CLAUDE.md，对项目的”学术性”提出严重质疑——LLM 处理过每个字、每条注释，他无法相信里面的数据。”这是不是学术项目”成为评论区中段争论的核心。
yreg（精确转述）：替 serious_angel 重新表述——他没在批评 LLM 设计本身，而是担心罗马学者会被这种 AI 生成的二手内容误导，未来引用链条会越来越复杂。craig_vg 回应说自己从来没自称做学术研究，目标就是给爱好者一个能读的入口。
Rendello（最甜的发现）：找到一封小普林尼（Pliny the Younger）的信，抱怨晚宴上某人放他鸽子——这种 2000 年前的人际小事在数据库里突然变得鲜活，让整个项目”为什么值得做”瞬间立住。
CGMthrowaway（冷知识）：被一封信里的 “sow’s matrices”（母猪子宫）一词吓到——查了下原来是罗马富人宴会的经典菜，专选未生育或刚生育完的母猪子宫做料理。”信件数据库还能附带教你罗马奢侈料理史”。
cjs_ac（最后一个建议）：可惜拉丁原文目前没有同步展示——只看英译损失了大半。这条建议被作者记下，列入 roadmap。