SQLite 被美国国会图书馆列为推荐归档存储格式

查看原文 HN 讨论

文章摘要

SQLite 官网更新了一个值得纪念的页面——美国国会图书馆(Library of Congress, LoC)将 SQLite 数据库文件列为”Recommended Storage Format”(推荐归档存储格式),用于数据集类内容的长期保存。这份榜单极短:截至 2018 年首次列入时,结构化数据集的”推荐格式”只有 4 个——XML、JSON、CSV,以及 SQLite。能进入这份名单意味着 LoC 评估认为该格式最有可能在数十年甚至上百年后依然可读

LoC 的评判依据是 7 条硬性标准:

  1. 公开规范(Disclosure)——格式规范完整可获取,存在验证工具;
  2. 广泛采用(Adoption)——主流内容生产者和使用者大量在用;
  3. 透明性(Transparency)——能用基础工具分析,最好人类可读;
  4. 自描述(Self-documentation)——文件内嵌描述性和技术性元数据;
  5. 外部依赖少——不绑定特定硬件、操作系统、商业软件;
  6. 无专利限制——不存在阻碍长期保存的专利风险;
  7. 无技术保护机制——没有加密、DRM 等阻碍机构访问的障碍。

SQLite 在 7 条标准上都拿了高分:单文件、跨平台、零外部依赖、公开规范(甚至作者 D. Richard Hipp 已把 SQLite 文件格式本身列为”to be supported through 2050”的承诺)、MIT 0/Public Domain 协议、文件内嵌 schema 即元数据。这一切让它成为了 CSV/JSON 之外唯一被官方推荐的”关系型数据库归档格式”——这点尤其关键:CSV 能存表,但存不了表与表之间的关系,丢失结构信息;SQLite 能完整保留关系语义。

文章是 SQLite 官方的简短自述页,本质是把这件荣誉镶进项目历史;但对工程界的意义在于:它是少数被国家级机构背书”几十年后还能读”的数据库格式——做长期归档、科研数据集、文化遗产数字化的人,从此有了官方依据可引用。

HN 评论精华

  1. akihitot:解读 LoC 的选择标准——SQLite 入选的关键是”规范公开 + 采用广泛 + 未来仍可读 + OS 无关 + 专利风险低“,这五条共同构成了”几十年后还能打开”的概率保证。

  2. Spooky23:从档案学视角强调一个常被忽视的点——保留关系结构本身就是档案价值。CSV 能存数据点但丢失表间关系;SQLite 让档案学家能完整保留信息架构,这对学术数据集是质变。

  3. srcreigh:贴出 LoC 官方页面链接,确认 SQLite 的标准扩展名(.db.db3.sqlite.sqlite3)都被列入了”平台无关偏好格式”清单,与 TSV、CSV、定宽文本同级。

  4. tombert:分享了一个实战归档案例——他用 SQLite 替代散乱文件存储在不太可靠的 exFAT 上,ACID 特性救了他多次:哪怕在拷贝中途断电,文件结构也不会损坏,而散乱 txt 文件早就乱套了。

  5. maxloh:补充信息——2026 版 LoC 推荐格式已经把 SQLite 明确放进”Preferred”档(最高级),不是”Acceptable”档。这意味着对结构化数据,SQLite 是 LoC 优先建议的格式

  6. danborn26:强调实操优势——单文件意味着“复制即归档”,比传统数据库 dump(需要 schema 文件 + data 文件 + 配置 + 版本说明)简单一个数量级,机构归档的运维负担骤减。

  7. 评论区共识:D. Richard Hipp 当年把 SQLite 写成”零外部依赖、文件格式承诺到 2050 年”的决定,现在看是软件工程史上的远见之作——它让 SQLite 从一个嵌入式库变成了”事实上的数据胶水层”和”文化遗产存储格式”。