Ask an Astronaut:333 小时宇航员问答的可搜索数据库
文章摘要
Ask an Astronaut 是开发者 Ben Feist(同时是 ISS in Real Time 项目作者)的新作品。他把 NASA、ESA 和 Roscosmos 多年来公开发布的宇航员”问答片段”——也就是地面学校、媒体、公众活动里向在轨宇航员提问的视频——总共约 333 小时素材做了语音识别、转录、按问题语义切片,再用嵌入(embedding)做语义搜索,最终变成一个可搜索的”宇航员问答数据库”:你打一个问题,比如”在太空打喷嚏会怎样”,网站会列出所有相关的视频片段,配上字幕、跳到那一秒。
技术栈上,作者用 WhisperX 做了音素对齐(phoneme alignment)——这是 WhisperX 比普通 Whisper 多出的能力,能精确到单词级别的时间戳,从而让”跳到回答开始的那一秒”成为可能。再用嵌入向量给每段切片打索引,前端是一个轻量的浏览界面,移动端也能用。整个 pipeline 在 GitHub 上开源(github.com/bfeist/ask-an-astronaut),但视频本体接近 1TB,所以网站只是索引器,作者建议感兴趣的人自己跑 pipeline 重建一份。
典型的使用场景:教师课前花 5 分钟找到 NASA 宇航员真人讲”水在零重力下怎样运动”,比看 NASA 官方剪辑高效得多;记者要写一篇关于太空辐射的文章,可以直接搜出 8 位不同宇航员的回答做交叉验证;爱好者想知道”国际空间站的厕所怎么用”,会发现这是被问过数百次的问题,答案出自不同年代的不同人,对比起来颇有趣味。视频内容来自十几年的素材,目前只支持英语搜索,多语种支持因为字幕配音的复杂性被作者暂时搁置。
HN 评论精华
-
bfeist(作者本人):直接在评论区下场答疑。最常被问到”为什么不直接做成 app”,他回应是项目本质是元数据极差(仅有文件名和上传日期,连录制日期都没有),所以做 native app 的离线缓存方案性价比很低。如果有人愿意跑 pipeline 重建本地版本,pipeline 已完全开源。
-
pulkitsh1234:建议 YouTube PM 看看这个项目——其实做的事情就是”找视频里某一句话出现在第几秒”,但 YouTube 自己的搜索做不到。他自己之前也想做类似工具,正是这次评论里学到这门技术叫”phoneme alignment”,而 WhisperX 早就内置了这个能力。
-
somenameforme:提了一个让作者也认同的隐忧——这类半爱好性质(semi-hobby)的酷站最终命运经常是几年后 404。能离线下载 333 小时的视频和数据库做成本地知识库才是真正的长期价值,但作者承认带宽和存储成本是阻碍。
-
Rygian:神级问题——”所有关于打喷嚏的问答都在讨论开放环境或牛顿第三定律,居然没人问’在太空服里打喷嚏会怎样’?面罩里是不是该装个雨刮?” 这条评论既是对数据库的礼赞,也是对人类好奇心边界的提醒。
-
Syzygies:被作者答疑后受启发——他想把 Pimsleur 外语课里的目标语言段落抽出来做”快速复习版”,作者的 pipeline 大部分组件(音频切片、对齐、语义索引)正好都能复用。
-
anogrebattle / Falimonda:两个独立提问点出了多语言瓶颈——有些回答是俄语宇航员经过翻译后配 voice-over 给英文观众听的,搜索时会把翻译版和原版混在一起。作者承认这是 v1 的妥协。
-
jonatanholmgren:体验类反馈——他的浏览器因为 CORS 加载不了模型;7777777phil 担心这个站扛不住 HN 首页流量;nongknot 简单一句”what a project for me nerd”代表了多数 HN 读者的真情实感。
-
AI 增量价值的讨论:评论里有人质疑”现在的 LLM 加进去能不能更好地直接回答用户问题,而不是只切片”。作者更倾向于保持原始素材的可信度——LLM 摘要会给宇航员的话掺水,而 Ask an Astronaut 想做的是让真人原话可索引,不是让 AI 替宇航员回答。