AI 应该跑在你自己的设备上
文章摘要
作者的核心论点很直白:开发者应该优先把 AI 跑在本地,而不是默认调 OpenAI、Anthropic 的云端 API。文章开头就指出,把用户内容发到第三方服务器,本质上是引入了”数据保留(data retention)”这件事所附带的全部包袱——用户授权、数据泄漏、政府调取的合规风险都得自己背。”你本来只是想做一个 UX 上的小功能,结果搞成了一个还要你花钱的分布式系统“——这句吐槽精准地戳中了今天很多产品在做 AI 集成时的过度工程。
作者的第二个论点是硬件早就够用了。现代设备里的 Neural Engine、NPU 都已经具备运行小型模型的能力,让用户对着进度条等服务器响应,而本地神经引擎却闲着没事干,本身就是糟糕的工程。文章特别强调本地模型擅长的场景是”转换用户已有的数据(transforming user-owned data)”——总结、分类、抽取、改写,这类任务不需要海量世界知识,本地小模型完全胜任;而不是把它当成一个无所不知的知识库去问”美国总统是谁”。
文章用 Brutalist Report 这个 iOS app 作为示范案例。这个 app 用苹果新的 FoundationModels framework 在本地生成新闻摘要,不上传任何内容、不需要服务器、不需要用户注册账号。作者展示了具体的代码片段,演示如何把 LLM 输出结构化为带类型的数据(typed data)——不是返回一段 markdown 让你 regex 去解析,而是直接返回 Swift struct。这样上层产品逻辑就能直接消费,可靠性大幅提高。
文章给开发者的实际建议是:能本地就本地,云模型只在真正需要的时候用;把 AI 输出当成结构化数据来设计;用”隐私即设计(privacy by design)“取代厚厚的隐私政策文本来赢得用户信任。
HN 评论精华
-
williamtrask:长期乐观派——历史上的图书馆、印刷术也经历过先中心化再去中心化的过程,模型最终会”联邦化”。
-
Galanwe:泼冷水——消费级硬件在推理速度和上下文长度上仍然力不从心,本地大模型还远没到”日常顺滑”的程度。
-
mft_:给出实测——M1 Max + 64GB 跑 Qwen3.6-35B-A3B”速度足够好用”,已经能扛起交互式 coding 助手的活儿。
-
jjordan:当下最新的 iPhone、iPad 和 MacBook Pro 实际上已经能本地实时跑高端 LLM,硬件天花板比想象中高。
-
lelanthran:Qwen3.6、Gemma4 这一批开源模型证明了小模型也能做出高质量结果,本地化路线越来越现实。
-
krupan:质疑——这些”小模型大突破”到底是架构上的真突破还是渐进式优化?需要更冷静的评估。
-
lxgr:经济学角度——单个模型的训练成本仍然在 10 亿美元量级,”租 vs 买”的算账短期内还是有利于中心化供应商。
-
apublicfrog:本地模型的硬伤是知识截止日期——老的本地模型在 Java 版本、API、框架剧变之后就开始”过时失灵”。
-
irishcoffee:依赖 Anthropic / OpenAI 的产品锁定风险”疯狂大”——开源权重哪怕只是一份”保险”,也值得保留。
-
beloch:套用”创新-垄断-劣化(enshittification)”循环——平台都要经历这个过程,本地替代方案是关键的对冲。
-
HDBaseT:效率视角——大型加速卡的”每瓦吞吐“比消费级硬件高 ~100 倍,集中化在能效上仍是赢家。
-
2ndorderthought:地缘视角——中国厂商开源模型既能赚口碑又能借势制造业生态,是一手好棋。
-
majormajor:历史类比——计算曾经从大型机/瘦客户端转向个人电脑,AI 也很可能走同样的路径。
-
nullc:定位之争——小模型擅长”做事(doing stuff)”而不是”记事(knowing stuff)”,配合 agent 框架后能力被显著放大。
-
beloch(追加):在本地硬件上跑一份开源替代品,本身就提供了”非微不足道的安心感”。