1-Bit Bonsai:首个商业可行的 1-Bit 大语言模型
文章摘要
PrismML 公司发布了 1-Bit Bonsai,声称是首个商业可行的 1-bit 大语言模型(LLM)。这一技术突破意味着模型的每个权重仅用 1 个比特存储(实际上是 1 bit 加上每 128 bits 共享一个 FP16 缩放因子),相比传统的 16-bit 全精度模型,内存占用大幅降低。
1-Bit Bonsai 的核心创新在于”原生训练”(native training)方式——不是将现有的高精度模型量化压缩到 1-bit,而是从一开始就在 1-bit 精度下训练模型。这种方法与此前微软研究院提出的 BitNet 等工作一脉相承,但 PrismML 声称在实用性和性能上取得了突破性进展,使其达到了商业部署的门槛。
在性能指标方面,PrismML 强调该模型相比全精度模型占用内存减少约 14 倍,在消费级 GPU 上可以实现极高的推理速度。他们基于 llama.cpp 的定制分支(需切换到 prism 分支构建)提供推理支持。该模型使用 GGUF 格式分发,但采用了自定义的 ggml tensor 类型(type 41),因此需要专门的构建版本才能运行。
PrismML 的愿景是让大语言模型能够在资源极为有限的设备上运行——从老旧笔记本电脑到手机,真正实现 AI 的边缘部署。如果 1-bit 模型的质量能够持续提升,它可能从根本上改变 AI 推理的经济学,让小团队和个人也能负担得起大规模模型的部署。
然而,该技术目前仍面临明显局限。模型在不确定的知识领域容易产生幻觉,复杂推理能力相比全精度模型仍有差距,且当前的工具链生态(LM Studio、Ollama 等)对其支持尚不完善,需要用户自行编译专用版本。
HN 评论精华
实际体验报告:
jjcm 分享了第一手测试经验:”1 bit 加上每 128 bits 一个 FP16 缩放因子,令人着迷的是这居然能工作得这么好。”他用 Cursor IDE 驱动测试,模型能处理工具调用但在界面生成方面表现不佳。najarvg 测试了 R 脚本地理编码、LaTeX 高斯积分和欧拉恒等式,称赞”对于这么小的模型来说知识密度惊人”。
性能基准测试:
freakynit 在 RTX 3090 上实测达到 190 tok/s(700 token 输入)和 135 tok/s(6400+ token 输入),仅使用约 4GB 显存,同时服务 5 个并行请求。wild_egg 在没有 GPU 的 2018 年笔记本上实现 AVX2 优化后达到约 12 tok/s。simonw 通过 iPhone 上的 Locally AI 应用成功运行。
方法论质疑:
fxwin 提出尖锐批评:”我非常质疑他们声称的优势”,批评他们只与全精度模型比较,而不与相同内存占用的其他量化方案比较。hatthew 同意:”与全精度模型比较有点不诚实,任何关心模型大小的人肯定已经在用至少 8-bit 量化了。”WhitneyLand 指出”说内存减少 14 倍有误导性,没人用 16-bit 做推理”。
幻觉问题严重:
simian1983 测试发现模型编造了物理学家”Charles K. Alton”发现玻色子的”事实”,并错误归因了多项粒子物理突破。qingcharles 形容模型”在不知道的事情上疯狂幻觉”。pdyc 报告模型在 strawberry 测试中失败,而”相同大小的 Qwen 3.5 0.8B 能通过且远更好用”。
部署困难:
andai 在 CPU 部署时遇到”7GB RAM 然后挂起”的问题。iJohnDoe 在 LM Studio、llama.cpp 和 Ollama 上”全部失败”,报错 tensor 类型无效。UncleOxidant 找到解决方案:需要在 llama.cpp 仓库中 git checkout prism 后再编译——这是官方文档缺失的关键步骤。
对 1-bit 可行性的根本质疑:
bilsbie 表达了基本怀疑:”我看不出这怎么可能,你丢失了太多信息。”但其他人解释说,原生训练方式在训练过程中就为 1-bit 精度保留了必要的信息,不同于事后量化的信息损失。rjh29 建议”通过思考阶段让模型双重检查答案和/或使用搜索落地”来缓解幻觉问题,暗示 1-bit 模型可能更适合作为复合系统中的快速初步推理组件。