Google 发布 Gemma 4 开源模型

原文 HN 讨论

文章摘要

Google DeepMind 正式发布了 Gemma 4 系列开源模型,这是 Gemma 系列的最新迭代,延续了 Google 在开源 AI 模型领域的投入。Gemma 4 包含多个规模的模型变体,其中最受关注的是 Gemma-4 27B(全参数模型)和 Gemma-4 26B-A4B(混合专家/MoE 架构,总参数 26B 但每次推理仅激活 4B 参数)。此外还有更小的 2B 和 4B 版本。

Gemma 4 的核心亮点包括:多模态能力——模型原生支持图像和文本输入,可以进行视觉理解、图像描述、视觉问答等任务;推理能力增强——集成了思维链(chain-of-thought)推理模式,通过特殊的 <|channel>thought\n 标记触发深度思考;工具调用支持——模型具备结构化的函数调用能力,适合 agent 场景。

在基准测试方面,Gemma-4 31B 在 MMLU-Pro、GPQA、LiveCodeBench 等评测上与 Qwen3.5-35B-A3B 形成竞争。MoE 版本 26B-A4B 因为仅激活 4B 参数,在消费级硬件上的推理效率极为出色。模型推荐使用 temperature=1.0、top_p=0.95、top_k=64 的采样参数,使用 <turn|> 作为 EOS 标记。

Gemma 4 采用开放权重发布,允许商业使用和微调,通过 Hugging Face、Kaggle 等平台分发。Google 同时提供了优化的量化版本,支持在从手机到数据中心的多种硬件上部署。该系列模型体现了 Google 在开源模型战略上与 Meta Llama、阿里 Qwen 等系列的直接竞争态势。

HN 评论精华

实际性能测试:

simonw(Simon Willison)用他标志性的”鹈鹕画画”基准测试模型:26B-A4B 版本产出了”出色的鹈鹕”,但 31B 版本初始表现”完全崩溃”(只输出 “—\n”),小模型(2B、4B)生成了无法辨认的输出。这暴露了不同规模模型之间质量差异巨大的问题。

消费级硬件上的惊人速度:

多位用户报告了令人兴奋的推理速度——RX 7900 XTX(24GB)在 32k 上下文下达到 100+ tokens/s,M1 Max 64GB 约 50 tokens/s,RTX 4090 上 26B-A4B 约 150 tok/s(vs Qwen3.5 35B 约 100 tok/s)。这证明 MoE 架构在本地部署场景的巨大优势。

工具调用的 Bug:

多位用户报告工具调用功能初始不工作,原因是 llama.cpp 的聊天模板存在 bug。LM Studio 团队确认当天部署了修复。neonstatic 测试时间戳计算任务时发现,Gemma-4 “幻觉”了工具执行过程——写出 Python 脚本但并未实际运行,在思考链中假装验证了结果但生成了错误的时间戳。这引发了关于”推理轨迹可能掩盖无能”的深层担忧。

量化与采样参数讨论:

danielhanchen(Unsloth 团队)提供了 GGUF 量化版本并解释了 Dynamic 2.0 量化的优势——通过选择性层优化和自定义校准数据集实现更好的压缩效果。关于 Google 推荐的 temperature=1.0 参数,社区展开讨论,传统上 0.7-0.8 被认为是质量最优,但 Google 基于可复现性选择了 1.0。

真实世界应用案例:

evilelectron 分享了用于历史土地档案数字化的 pipeline——集成 OCR、全文搜索、嵌入和摘要,用户现在可以用多种语言搜索追溯到 1800 年代的记录,处理延迟极低。

基准测试的局限性:

BoorishBears 直言基准测试不够:”推理能力远在任何 Qwen 模型之上”,暗示某些模型针对基准测试进行了过度优化,实际使用体验可能与分数不符。