新闻资讯

谷歌开源新模型Gemma 4 小参数吊打大参数

更新时间:2026-04-08 13:22

MoE更离谱:260亿参数,推理时只激活38亿,Elo打到1441,排开源第六。让小模型打出大模型的牌这个设计在小模型上效果尤其明显,是E2B和E4B能以极小体量跑出好成绩的关键。函数调用是从训练阶段就内置的,基于去年底发布的FunctionGemma研究成果,能处理多轮多工具的Agent工作流。

对于谷歌在2026年4月8日凌晨正式发布的Gemma 4系列开源模型而言,此次最令人兴奋之处在于,谷歌一口气推出了四款模型,它们从2B到31B四个尺寸实现了全覆盖,且全部是基于同源技术所打造,这也就意味着,无论你是在手机上运行AI,还是在服务器上进行开发,都能够找到适宜的版本。

小到塞进手机 大到单卡跑满

尺寸覆盖极为全面,这是Gemma 4系列最具实用价值之处。E2B与E4B这两款端侧模型当中,参数介于20亿至40亿之间 ,针对手机、树莓派以及Orin Nano诸如此类设备进行了专门优化。谷歌联合了Pixel团队、高通以及联发科,以使这些模型能够于移动设备上实现离线运行,且延迟近乎为零。

对于面向开发者的31B以及26B模型而言,它们同样带来惊喜,31B Dense模型于Arena AI文本榜单之中取得了开源第三名的成绩,其Elo评分高达1452,这表明你可以凭借一张80GB的H100显卡使其运行起来,并且它的表现已经跨步进入千亿参数级别的范围,26B MoE模型更为突出,在推理时仅激活38亿参数,然而Elo评分却达到了1441,在开源中位居第六。

性能越级斩杀 小体量大能量

让人背脊发凉的Gemma 4,其令人惊悚之处在于,它以31B的体量,在层级上超越并打败了体量为自身20倍的模型。于多语言推理跟知识问答的基准测试里,Gemma 4相较于上一代达成了40%的性能急剧提升。仅一台Mac Mini便能使其运行起来,甚至已然有人在手机上得以使用它了。

E4B小尺寸模型并未露出差劲表现,于AIME数学测试里取得42.5分,在另外一项关键测试中获得52分,对于仅有45亿有效参数的选手来讲,此成绩置于一年前全然是旗舰级别的,Hugging Face的CEO Clément径直评价称,这是一个堪称巨大的里程碑。

三个关键设计 让每个参数都高效

谷歌并非去堆砌那种花哨的新概念,而是将几个经验证过的技术组合至最优状态,他们明确把Altup等诸如此类效果不确定的组件予以去除,仅仅是保留了真正具备效用的东西。于传统模型而言,每个token在输入层会获取一个嵌入向量,自此后面对所有层均是基于这个初始表示来展开计算,其负担是相当沉重的。

PLE技术为每一层配备了一个专属的低维信号通道,每个token在每一层都能够接收到定制化的向量,如同每到一处便有人递给你当下最为急需的工具。这种设计在小模型上的效果尤为突显,是E2B和E4B能够以极小体量取得优异成绩的关键所在。

长上下文升级 端侧部署更友好

最后N层并非自行去计算Key以及Value投影了,而是直接去复用先前层的KV张量,同类型的注意力层共同享有同一组KV状态,如此一来,推理时的显存占用量以及计算量均是下降了,长上下文生成以及端侧部署特别会受益于这个设计。

模型会交替着去使用局部滑动窗口注意力以及全局全上下文注意力,小模型采用具512 token的滑动窗口,大模型采用1024 token,全局层会配合等比例RoPE来拉长上下文覆盖范围,滑动层运用标准RoPE以保持局部建模效率,Gemma 4亦支持那个备受热议的压缩算法。

多模态能力拉满 视觉音频全支持

一系列里的Gemma 4,全都具备处理图像输入的能力,对待视频输入同样如此,E2B以及E4B,除此之外还能兼容音频。视觉编码器经行了两项关键升级之举:其一为可变宽高比,此操作不会再强制裁切图片;其二是可配置的图像token预算,该预算从70至1120存在五档可供选择。低预算的情况适宜用于分类以及描述,高预算的情况则适宜用于OCR以及文档解析。

给出一张网页的截图,询问view按钮所处位置,四个尺寸均能够以JSON格式返回精准的边界框坐标,无需任何特殊的提示词。E4B精确地描述了舞台画面,还从音轨里提取了歌词主题。26B和31B虽说没有音频输入的能力,然而对于纯视觉内容的理解同样精准到位,甚至识别出了屏幕上的赞助商品牌名。

协议彻底放开 商用再无阻碍

这次发布,最大的、并非关于技术方面的新闻是,Gemma 4首次采用Apache 2.0协议,之前的Gemma系列运用的是谷歌自定义许可证,其中存在有害使用限制条款以及归属要求,企业法务团队必须逐条进行审查,才能够确认是不是可以用于商业用途,如今一下子就达成了,不存在自定义条款,不存在灰色地带。

从Gemma首次发布起始至今,经过累计后下载数量超出了4亿次,同时社区衍生出来的版本数量超过了10万个。在Apache 2.0这种情况下,这个数据很有可能还会加快速度增长。谷歌所采用的两层策略已经形成了这样的模式:处于顶层的是闭源模型占据着榜单前面且通过施行API来实现变现,处于底层的是Gemma系列借助相同源头的技术来培育开发者生态。

你认为谷歌此次完全开源Gemma 4,会给国内的大模型创业公司带来怎样程度的冲击呢,欢迎在评论区去分享你的观点,可别忘了点赞以及转发给身旁从事AI开发的朋友呀。