Google发布Gemma 3n 一款专为移动设备打造的全新 AI 模型

2025年06月27日 07:55 次阅读 稿源:cnBeta.COM 条评论

Google宣布推出 Gemma 3n,这是其下一代开放式 AI 模型,与我们之前看到的相比有了显著的提升。继上个月在 Google I/O 大会上进行预览后,完整版现已发布,可直接在移动硬件上运行。

Gemma 是一个开放的 AI 模型系列。它与 Gemini 的不同之处在于,Gemma 是为开发者下载和修改而设计的,而Gemini 是Google的封闭式专有模型。

该模型现在可以原生处理图像、音频和视频等输入并生成文本,这比仅仅基于文本的模型有了很大的飞跃。它甚至可以在内存仅为 2GB 的硬件上运行,并且据称在编码和推理等任务上表现更佳。以下是Google列出的所有改进:

  • 多模式设计: Gemma 3n 原生支持图像、音频、视频和文本输入和文本输出。

  • 专为设备端优化: Gemma 3n 型号以效率为设计重点,提供两种基于有效参数的尺寸:E2B 和 E4B。虽然它们的原始参数数量分别为 5B 和 8B,但架构创新使其运行内存占用与传统的 2B 和 4B 型号相当,仅需 2GB (E2B) 和 3GB (E4B) 内存即可运行。

  • 突破性的架构: Gemma 3n 的核心是新颖的组件,例如用于计算灵活性的 MatFormer 架构、用于提高内存效率的每层嵌入 (PLE) 以及针对设备用例优化的新型音频和基于 MobileNet-v5 的视觉编码器。

  • 增强质量: Gemma 3n 在多语言(支持 140 种文本语言和 35 种语言的多模式理解)、数学、编码和推理方面实现了质量改进。

其高效的核心是Google称之为 MatFormer 的新架构。Google用俄罗斯套娃的比喻来描述它:一个较大的模型里面包含一个较小的、功能齐全的版本。

这使得单个模型能够以不同的规模运行不同的任务。至于基准测试,更大的 E4B 模型是第一个在 10B 参数下突破 LMArena 1300 分的模型。


该模型的音频功能现在支持设备上的语音转文本和翻译,并使用能够精细处理语音的编码器。视觉方面则由名为 MobileNet-V5 的全新编码器提供支持,该编码器比其前代产品速度更快、效率更高。它能够在 Google Pixel 设备上以高达 60FPS 的速度处理视频。

如果您有兴趣,可以立即开始使用,因为这些模型可以通过 Hugging Face 和 Kaggle 等熟悉的平台获得,您甚至可以直接在Google AI Studio 中对它们进行试验。

更多详情请参阅官方公告帖。

对文章打分

Google发布Gemma 3n 一款专为移动设备打造的全新 AI 模型

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan