Google发布Gemma 3n 一款专为移动设备打造的全新 AI 模型

Google宣布推出 Gemma 3n，这是其下一代开放式 AI 模型，与我们之前看到的相比有了显著的提升。继上个月在 Google I/O 大会上进行预览后，完整版现已发布，可直接在移动硬件上运行。

Gemma 是一个开放的 AI 模型系列。它与 Gemini 的不同之处在于，Gemma 是为开发者下载和修改而设计的，而Gemini 是Google的封闭式专有模型。

该模型现在可以原生处理图像、音频和视频等输入并生成文本，这比仅仅基于文本的模型有了很大的飞跃。它甚至可以在内存仅为 2GB 的硬件上运行，并且据称在编码和推理等任务上表现更佳。以下是Google列出的所有改进：

多模式设计： Gemma 3n 原生支持图像、音频、视频和文本输入和文本输出。
专为设备端优化： Gemma 3n 型号以效率为设计重点，提供两种基于有效参数的尺寸：E2B 和 E4B。虽然它们的原始参数数量分别为 5B 和 8B，但架构创新使其运行内存占用与传统的 2B 和 4B 型号相当，仅需 2GB (E2B) 和 3GB (E4B) 内存即可运行。
突破性的架构： Gemma 3n 的核心是新颖的组件，例如用于计算灵活性的 MatFormer 架构、用于提高内存效率的每层嵌入 (PLE) 以及针对设备用例优化的新型音频和基于 MobileNet-v5 的视觉编码器。
增强质量： Gemma 3n 在多语言（支持 140 种文本语言和 35 种语言的多模式理解）、数学、编码和推理方面实现了质量改进。

其高效的核心是Google称之为 MatFormer 的新架构。Google用俄罗斯套娃的比喻来描述它：一个较大的模型里面包含一个较小的、功能齐全的版本。

这使得单个模型能够以不同的规模运行不同的任务。至于基准测试，更大的 E4B 模型是第一个在 10B 参数下突破 LMArena 1300 分的模型。

该模型的音频功能现在支持设备上的语音转文本和翻译，并使用能够精细处理语音的编码器。视觉方面则由名为 MobileNet-V5 的全新编码器提供支持，该编码器比其前代产品速度更快、效率更高。它能够在 Google Pixel 设备上以高达 60FPS 的速度处理视频。

如果您有兴趣，可以立即开始使用，因为这些模型可以通过 Hugging Face 和 Kaggle 等熟悉的平台获得，您甚至可以直接在Google AI Studio 中对它们进行试验。

更多详情请参阅官方公告帖。

最新资讯