Gemma
AI训练模型
Gemma

谷歌推出的新一代轻量级开放模型

Gemma:谷歌新一代轻量级开放模型

一、模型背景与发布

谷歌(Google)于2024年2月21日推出了Gemma,定位为轻量级、最先进的开放模型。Gemma旨在为开发人员和研究人员提供易于访问和使用的AI模型。

解析Gemma:Gemma 模型系列架构概述- Google Developers Blog

二、模型架构与技术

- 架构基础: Gemma基于Transformer解码器架构,与谷歌之前推出的Gemini模型共享技术和研究基础。
- 参数规模: 提供Gemma 2B(20亿参数)和Gemma 7B(70亿参数)两种规模的模型,以适应不同的计算需求和应用场景。
- 技术特点: Gemma在基础Transformer上进行了改进,包括RoPE嵌入、GeGLU激活函数和RMSNorm归一化层等。同时,采用模型分片和数据复制技术,实现大规模分布式训练。

三、性能与基准测试

- 卓越性能: Gemma在MMLU、BBH、GSM8K等学术基准测试中表现出色,尤其在数学、推理、代码生成等方面超越了同规模的Meta LLaMA 2模型。
- 领先优势: 在数学和编码任务上,Gemma展现出显著的领先优势。在GSM8K基准测试中,Gemma 7B模型得分为46.4%,在所有模型中表现最好。

四、开放性与使用条款

- 开放性: Gemma被定位为“开放模型”,允许外部开发者和研究人员访问和修改模型权重,但并不完全等同于开源。
- 使用条款: 个人开发者、研究人员和商业用户均可自由访问和重新分配Gemma模型,并可创建和发布模型变体。使用Gemma时,开发者需同意避免有害使用,体现谷歌对负责任AI开发的承诺。

五、工具与支持

- 工具链: 谷歌为Gemma提供了完整的工具链,支持模型推理和监督式微调(SFT),兼容JAX、PyTorch和TensorFlow等主流框架,并完全兼容最新的Keras 3.0。
- 集成与兼容性: Gemma与Kaggle、Hugging Face、MaxText和NVIDIA NeMo等流行工具集成,支持在多种设备和平台上运行。

六、安全性与负责任开发

- 安全性评估: 谷歌对Gemma进行了严格的安全性评估,包括人工红队、自动对抗测试和危险活动模型能力评估等,以降低模型风险。
- 负责任开发: 谷歌发布了《负责任的生成式人工智能工具包》,提供模型调试工具、安全分类器和最佳实践指导,帮助构建安全、负责任的AI应用。

Gemma展现了在性能、开放性、工具支持、安全性和负责任开发等方面的显著优势。随着技术的不断发展,Gemma有望在更多领域发挥更大的作用。

相关导航

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注