googleGemini1.5火速上线：MoE架构，100万上下文

今天，google宣布推出 Gemini 1.5。Gemini 1.5 建立在google基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。google现在推出的是用于早期尝试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型，针对多种任意的扩展进行了优化，其性能水平与google迄今为止最大的模型 1.0 Ultra 类似，并引入了长上下文明白方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000

今天，google宣布推出 Gemini 1.5。

Gemini 1.5 建立在google基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。

google现在推出的是用于早期尝试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型，针对多种任意的扩展进行了优化，其性能水平与google迄今为止最大的模型 1.0 Ultra 类似，并引入了长上下文明白方面的突破性实验特征。

Gemini 1.5 Pro 配备了 128000 个 token 上下文窗口。但从今天开始，少数开发人员和企业客户可以通过 AI Studio 和 Vertex AI 的私人预览版在最多 100 万个 token 的上下文窗口中进行尝试。google还进行了一些优化，以改善延迟、减少计算要求并增强用户体验。

google CEO Sundar Pichai 和google DeepMind CEO Demis Hassabis 对新模型进行了专门介绍。

googleGemini1.5火速上线：MoE架构，100万上下文

领先基础模型的上下文长度

高效架构

Gemini 1.5 建立在google对 Transformer 和 MoE 架构的领先研究之上。传统 Transformer 充当一个大型神经网络，而 MoE 模型则分为更小的 “专家” 神经网络。

根据给定输入的类型，MoE 模型学会选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。通过稀疏门控 MoE、GShard-Transformer、Switch-Transformer、M4 等研究，Google 一直是深度进修 MoE 技术的早期采用者和先驱。

google在模型架构方面的最新创新使 Gemini 1.5 能够更快地进修复杂任意并保持质量，同时更高效地训练和服务。这些效率正在帮助google团队比以往更快地迭代、培训和交付更高级的 Gemini 版本，并且正在努力进一步优化。

更长的上下文，更有用的功能

人工智能模型的 “上下文窗口” 由 token 组成，token 是用于处理信息的构建块。token 可以是文字、图像、视频、音频或代码的整个部分或子部分。模型的上下文窗口越大，它在给定提示中可以接收和处理的信息就越多，从而使其输出更加一致、相关和有用。

通过一系列机器进修创新，google增加了 1.5 Pro 的上下文窗口容量，远远超出了 Gemini 1.0 最初的 32,000 个 token。该大模型现在可以在生产环境中运行多达 100 万个 token。

这意味着 1.5 Pro 可以一次性处理大量信息，包括 1 小时的视频、11 小时的音频、超过 30,000 行代码或超过 700,000 个单词的代码库。在google的研究中，还成功尝试了多达 1000 万个 token。

对大量信息进行复杂推理

1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如，当给出阿波罗 11 号登月任意的 402 页记录时，它可以推理整个文档中的对话、事件和细节。 googleGemini1.5火速上线：MoE架构，100万上下文

Gemini 1.5 Pro 可以明白、推理和识别阿波罗 11 号登月任意的 402 页记录中的好奇细节。

更好地明白和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的明白和推理任意。例如，当给定一部 44 分钟的巴斯特・基顿无声电影时，该模型可以准确分析各种情节点和事件，甚至推理出电影中容易被忽略的小细节。

Gemini 1.5 Pro 可以明白、推理和识别阿波罗 11 号登月任意的 402 页记录中的好奇细节。

更好地明白和推理跨模态

Gemini 1.5 Pro 可以明白、推理和识别阿波罗 11 号登月任意的 402 页记录中的好奇细节。

更好地明白和推理跨模态

1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的明白和推理任意。例如，当给定一部 44 分钟的巴斯特・基顿无声电影时，该模型可以准确分析各种情节点和事件，甚至推理出电影中容易被忽略的小细节。 googleGemini1.5火速上线：MoE架构，100万上下文

当给出简单的线条图作为现实生活中物体的参考材料时，Gemini 1.5 Pro 可以识别 44 分钟的巴斯特基顿无声电影中的场景。

使用较长的代码块解决相关问题

1.5 Pro 可以跨较长的代码块执行更相关的问题解决任意。当给出超过 100,000 行代码的提示时，它可以更好地推理示例、建议有用的修改并解释代码不同部分的工作原理。 googleGemini1.5火速上线：MoE架构，100万上下文

Gemini 1.5 Pro 可以推理 100,000 行代码，提供有用的解决方案、修改和注释

增强性能

在文本、代码、图像、音频、视频评估综合面板上进行尝试时，1.5 Pro 在用于开发大型语言模型 (LLM) 的基准尝试中，87% 的性能优于 1.0 Pro。在相同的基准尝试中与 1.0 Ultra 相比，它的表现大致相似。

即使上下文窗口增加，Gemini 1.5 Pro 仍能保持高水平的性能。

在 NIAH 评估中，故意将包含特定事实或陈述的一小段文本放置在很长的文本块中，1.5 Pro 99% 的时间都能找到嵌入的文本，在数据块中如下只要 100 万个 token。

Gemini 1.5 Pro 还展示了令人印象深刻的 “上下文进修（in-context learning）” 技能，这意味着它可以从长提示中给出的信息中进修新技能，而不需要额外的微调。google在 MTOB （Translation from One Book ）基准尝试中尝试了这项技能，该基准显示了该模型从以前从未见过的信息中进修的能力。当给定卡拉芒语（一种全球使用人数不足 200 人的语言）的语法手册时，该模型可以进修将英语翻译成卡拉芒语，其水平与进修相同内容的人相似。

由于 1.5 Pro 的长上下文窗口是大型模型中的首创，因此google正在不断开发新的评估和基准来尝试其新颖的功能。

有关更多详细信息，请参阅 Gemini 1.5 Pro 技术报告。

技术报告地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

使用 Gemini 模型进行构建和实验

google致力于负责任地将每个新一代 Gemini 模型带给全球数十亿人、开发者和企业用户使用。

从今天开始，google将通过 AI Studio 和 Vertex AI 向开发者和企业客户提供 1.5 Pro 预览版。

未来，当模型进行更广泛的发布时，届时，google将推出具有标准 128,000 个 token 上下文窗口的 1.5 Pro。很快，随着google对模型的改进，google计划引入从标准 128,000 个上下文窗口开始并扩展到 100 万个 token 的定价等级。

早期尝试人员可以在尝试期间免费尝试 100 万个 token 上下文窗口，速度的显着提高也即将到来。

有兴趣尝试 1.5 Pro 的开发人员现在可以在 AI Studio 中注册，而企业客户可以联系他们的 Vertex AI 客户团队。

参考链接：https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note

{{userData.name}}已认证

googleGemini1.5火速上线：MoE架构，100万上下文

我在模仿天下！OpenAI刚刚公布Sora技术细节：是数据驱动物理引擎

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！