抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

Gemini 2.0 Flash是2.0家族第一个模型,主推原生多模态输入输出 Agent,速度比 1.5 Pro 快两倍,关键性能指标甚至超过了 1.5 Pro! 支持原生工具调用、以及实时音视频流输入等新功能谷歌CEO劈柴哥,谷歌DeepMind CEO 诺奖获得者Demis Hassabis,谷歌DeepMind CTO罕见齐下场共同撰文为Gemini 2.0 Flash的推出当啦啦队重点功能:更强性能: 速度更快,多模态、文本、代码、视频、空间理解和推理能力全面提升! 新能力比如空间理解,视频理解等可以通过Googele AI Studio 的Starter Apps来体验例如1,Gemini 2.0对空间的理解,利用Spatial Understanding,上传一张图片,Gemini快速进行图像中的物体检测(2D和3D形式都可以)和标注,并生成结构化的数据(JSON格式)。

Gemini 2.0 Flash是2.0家族第一个模型,主推原生多模态输入输出+ Agent,速度比 1.5 Pro 快两倍,关键性能指标甚至超过了 1.5 Pro!支持原生工具调用、以及实时音视频流输入等新功能

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

谷歌CEO劈柴哥,谷歌DeepMind CEO 诺奖获得者Demis Hassabis,谷歌DeepMind CTO罕见齐下场共同撰文为Gemini 2.0 Flash的推出当啦啦队

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

重点功能:

更强性能: 速度更快,多模态、文本、代码、视频、空间理解和推理能力全面提升!新能力比如空间理解,视频理解等可以通过Googele AI Studio 的Starter Apps来体验

例如1,Gemini 2.0对空间的理解,利用Spatial Understanding,上传一张图片,Gemini快速进行图像中的物体检测(2D和3D形式都可以)和标注,并生成结构化的数据(JSON格式)。它的设计直观,用户可以通过简单的交互操作快速获得检测结果。这种工具可能用于机器学习训练数据准备、图像分析或计算机视觉研究等场景

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

例如2,Gemini 2.0地图交互,利用Map explorer,show一下世界上最有意思的大城市,哈哈,看来来重庆是真的火啊

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

全新输出模态: 支持文本、音频和图像的集成响应,多语言原生音频输出,8 种高品质语音,多种语言和口音!原生图像输出,还能进行多轮编辑迭代直到生成满意的图像

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

原生工具使用: Gemini 2.0 可以直接调用 Google 搜索、代码执行等工具,还能通过函数调用使用自定义的第三方函数!

多模态实时 API: 支持实时音视频流输入,还能进行语音活动检测,甚至可以集成多个工具完成复杂任务!现在通过Stream Realtime就可以体验

例如,把电脑屏幕交给Gemini 2.0接管, 它可以在你与模型实时交互的同时进行搜索和编码

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

基于Gemini 2.0的AI“代理”

谷歌正在积极探索 AI“代理”的应用,目标是打造能够自主理解、规划和执行任务的智能助手。他们已经推出了一系列Agent原型(目前仅供测试人员使用),展示了 AI 代理在不同领域的巨大潜力:

Jules,你的 AI 编程伙伴: 想象一下,你的团队刚完成了一轮bug排查,一堆 bug 亟待修复。现在,你可以把 Python 和 JavaScript 的编码任务交给 Jules。它与你的 GitHub 工作流无缝集成,可以异步处理 bug 修复和其他耗时的任务,让你专注于核心开发工作。Jules 会创建全面的、多步骤的计划来解决问题,高效地修改多个文件,甚至能准备 pull requests,直接将修复提交到 GitHub!更重要的是,Jules 赋予开发者更多自主权:你可以随时查看 Jules 创建的计划,提供反馈或要求调整,并轻松审查和合并 Jules 编写的代码

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

Colab 数据科学代理,你的 AI 分析师: 繁琐的数据分析Colab 数据科学代理帮你搞定!只需用自然语言描述你的分析目标,Colab 就能自动生成一个完整的 notebook,并在几分钟内提供洞察。所有分析都基于一个可运行的 Colab notebook,保证结果的可靠性和可重复性。这将极大地加速你的研究和数据分析进程

Project Astra,你的万能 AI 助手: Project Astra 致力于打造一个通用的 AI 助手,它能够理解多模态信息,并在现实世界中帮助你完成各种任务。比如,你戴着支持 Astra 的眼镜或者拿着手机,只需动动嘴,就能让 AI 助手帮你安排日程、预订餐厅、甚至控制家里的智能设备!目前,Project Astra 正在 Android 手机上进行测试,并且即将在原型眼镜上进行测试

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

Project Mariner,重新定义人机交互: Project Mariner 旨在探索人机交互的未来,从浏览器开始。它是一个实验性的 Chrome 扩展程序,可以让 AI 代理在你的浏览器中执行各种任务,例如查找信息、填写表格、甚至与网站进行交互

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

游戏和其他领域的 AI 代理: DeepMind 在游戏 AI 领域积累了丰富的经验,现在他们将 Gemini 2.0 应用于游戏代理的开发。这些代理可以根据屏幕上的内容理解游戏规则和挑战,并提供实时建议。例如,一个 AI 伙伴陪你一起玩游戏,还能提供专业的指导,游戏体验将提升到一个全新的层次!更牛的是,这些代理还能连接到 Google 搜索,获取海量的游戏知识,成为你真正的游戏专家!目前,他们正与 Supercell 等游戏开发商合作,在“部落冲突”和“卡通农场”等游戏中测试这些代理

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

Gemini Advance模式 谷歌在高级版中推出一项名为 “深度研究 “的新代理功能,这是一个研究助手,可以深入研究复杂的主题,并为你创建带有相关来源链接的报告,感觉这是直接写科研论文的节奏

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

福利:

Gemini 2.0 Flash 及API免费可用! 可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 使用,基本不要钱,每分钟最多15个提问,每天最多1500个提问

明年初全面开放! 更多模型尺寸和功能,敬请期待!

更多平台支持: Gemini 2.0 将陆续登陆 Android Studio、Chrome DevTools 和 Firebase 等平台

增强代码辅助功能: Gemini Code Assist 将为 Visual Studio Code、IntelliJ、PyCharm 等 IDE 提供更强大的代码辅助功能

给TA打赏
共{{data.count}}人
人已打赏
理论

豆包 Marscode 优秀实践

2024-12-12 9:02:35

理论

小型语言模型与大型语言模型:2025年对企业的影响

2024-12-12 9:11:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索