谷歌发布多模态直播 API：解锁看、听、说，开启 AI 音视频交互新体验

作者：故渊

2024-12-13 08:44

谷歌昨日在发布 Gemini 2.0 的同时，还发布了全新的多模态直播（Multimodal Live）API，帮助开发人员开发具有实时音频和视频流功能的应用程序。

谷歌昨日在发布 Gemini 2.0 的同时，还发布了全新的多模态直播（Multimodal Live）API，帮助开发人员开发具有实时音频和视频流功能的应用程序。

该 API 实现了低延迟、双向的文本、音频和视频交互，以音频和文本形式输出，带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型，并通过共享摄像头输入或屏幕录像与其进行互动，就内容提问。

该模型的视频理解功能扩展了通信模式，用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放，同时也向用户提供了一个多模态实时助手的演示应用。AI在线附上演示如下：

该 API 支持集成多种工具，开发者只需一次 API 调用，即可完成复杂的用例。

消息称谷歌将推出明星网红 AI 聊天机器人，与 Meta 竞争

根据 The Information 爆料消息，谷歌正在基于明星和 YouTube 网红构建新的 AI 聊天机器人。这个想法并不是谷歌首创的，目前包括 Character.ai 这样的初创公司，以及像 Meta 这样的大公司已经推出了类似的产品。爆料称，谷歌的明星网红 AI 聊天机器人将由该公司的 Gemini 大语言模型提供支持。该公司还在尝试与有影响力的明星网红建立合作伙伴关系，并且还在开发一项功能，让人们只需描述自己的个性和外表就可以创建自己的聊天机器人，类似 Character.ai 的做法。IT之家还发现

谷歌Gemini1.5火速上线：MoE架构，100万上下文

今天，谷歌宣布推出 Gemini 1.5。Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。谷歌现在推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型，针对多种任务的扩展进行了优化，其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似，并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000

谷歌最高优先级项目曝光：下一代AI搜索，誓要打败ChatGPT

岁末年初，科技公司似乎集体进入了反思阶段。过去一个月里，谷歌创始人拉里・佩奇、谢尔盖・布林与公司高管一直在开会，讨论新型 AI 聊天机器人。

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄

标签云

谷歌发布多模态直播 API：解锁看、听、说，开启 AI 音视频交互新体验

相关资讯

消息称谷歌将推出明星网红 AI 聊天机器人，与 Meta 竞争

谷歌Gemini1.5火速上线：MoE架构，100万上下文

谷歌最高优先级项目曝光：下一代AI搜索，誓要打败ChatGPT