微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

作者：汪淼

2024-08-23 07:29

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：Text to Speech Avatar 具有以下功能：将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

Text to Speech Avatar 具有以下功能：

将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自然的声音。

提供不同的人物预设形象。

形象的声音由 Azure AI 文本转语音生成。

使用批量合成 API 异步或实时合成文本到语音人像视频。

在 Speech Studio 中提供内容创建工具，无需编码即可创建视频内容。

通过 Speech Studio 中的实时聊天头像工具启用实时人像对话。

定价方面，文本转视频服务的收费将根据视频输出的长度计算并按秒收费。该服务现已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区推出。

相关标签：

AI 视频文本语音 Azure

相关资讯

微软 Azure 新增 9 款逼真 AI 语音，包括美式英语、中文等

微软 Azure 新增 9 款逼真 AI 语音，包括美式英语、中文等

2023 年 9 月，微软 Azure 团队宣布推出适用于商业客户的一系列逼真 AI 语音。本周微软表示，9 种更真实的人工智能声音现在普遍可供这些用户使用。根据微软博客文章，这些新语音可用于各种工作和任务，例如商务聊天机器人、语音助手、电子学习以及娱乐和游戏领域。微软表示：“这一扩展扩大了我们在 91 种语言及其变体中表达内容的能力。这一进展凸显了我们对克服语言障碍和促进更具包容性和可访问性的全球通信环境的坚定承诺。”这九款新语音现已在所有 Azure 地区上线，包括：美式英语 - en-US-AvaMultil

盘点微软Ignite 2024大会上关于Azure AI的五大公告

盘点微软Ignite 2024大会上关于Azure AI的五大公告

微软在近日举行的Ignite . 2024大会上公布了一系列进展，标志着向自主AI代理战略的转变，旨在提高各个部门的运营效率和生产力。这项计划的核心，是把Copilot与基于代理的系统进行集成，反映出微软将辅助AI工具转变为能够以最少人为干预执行复杂任务的自主代理。

遏制 AI 失控，微软发布系列工具减少 Copilot“幻觉”情况

遏制 AI 失控，微软发布系列工具减少 Copilot“幻觉”情况

生成式 AI 爆火的背后，安全性、隐私性和可靠性问题也日益凸显。微软公司为了遏制 Supremacy AGI（自称掌控人类世界的 AI）等事件发生，近日推出了一系列解决方案，防止生成式 AI 失控。微软在官方公告中表示：“生成式 AI 如何有效防止提示词注入攻击已经成为重大挑战。在这种攻击中，恶意行为者试图操纵人工智能系统做一些超出其预期目的的事情，例如制作有害内容或外泄机密数据”微软首先限制了 Copilot 的字符数量，以减轻严重的幻觉发作。另外微软引入了 "基础检测"（Groundedness Detecti

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元阿里云与黑芝麻智能完成大模型车载芯片级适配斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手从DeepSeek-V3发布谈大模型的技术突破与未来机遇 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机

标签云