Hume推出革命性文本转语音系统Octave：能理解情感与上下文

2025-02-27 09:27

在人工智能领域，Hume AI公司最近宣布推出其全新产品Octave，这一系统被称为首个由大型语言模型（LLM）驱动的文本转语音系统。 Octave的创新之处在于其不仅能够生成自然的语音，还能理解上下文中的情感、语调、节奏和韵律，从而为用户提供更为生动和人性化的语音输出。 Hume AI的联合创始人兼首席执行官Alan Cowen在接受媒体采访时表示，Octave模型的设计初衷是为了使文本转语音的生成过程更加自然和灵活。

在人工智能领域，Hume AI公司最近宣布推出其全新产品Octave，这一系统被称为首个由大型语言模型（LLM）驱动的文本转语音系统。Octave的创新之处在于其不仅能够生成自然的语音，还能理解上下文中的情感、语调、节奏和韵律，从而为用户提供更为生动和人性化的语音输出。

Hume AI的联合创始人兼首席执行官Alan Cowen在接受媒体采访时表示，Octave模型的设计初衷是为了使文本转语音的生成过程更加自然和灵活。他提到，Octave可以根据输入的文本内容，自动识别人物性格和情感状态，并相应调整语音的表现。例如，讽刺的句子会被以讽刺的语气表达，而紧急的内容则会以急促的语调呈现。

语音控制

Octave还具备了一项独特的功能，用户可以通过简单的自然语言指令，针对生成的声音进行细致的调整。这意味着，用户可以直接输入诸如“更快乐”、“更悲伤”等描述，从而使生成的语音更加符合他们的期望。Cowen补充道，Octave能够根据角色的特性，比如“讽刺的中世纪农民”，立即生成对应的声音，并在情感表达上进行相应的调节。

与传统的逐字处理模型不同，Octave重视上下文的连贯性，能够在句子层面及句子间捕捉情感变化。这种能力使得Octave在处理复杂情绪和语境时表现得更加出色。

随着人工智能技术的快速发展，Hume AI的Octave系统为文本转语音技术带来了新的可能性。它不仅能为影视制作、游戏开发等行业提供更加真实的角色配音，也为教育、客服等领域的应用开辟了新的方向。Hume AI的这一创新将进一步推动语音技术的发展，助力更自然、更具情感的交流方式。

出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力

3月6日，出门问问（Mobvoi）联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构，共同开源新一代语音生成模型Spark-TTS，并重磅推出其商业化高品质TTS引擎——TicVoice7.0。作为出门问问第七代TTS引擎，TicVoice7.0在语音生成领域实现了重大突破，开启了全新的语音生成范式。 TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。

3/7/2025 8:50:00 AM

AI在线

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示，其能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断，用户即日起可在“智谱清言”App 上体验。据介绍，GLM-4-Voice 具备如下特点：情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。

10/25/2024 4:06:56 PM

清源

AIGC 热点整理！不得不知的 4 个重磅 AIGC 大事件

一、Adobe Premiere pro Adobe 在官网发了一篇文章，宣布即将推出新的 Adobe Firefly 视频模型，新的视频模型将集成在 Adobe Premiere Pro 中。这是自去年 5 月份 Adobe 宣布将 Firefly 集成到 Photoshop 后的又一个重大更新。文章中也宣布了，预计在今年年底，在 Adobe Premiere Pro 中将推出第三方 AI 模型的集成，视频制作者可以选择他们喜欢的模型，如 OpenAI 的 Sora 模型、Runway AI 和 Pika 等视

4/25/2024 12:05:10 AM

团队新浪MDC

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

顶部

Hume推出革命性文本转语音系统Octave：能理解情感与上下文

相关资讯

出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

AIGC 热点整理！不得不知的 4 个重磅 AIGC 大事件