语音 - AI在线

推动多语言语音科技迈向新高度：INTERSPEECH 2025 ML-SUPERB 2.0 挑战赛

随着语音技术在各领域应用的迅速扩展，全球语言与口音的多样性成为技术进一步突破的重大挑战。为了应对这一难题，来自卡内基梅隆大学（CMU）、斯坦福大学（Stanford University）、乔治梅森大学(George Mason University)、台湾大学与芝加哥丰田技术学院(TTIC)的研究团队连手，在即将举行的 INTERSPEECH 2025 国际会议上推出了 ML-SUPERB 2.0 挑战赛（Multilingual SUPERB 2.0 Challenge）。该挑战旨在推动多语言语音技术迈向新高度，为语音科技的全球化应用奠定坚实基础。

国产AI之光！TeleAI星辰大模型入选央企十大国之重器评选

近日，国务院国资委新闻中心发起“十大国之重器”年度盘点，从2024年中央企业建设的众多重点项目中精心选出20项既有影响力又有创新力的大国重器，诚邀广大网友评选“年度十大国之重器”。由中电信人工智能科技有限公司和中国电信人工智能研究院（TeleAI）打造的“全国产化万亿参数星辰大模型发布”光荣入选，成为国产AI的佼佼者，展现了中国电信在人工智能领域的领先地位。星辰大模型，开启国产AI新时代星辰大模型，是由中国电信自主研发打造的全国产化万亿参数大模型，是国内AI技术的重大突破。

ChatGPT 高级语音模式主创“自立门户”：新公司估值达 2 亿美元，打造有情感的 AI 语音交互

前 OpenAI 研究员 Alexis Conneau 最新创立 WaveForms AI，目前已获 a16z 4000 万美元种子轮融资，剑指音频 AI 交互领域。

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示，其能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断，用户即日起可在“智谱清言”App 上体验。据介绍，GLM-4-Voice 具备如下特点：情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。

消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面，研发类 GPT-4o 端到端语音模型

感谢据“晚点 Auto”昨晚报道，微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面，主要负责研发端到端语音模型。报道称，月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称，目前正有 10 人左右的团队在研发视频模型，为确保产品更具差异性，对外发布计划仍在推迟。

新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式

科技媒体 testingcatalog 昨日（9 月 18 日）发布博文，报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式，甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道，OpenAI 公司已更新高级语音模式 FAQ 页面，在代码中被发现“hasSeenAdvancedVoice/2024-09-24”的字符串，

帕萨特发布会语音助手翻车，知情人士爆料：PPT多切了一页

9月11号消息，上汽大众正式推出了帕萨特 380TSI 家族，共计五款车型。然而在发布会上发生了一段意外插曲。帕萨特 Pro 在演示其搭载的智能AI语音系统时翻车，出现了问题和回答对不上的情况。据有关知情人士透露，该演示内容为提前录制，但高管在现场打乱了提问顺序，操作人员一时跟不上节奏，ppt多切了一页，事先准备好的语音没有及时同步，从而导致“翻车”。

“国内首个端到端通用语音 AI 大模型”心辰 Lingo 发布，号称中文效果比 GPT-4o 更出色

西湖心辰昨日发布了心辰 Lingo 语音大模型，号称是“国内首个端到端通用语音大模型”。官方表示，针对心辰 Lingo 端到端语音大模型的能力，在多个领域和中文上进行增强，使得心辰 Lingo 的中文语音效果，相较 GPT-4o 更为出色。心辰 Lingo 于 8 月 24 日开启内测，至今已经有超千家企业用户预约测试。相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，不仅可以语音识别，还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节，实现了从语音输入到语音反馈的完整交互过程。心辰 Ling

OpenAI ChatGPT 被曝将新增 8 种新语音：更自然表达狗叫等动物声音

科技媒体 testingcatalog 昨日（9 月 2 日）发布博文，报道称通过逆向工程 ChatGPT 应用，发现 OpenAI 即将扩充添加语音，让朗读的声音更加自然和富有表现力。有迹象表明 OpenAI 未来可能会额外推出 8 种新的语音，每种语音都有一个独特的代号，后续可能会逐步推出。这些新声音的另一个有趣特点是，它们能够更自然地表达声音，如动物叫声或其他非语言声音。此外，在朗读加粗或斜体的文字时，它们还能传达或强调特定的情绪。不过，重要的是要记住，这些仍然是 TTS（文本到语音）语音，很可能与目前处于

国内首个端到端通用语音大模型——心辰Lingo开放内测预约

内容导览：国内首个端到端通用语音大模型——心辰Lingo现开放内测预约。在技术上，心辰Lingo具备实时打断、实时指令控制、超级拟人、能说会唱等能力，拥有比 GPT-4o 更出色的中文语音效果。9月5日西湖心辰将在外滩大会上正式发布该模型，这一技术的突破或将对多个领域产生深远影响，有望引领人机交互进入一个全新的时代。登陆「心辰Lingo」语音大模型官网（），即可马上预约内测。什么是端到端语音对话模型？传统的语音交互是先将语音转成文字，再理解文字，然后生成回复文字，最后再将文字转为语音。每次交互中“语音-文本”和“

腾讯推出“全球首个”语音指挥 FPS AI 队友，可据输入指令推测玩家意图

感谢AI在线从腾讯魔方工作室获悉，在 8 月 21 日的 2024 科隆游戏展上，《暗区突围》端游海外版《Arena Breakout: Infinite》亮相。同时，由魔方工作室群技术团队联合《暗区突围》项目团队推出了号称“全球首个”的语音指挥 FPS AI F.A.C.U.L. 。据官方介绍，该产品是全球第一个“能听懂人类语言”的 FPS AI 队友，应用了生成式 AI 技术，包括语音输入、大语言模型、实时语音合成和环境识别等。其支持玩家用语音直接输入复杂战术指令，还能以此推测玩家意图并用 AI 语音实时反

“国内首个能力追齐 GPT-4o 语音能力的模型”，心辰 Lingo 语音 AI 模型开放内测预约

金科汤姆猫投资的西湖心辰于今年 8 月推出心辰 Lingo 语音大模型，是国内首个端到端语音大模型，已于今天（8 月 24 日）开启内测预约。在 8 月 21 日发布的公告中，官方介绍称相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，它不仅可以语音识别，还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节，实现了从语音输入到语音反馈的完整交互过程，极大地丰富了人机交互的深度和广度。AI在线援引官方新闻稿，心辰 Lingo 语音模型是国内首个能力追齐 GPT-4o 语音能力的模型，技术能力上具备

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：Text to Speech Avatar 具有以下功能：将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自

科大讯飞推出“星火极速超拟人交互”：可模仿孙悟空、蜡笔小新、小猪佩奇等音色、语气、人设

感谢科大讯飞今日宣布对星火语音大模型进行更新，带来“星火极速超拟人交互”，计划于 8 月 30 日上线讯飞星火 App。“星火极速超拟人交互”采用统一神经网络实现语音到语音的端到端建模。官方称即便被频繁打断，也能“迅速反应”，更加符合日常对话情境。升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别；自动带入符合情境的对话，用合适的情绪语气进行回复。据介绍，“星火极速超拟人交互”的情感表达“更灵活”，可以在交流中跟随用户指令控制数十种情感、风格、方言，支持调节语速。“星火极速超拟人交互”能够模仿包括孙悟空、蜡笔

准确率97%，将大脑信号转化为语音，新型脑机接口让失语者「说话」

编辑 | 萝卜皮肌萎缩性脊髓侧索硬化症又称渐冻人症（ALS），会影响控制全身运动的神经细胞。这种疾病会导致患者逐渐丧失站立、行走和使用双手的能力。它还会导致患者失去对说话肌肉的控制，从而无法进行语言表达。加州大学戴维斯分校的研究团队开发了一项新技术旨在帮助因瘫痪或 ALS 等神经系统疾病而无法说话的人恢复交流能力。它可以解读用户说话时的脑信号，并将其转换成计算机大声朗读的文本。其准确率高达 97%，是同类系统中最准确的。该团队的研究人员在一名因 ALS 而导致语言能力严重受损的男子的大脑中植入了传感器。这名男子在启

字节豆包大模型已支持实时语音通话

IT 之家 8 月 9 日消息，字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案，搭载火山方舟大模型服务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输，并深度整合豆包・语音识别模型和豆包・语音合成模型，简化语音到文本和文本到语音的转换过程，提供智能对话和自然语言处理能力，帮助应用实现用户和云端大模型的实时语音通话。▲ 对话式 AI 实时交互服务方案架构字节跳动介绍称，对话式 AI 实时交互解决方案支持开箱即用快速搭建，只需调用标准的 OpenAPI 接口即可配置所需的语音识别（ASR

美国 FCC 提议 AI 生成电话语音必须“自报”AI 身份，以打击骚扰、欺诈信息

AI“模仿”人类声音的能力日渐成熟，已经有部分用户开始无法凭借第一反应来判断说话者是人类还是人工智能。当前，AI 生成的语音被越来越多地用在语音通话中，例如广告宣传或推销等领域。据 TechRadar 北京时间今天报道，美国联邦通信委员会（AI在线注：下文简称 FCC）正试图打击一些利用 AI 生成通话语音的不法行为和恶意企图，并提出一项提案旨在加强对消费者的保护，使消费者免受“不受欢迎的”AI 自动电话的侵害。FCC 的计划将帮助“定义”AI 生成的电话和短信，从而使委员会能够设置界限和规则，例如强制要求 AI

语音