语音

ChatGPT 高级语音模式主创“自立门户”：新公司估值达 2 亿美元，打造有情感的 AI 语音交互
前 OpenAI 研究员 Alexis Conneau 最新创立 WaveForms AI，目前已获 a16z 4000 万美元种子轮融资，剑指音频 AI 交互领域。
应用
- 974
- 0
故渊12月10日
支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级
中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进…
应用
- 16
- 0
沛霖（实习）11月3日
智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣
智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示，其能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断，用户即日起可在“智谱清言”App 上体验。据介绍，GLM-4-Voice 具备如下特点：情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。
应用
- 21
- 0
清源10月25日
消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面，研发类 GPT-4o 端到端语音模型
感谢据“晚点 Auto”昨晚报道，微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面，主要负责研发端到端语音模型。报道称，月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称，目前正有 10 人左右的团队在研发视频模型，为确保产品更具差异性，对外发布计划仍在推迟。
应用
- 13
- 0
清源10月23日
新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式
科技媒体 testingcatalog 昨日（9 月 18 日）发布博文，报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式，甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道，OpenAI 公司已更…
应用
- 8
- 0
故渊9月19日
帕萨特发布会语音助手翻车，知情人士爆料：PPT多切了一页
9月11号消息，上汽大众正式推出了帕萨特 380TSI 家族，共计五款车型。然而在发布会上发生了一段意外插曲。帕萨特 Pro 在演示其搭载的智能AI语音系统时翻车，出现了问题和回答对不上的情况。据有关知情人士透露，该演示内容为提前录制，但高管在现场打乱了提问顺序，操作人员一时跟不上节奏，ppt多切了一页，事先准备好的语音没有及时同步，从而导致“翻车”。
应用
- 47
- 0
新闻助手9月12日
“国内首个端到端通用语音 AI 大模型”心辰 Lingo 发布，号称中文效果比 GPT-4o 更出色
西湖心辰昨日发布了心辰 Lingo 语音大模型，号称是“国内首个端到端通用语音大模型”。官方表示，针对心辰 Lingo 端到端语音大模型的能力，在多个领域和中文上进行增强，使得心辰 Lingo 的中文语音效果，相较 GPT-4o 更为出色。心辰 Lingo 于 8 月 24 日开启内测，至今已经有超千家企业用户预约测试。相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，不仅可以语音识别，…
应用
- 50
- 0
沛霖（实习）9月6日
OpenAI ChatGPT 被曝将新增 8 种新语音：更自然表达狗叫等动物声音
科技媒体 testingcatalog 昨日（9 月 2 日）发布博文，报道称通过逆向工程 ChatGPT 应用，发现 OpenAI 即将扩充添加语音，让朗读的声音更加自然和富有表现力。有迹象表明 OpenAI 未来可能会额外推出 8 种新的语音，每种语音都有一个独特的代号，后续可能会逐步推出。这些新声音的另一个有趣特点是，它们能够更自然地表达声音，如动物叫声或其他非语言声音。此外，在朗读加粗或斜…
应用
- 23
- 0
故渊9月3日
国内首个端到端通用语音大模型——心辰Lingo开放内测预约
内容导览：国内首个端到端通用语音大模型——心辰Lingo现开放内测预约。在技术上，心辰Lingo具备实时打断、实时指令控制、超级拟人、能说会唱等能力，拥有比 GPT-4o 更出色的中文语音效果。9月5日西湖心辰将在外滩大会上正式发布该模型，这一技术的突破或将对多个领域产生深远影响，有望引领人机交互进入一个全新的时代。登陆「心辰Lingo」语音大模型官网（），即可马上预约内测。什么是端到端语音对话…
应用
- 19
- 0
新闻助手8月29日
腾讯推出“全球首个”语音指挥 FPS AI 队友，可据输入指令推测玩家意图
感谢AI在线从腾讯魔方工作室获悉，在 8 月 21 日的 2024 科隆游戏展上，《暗区突围》端游海外版《Arena Breakout: Infinite》亮相。同时，由魔方工作室群技术团队联合《暗区突围》项目团队推出了号称“全球首个”的语音指挥 FPS AI F.A.C.U.L. 。据官方介绍，该产品是全球第一个“能听懂人类语言”的 FPS AI 队友，应用了生成式 AI 技术，包括语音输入…
应用
- 36
- 0
清源8月24日
“国内首个能力追齐 GPT-4o 语音能力的模型”，心辰 Lingo 语音 AI 模型开放内测预约
金科汤姆猫投资的西湖心辰于今年 8 月推出心辰 Lingo 语音大模型，是国内首个端到端语音大模型，已于今天（8 月 24 日）开启内测预约。在 8 月 21 日发布的公告中，官方介绍称相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，它不仅可以语音识别，还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节，实现了从语音输入到语音反馈的完整交互过程，极大地丰富了人机交互的深度和…
应用
- 30
- 0
故渊8月24日
微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频
微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：Text to S…
应用
- 80
- 0
汪淼8月23日
科大讯飞推出“星火极速超拟人交互”：可模仿孙悟空、蜡笔小新、小猪佩奇等音色、语气、人设
感谢科大讯飞今日宣布对星火语音大模型进行更新，带来“星火极速超拟人交互”，计划于 8 月 30 日上线讯飞星火 App。“星火极速超拟人交互”采用统一神经网络实现语音到语音的端到端建模。官方称即便被频繁打断，也能“迅速反应”，更加符合日常对话情境。升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别；自动带入符合情境的对话，用合适的情绪语气进行回复。据介绍，“星火极速超拟人交互”的情感表达“更…
应用
- 23
- 0
沛霖（实习）8月19日
准确率97%，将大脑信号转化为语音，新型脑机接口让失语者「说话」
编辑 | 萝卜皮肌萎缩性脊髓侧索硬化症又称渐冻人症（ALS），会影响控制全身运动的神经细胞。这种疾病会导致患者逐渐丧失站立、行走和使用双手的能力。它还会导致患者失去对说话肌肉的控制，从而无法进行语言表达。加州大学戴维斯分校的研究团队开发了一项新技术旨在帮助因瘫痪或 ALS 等神经系统疾病而无法说话的人恢复交流能力。它可以解读用户说话时的脑信号，并将其转换成计算机大声朗读的文本。其准确率高达 97%…
应用
- 6
- 0
ScienceAI8月16日
字节豆包大模型已支持实时语音通话
IT 之家 8 月 9 日消息，字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案，搭载火山方舟大模型服务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输，并深度整合豆包・语音识别模型和豆包・语音合成模型，简化语音到文本和文本到语音的转换过程，提供智能对话和自然语言处理能力，帮助应用实现用户和云端大模型的实时语音通话。▲ 对话式 AI 实时交互服务方案架构字节跳动介绍称…
应用
- 76
- 0
汪淼8月9日
美国 FCC 提议 AI 生成电话语音必须“自报”AI 身份，以打击骚扰、欺诈信息
AI“模仿”人类声音的能力日渐成熟，已经有部分用户开始无法凭借第一反应来判断说话者是人类还是人工智能。当前，AI 生成的语音被越来越多地用在语音通话中，例如广告宣传或推销等领域。据 TechRadar 北京时间今天报道，美国联邦通信委员会（AI在线注：下文简称 FCC）正试图打击一些利用 AI 生成通话语音的不法行为和恶意企图，并提出一项提案旨在加强对消费者的保护，使消费者免受“不受欢迎的”AI …
应用
- 6
- 0
清源8月9日
OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式，可提供更自然实时对话
当地时间 30 日，OpenAI 宣布即日起向部分 ChatGPT Plus 用户开放 GPT-4o 的语音模式（AI在线注：Alpha 版本），并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。今年 5 月，OpenAI 首席技术官米拉・穆拉蒂（Mira Murati）在演讲中提到：在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由…
应用
- 18
- 0
清源7月31日
开启无缝 AI 语音聊天，OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式
感谢OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）今天回复网友提问，表示将于下周面向 ChatGPT Plus 用户，开放 Alpha 版本 GPT-4o 的语音模式（Voice Mode），实现无缝聊天。AI在线今年 5 月报道，OpenAI 首席技术官穆里・穆拉蒂（Muri Murati）在演讲中表示：在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意…
应用
- 16
- 0
故渊7月26日
语音克隆达到人类水平，微软全新 VALL-E 2 模型让 DeepFake 堪比配音员
继去年初的第一代 VALL-E 模型之后，微软最近又上新了 VALL-E 2 模型，标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。最近，微软发布了零样本的文本到语音（TTS）模型 VALLE-2，首次实现了与人类同等的水平，可以说是 TTS 领域里程碑式的进展。论文地址：，用录音室环境下的干净单人语音训练模型，已经可以达到人类同等水平的质量，但零样本 TTS 依…
应用
- 37
- 0
清源7月24日
普通话响应速度提升 3 倍，ElevenLabs 发布文本转语音 Turbo 2.5 AI 模型
ElevenLabs 昨日（7 月 19 日）发布博文，介绍推出了全新的 Turbo v2.5 文本到语音 AI 模型，支持普通话等 32 种语言，为全球近 80% 的地区提供高质量、低延迟的 AI 对话。Turbo v2.5 模型首次支持越南语、匈牙利语和挪威语，这些语言的使用人数分别为 8500 万、1300 万和 530 万。本次更新还重点提高了印地语、法语、西班牙语、普通话和其他 27 种…
应用
- 15
- 0
故渊7月20日
阿里云通义千问开源两款语音基座模型，识别效果优于 OpenAI Whisper
阿里云通义千问开源了两款语音基座模型 SenseVoice（用于语音识别）和 CosyVoice（用于语音生成）。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测，有以下特点：多语言识别：采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果；支持声音事…
应用
- 40
- 0
沛霖（实习）7月9日
实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎
呆板之能报道编辑：杨文这款新AI语音模型Fish Speech，模拟音色一绝。近来，AI 语音赛道突然热闹起来。一个多月前，一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢？仅三天时间就在 GitHub 狂揽 9.2k Star 量，还一度登顶 GitHub Trending 榜首并连续霸榜。没多久，字节也推出一款类似项目 Seed-TTS，喊出的口号同样是「生成自…
应用
- 6
- 0
机器之能7月4日
OpenAI 推迟宣布 ChatGPT 语音帮忙功效，检测及拒绝部分内容的能力仍待加强
感谢北京工夫今天清晨，OpenAI 在 X（推特）上发文宣布，备受期待的 ChatGPT 语音帮忙功效将被推迟宣布，因为公司需要确保它不妨“安全有效地”处理来自数百万用户的请求。IT之家附通告大意如下：我们想分享春季更新中示范过的先进语音形式的最新进展，对此我们仍然非常兴奋：我们原决策在 6 月下旬开始向一小部分 ChatGPT Plus 用户推出测试版，但还需要一个月的工夫才能抵达启动尺度。例如…
AI
- 6
- 0
清源6月26日
科大讯飞：星火 V4.0 大模型“对标 GPT-4 Turbo”，6 月 27 日公布多款产品
科大讯飞今日公布公告，公司将于 2024 年 6 月 27 日在北京国家会议中心如期公布讯飞星火大模型的最新进展。本次公布会以“懂你的 AI 帮忙”为主题，公布讯飞星火大模型 V4.0 及相关落地运用。官方披露公布会内容：全面提升大模型底座七大核心能力，对标 GPT-4 Turbo；崭新晋级讯飞星火 App / Desk，公布“个人空间”，打造更懂你的 AI 帮忙；崭新公布星火智能批阅机，助力教师…
AI
- 6
- 0
浩渺6月24日