音频

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型，通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

3/10/2025 2:00:00 AM

余俊晖

Stability AI与 Arm 合作推出离线生成音频技术

Stability AI因其Stable Diffusion文本生成图像模型而闻名。最近，该公司与全球半导体巨头 Arm 展开合作，致力于将生成音频人工智能能力引入移动设备。这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行，用户可以在设备上快速生成音效、音频样本和制作元素，且无需互联网连接。

3/4/2025 4:25:00 PM

AI在线

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司，近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性，用户可以通过其官网进行体验。根据 ElevenLabs 的基准测试，Scribe 在将口语准确转换为文本方面，超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3，取得了前所未有的低错误率。

2/27/2025 9:56:00 AM

AI在线

谷歌扩展NotebookLM Plus，个人用户也能享受AI记笔记新体验

谷歌最近宣布，NotebookLM Plus 的付费版本现已向订阅谷歌 One AI Premium 计划的个人用户开放。这一消息的发布距 NotebookLM Plus 在谷歌云和谷歌工作区首次推出企业版不到两个月，显示出谷歌对个人用户需求的重视。 NotebookLM Plus 于去年12月首次推出，作为一款 AI 驱动的笔记和研究助手，旨在为用户提供更高的使用限制和更多的高级功能。

2/11/2025 10:22:00 AM

AI在线

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷：会凭空生成大段虚假内容

当地时间 27 日，据美联社报道，超过十位软件工程师、开发人员和学术研究人员称，OpenAI 的语音转写工具 Whisper 存在一个重大缺陷：有时会凭空生成大段甚至整句虚假内容。这些专家指出，这些生成的文本（AI在线注：业内通常称为“AI 幻觉”）可能涉及种族言论、暴力措辞，甚至杜撰的医疗建议。专家们认为，这一问题尤其令人担忧，因为 Whisper 已被广泛应用于全球多个行业，包括用于翻译和转录访谈内容、生成常见消费科技文本及制作视频字幕。

10/28/2024 8:47:58 AM

清源

氛围感拉满：微软新专利探索 Copilot AI 应用，匹配视频等生成音乐

科技媒体 Windows Report 昨日（10 月 4 日）发布博文，报道称微软公司获得了一项新的专利，构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。AI在线注：微软该专利名为《Artificial intelligence model for composing audio scores》，主要探讨了基于输入内容，来创建音乐的方法。该专利主要概述了以下步骤：收集数据：收集大量的训练数据，这些数据包括许多包含视频和音频组件的视听数据集。分析提取：分析数据

10/5/2024 2:32:54 PM

故渊

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。▲ Q

8/13/2024 12:07:20 PM

沛霖（实习）

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。 AI在线附相关链接：项目地址： G

7/11/2024 4:48:41 PM

清源

比尔・盖茨展望“AI 智能体”：能提供心理治疗服务，还能当女友

播客节目 Next Big Idea Club 上周末发布了对微软创始人比尔・盖茨的采访，盖茨谈到了人工智能、超级智能等话题。主持人 Rufus Griscom 询问了比尔盖茨对人工智能未来发展的看法。“1980 年，你曾有过灵光一现的一瞬：当时你宣布每家每户、每个桌子上都将有一台计算机。你认为 AI 会有怎样的发展？你认为我们的每个耳朵里都会有一个‘AI 顾问（AI advisor）’吗？”盖茨回答道，“AI 顾问”的硬件外形并不重要。例如耳机既能增强音频、又能消除音频，还能使音频更清晰，这是一个非常重要的硬件形

7/3/2024 3:43:16 PM

清源

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。最近，AI 圈刮起一股「让照片开口唱歌」的风潮。例如，让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天，又有一家名为 Hedra 的公司前来踢馆，推出了基础模型 ——

6/20/2024 8:05:00 PM

机器之能

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 Hugging

6/6/2024 2:15:01 PM

故渊

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

4/4/2024 10:23:56 AM

故渊

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

在本届ICASSP 2024 各类音频国际挑战赛中，字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室，在丢包补偿（Packet Loss Concealment， PLC）与音质修复（Speech Signal Improvement， SSI）两个挑战赛道中，多项指标上表现优秀，分别取得第一和第二的成绩，达到国际领先水平。ICASSP峰会上的音频挑战赛由国际音频顶级会议 ICASSP 和微软联合发起，旨在激发各研究构在音频效果与音质提升上的研究，自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百

1/5/2024 5:10:00 PM

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？试听地址： Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：试听地址： Audiobox Maker ，即使是小白用户也可以设计、生成不同人物（比如小红帽、大灰狼和外婆）的声音文件，同时添加不

12/12/2023 7:08:00 PM

机器之能

Meta开源文本生成音乐大模型，我们用《七里香》歌词试了下

年初，谷歌推出了音乐生成大模型 MusicLM，效果非常不错。有人称这比大火的 ChatGPT 还重要，几乎解决了音乐生成问题。近日，Meta 也推出了自己的文本音乐生成模型 MusicGen，并且非商业用途免费使用。

6/12/2023 2:54:00 PM

机器之心

腾讯QQ黑科技亮相2021谷歌开发者大会官网，基于TFlite部署AI语音降噪

当6亿用户习惯每天通过QQ发送语音和进行视频通话，或者在群里与网友语音接龙完成一场Pia戏，又或是与好友一起派对语音答题的时候，大家可曾想过，在不同场景下始终清晰、流畅的QQ音视频体验背后，到底是什么黑科技在支撑这些场景中“声”与“话”的美好？今年11月16日召开的谷歌2021开发者大会期间，大会官网更新了一则案例——《TensorFlow助力：AI语音降噪打造QQ音视频通话新体验》，作者正是QQ音视频通话技术团队。作为谷歌TensorFlow的优秀应用案例，腾讯QQ团队在该文中详细揭秘了语音增强技术在QQ音视频功

11/16/2021 1:08:00 PM

新闻助手

引入多感官数据学习，华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

UT-Austin 本年度的最佳博士论文奖获得者 Ruohan Gao，目前是斯坦福大学的博士后研究员。

10/27/2021 4:51:00 PM

机器之心

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上，字节跳动海外技术团队有 7 篇论文入选，涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向。如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来，再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。有人说神曲能火是因为歌词和旋律简单，听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频

8/12/2021 3:21:00 PM

机器之心

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

音频

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Stability AI与 Arm 合作 推出离线生成音频技术

​ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

谷歌扩展NotebookLM Plus，个人用户也能享受AI记笔记新体验

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷：会凭空生成大段虚假内容

氛围感拉满：微软新专利探索 Copilot AI 应用，匹配视频等生成音乐

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

比尔・盖茨展望“AI 智能体”：能提供心理治疗服务，还能当女友

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

Meta开源文本生成音乐大模型，我们用《七里香》歌词试了下

腾讯QQ黑科技亮相2021谷歌开发者大会官网，基于TFlite部署AI语音降噪

引入多感官数据学习，华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

Stability AI与 Arm 合作推出离线生成音频技术

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%