音频

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷：会凭空生成大段虚假内容
当地时间 27 日，据美联社报道，超过十位软件工程师、开发人员和学术研究人员称，OpenAI 的语音转写工具 Whisper 存在一个重大缺陷：有时会凭空生成大段甚至整句虚假内容。这些专家指出，这些生成的文本（AI在线注：业内通常称为“AI 幻觉”）可能涉及种族言论、暴力措辞，甚至杜撰的医疗建议。专家们认为，这一问题尤其令人担忧，因为 Whisper 已被广泛应用于全球多个行业，包括用于翻译和…
应用
- 13
- 0
清源10月28日
氛围感拉满：微软新专利探索 Copilot AI 应用，匹配视频等生成音乐
科技媒体 Windows Report 昨日（10 月 4 日）发布博文，报道称微软公司获得了一项新的专利，构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。AI在线注：微软该专利名为《Artificial intelligence model for composing audio scores》，主要探讨了基于输入内容，来创建音乐的方法。该…
应用
- 10
- 0
故渊10月5日
阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本
感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入音频分析：用户可以在互动过程中…
应用
- 13
- 0
沛霖（实习）8月13日
AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目
蚂蚁集团 10 日开源了名为 EchoMimic 的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一…
应用
- 41
- 0
清源7月11日
比尔・盖茨展望“AI 智能体”：能提供心理治疗服务，还能当女友
播客节目 Next Big Idea Club 上周末发布了对微软创始人比尔・盖茨的采访，盖茨谈到了人工智能、超级智能等话题。主持人 Rufus Griscom 询问了比尔盖茨对人工智能未来发展的看法。“1980 年，你曾有过灵光一现的一瞬：当时你宣布每家每户、每一个桌子上都将有一台计算机。你认为 AI 会有怎样的发展？你认为我们的每一个耳朵里都会有一个‘AI 参谋（AI advisor）’吗？”…
AI
- 7
- 0
清源7月3日
吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用
机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何运用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能运用案例，来具体介绍AI运用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。最近，AI 圈刮起一股「让照片启齿歌唱」的风潮。例如，让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队…
应用
- 6
- 0
机器之能6月20日
Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等
Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以鉴于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型鉴于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的…
AI
- 29
- 0
故渊6月6日
Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品
Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以鉴于用户输入的提示词，生成最长 3 分钟的破碎音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩张了前奏、副歌、扫尾和立体声成效等实质，最长可以生成 3 分钟的音频实质。Stable Audio 2.0 扩充了生成性能之外，还提供了音频生成音频性能，鉴于用户上传的一小段音频实…
AI
- 6
- 0
故渊4月4日
ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包赔偿、通用音质建设问题
在本届ICASSP 2024 各类音频国际挑战赛中，字节跳动流媒体音频团队联合西北工业大学音频语音与语言处置研究实验室，在丢包赔偿（Packet Loss Concealment， PLC）与音质建设（Speech Signal Improvement， SSI）两个挑战赛道中，多项指标上表现优秀，分别取得第一和第二的成绩，达到国际领先水平。ICASSP峰会上的音频挑战赛由国际音频顶级会议 ICA…
应用
- 5
- 0
dd1月5日
Meta开源文本生成音乐大模型，我们用《七里香》歌词试了下
年初，谷歌推出了音乐生成大模型 MusicLM，效果非常不错。有人称这比大火的 ChatGPT 还重要，几乎解决了音乐生成问题。近日，Meta 也推出了自己的文本音乐生成模型 MusicGen，并且非商业用途免费运用。
AI
- 8
- 0
机器之心23年6月12日
腾讯QQ黑科技亮相2021谷歌开发者大会官网，鉴于TFlite部署AI语音降噪
当6亿用户习惯每天通过QQ发送语音和进行视频通话，或者在群里与网友语音接龙完成一场Pia戏，又或是与好友一起派对语音答题的时候，大家可曾想过，在不同场景下始终清晰、流畅的QQ音视频感受背后，到底是什么黑科技在支撑这些场景中“声”与“话”的美好？今年11月16日召开的谷歌2021开发者大会期间，大会官网更新了一则案例——《TensorFlow助力：AI语音降噪打造QQ音视频通话新感受》，作者正是QQ…
AI
- 11
- 0
新闻助手21年11月16日
引入多感官数据进修，华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖
UT-Austin 本年度的最佳博士论文奖得到者 Ruohan Gao，目前是斯坦福大学的博士后钻研员。
AI
- 11
- 0
机器之心21年10月27日
抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？
在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上，字节跳动海外技能团队有 7 篇论文入选，涵盖了音乐分类、音乐标签、音源分散、音乐布局剖析等多个技能方向。如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来，再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的…
AI
- 44
- 0
机器之心21年8月12日