ElevenLabs 此前已推出利用人工智能生成人类声音和音乐的东西,现在他们更进一步,推出了可以为播客、片子或游玩创作音效的东西。
ElevenLabs 的名为“Sound Effects”的新东西可以根据用户提供的文本形貌生成最长 22 秒的音效,并与公司原有的语音和音乐平台结合应用。用户屡屡应用“Sound Effects”后,可以获得至少四个可下载的音频片断供选择。
ElevenLabs 与素材平台 Shutterstock 合作,利用其庞大的音频素材库训练了生成式模型。据悉,Shutterstock 的内容授权对象涵盖了 OpenAI、Meta 和谷歌等诸多知名人工智能公司。
IT之家注意到,“Sound Effects”提供收费和付费两种版本,付费用户生成的音效可用于商业用途,而收费用户则需在标题中标注来源“elevenlabs.io”。ElevenLabs 对用户输入文本形貌的字数有限制,收费用户每月有 10,000 个字符的额度。在“Sound Effects”中,如果用户自行设置音频剪辑时长,则每秒会耗损 40 个字符的额度;如果应用默认的音频长度,屡屡生成音效会耗损 200 个字符。
目前市场上已经存在音效素材库,供创作者、片子制作人和游玩开发者应用。但是,这些素材库的价格可能比较昂贵,而且有时很难找到完全符合需求的音效。ElevenLabs 在博客中表示,“Sound Effects”旨在“快速、经济高效和大规模”地生成丰富逼真的音效。
除了 ElevenLabs,其他人工智能开发商也在积极研发音效生成器。Stability AI 去年发布了 Stable Audio,可生成音乐和音效片断;而 Meta 的 AudioCraft 模型则可以生成自然环境音效,例如风声或交通噪音。