昆仑万维：中国首个音乐 SOTA 模型天工 SkyMusic 音乐大模型开启公测

2024-04-17 12:30

感谢昆仑万维今日宣布，天工 3.0 大模型性能提升显著，旗下的天工 SkyMusic 音乐大模型也在今日面向全社会开放公测。天工 3.0 拥有 4000 亿参数，超越了 3140 亿参数的 Grok-1，是全球最大的开源 MoE 大模型。天工 3.0 在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域性能提升显著，数学 / 推理 / 代码 / 文创能力提升超过 30%。天工 3.0 新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多项 AI 能力。▲ 天工 3.0 模型参数超越

感谢昆仑万维今日宣布，天工 3.0 大模型性能提升显著，旗下的天工 SkyMusic 音乐大模型也在今日面向全社会开放公测。

天工 3.0 拥有 4000 亿参数，超越了 3140 亿参数的 Grok-1，是全球最大的开源 MoE 大模型。天工 3.0 在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域性能提升显著，数学 / 推理 / 代码 / 文创能力提升超过 30%。天工 3.0 新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多项 AI 能力。

天工 3.0 模型参数超越 Grok-1

▲ 天工 3.0 模型参数超越 Grok-1

天工 3.0 旗下的天工 SkyMusic 音乐大模型也在今日面向全社会开放公测。昆仑万维表示天工 SkyMusic 在人声 & BGM 音质、人声自然度、发音可懂度等领域“显著”领先对手，综合性能超越 Suno V3，取得音乐大模型 SOTA（State of the art model，即在当前研究中表现最好的模型）。

昆仑万维：中国首个音乐 SOTA 模型天工 SkyMusic 音乐大模型开启公测

天工 SkyMusic 采用音乐音频领域类 Sora 模型架构，Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性，Diffusion Transformer 负责演唱，通过 LDM 让 Music Patches 被还原成高质量音频，使其能够支持生成 80 秒 44100Hz 采样率双声道立体声歌曲。

昆仑万维：中国首个音乐 SOTA 模型天工 SkyMusic 音乐大模型开启公测

▲ 天工 SkyMusic AI 音乐大模型技术架构

据介绍，天工 SkyMusic 具备以下特点：

高质量 AI 音乐：生成 80 秒 44100Hz 采样率双声道立体声 AI 歌曲

人声“以假乱真”：中文水平极为优秀，发音清晰无异响

歌词段落控制：生成的歌曲可以明确分辨出不同歌词段落的情绪变化

多种音乐风格：支持说唱 / 民谣 / 放克 / 古风 / 电子等

音乐智能表达：能够学习如颤音、歌剧、吟唱、男女对唱，自动和声等多种歌唱技巧

参考音乐生成：用户上传自有参考音乐，生成风格、唱腔类似的歌曲

方言歌曲生成：支持粤语、成都话、北京话等众多方言

IT之家从公开资料获悉，昆仑万维是中国互联网平台出海企业，深耕海外市场十余载，业务覆盖包括信息分发、社交、娱乐、元宇宙、游戏及 AIGC 等多个领域，旗下包括 AGI 与 AIGC 、海外信息分发与元宇宙、投资等三大业务板块，市场遍及中国、东南亚、非洲、中东、北美、南美、欧洲等地。截至目前，全球平均月活跃用户近 4 亿，海外收入占比达 84%。

首个国产音乐SOTA模型来了！专为中文优化，免费用，不限曲风

在「天工」大模型发布一周年之际，昆仑万维重磅宣布，「天工 3.0」基座大模型与「天工 SkyMusic」音乐大模型正式开启公测。自从 AI 让人类实现音乐创作自由后，连吵架都变得有趣了起来。前段时间，X 平台知名 AI 博主 Aran Komatsuzaki 自己写了一首歌，专门用来表达对另一位 AI 科学家 ——Gary Marcus 的不满，还用当前大火的 Suno 把它生成了出来。要知道，过去，这些大佬们的口水战主要就是发个帖子，然后你来我往地跟帖。这次，Aran Komatsuzaki 的做法可谓是玩出了新

4/17/2024 6:12:00 PM

机器之心

以假乱真，天工音乐大模型带来颠覆式AI体验

昨日，昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动，诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品。邀测开始后，广大用户对「天工SkyMusic」AI音乐生成大模型的热情远超我们的预期，工作人员在极短时间内收到了几十万份测试申请，其中包括众多专业的音乐创作人、媒体及行业专家，还有大量测试申请被源源不断地发至后台。同时，我们也收到了大量来自用户的真实反馈与高度评价：“人声很清晰抒情旋律也好”“好听！”“这是天工做的？？太厉害了！”“《悟空》这首歌是

4/3/2024 3:52:00 PM

新闻助手

号称“音乐 ChatGPT 时刻”来临，天工 SkyMusic 音乐生成大模型今日邀测

昆仑万维集团今日宣布，其音乐生成大模型“天工 SkyMusic”即日起开启免费邀测。本轮邀测将开放 1000 个免费名额，面向行业媒体、专家、以及感兴趣的音乐从业者开放，正式版将在 4 月 17 日随「天工 3.0」面向全社会免费开放。“天工 SkyMusic”号称目前国内唯一公开可用 AI 生成大模型，天工 SkyMusic 采用音乐音频领域类 Sora 模型架构，Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；Diffusion

4/2/2024 2:31:44 PM

清源

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

昆仑万维：中国首个音乐 SOTA 模型天工 SkyMusic 音乐大模型开启公测

相关资讯

首个国产音乐SOTA模型来了！专为中文优化，免费用，不限曲风

以假乱真，天工音乐大模型带来颠覆式AI体验

号称“音乐 ChatGPT 时刻”来临，天工 SkyMusic 音乐生成大模型今日邀测