香港科技大学提出YuE：Suno级别开源音乐生成模型，支持中文！

2025-02-26 10:14

YuE是港科大提出的一个开源的音乐生成基础模型，专为音乐生成而设计，专门用于将歌词转换成完整的歌曲（lyrics2song）。它可以生成一首完整的歌曲，时长几分钟，包括朗朗上口的声乐曲目和伴奏曲目。 YuE 能够模拟多种流派/语言/声乐技巧。

YuE是港科大提出的一个开源的音乐生成基础模型，专为音乐生成而设计，专门用于将歌词转换成完整的歌曲（lyrics2song）。它可以生成一首完整的歌曲，时长几分钟，包括朗朗上口的声乐曲目和伴奏曲目。YuE 能够模拟多种流派/语言/声乐技巧。

YuE AI 音樂生成模型全面解析- 奕昇AI學習平台

YuE（乐）在中文中意为“音乐”和“幸福”。对于那些觉得以 Yu 开头的单词发音困难的人来说，可以将其发音为“yeah”。一起来听一下YuE为自己创作的歌曲~

论文介绍

从给定的歌词生成整首歌曲音乐音频称为 lyrics2song。虽然基于文本的音乐生成模型已在非人声音乐的短片段上产生了高质量的结果，但生成包含人声和伴奏部分的长达数分钟的完整歌曲仍然是一个具有挑战性的问题，我们只从几个闭源的商业系统中看到了一些令人满意的结果。

lyrics2song 的挑战主要在于:

音乐的长上下文性质
音乐信号与其他信号（语音、音频效果）相比的复杂性
扭曲的语言内容和
缺乏并行数据（歌词-音频对）。

本文提出的YuE是一系列用于 lyrics2song 的开放基础语言模型，并入了 llama 系列。该方法可以建模长达5分钟的音乐音频，在整首歌曲中遵循歌词条件，保持连贯的音乐结构，生成朗朗上口的声乐旋律和适当的伴奏。

方法

香港科技大学提出YuE：Suno级别开源音乐生成模型，支持中文！

我们应用语义增强的音频标记器来降低训练成本并加速收敛
我们提出了一种双标记技术，无需修改仅使用 llama 解码器的架构即可实现音轨同步的声乐乐器建模，从而享受已建立的扩展和服务基础设施 3. 我们引入了歌词思路链，让模型根据歌词条件在单一上下文中逐步生成整首歌曲
提出了一种 3 阶段训练方案，以确保更好的可扩展性、音乐性和歌词可控性。

硬件和性能

GPU 内存

YuE 需要大量 GPU 内存来生成长序列。以下是推荐的配置：

对于具有 24GB 或更少内存的 GPU：最多运行 2 个会话以避免内存不足 (OOM) 错误。感谢社区，对于那些 GPU 资源有限的用户，我们有YuE-exllamav2和YuEGP。虽然两者都提高了生成速度和连贯性，但它们可能会损害音乐性。（PS 更好的提示和 ICL 帮助！）
对于完整的歌曲生成（许多会话，例如 4 个或更多）：使用具有至少 80GB 内存的 GPU。即 H800、A100 或具有张量并行的多个 RTX4090。若要自定义会话数量，界面允许您指定所需的会话数。默认情况下，模型运行2 个会话（1 个主歌 + 1 个副歌）以避免 OOM 问题。

执行时间

在H800 GPU上，生成 30 秒音频需要150 秒。在RTX 4090 GPU上，生成 30 秒音频大约需要360 秒。

安装试用

Windows 用户快速入门

一键安装：https://pinokio.computer/。
Gradio与Docker结合使用：https://github.com/sdbds/YuE-for-windows

Linux/WSL 用户快速入门

Fahd视频教程：https://www.youtube.com/watch?v=RSMNH9GitbA
GUI/Gradio：https://github.com/WrongProtocol/YuE-exllamav2-UI

港科大提出端侧文生图模型SnapGen，参数仅SD十分之一，1.4秒内生成1024分辨率图像

本文经AIGC Studio公众号授权转载，转载请联系出处。这项工作提出了一种新颖且高效的 T2I 模型SnapGen，SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像（1024x1024 ）的图像生成模型（379M ），并在 GenEval 指标上达到0.66。该模型全面超越了许多现有的数十亿参数模型，例如 SDXL、Lumina-Next 和 Playgroundv2。

1/21/2025 9:50:00 AM

AIGC Studio

六大维度，LLM「问题生成」首次正面PK人类！伯克利等发布最新研究

长期以来，问题生成（Question Generation）任务都是根据「给定事实」来编写各种相关问题，已经发展出了很多自动化的方法。大型语言模型（LLM）的兴起，极大提升了各种自然语言处理（NLP）任务的性能，其中也包括问题生成，虽然应用广泛，但还没有研究讨论过「用LLMs生成问题的特点」。没有额外提示约束时，LLMs是更倾向于生成较长还是较短的问题？

1/24/2025 3:30:00 PM

新智元

美国新法案：禁止进口中国DeepSeek，违规罚1亿美元、监禁

在国内大模型DeepSeek席卷全球致使美国科技股暴跌后，美国参议员Josh Hawley提出《美国AI能力与中国脱钩》法案，以保护美国的AI开发不受中国影响。 Hawley在序言中写道：“流入中国AI的每一美元和每一字节数据，最终都会被用来对付美国。美国不能在牺牲自身实力的情况下，增强我们最大的对手。

2/5/2025 10:24:04 AM

AIGC开放社区

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

顶部

香港科技大学提出YuE：Suno级别开源音乐生成模型，支持中文！

论文介绍

方法

硬件和性能

GPU 内存

执行时间

安装试用

Windows 用户快速入门

Linux/WSL 用户快速入门

相关链接

相关资讯

港科大提出端侧文生图模型SnapGen，参数仅SD十分之一，1.4秒内生成1024分辨率图像

六大维度，LLM「问题生成」首次正面PK人类！伯克利等发布最新研究

美国新法案：禁止进口中国DeepSeek，违规罚1亿美元、监禁