耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声响特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。

它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。

举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声响特征。

原素材(Prompt):耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘Seed-TTS 生成的中文语音: 耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”

英文语音也可生成,且依然能“复刻”中文发音者的特点。

Seed-TTS 生成的英文语音:耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

Suddenly, there was a burst of laughter beside me. I looked at them, stood up straight with high spirit, shook the slightly fleshy arms, and smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"

再举例来说,音色定制,Seed-TTS 也能实现,并在声响中带出人物的“娇嗔感”:耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘嘿嘿,你是不是也想拥有甜甜的恋爱呢?《微微一笑很倾城》是你的不二选择,男女主是校花校草类型,他们通过游戏结识,再到两人见面,全程没有一点误会,真的齁甜,想想都忍不住“姨妈笑”~ 耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

小傻瓜,嗯……算是个很可爱很亲切的名字,有点“独特”哦,不过我有些好奇,你为什么会给我选这个昵称呢?

不仅可以生成“单人”声响,Seed-TTS 甚至可以根据小说情节和不同角色特质,呈现对应人物和情绪的“说书”。耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

“这个药丸……不会是迷药或者春药之类的东西吧?我怎么闻着香味儿和两位姐姐说的那么相似?嗯,你该不会……想对我图谋不轨吧?”韩立闻言是愣了半天呐,他现在突然有种吐血三碗的感觉,这女孩儿的心思也太难以捉摸了吧,竟然能把迎香丸,联想到春药上。哎呀韩立现在也不知是该佩服对方的谨慎小心,还是应该为自己的无故蒙冤,而大呼三声了。“看样子,你好像说的是真的。不过,我还是要把它拿去给二姐检验下才能用,毕竟我们女儿家,要小心为上。”“咳,咳,呃随便你了。”韩立无言,只能干咳几声,掩饰一下自己脸上的窘迫,他现在觉得呀,自己还是离这个小妖精远点的好,否则,不知什么时候就要被她给郁闷死了。“哼哼,不过,如果这药真像你所说的那么好用,那就算你过关啦!今后师兄在莫府有什么为难的事,尽管可以来找彩环帮忙。我只要收些小小的报酬,就肯定能帮你完全办理。”“行啊,师妹,师兄有事,一定找你帮忙。”韩立这时也恢复了常态,皮笑肉不笑地回应着此话,心里呀,却在恶狠狠地想到:“找你这个小财迷才怪了。”

更多演示及原理,请见原论文及效果展示:

耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

论文链接:https://arxiv.org/abs/2406.02430

效果展示:https://bytedancespeech.github.io/seedtts_tech_report/

在公布技巧报告之前,Seed-TTS 部分技巧已在 C 端产品上线一段时间,获得用户良多真实好评,并对外以豆包语音合成模型和豆包声响复刻模型进行技巧商业化服务。

关于该成果的技巧亮点、研究价值、克服了哪些寻衅,不妨听听团队的分享。

一个语音生成基座大模型

Q:Seed-TTS 已被一些圈内人关注到,有什么认可,让你印象很深?

A:有个做语音识别的教授,后来在一家公司就职,是我极度佩服的业内人。不久前一次学术会议,我们演示了 Seed-TTS 的 Demo ,他看了以后就反馈说,最近本想看看语音生成方向有什么可做的,看完觉得这方面工作好像没什么可干的了。尽管我觉着仍有提高空间,但听完自己是极度开心的。

Q:为什么感到开心?

A:别人直接说你做得好,更多可能是客气。但这位教授当时正寻找相关研究课题,在这期间,看到我们的成果,给出正面评价,并且觉得我们的成果已经很好了,要另寻其他题,这对我们真的是很高的认可。

Q:对比此前成果,Seed-TTS 有什么不同?

A:它是一个语音生成的基座模型,跟多数语音生成模型稍有不同。具体来说,传统 TTS 是单一任务模型,但对于基座模型,我们进展它能干任何任务,发出任何声响,且同时允许我们进行良多个维度的操控,比如方言,真人口癖,甚至吞字这类语音上的瑕疵。

只要世界上存在的语音方式,英语、日语、汉语,甚至各类说话中的方言,如汉语中的陕西话、河南话…或者是开心、难过、大哭大喊、生气,只要人类存在的声响,我们都进展它发出来。

Q:以上种种设想,都做到了么?

A:很大一部分做到了,当然也有一些地方做不到,但技巧一直在往前走,就像现在说话模型是个基座,在文本层面有很深度的理解,我们也进展把它真正做成一个“基座”。

Q:做出一个“基座模型”的寻衅在哪里?

A:第一是细节建模要好。以往 TTS 作为播报系统,其实很容易就能实现,但听起来是“机器音”,如果要做到基座模型,且声响像人,需求大量细节。尤其人类对自身声响很敏感,小狗小猫叫声即便不太自然,可能也听不出来,但人类语音有一点课题,听出来就很“机械”。

第二,需求高自然度和高稳定性。前两年的主流 TTS 大多都基于先验知识和时长模型,每一个 Phone 都会定义出来,但从底层就限制了表现力。倘若去掉这些,则会出现稳定性和自然度课题,这又是一个寻衅。

第三是数据覆盖( Data Coverage )量级很大。我们想做到复制任何人的声响与各种说话方言,包括复刻人类发音不完美,比如:吞字、发音不标准。为了重建这些特征,还原“不完美”,数据覆盖( Data Coverage )一定要高。之前,业界所使用的数据在成百上千的小时量级,也有上万小时的模型,Seed-TTS 所用的数据量级是远大于之前的。这么大量级的数据,还会带来质量和数量的平衡课题,这也是一个难点。

第四,模型设想。这么大规模情况下,如何设想模型,使得各方面效果都比较好,这也是很大寻衅。

最后是工程寻衅。上面提到了,我们的数据量级大,模型复杂度高,自然就会带来工程方面课题,这方面之前也很少有人去办理。

Q:技巧层面看,办理这些寻衅有什么价值?

A:主要是在研究过程中,试图回答了良多过去没办理的课题:

生成模型有说话模型和扩散模型两套,分别偏向文本和图像,语音同时具备文本和图像两者的属性,这两者哪个更适合用来语音建模,这是我们要去回答的课题。

语音和文本有良多相似之处,如何设想语音的表征,使其更适合说话模型建模,也是需求办理的课题。

如何利用强化学习,将各种主客观的偏好信息集成到生成系统里,同样是课题之一。

其他方面亮点还有良多,包括自回归语音生成模型的稳定性课题。此外,通过这回研究,我们也在尝试从 TTS 领域外的视角看 TTS 课题。

Q:你提到了对说话模型和扩散模型的研究,从中我们得出什么结论?

A:Seed-TTS 不仅提供一个基于说话模型的技巧方案,同时,也提供另一个完全脱离时长模型的 Diffusion 技巧方案,这在业内也是第一个。

此外,经过对两个系统的大量比较,我们发现,说话模型对于流式处理相对友好,扩散模型对编辑处理更为合适,我相信在未来,这两者会继续融合。

Q:对于这两个系统,Seed-TTS 具体办理了哪些技巧难点?

A:针对说话模型系统,主要办理语音的 Tokenizer 和稳定性。

对于说话模型建模来说,语音 token 化是核心一环。目前市面上,连续和离散的 Tokenizer 都有,团队进行了较多索求。我们发现,Token 包含信息的设想,对整个模型各方面表现及稳定性有极度关键的影响,这既包括 Token 的信息、帧率等,也包括如何 Tokenizer ,以及如何将其再变回声响。目前,这些在业内索求并不多。

说话模型的稳定性方面,我们在 token ,模型设想,解码策略,数据准备上做了多方面的索求,真正做到了工业及应用的要求。

对于纯 Diffusion 系统,由于去掉了额外的时长模型,其难点同样集中在稳定性上。经过多方的尝试,我们在该链路上也实现了很好的指标。

Q:关于“语音和文本模型有良多相似之处”,这对我们有什么启发?

A:从文本大模型的视角看,语音生成模型也可以分为 Pretrain,Instruct Fine-Tuning 和 Post Training。

其中, Pretrain 可提高模型的基础能力,具体就体现为 Incontext Learning 能力,比如音色续写,语音克隆等能力。

对于 Instruct Fine-Tuning ,主要就是通过 Instruct ,让语音生成过程更加可控,就像导演跟演员去提要求,说话快点、慢点,怎么才能打动人,这些都被我们集成进去。

最后,我们还发现强化学习在良多维度可以为模型带来提高,将各种主客观偏好信息集成到生成系统里,包括稳定性、控制力、表现力、自然度等等。业内在这方面索求的人也不太多。

在上述基础上,我们也索求了利用合成数据以进行 Self-Distillation 的方法,同样获得极度好的收益。这在文本 LLM 中使用相对多一些,在语音行业,之前索求也相对较少。

Q:你三次提及“一些课题业内索求较少”,什么造成了这个现象?

A:一方面,之前语音生成领域的研究相对独立,有良多行业的传统经验,在这波 AIGC 大潮流下已经不一定适用了。从更广义角度看,语音生成跟文本、图像生成有良多共通之处。文本大模型,图像生成的快速发展也带给了我们良多新思考。由于新思路推广还需求时间,所以业内索求还比较少。

另一方面是良多研究者在学校里工作,没有相关资源。这里面系统性工程极度多,我们不仅能做到,而且索求也比较细,发现了一些能兼顾稳定性、表现力和运算量的模型。但这是不是做到了最好呢?可能还需求不断索求。

Q:整个研究过程中有什么里程碑式的时刻么?

A:基础效果去年就出了,此后我们用真实案例迭代了良多,这当中的工作包括:真实案例的寻找、各种 Post Training 、办理落地课题(比如各种场景下的稳定性、首包延迟、并发数、运算量等)。相比当时,现在效果又提升了极度多。

语音生成大模型走到哪一步了?

Q:现在回看,整个研究的价值在哪?

A:从 Seed-TTS 本身价值来说,语音不完全是工具,而是人类最直接的交互形式。比如从无声电影到有声电影,小小的变化,却是一个行业巨大的飞跃。人与人之间的情感连接更多依靠语音,比如小孩喊一声爸爸,给你的情感连接和读文字完全不一样。

如果我们要迈向真正的 AI ,语音的自然度是关键一环。过去我们想象的机器都是机器音,比如《流浪地球》里的 Moss ,如果 AI 真能像你的助手、伙伴一样,那语音带来的情感连接必不可少。《钢铁侠》的贾维斯之所以被良多人记住,也是因为它是真人配音的。

此外,在应用方面,语音的落地场景也极度多,比如小说电子书、角色设想、视频翻译、虚拟角色、播音、演员表达,都有用武之地,包括口吃、发不出声响的人仍然可以借助语音技巧表达。只要不是纯粹信息媒介属性的语音场景,都有应用空间,这也是我们把基座模型做好的动力。

Q:Scaling law 已被一些从业者视为“信仰”,对于语音生成模型,我们把数据和模型 Scale 后,结果如何?

A:即便在很大量级上,我们继续扩大规模,也总能看见收益。总的来说,通过 Scale 的量级增大,我们很惊喜地看到,模型在不断获取新能力。

Q:根据你们的观察,这个极限在哪?

A:目前来说,我们依然每次仍能看到收益,肯定还需求继续索求。不过,我们已经证明通过正确的模型设想,可以打破 TTS 传统思路。以往,我们依靠少量高品质数据,但现在,我们不断增加量级,能获得更高收益。

Q:GPT4-o 对我们有什么启示?

A:它是一个生成和理解统一的模型,对语音技巧的要求更高,需求一个模型同时具备听,说,想的能力。这些对我们工作提出良多新要求。

Q:目前语音领域大模型发展到哪一步了?

A:一方面是进展模型拥有专科演员级别的表现力和控制力。大部分时候,模型生成语音跟真人已经差别不大,但在影视剧中,演员表达情绪极度激烈,信息密度比较高,不完全能对齐。我们都进展把 Corner Case 补全。

另一方面就是细节的处理,包括 Bad Case 处理和优化,办理不常见的长尾情况。

大模型工作需求大量优秀人才参与进来

Q:本次 Seed-TTS 的发布,全球各地的同事都有参与进来,为什么有这么多人参与?

A:随着行业发展,多人合作是不可避免的。要把大模型做到极致,同时满足工业化落地,不可能通过 1 – 2 个想法支撑,必须良多人参与进来。且各方面参与者都得很专科。比如我们的数据,需求专科同窗参与处理。再比如落地过程涉及良多细节,需求专门做评测、工程支持同窗配合。他们都做出了巨大贡献。

我们可以看到 AI 前沿研究的主流玩家中,一个项目参与者人数极度多,每个环节都有专科的同窗负责,如此高密度、高复杂度的人才协作、精密配合,对组织力的要求也是很高的。

Q:你眼中的团队氛围是怎么样?

A:我觉得是有“冲劲”和“抠细节”。“冲劲”体现在大家做事都很主动。出于好奇和改变行业的想法,这本身也是一个自驱的过程。这种氛围比较像创业公司,大公司比较少。

Q:你还提到了团队会“抠细节”,如何理解?

A:这个说的是抠真实场景中的细节。对于生成类工作,Demo 很容易做得漂亮,但在实际应用中,系统会面临各种各样的细节课题。为保证模型始终都有高质量的生成,满足用户需求,我们对系统稳定性和鲁棒性要求很苛刻,需求反复打磨,把每一个细节都做到很高质量。反而是 Demo ,我们没做太多优化。

Q:关于“不做太多 Demo 优化”,我们内部有过争论么?

A:有啊,尤其年轻同窗们,毕竟大家都进展把比较好的一面展示出来,但我们还是进展拿到能够落地的效果,避免用户在真实使用过程中发现产品和 Demo 有很大落差,真正改变行业。

Q:目前相关技巧在豆包 App 有应用么?

A:一些相关技巧已经应用一段时间,在真实场景中经用户认可,我们才对外展示,还有部分技巧正在做一些最后上线工作。

Q:哪些关键词能概括我们的团队?

A:第一个是专科。这体现在良多方面,包括数据、基础设施、模型设想等等。我们会很专科地去抠每个环节细节,从工业落地角度出发,把性能做到极致。

第二个词是专注与冲劲。为了达到我们的目标,专注和冲劲是少不了的。所以大家投入度极度高,等成果真正做出来后,大家也很有成就感,获得了自信。

第三个词是团结。团队协作的时候,大家都没什么领地意识,配合也会很顺畅,这让我感觉极度舒服,这在大公司是很少见的。

Q:我们团队进展持续吸引什么特质的人加入?

A:首先看价值观能不能符合上。能力固然是一方面,更重要的是,我们进展能找到同舟共济的伙伴,让每个人能获得自我实现。在这种价值观下合作,天然地,就会很顺畅。

其次是背景的多样性。目前 AI 各领域使用的方法都相似,且大家正逐渐往统一方向去融合,因此,强化学习、视觉识别、音频识别等领域的经验都对生成有至关重要的作用。我们进展不同专科背景的同窗参与进来。我自己就是语音理解出身,转做 TTS 的。

最后是主观能动性和学习能力,对工作有高追求。生成式任务也有良多独特之处,我们进展候选人能找到任务与结合自身经验的结合点,这当中,主动学习能力是必要的,同时,我们进展能做出行业最好的技巧和产品,日常也要求同窗们怀揣这样的愿景不断前进。

以上即 Seed-TTS 团队同窗的分享,目前团队还在持续招聘优秀人才。

如果你也对大模型技巧怀揣理想,抱有热忱,同时认可豆包大模型团队的氛围,欢迎登录豆包大模型团队官网 team.doubao.com 或关注团队官方公众号,了解更多技巧进展、团队故事、招聘信息:耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

字节跳动 Top Seed 人才计划正在招聘中,我们进展持续吸引和招募目标远大、有志于“用科技改变世界”的顶尖人才。加入我们,你将和最优秀的科学家、工程师一起,参与行业顶尖的技巧寻衅和攻坚。

欢迎长按下方二维码或点击阅读原文,投递简历。

耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘

点击此链接,一键投递岗位!

给TA打赏
共{{data.count}}人
人已打赏
应用

旷视开源的AI人像视频生成太炸了!输入照片即可摹仿任意脸色包

2024-6-26 15:03:00

应用

10款国产大模型怒怼「玫瑰前夫」方协文,硬控了我30秒!

2024-6-26 16:06:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索