中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字,但是大多数情况下实质的创意程度和文风都经不起深究。尤其是在创作范畴,大模型常见的 “GPT 文风” 更是让利用大模型进行创意写作看起来简单,实际却困难重重。近日,波形智能的大模型团队发布了一款专精 AI 写作的业余大模型 Weaver。通过写作范畴业余预训练和一套创新性的数据生成和 Alignment 算法,Weaver 在写作范畴的各种

ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字,但是大多数情况下实质的创意程度和文风都经不起深究。尤其是在创作范畴,大模型常见的 “GPT 文风” 更是让利用大模型进行创意写作看起来简单,实际却困难重重。

近日,波形智能的大模型团队发布了一款专精 AI 写作的业余大模型 Weaver。通过写作范畴业余预训练和一套创新性的数据生成和 Alignment 算法,Weaver 在写作范畴的各种任意上均取得了超过 GPT-4 和众多中文通用大模型的效果,尤其是在生成实质的创意性和文风质量上大幅超过,是一款更能写出 “人话” 的大模型。

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

论文地址:https://arxiv.org/pdf/2401.17268.pdf

在线 Demo:https://www.wawawriter.com/

ChatGPT 等大模型在通用指令跟随和问答任意中效果出色,但是将大模型应用于业余写作,尤其是需要创造性和个性化文风的创意写作范畴却依然面临重重阻碍。其中最大的问题就是大模型生成实质风格过于平淡,或者说文风过于 “GPT”,缺少创造性。

为了解决这个问题,训练出更适合业余写作的大模型,波形智能的研究团队分析了为什么 GPT 和其他通用大模型都做不好创意写作类任意。首先,通用大模型的预训练过程,因为希望让模型在更多的数据中自监督学习,预训练的数据集中常常会包含非常多的低质量实质,真正由业余作家和实质创作者写作的高质量文本实质可能只占预训练数据总量的 0.1% 不到。因此,经过预训练后的语言模型在建模了整个互联网的文本分布之后,自然会倾向于输入较为普通的实质。而在模型的对齐阶段,OpenAI 等公司众包标注指令微调数据集的过程中的标注员的教育 / 写作水平有限,没有对标注者的写作 / 创作能力进行筛选。另外标注的过程中的标准也主要强调回答的无害性 (harmlessness) 和有效性 (helpfulness),而没有考虑回答实质的创造性和语言 / 写作风格。因此,经过指令微调的语言模型反而更容易生成平庸无趣的文字。最后,在 RLHF/DPO 等 alignment 算法中,模型的训练数据和 Reward Model 均由经过指令微调后的模型生成或训练得到,因此对于文风和创造性上,RLHF/DPO 的过程也只能是 “矮子里拔将军”,无法强化出真正擅长写作的大模型。

鉴于此观察,波形智能的大模型团队提出了一个尤其适合创意写作范畴的垂域业余模型训练 pipeline,并鉴于此计划训练了 Weaver,一个全球超过的创意写作大模型。该计划覆盖了模型的 (持续) 预训练,指令微调 (instruction tuning),和对齐 (RLHF/DPO) 阶段。在预训练阶段,团队进行了非常仔细的数据筛选和过滤,利用人工 + 规则 + 机器学习模型协同的计划,从开源预训练数据集中找到了高质量的小说 / 短故事 / 创意案牍等类别的文本实质,舍弃掉了大量的低质量实质和代码 / 广告等数据,并下采样了一部分高质量的新闻数据,同时结合了大规模的私有创作范畴数据 (小说,短故事等),构建出了超过 200B 的可以让模型专注学习创作能力的预训练数据。

在指令微调阶段,波形智能的数据生成团队参考并改进了 Meta 提出的 LongForm 和 HumpBack 计划,构建了一套可以鉴于一段高质量实质,自动生成各种写作相关任意指令和对应的高质量输入的 Instruction Backtranslation 流水线。团队总结并定义了 “写实质”,“写大纲”,“扩写”,“润饰”,“精简”,“风格迁移 (仿写)”,“审校”,“头脑风暴”,“起标题”,和 “写作相关对话” 十个类别的任意。对于一类任意,如 “润饰”,标注 Prompt 中首先解释任意的定义和几个输入输入样例,之后给出一个从一段文本中自动挖掘润饰任意指令 / 输入 / 输入的例子和标注的思考过程: “首先在文本中找到一段写的很好的句子,假设这句话是经过一次润饰而来的,之后猜测在润饰之前这句话会是什么样子,最后分析润饰前后的变化,推理出润饰的指令会是什么样子。” 之后标注的 Prompt 中输入需要标注的例子并指示大模型按照例子中的标注流程进行输入,最后 parse 出模型输入中标注的 “指令 / 输入 / 输入” 部分,组合成一条写作指令数据。

相比 OpenAI 等公司的标准众包标注指令数据的流程,波形智能的标注策略更高效 (众包标注者只需要挑选特定范畴高质量的实质即可,后续标注流程由 AI 完成),而众包标注和目前常用的 self-instruct 类的全自动标注流程相比,波形智能的标注流程能够生成更高质量的数据 (因为输入是手工挑选的高质量实质或其中的一部分)。鉴于这个策略,波形智能的大模型团队收集了涵盖小说写作,创意写作,业余写作,营销案牍写作这四大范畴中高质量的实质并进行了自动化标注,产出了 100 万 + 高质量的写作范畴指令微调数据集。

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

                             图 1: Weaver 训练数据分布和来源

接下来,在对齐 (Alignment) 阶段,波形智能的数据生成团队提出了 Constitutional DPO, 一套全新的,鉴于准则高效将模型和业余作家 / 创作者对齐的计划。和以往鉴于模型输入 + 人类 / 大模型评价的对齐策略不同。Constitutional DPO 以人类创作者创作的高质量的输入作为正样本,利用人类作家 / 编辑整理提炼出的各个范畴写作的 “准则 (Principles)”,用这些准则去生成能够教会模型更好地遵守这些准则的负样本。具体来说,业余作家 / 编辑首先整理出四大范畴十个任意中,好的实质需要遵循的共 200 余条准则。对于每一个准则,编辑总结出准则的详细解释和一对符合 / 违背该准则的例子,并用几句话解释出符合 / 违背准则的原因。之后,对于每一个正样本,负例生成的 prompt 中首先展示出范畴 – 任意上的准则集合和准则对应的例子和解释,之后展示出正样本,要求大模型分析出正样本最符合哪几条准则,并推理出如何修改能够在作出较少改变的情况下让正样本转而违背这个准则,从而变成一条质量没那么好的输入。团队精选了各个范畴高评分 / 高阅读量 / 高点赞评论数的实质作为正样本,通过 Consitutional DPO 的流水线生成出了数万条偏好数据 (preference data),并利用这些数据对模型利用 DPO 进行了对齐训练。

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

图 2 – Constitutional DPO 方法示意图

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

图 3 – 专家标注的写作准则

除此之外,波形智能的数据生成团队还设计了一套支持 RAG-aware training 的数据生成计划,过滤 / 精选出了一系列输入实质明显鉴于其他实质的样本,通过 10 余个常用的 RAG 模版,构造出了 10 万余条的 RAG 训练数据,使得 Weaver 模型能够原生支持 RAG,能够结合参考文献和范文进行高质量的创作 / 仿写。除此之外,团队还设计了一套让 Weaver 支持 Function Calling 的数据生成计划。最终 Weaver 的微调数据量总和达到了 100 万 + 量级。

Weaver 模型家族一共包括四个不同大小的模型,名字叫做 Weaver-mini/base/pro/ultra, 分别包括 18 亿,60 亿,140 亿和 340 亿参数。为了评价 Weaver 模型和通用大模型的写作能力,波形智能的模型评价团队构建了一个新的用户大模型业余写作能力评价的 Benchmark。Benchmark 中精选了涵盖四大写作范畴 30 余个子范畴的十项写作任意的有代表性指令,共包含 2000 + 条指令。团队收集了 Weaver 和 10 余个有代表性的开源 + 闭源模型在 Benchmark 上的输入,并分别进行了人工对比评价和鉴于 GPT4 的自动评价。

评价结果显示,Weaver Ultra 在 Benchmark 中对生成实质的新颖度和文风的评价中对比包括 GPT-4 在内的通用大模型均有显著超过,在生成实质的流畅性和切题程度上也和行业超过的 GPT-4 相当,超过其他开源 / 闭源模型。而其他较小的 Weaver 模型也都在各项指标中相比大 2-3 倍的通用大模型有明显优势。

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

图 4: Weaver 在 WriteBench 的评测结果

除了标准 Benchmark 的人工和自动评价以外,波形智能的模型评价团队还在包含人机交互的实际应用场景中对 Weaver Ultra 和 GPT-4 进行了用户体验测评。由 4 位人类写手在同样的 Chat Interface 分别使用 Weaver Ultra 和 GPT-4,以相同的主题分别创作一个短故事,一个小红书案牍,一个商业计划书,和一个课程论文。测评结果显示,人类写手利用 Weaver 进行创作的效率相比使用 GPT-4 提升了约 40%,而业余编辑对创作实质的质量评比中也以 9:3 的比分更倾向于采用 Weaver 创作的案牍。分析显示,Weaver 带来的效率提升主要来自于生成实质的文风更得体,需要的后编辑更少,以及创作过程中 Weaver 交互更加直接,不会输入无用的废话和疑问。而来自业余编辑的反馈主要集中在鉴于 Weaver 创作的作品风格往往更符合实用标准,以及创作的实质个新颖程度更高,不死板。

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

图 5: Weaver 和其他大模型在人工评测中的 ELO Rating

给TA打赏
共{{data.count}}人
人已打赏
应用

看房、打碟、开特斯拉车门、吸尘攒金币:刚刚,第一批把Vision Pro抱回家的人已开玩了

2024-2-4 15:41:00

应用

打破MoE训练效率与功能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2024-2-4 15:49:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索