告别AI“一本正经”!Midjourney联手NYU解锁创意文本新维度,多样性飙升23%!

Midjourney 和纽约大学的研究人员近日联手开发出一种创新方法,旨在显著提升语言模型生成创意文本的多样性,同时将质量损失控制在最低限度。 这项发表在最新研究论文中的技术,核心在于将“偏差指标”引入人工智能的训练过程。 其运作原理是通过量化每个生成的文本与针对同一提示创建的其他文本之间的差异。

Midjourney 和纽约大学的研究人员近日联手开发出一种创新方法,旨在显著提升语言模型生成创意文本的多样性,同时将质量损失控制在最低限度。

这项发表在最新研究论文中的技术,核心在于将“偏差指标”引入人工智能的训练过程。其运作原理是通过量化每个生成的文本与针对同一提示创建的其他文本之间的差异。研究人员利用嵌入文本及其成对余弦距离来计算这些差异,从而为系统提供了一种理解文本变异性的数学框架。这种新的训练方法能够评估大型语言模型(LLM)响应之间的差异,从而增强输出的多样性。

1743301982904.png

该培训方法评估 LLM 响应之间的差异以增强输出多样性。| 图片:Chung 等人

初步测试结果令人鼓舞。采用这种新型训练方法的模型,其生成的文本多样性提高了23%,而根据 Reddit 的奖励系统评估,质量得分仅下降了5%。

一个具体的测试案例清晰地展示了该方法的实际效果。当研究人员向标准 GPT-4o 模型发出提示“亲爱的,你为什么发抖?你现在是国王了”时,模型主要生成关于一位紧张的新统治者的故事。然而,经过改进的 Llama-3.1-8B 模型(尽管规模较小)却创作出了风格迥异的故事,涵盖了关于熊王子的黑暗幻想,以及水下的超自然传说等多种题材,展现出远超前者的创意广度。人类测试人员的反馈也支持了这些发现,他们认为这些文本在保持质量的同时,展现出了更丰富的多样性。值得注意的是,研究人员的测试对象是相对较旧的 GPT-4o 模型,而非成本更高但能生成更自然文本的新一代 GPT-4.5。研究数据表明,经过改进的模型在故事质量和多样性方面均优于其他模型。

研究团队重点关注两种类型的多样性:语义变化(不同的故事内容和情节)以及文体变化(听起来像是出自不同作者的写作风格)。他们为每种类型开发了特定的版本,但实验结果表明,将两者结合使用能够获得最佳效果。

1743302009026.png

数据显示,修改后的模型在故事质量和多样性方面均优于其他模型。| 图片:Chung 等人。

在研究过程中,该团队利用了 Reddit 社区 r/WritingPrompts 中超过10万对提示-响应数据。他们发现,每个提示仅需四个不同的响应,即可显著提升模型的多样性。此外,该系统还可以通过使用精心挑选的训练样本或为不同的响应设置最低质量标准来维持输出质量,这使其在提升输出多样性方面比其他方法更具灵活性。

尽管前景可期,但仍有一些问题需要进一步探索。研究人员尚未验证他们的方法是否适用于创意写作以外的领域,例如技术文档和摘要等可能需要不同的处理方式。该技术在许多大型模型使用的在线训练环境中的有效性也尚未得到充分测试。

此外,用于衡量质量的 Reddit 点赞数系统本身也存在局限性。虽然点赞数可以提供一些关于文本质量的参考,但它们忽略了技术准确性、一致性和专业写作标准等重要因素,这表明未来可能需要更全面的评估方法。

即便存在这些未决问题,这项新技术仍有望彻底改变大型语言模型处理创意写作任务的方式,因为目前的模型经常陷入重复性的模式。研究人员表示,他们将在 GitHub 上公开分享他们的代码,以供其他研究人员和开发者借鉴。

相关资讯

仅用四周时间!富士康推出中文大语言模型FoxBrain

富士康旗下的鸿海研究院近日发布了一款全新的传统中文大型语言模型(LLM)——FoxBrain。 这一模型的推出引起了业界的广泛关注,标志着在中文人工智能领域的一次重要进展。 FoxBrain 的训练过程在短短四周内完成,展示了强大的技术能力和高效的研发速度。

LLMs.txt生成器 v2发布:网站文本转换速度提升10倍

近日,LLMs.txt生成器迎来重大升级,正式推出v2版本。 这一工具能够将任何网站内容快速转化为可供人工智能代理或大型语言模型(LLM)使用的文本文件,为AI应用的开发者和使用者带来了极大便利。 新版本由@firecrawl_dev团队开发,并得到其官方llmstxt端点的全力支持,相较于上一代,处理速度提升了惊人的10倍。

谷歌Gemini 2.0 Flash放出原生图像生成功能:支持多轮对话式实时编辑编辑

继Gemma3之后,谷歌又给我们带来了一位“闪电侠”——Gemini2.0Flash,而且人家这次是带着独门绝技来的:原生图像生成!  要知道,以前的AI图像生成,很多时候都是大型语言模型(LLM)先理解你的文字,然后再把意思“翻译”给专门生成图像的扩散模型。 这中间难免会有些“失真”,就像隔着好几个人传话,最后意思都变味儿了。