Midjourney新研究发力创意文本生成，让LLM写作更具创意

2025-03-25 10:21

以AI图像生成技术闻名遐迩的Midjourney，正悄然展现其在人工智能领域的更广阔野心。这家拥有庞大用户群体的科技公司，在自研计算和AI硬件的消息之后，近期携手纽约大学（NYU）的机器学习专家，发布了一项关于训练文本生成大语言模型(LLMs)的最新研究成果。该研究聚焦于提升LLM在创意写作方面的能力，旨在使AI模型能够像Meta的Llama和Mistral等开源模型一样，写出更具创造性的文本。

以AI图像生成技术闻名遐迩的Midjourney，正悄然展现其在人工智能领域的更广阔野心。这家拥有庞大用户群体的科技公司，在自研计算和AI硬件的消息之后，近期携手纽约大学（NYU）的机器学习专家，发布了一项关于训练文本生成大语言模型(LLMs)的最新研究成果。

该研究聚焦于提升LLM在创意写作方面的能力，旨在使AI模型能够像Meta的Llama和Mistral等开源模型一样，写出更具创造性的文本。

不止于图像:Midjourney发力创意文本生成

对于一家以扩散模型AI图像生成技术著称的公司而言，Midjourney此次在文本生成领域的创新尝试，无疑向外界传递了一个明确的信号:他们的目标远不止于视觉内容。正如研究人员所言，“一图胜千言”的传统观念或许将被改写，文本的创意潜力同样值得深入挖掘。Midjourney正在用实际行动证明，其在AI领域的探索是多元化的。

告别“套路”:创新技术提升AI写作多样性

该项发表于AI代码社区Hugging Face的研究论文，创新性地提出了两种名为“多样化直接偏好优化”（Diversified Direct Preference Optimization， DDPO）和“多样化赔率比偏好优化”(Diversified Odds Ratio Preference Optimization， DORPO)的新技术。这两项技术的核心目标在于扩大AI模型生成文本的范围，使其在保持连贯性和可读性的前提下，呈现出更加丰富多样的内容。

研究人员指出，尽管当前的LLM在事实性问答或代码辅助等领域表现出色，能够生成“最优解”，但在创意写作领域，由于其开放性，对同一个提示本应存在多种有效的回应。例如，对于“写一个关于月球上的狗的故事”这样的提示，人类可能会构思出宇航员遗落在月球上的宠物狗、未来犬类太空殖民地的狗狗，或是与外星生物成为朋友的流浪狗等多种截然不同的情节。

然而，经过指令调优的LLM往往会收敛于相似的故事线和主题。这主要是因为后期训练技术更侧重于用户偏好而非原创性，强化了流行但重复的答案;同时，指令调优也可能平滑了变异性，使模型倾向于生成“安全”但缺乏新意的回应。此外，现有的多样性促进技术（如温度调整）通常只在模型推理阶段发挥作用，而没有融入到模型的学习过程中。这最终导致AI生成的创意写作显得同质化，缺乏惊喜和深度。

让AI模型“另辟蹊径”

为了克服这些局限性，Midjourney的研究团队对现有的偏好优化方法进行了改进，引入了DDPO和DORPO。这两项创新的核心在于利用“偏差”（deviation）——即一个回应与其他回应的差异程度——来指导模型训练。

具体来说，在训练过程中，模型会接收一个写作提示和多个可能的回答。随后，每个回答都会与其他同提示下的回答进行比较，并计算出一个偏差分数。那些罕见但高质量的回应在训练中会被赋予更高的权重，从而鼓励模型从更多样化的例子中学习。通过将偏差融入到直接偏好优化（DPO）和赔率比偏好优化(ORPO)中，模型能够学习生成更高质量且更具差异性的回应。这种方法确保了AI生成的故事不会局限于单一可预测的结构，而是能够探索更广泛的角色、设定和主题，就像人类作家一样。

为了验证这些新方法的有效性，研究人员使用了Reddit社区r/writingPrompts上的数据集对LLM进行训练。他们选择了Meta的Llama-3.1-8B（一个80亿参数的模型）和Mistral AI的Mistral-7B-v0.3(一个70亿参数的模型)作为基础模型。

训练过程包括监督式微调（SFT）和偏好优化两个阶段。在偏好优化阶段，他们首先使用标准的DPO和ORPO作为基线，然后应用DDPO和DORPO引入基于偏差的权重。最后，通过自动评估(测量语义和文体多样性)和人工评估(判断输出的多样性和吸引力，并与GPT-4o和Claude3.5进行比较)来评估模型性能。

实验结果显示，DDPO在保持输出质量的同时，显著优于标准的DPO。搭载DDPO的Llama-3.1-8B在质量和多样性之间取得了最佳平衡，其生成的回应比GPT-4o更加多样化，同时保持了良好的连贯性。即使在数据集规模缩小的情况下，DDPO模型仍然能够保持一定的多样性。

赋能各行业:AI创意内容潜力无限

这项研究对于需要使用AI生成创意文本的企业而言，具有重要的实际意义。例如，在营销文案、企业故事讲述以及影视游戏剧本创作等领域，提升AI生成内容的多样性和质量至关重要。对于负责LLM部署的AI团队而言，如何在保证质量的前提下增强输出的多样性是一个关键挑战。Midjourney的研究为解决这一难题提供了一种新的思路。

该研究提出了一种新的LLM后训练方法，能够在不牺牲质量的前提下增强创造力。它还提供了一种实用的替代方案，可以取代推理时期的多样性调整（如调整温度），将多样性直接融入到模型的学习过程中。这有望开发出更具吸引力的AI应用，例如AI辅助写作工具和能够动态调整回应的虚拟助手。

对于负责AI模型编排和自动化的专业人士来说，这项研究强调了在训练阶段调整模型的重要性，从而减少部署后进行后处理调整的需求。它还提供了一种将自适应叙事引入AI驱动应用的方法，确保内容的可变性，同时保持高质量。此外，该方法有助于使LLM的输出更像人类，这对于需要互动叙事、客户互动或动态内容创建的应用至关重要。

结语

DDPO和DORPO的成功表明，以多样性为目标训练LLM可以在创意写作方面取得显著的进步。未来，将基于偏差的学习方法集成到企业AI模型中，以增强面向客户的应用中的响应多样性，探索这些方法在诗歌、剧本创作或游戏故事等其他生成任务中的应用，以及开发平衡多样性和指令遵循能力的混合训练方法，都将是值得期待的研究方向。

Midjourney的研究团队计划公开其代码，这无疑将为那些希望应用这些技术的开发者提供宝贵的资源。通过采纳这些创新技术，AI团队有望突破僵化、公式化的输出模式，构建出不仅智能，而且真正富有想象力的AI系统。

论文:https://huggingface.co/papers/2503.17126

Augury 融资7500万美元，用于 AI 检测工厂机器故障

在工业机器人领域备受关注的背景下，Augury 公司近日宣布成功融资7500万美元，市值突破10亿美元。作为一家致力于开发 AI 硬件的初创企业，Augury 的技术可以实时检测工厂设备的故障及其原因，帮助制造商减少设备停机时间，提升生产效率。 Augury 的 CEO 兼创始人 Saar Yoskovitz 在采访中透露，公司的 AI 系统已经监测了超过五亿小时的机器运行数据，涵盖了多种设备和制造商。

2/20/2025 10:34:00 AM

AI在线

阿里巴巴宣布创纪录投资：未来三年3800亿加码云与AI硬件建设

今日，阿里巴巴集团CEO吴泳铭宣布，未来三年，阿里将投入超过3800亿元人民币，用于建设云和AI硬件基础设施，总额超过去十年的总和。这一创纪录的投资规模，不仅是中国民营企业在云和AI硬件基础设施建设领域的最大手笔，更彰显了阿里巴巴在AI时代的技术野心与战略布局。 **此次巨额投资的宣布恰逢两个重要时点:一是国内AI产业迎来爆发式增长，AI技术在各行业中的应用迅速扩展;二是民营企业座谈会的召开，进一步为科技企业的发展注入信心与动力。

2/24/2025 10:00:42 AM

AI在线

“知乎AI先行者沙龙”深圳站：探航大模型应用新风口

7月14日，第三届“知乎AI先行者沙龙”在深圳举行。知乎邀请众多AI行业从业者、专家、学者齐聚一堂，用最前沿的观点和最专业的思考，共同探讨大模型应用的新风口。本届沙龙以“探航”为主题，知乎高级副总裁、社区业务负责人张荣乐出席活动并致辞，香港大学计算与数据科学学院院长马毅、RWKV元始智能联合创始人罗璇、粤港澳大湾区数字经济研究院基础软件中心首席科学家张宏波、OPPO AI 中心技术战略规划总监陈晓春，分别围绕人工智能的本质、端侧模型与硬件的结合等议题进行主题演讲。

7/15/2024 3:35:00 PM

朱可轩

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

Midjourney新研究发力创意文本生成，让LLM写作更具创意

相关资讯

Augury 融资7500万美元，用于 AI 检测工厂机器故障

阿里巴巴宣布创纪录投资：未来三年3800亿加码云与AI硬件建设

“知乎AI先行者沙龙”深圳站：探航大模型应用新风口