文生

豆包支持带有指定文字的图片生成，App已开启测试

近日，字节跳动旗下智能AI助手豆包升级文生图能力，支持一键生成指定文本。用户可以在生图提示词中加入文本要求，如“一张带有「新年快乐」的图”，即可生成带有指定文字的图片。目前该功能已经在豆包APP开启测试，即梦也已小范围测试。

12/5/2024 3:49:00 PM

新闻助手

发布 GPT-4o Mini 后，OpenAI CEO 阿尔特曼称产品命名方式“需要改变”

7 月 18 日，OpenAI 发布了号称“最具成本效益小模型”的新模型 GPT-4o Mini。随后，CEO 阿尔特曼在 X（推特）上开启了“带货模式”：“每百万输入 tokens 15 美分，每百万输出 tokens 60 美分，MMLU 为 82%，速度快。最重要的是，我们认为人们会非常喜欢使用这个新模型。”大部分网友在评论区中赞不绝口，但也有网友认为，GPT 系列模型的名称是时候需要改一改了。在回复阿尔特曼的推文时，这名网友表示，“你们真的需要换个名字。”阿尔特曼给出了肯定的回复。“哈哈，是的，我们确实需要

7/22/2024 5:27:20 PM

清源

快手文生图大模型“可图”宣布开源，现已上线微信小程序和网页版

感谢正在举行的世界人工智能大会期间，快手高级副总裁、主站业务与社区科学负责人盖坤宣布，快手文生图大模型可图正式开源，希望共建更加繁荣的文生图大模型社区生态。IT之家注意到，快手“可图”大模型于今年 5 月对外开放，目前已经上线网页版和微信小程序，支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。IT之家实测发现，在 AI 创作模块，用户只需输入描述文字并选择期望的画作风格，即可快速获取专属的 AI 画作。其中，画作风格可以选择默认、皮克斯、卡通盲盒、新海诚、动漫 3D、怀旧动漫、电子游戏、水彩

7/6/2024 10:49:03 AM

浩渺

腾讯混元 DiT 文生图大模型开源 6G 小显存版本，一同开源打标模型

腾讯混元文生图大模型（混元 DiT）今日宣布开源小显存版本，仅需 6G 显存即可运行，对使用个人电脑本地部署的开发者比较友好。此外，腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语，针对文生图场景进行专门优化，可帮助开发者快速制作文生图数据集。腾讯混元 DiT 模型升级腾讯混元 DiT 模型宣布了三大更新：推出小显存版本与 Kohya 训练界面，并升级至 1.2 版本，进一步降低使用门槛的同时提升图片质量。基于 DiT 架构的文生图模型生成图片质感更佳，但对显存的要求却非常高

7/4/2024 6:52:09 PM

汪淼

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件

6月21日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着，全球的企业与个人开发者、创作者们，都可以基于混元DiT训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元DiT的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。作为中文原生模型，用户在通过混元DiT的训练代码进行精调时，可以直接使用中文的数据与标签，无需再将数据翻译成英文。此前，腾讯混元文生图大

6/21/2024 2:04:00 PM

新闻助手

腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”

腾讯混元团队联合中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”，相关成果已经发表在 arxiv 上（IT之家附 DOI:10.48550/arXiv.2406.03035）。据介绍，“Follow-Your-Pose-v2”只需要输入一张人物图片和一段动作视频，就可以让图片上的人跟随视频上的动作动起来，生成视频长度可达 10 秒。与此前推出的模型相比，“Follow-Your-Pose-v2”可以在推理耗时更少的情况下，支持多人视频动作生成。此外，该模型具备较强的泛化能力，

6/7/2024 6:08:29 PM

问舟

腾讯混元文生图开源大模型加速库发布：生图时间缩短 75%

腾讯今日发布针对腾讯混元文生图开源大模型（混元 DiT）的加速库，号称大幅提升推理效率，生图时间缩短 75%。官方表示，混元 DiT 模型的使用门槛也大幅降低，用户可以基于 ComfyUI 的图形化界面使用腾讯混元文生图模型能力。同时，混元 DiT 模型已经部署至 HuggingFaceDiffusers 通用模型库中，用户仅用三行代码即可调用混元 DiT 模型，无需下载原始代码库。在此之前，腾讯曾宣布混元文生图大模型全面升级并对外开源，供企业、个人开发者免费商用。腾讯方面称其为“业内首个”中文原生的 DiT 架构

6/6/2024 1:56:48 PM

清源

快手上线自研文生图大模型“可图”，消息称参数规模达十亿级

快手自研文生图大模型“可图”已于近日正式对外开放，其目前支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用。据界面新闻报道，这也是快手首次将其自研的系列大模型对外开放。报道援引知情人士消息称，“可图”大模型的参数规模达十亿级，这些数据来自开源社区、快手内部构建和自研 AI 技术合成，覆盖了常见的千万级中文实体概念，还引入强化学习和奖励模型技术（RLHF），解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。报道称，快手内部今年明确了大模型应用策略，

5/30/2024 10:55:44 PM

清源

腾讯混元文生图大模型对外开源：搭载首个中英双语 DiT 架构，免费商用

感谢腾讯宣布旗下的混元文生图大模型升级并对外开源，目前已经在 Hugging Face 及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。▲ 混元文生图效果▲ 混元长文生图效果升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构，腾讯表示，混元 DiT 是首个中英双语 DiT 架构。混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型，此模型具有中英文细粒度理解能力，混元 DiT 能够与用户进行多轮对话，根据上下文生

5/14/2024 5:01:24 PM

沛霖（实习）

快手 CEO 程一笑放出豪言：自研大模型有信心在半年内达 GPT4.0 水平

在今晚的快手业绩电话会上，快手创始人兼 CEO 程一笑披露了公司在生成式 AI 领域的进展。程一笑表示，公司在去年启动 AI 战略后，一步步扎实推进自研大模型的研发训练。程一笑还放出豪言，声称有信心在未来半年内，使大模型的综合性能达到 GPT4.0 的水平。同时，他还称快手文生图大模型“可图”综合性能已超过 Midjourney V5 的水平。至于目前大热的文生视频领域，程一笑透露称公司已于去年底推进专项研发。“这对短视频生态来说，是巨大的机会。未来，快手会把生成模型和生产者工具结合起来，不断帮助创作者降低创作门槛

3/20/2024 8:54:57 PM

清源

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型