文生

豆包支持带有指定文字的图片生成,App已开启测试

近日,字节跳动旗下智能AI助手豆包升级文生图能力,支持一键生成指定文本。 用户可以在生图提示词中加入文本要求,如“一张带有「新年快乐」的图”,即可生成带有指定文字的图片。 目前该功能已经在豆包APP开启测试,即梦也已小范围测试。

发布 GPT-4o Mini 后,OpenAI CEO 阿尔特曼称产品命名方式“需要改变”

7 月 18 日,OpenAI 发布了号称“最具成本效益小模型”的新模型 GPT-4o Mini。随后,CEO 阿尔特曼在 X(推特)上开启了“带货模式”:“每百万输入 tokens 15 美分,每百万输出 tokens 60 美分,MMLU 为 82%,速度快。最重要的是,我们认为人们会非常喜欢使用这个新模型。”大部分网友在评论区中赞不绝口,但也有网友认为,GPT 系列模型的名称是时候需要改一改了。在回复阿尔特曼的推文时,这名网友表示,“你们真的需要换个名字。”阿尔特曼给出了肯定的回复。“哈哈,是的,我们确实需要

快手文生图大模型“可图”宣布开源,现已上线微信小程序和网页版

感谢正在举行的世界人工智能大会期间,快手高级副总裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图正式开源,希望共建更加繁荣的文生图大模型社区生态。IT之家注意到,快手“可图”大模型于今年 5 月对外开放,目前已经上线网页版和微信小程序,支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。IT之家实测发现,在 AI 创作模块,用户只需输入描述文字并选择期望的画作风格,即可快速获取专属的 AI 画作。其中,画作风格可以选择默认、皮克斯、卡通盲盒、新海诚、动漫 3D、怀旧动漫、电子游戏、水彩

腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。腾讯混元 DiT 模型升级腾讯混元 DiT 模型宣布了三大更新:推出小显存版本与 Kohya 训练界面,并升级至 1.2 版本,进一步降低使用门槛的同时提升图片质量。基于 DiT 架构的文生图模型生成图片质感更佳,但对显存的要求却非常高

腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件

6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。此前,腾讯混元文生图大

腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”

腾讯混元团队联合中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”,相关成果已经发表在 arxiv 上(IT之家附 DOI:10.48550/arXiv.2406.03035)。据介绍,“Follow-Your-Pose-v2”只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达 10 秒。与此前推出的模型相比,“Follow-Your-Pose-v2”可以在推理耗时更少的情况下,支持多人视频动作生成。此外,该模型具备较强的泛化能力,

腾讯混元文生图开源大模型加速库发布:生图时间缩短 75%

腾讯今日发布针对腾讯混元文生图开源大模型(混元 DiT)的加速库,号称大幅提升推理效率,生图时间缩短 75%。官方表示,混元 DiT 模型的使用门槛也大幅降低,用户可以基于 ComfyUI 的图形化界面使用腾讯混元文生图模型能力。同时,混元 DiT 模型已经部署至 HuggingFaceDiffusers 通用模型库中,用户仅用三行代码即可调用混元 DiT 模型,无需下载原始代码库。在此之前,腾讯曾宣布混元文生图大模型全面升级并对外开源,供企业、个人开发者免费商用。腾讯方面称其为“业内首个”中文原生的 DiT 架构

快手上线自研文生图大模型“可图”,消息称参数规模达十亿级

快手自研文生图大模型“可图”已于近日正式对外开放,其目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用。据界面新闻报道,这也是快手首次将其自研的系列大模型对外开放。报道援引知情人士消息称,“可图”大模型的参数规模达十亿级,这些数据来自开源社区、快手内部构建和自研 AI 技术合成,覆盖了常见的千万级中文实体概念,还引入强化学习和奖励模型技术(RLHF),解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。报道称,快手内部今年明确了大模型应用策略,

腾讯混元文生图大模型对外开源:搭载首个中英双语 DiT 架构,免费商用

感谢腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在 Hugging Face 及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。▲ 混元文生图效果▲ 混元长文生图效果升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,腾讯表示,混元 DiT 是首个中英双语 DiT 架构。混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元 DiT 能够与用户进行多轮对话,根据上下文生

快手 CEO 程一笑放出豪言:自研大模型有信心在半年内达 GPT4.0 水平

在今晚的快手业绩电话会上,快手创始人兼 CEO 程一笑披露了公司在生成式 AI 领域的进展。程一笑表示,公司在去年启动 AI 战略后,一步步扎实推进自研大模型的研发训练。程一笑还放出豪言,声称有信心在未来半年内,使大模型的综合性能达到 GPT4.0 的水平。同时,他还称快手文生图大模型“可图”综合性能已超过 Midjourney V5 的水平。至于目前大热的文生视频领域,程一笑透露称公司已于去年底推进专项研发。“这对短视频生态来说,是巨大的机会。未来,快手会把生成模型和生产者工具结合起来,不断帮助创作者降低创作门槛
  • 1