开源

OminiControl：一个新的FLUX通用控制模型，单个模型实现图像主题控制和深度控制

OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架，可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。

1/21/2025 10:20:00 AM

AIGC Studio

微软开源Markdown工具爆了：支持Office文档，可接多模态LLM直出报告

微软官方开源了一款文件格式转换工具——MarkItDown！它不仅可以将常见的Office文档（Word、PowerPoint、Excel）、PDF、图像、音频等转换为对大模型更友好的Markdown格式。而且还支持集成像GPT-4o这样的多模态LLM，可以直接对图片、音频文件进行更高级的处理，比如快速输出商业报告。

1/20/2025 1:10:22 PM

量子位

Open-Sora：让所有人都能轻松制作高效视频，可生成16秒720P视频，模型代码全开源！

Open-Sora是一项致力于高效制作高质量视频的计划。目的是让所有人都能使用模型、工具和所有细节。通过采用开源原则，Open-Sora 不仅使高级视频生成技术的使用变得民主化，而且还提供了一个简化且用户友好的平台，简化了视频生成的复杂性。

1/10/2025 9:40:00 AM

AIGC Studio

CMU等曝光GitHub「地下产业链」！450万个Star都是刷的

什么？ Github的star居然都能是假的了，甚至数量达到了惊人的450万！大多数的研究人员都会将自己的项目发布到Github中，以增加曝光度。

1/6/2025 8:50:00 AM

新智元

反手就是开源！英伟达豪掷7亿美元收购专攻GPU初创Run:ai

就在刚刚，英伟达正式完成了对以色列AI初创Run:ai的收购。对于AI基础设施来说，Run:ai的软件至关重要——通过动态调度、GPU池化、GPU分片等功能，硬件资源的使用效率可以得到大幅提升，甚至可以实现10倍的工作负载。图片不仅如此，随后Run:ai还计划将他们的软件开源。

12/31/2024 12:42:17 PM

新智元

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

狂奔的2024年进入最后一天，奥特曼新年目标来了～坏消息：没有GPT-5，开源依旧不在考虑范围内……前几日奥特曼发帖子收集大伙儿愿望，引得420万网友围观，评论区留下1万个心愿单。你希望OpenAI在2025年开发/修复什么？图片就在刚刚，参考大家建议后，OpenAI新年目标公布了。

12/31/2024 10:48:04 AM

近1.4万星，腾讯混元大模型开源成绩单公布，多次登顶开源趋势热榜

记者获悉，腾讯云副总裁，腾讯混元大模型负责人刘煜宏在2024开放原子开发者大会暨首届开源技术学术大会上表示，腾讯将开源协同作为公司的核心技术战略，积极推动内外部技术开源共享。腾讯混元大模型语言大模型、文生图大模型、文生3D大模型以及文生视频大模型等多个模态模型均已开源，未来大模型各版本也将进一步开源，与社区开发者一起共同推动技术生态繁荣发展。（腾讯云副总裁，腾讯混元大模型负责人刘煜宏）腾讯混元大模型的开源模型已经全面覆盖文生文、文生图、文生3D以及文生视频多个模态，是开源系列模型中较全的，其模型性能也得到了开源社区的高度认可，总GitHub Star（星星）数量近1.4万颗，并且多次登顶趋势榜。

12/24/2024 11:17:00 AM

新闻助手

国产开源模型顶流「通义」，被曝应用团队已“离开”阿里云，并入阿里智能信息事业群！阿里吴嘉回归的第一把火，能燃起来吗？

编辑 | 伊风媒体爆料了阿里系大模型“通义”的大新闻：近期，AI应用“通义”已经从阿里云被分拆出来，并入到阿里智能信息事业群！乍一看有点懵，因为被分拆出来的不是全部的“通义”，而是 To C 的应用层“通义”。而模型层的“通义”大模型家族相关业务，仍然保留在阿里云体系内的通义实验室中。

12/18/2024 1:18:47 PM

伊风

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

o1完整版公开仅10天，Scaling Law新范式就被逆向工程复现了！ Hugging Face官方发文，开源了扩展测试时计算的方法。用在小小小模型Llama 1B上，数学分数直接超过8倍大的模型，也超过了计算机科学博士生的平均分数（40%）。

12/17/2024 12:30:00 PM

量子位

两个用于科研的开源 AI Agent，改变知识研究的方式

想象一下，如果可以让爱因斯坦、埃隆·马斯克、费曼、史蒂夫·乔布斯、简·古道尔和尤瓦尔·诺亚·赫拉利和你一起合作共同研究并编写研究报告，这是一种什么感受？我们每天产生的信息比过去一年产生的信息还要多，假如研究人员想在一个小时内访问一万个网站、研究分析数据、并编写报告，这实际上是不可能的。如今，随着AI 大模型技术的发展，使用AI Agent却可以轻松地做到这一点。

12/16/2024 6:04:11 PM

zone7

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

无问芯穹今日宣布，开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。

12/16/2024 12:43:22 PM

沛霖（实习）

LG 发布 EXAONE 3.5 开源 AI 模型：长文本处理利器、独特技术有效降低“幻觉”

LG 人工智能研究院本周一（12 月 9 日）发布 EXAONE 3.5 开源 AI 模型，并同步推出面向 LG 员工的企业级 AI 智能体服务 ChatEXAONE。

12/11/2024 8:38:38 AM

故渊

73页，开源「后训练」全流程！AI2发布高质量Tülu 3系列模型，拉平闭源差距，比肩GPT-4o mini

只进行过「预训练」的模型是没办法直接使用的，存在输出有毒、危险信息的风险，也无法有效遵循人类指令，所以通常还需要进行后训练（post-train），如「指令微调」和「从人类反馈中学习」，以使模型为各种下游用例做好准备。早期的后训练工作主要遵循InstructGPT等模型的标准方案，如指令调整（instruction tuning）和偏好微调（preference finetuning），不过后训练仍然充满玄学，比如在提升模型编码能力的同时，可能还会削弱模型写诗或遵循指令的能力，如何获得正确的「数据组合」和「超参数」，使模型在获得新知识的同时，而不失去其通用能力，仍然很棘手。为了解决后训练难题，各大公司都提升了后训练方法的复杂性，包括多轮训练、人工数据加合成数据、多训练算法和目标等，以同时实现专业知识和通用功能，但这类方法大多闭源，而开源模型的性能又无法满足需求，在LMSYS的ChatBotArena上，前50名模型都没有发布其训练后数据。

12/10/2024 4:00:00 PM

新智元

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

刚刚，腾讯混元大模型公布最新进展：正式上线视频生成能力，这是继文生文、文生图、3D生成之后的又一新里程碑。与此同时，腾讯开源该视频生成大模型，参数量130亿，是当前最大的视频开源模型。 “用户只需要输入一段描述，即可生成视频，”腾讯混元相关负责人透露，目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

12/4/2024 2:19:00 PM

郑佳美

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放

130亿参数，成为目前参数量最大的开源视频生成模型。模型权重、推理代码、模型算法等全部上传GitHub与Hugging Face，一点没藏着。实际效果如何呢？

12/3/2024 3:51:45 PM

量子位

关于 Meta Llama 3，你知道多少？

2024年，对于人工智能领域来说可谓意义非凡。继 OpenAI 推出备受赞誉的 GPT-4o mini后，Meta 的 Llama 3.1 模型亦在 . 7月23日惊艳亮相，再一次掀起了新一轮人工智能热潮。

11/29/2024 4:55:04 PM

架构驿站

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。 QwQ（Qwen with Questions）是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。

11/28/2024 5:31:00 PM

新闻助手

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（Machine Learning, AI, Big Data Systems Lab）联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#AISoft，联合以阿里云为代表的多家企业和研究机构，正式开源大模型资源池化项目 Mooncake。

11/28/2024 3:51:00 PM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

开源

OminiControl：一个新的FLUX通用控制模型，单个模型实现图像主题控制和深度控制

微软开源Markdown工具爆了：支持Office文档，可接多模态LLM直出报告

Open-Sora：让所有人都能轻松制作高效视频，可生成16秒720P视频，模型代码全开源！

CMU等曝光GitHub「地下产业链」！450万个Star都是刷的

反手就是开源！英伟达豪掷7亿美元收购专攻GPU初创Run:ai

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

近1.4万星，腾讯混元大模型开源成绩单公布，多次登顶开源趋势热榜

国产开源模型顶流「通义」，被曝应用团队已“离开”阿里云，并入阿里智能信息事业群！ 阿里吴嘉回归的第一把火，能燃起来吗？

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

两个用于科研的开源 AI Agent，改变知识研究的方式

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

LG 发布 EXAONE 3.5 开源 AI 模型：长文本处理利器、独特技术有效降低“幻觉”

73页，开源「后训练」全流程！AI2发布高质量Tülu 3系列模型，拉平闭源差距，比肩GPT-4o mini

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放

关于 Meta Llama 3，你知道多少？

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake

国产开源模型顶流「通义」，被曝应用团队已“离开”阿里云，并入阿里智能信息事业群！阿里吴嘉回归的第一把火，能燃起来吗？

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake