开源

腾讯混元文生图大模型开源训练代码，公布LoRA与ControlNet插件
6月21日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiT LoRA 小规模数据集训练规划与可控制插件ControlNet。这意味着，全球的企业与个人开发者、创作者们，都可以鉴于混元DiT训练代码从事精调，创造更具个性化的专属模型，从事更大自由度的创作；或鉴于混元DiT的代码从事修改和优化，鉴于此构建自身应用，推动技能的快速迭代和创新。作为华文原生模型…
应用
- 29
- 0
新闻助手6月21日
上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格
感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。该机构表示，Qwe…
AI
- 10
- 0
清源6月20日
中国电信发布全球首个单体稠密万亿参数语义模型 Tele-FLM-1T
中国电信人工智能研究院（TeleAI）和智源研究院联合发布全球首个单体稠密万亿参数语义模型 Tele-FLM-1T，该模型与百亿级的 52B 版本，千亿级的 102B 版本共同构成 Tele-FLM 系列模型。TeleAI 和智源研究院鉴于模型滋生和损失预测等技术，Tele-FLM 系列模型仅使用了业界普通训练方案 9% 的算力资源，鉴于 112 台 A800 服务器，用 4 个月完成 3 个模型…
AI
- 38
- 0
沛霖（实习）6月19日
Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney
【新智元导读】重磅消息！Stable Diffusion 3，大概率会在明天开源。距离 2 月 SD3 的横空出世，已经过去了 4 个月。如果此事为真，生图圈子第一个出现开源碾压闭源的奇景！强大的 MMDiT 全新架构，将彻底改变 AI 生图的格局。现在，全体 AI 社区都在翘首以盼。万众瞩目的 Stable Diffusion 3，终于要正式开源了！几天前，在 Computex 2024 大会上…
AI
- 8
- 0
清源6月12日
重磅！斯坦福 AI 团队被曝抄袭中国大模型开源成果，推特舆论开始发酵
过去一年，中国大模型一直被贴上「追赶美国」的标签，但近日，推特上却有人曝出：根据 AI 科技评论整理，事情的经过大致如下：5 月 29 日，斯坦福大学的一个研究团队发布了一个名为「Llama3V」的模型，号称只要 500 美元（约等于人民币 3650 元）就能训练出一个 SOTA 多模态模型，且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。 Github开源：：（…
应用
- 979
- 0
陈彩娴6月4日
“全球首创”单台 RTX 4090 服务器推理，昆仑万维开源 2 千亿稀疏大模型天工 MoE
昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE，基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型，也是首个支持用单台 RTX 4090 服务器（8 张 RTX 4090 显卡）推理的开源千亿 MoE 大模型。据介绍，本次开源的 Skywork-MoE 模…
AI
- 31
- 0
汪淼6月3日
超越Devin，姚班带队OpenCSG创造大模型编程新世界纪录
来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent，以23.67%的成果刷新了普林斯顿SWEBench(大模型确实独立编程评测)排行榜，取得了全球第二名的成果，同时创造了非GPT-4o基模的最高纪录（SOTA）。SWEBench评测高度贴近确实编程场景，难度极高，不仅要求模型能理解需求、协调多个函数/类甚至文件的变更，还要求模型与执行环境交互，处理超长上下文并执…
应用
- 12
- 0
新闻助手5月31日
快速入门大模型技巧与应用，推荐你从Stable Diffusion开始学起
自 2023 年 AI 技巧爆发以来，以 ChatGPT、Stable Diffusion 为代表的大模型已然成为了大众的焦点，其中 Stable Diffusion 作为知名的视觉开源模型，凭借直观易用与令人印象深刻的图像生成能力，赢得了创作者的广泛青睐。随着人工智能技巧的不断进步和创新，Stable Diffusion 已经在艺术创作、设计领域乃至科学研究中展现出了独特的魅力和巨大的潜力。它不…
AI
- 82
- 0
机器之心5月29日
只需单卡RTX 3090，低比特量化训练就能实行LLaMA-3 8B全参微调
AIxiv专栏是机器之心发布学术、手艺内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]
理论
- 5
- 0
机器之心5月25日
WOT大会日程上线：我们找来数十位大模型试验企业现身说法
这两天的技巧圈里，估计大家都在摩拳擦掌等待体验OpenAI的GPT-4o（o为Omni缩写，意为“全能”）有多“全能”吧。我们无意给市场泼冷水，只是要提醒大家，想要让大模型真正落地，市场的热，并不意味着使用试验的成熟。尤其在企业级场景中，为什么大模型落地理想很丰满现实很骨感？为什么很少有企业能把大模型用在核心业务中？是不想用、还是用不好？在即将于6月21-22日在北京召开的WOT全球技巧创新大会上…
工程
- 16
- 0
新闻助手5月20日
对话零一万物：大模型产品要找到 TC-PMF
上次零一万物（以下简称“零一”）开发布会还是在 2023 年 11 月，宣布成立后的模型首秀：发布中英双语大模型“Yi”，并将其开源。这一次，时隔半年，零一不仅将基座模型卷到千亿量级，甚至还直接拿出一款 C 端新品“万知”，零一万物创始人李开复称其为“AI-First 版 office”。在模型层，零一发布了千亿参数的 Yi-Large 闭源模型，在第三方评测基准斯坦福大学的英语排行 Alpa…
应用
- 971
- 0
张进5月16日
别再说国产大模型技术突破要靠 Llama 3 开源了
Meta 表示，Llama 3 已经在多种行业基准测试上展现了最先进的性能，提供了包括改进的推理能力在内的新功能，是目前市场上最好的开源大模型。根据Meta的测试结果，Llama 3 8B模型在语言（MMLU）、知识（GPQA）、编程（HumanEval）等多项性能基准上均超过了Gemma 7B和Mistral 7B Instruct，70B 模型则超越了名声在外的闭源模型 Claude 3的中…
应用
- 973
- 0
张进4月29日
苹果颁布 OpenELM，基于开源训练和推理框架的高效谈话模型
在 WWDC24 之前，苹果在 Hugging Face 平台上颁布了一个“具有开源训练和推理框架的高效谈话模型”，名为 OpenELM。当然，这是一项开源谈话模型，其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下：大型谈话模型的可重复性和透明性对于推进封闭研讨、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此，我们颁布了 OpenEL…
AI
- 8
- 0
问舟4月24日
Meta 发布 Llama 3，号称是最强大的开源大言语模型
感谢Meta 公司今天发布新闻稿，宣布推出下一代大言语模型 Llama 3，共有 80 亿和 700 亿参数两种版本，号称是最强大的开源大言语模型。Meta 声称，Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5，IT之家附上 Llama 3 的主要特点如下：向所有人开放：Meta 开源 Llama 3 的 80 亿参数版本，让所有人都能接触…
AI
- 20
- 0
故渊4月19日
中国电信开源 TeleChat-12B 星斗语义大模型，年内开源千亿级参数大模型
感谢中国电信已开源 120 亿参数 TeleChat-12B 星斗语义大模型，还表示将于年内开源千亿级参数大模型。相较 1 月开源的 7B 版本，12 版版本在内容、性能和应用等方面整体后果晋升 30%，其中多轮推理、安全问题等领域晋升超 40%。据介绍，TeleChat-12B 将 7B 版本 1.5T 训练数据晋升至 3T，优化数据洗濯、标注策略，持续建立专项任务 SFT (监督微调) 数据，…
AI
- 6
- 0
问舟4月16日
baidu李彦宏称开源 AI 模型会越来越发展
感谢baidu创始人、董事长兼 CEO 李彦宏今日在 Create 2024 baidu AI 开发者大会上默示，开源模型会越来越发展。李彦宏介绍，因为基础模型文心 4.0 可以根据需要，兼顾效验、响应速度、推理利润等各种考虑，剪裁出适合各种场景的更小尺寸模型，并且支持精调和 post pretrain。这样通过降维剪裁出来的模型，比直接用开源模型调出来的模型，一致尺寸下，效验明显更好；一致效验下…
AI
- 13
- 0
汪淼4月16日
360 智脑 7B 参数大模型开源，支持 50 万字长文本输入
感谢360 公司日前在 GitHub 上开源了 360 智脑 7B（70 亿参数模型）。360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练，以华文、英文、代码为主，开放 4K、32K、360K 三种不同文本长度。360 表示，360K（约 50 万字）是当前国产开源模型文本长度最长的。360 表示，他们在 OpenCompass 的主流评测数据集上验证了模型性能，包括 C-Eval、…
AI
- 4
- 0
沛霖（实习）4月12日
10 秒归纳 YouTube 视频，原阿里首席 AI 科学家贾扬清打造浏览器插件 Elmo
原阿里首席 AI 科学家贾扬清在 X（推特）上分享了插件 Elmo，该插件能在 10 秒内归纳 Google Next 主题演讲，生成一句话概括、纲要、主要观点。该插件由贾扬清去年创办的 AI 公司 Lepton AI 打造。贾扬清表示，Elmo 选取了数据公司 Databricks 推出的开源大模型 DBRX。据悉，DBRX 具有 1320 亿个参数，选取 MoE 架构，在性能上超过了 GPT-…
AI
- 17
- 0
沛霖（实习）4月10日
阿里通义千问开源 320 亿参数模型，已实现 7 款大谈话模型全开源
感动4 月 7 日，阿里云通义千问开源 320 亿参数模型 Qwen1.5-32B。IT之家注意到，通义千问此前已开源 5 亿、18 亿、40 亿、70 亿、140 亿和 720 亿参数 6 款大谈话模型。此次开源的 320 亿参数模型，将在性能、服从和内存占用之间实现更理想的平衡。例如，比拟通义千问 14B 开源模型，32B 在智能体场景下能力更强；比拟通义千问 72B 开源模型，32B 的推理…
AI
- 29
- 0
远洋4月8日
通义千问开源320亿参数模型，已实现7款大说话模型全开源
4月7日消息，阿里云通义千问开源320亿参数模型Qwen1.5-32B，可最大限度兼顾功能、效力和内存占用的均衡，为企业和开发者提供更高性价比的模型选择。目前，通义千问共开源了7款大说话模型，在海内外开源社区累计下载量突破300万。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数的6款大说话模型并均已升级至1.5版本，其中，几款小尺寸模型可便捷地在端侧部署，720亿参数模型则…
应用
- 7
- 0
新闻助手4月8日
元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型
元象发布XVERSE-MoE-A4.2B大模型，选择业界最前沿的混合大师模型架构（Mixture of Experts），激活参数4.2B，效果即可媲美13B模型。该模型全开源，无条件免费商用，让海量中小企业、研究者和开发者可在元象高功能“全家桶”中按需选用，推动低成本部署。GPT3、Llama与XVERSE等主流大模型发展遵循规模理论（Scaling Law），在模型训练和推理的过程中，…
应用
- 6
- 0
新闻助手4月2日
Databricks 推出 1320 亿参数大言语模型 DBRX，号称“现阶段最强开源 AI”
Databricks 近日在推出了一款通用大言语模型 DBRX，号称是“目前最强开源 AI”，据称在各种基准尝试中都逾越了“市面上所有的开源模型”。IT之家从民间新闻稿中得知，DBRX 是一个基于 Transformer 的大言语模型，采用 MoE（Mixture of Experts）架构，具备 1320 亿个参数，并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行尝试，相较…
AI
- 7
- 0
漾仔3月31日
周鸿祎自称“开源信徒”：发布将开源 360 智脑 7B 模型，撑持 50 万字长文本输入
感谢360 创始人周鸿祎近日透露即将开源 360 智脑 7B（70 亿参数模型），撑持 360k（50 万字）长文本输入。周鸿祎表示，前段时间大模型行业卷文本长度，100 万字“很快将是标配”。“我们打算将这个威力开源，大家没必要重复造轮子，定为 360k 主要是为了讨个口彩。”他还自称“开源的信徒”，信奉开源的力量。据介绍，360 智脑长文本威力已入驻大模型产品“360AI 浏览器”。周鸿祎还谈…
AI
- 6
- 0
清源3月29日
开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有
「太狂野了」。这是迄今为止最强大的开源大语言模型，超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。本周三，大数据人工智能公司 Databricks 开源了通用大模型 DBRX，这是一款拥有 1320 亿参数的混合大师模型（MoE）。DBRX 的基础（DBRX Base）和微调（DBRX Instruct）版本已经在 GitHub 和 Hugging Face 上发布，可用…
AI
- 16
- 0
机器之心3月28日