模型

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限
长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理 10 分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型 Video-XL。
应用
- 5
- 0
汪淼10月28日
OpenAI 公布新型 AI 文生图方案“sCM”，号称效率是传统扩散模型 50 倍
OpenAI 本周公布了一款名为 sCM（Continuous-Time Consistency Model）的新型 AI 文生图方案。与传统的扩散模型相比，sCM 仅需两个步骤即可生成高质量样本，号称能够将文生图效率提升约 50 倍，且生成的样本质量能与“业界较强的扩散模型”相比较，为 AI 文生图提供了新的方案。目前业界通常使用扩散模型生成图片及音视频，但传统扩散模型的取样过程通常缓慢，通…
应用
- 7
- 0
漾仔10月27日
Meta 推出 Llama 3.2 1B / 3B 模型量化版：功耗更低、可适用更多轻量移动设备
继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后，Meta 于 10 月 24 日发布了这两个模型的量化版本，量化后的模型大小平均减少了 56%，RAM 使用量平均减少了 41%，模型速度提高了 2 至 4 倍，同时降低了功耗，使这些模型能够部署到更多移动设备上。 AI在线注：模型量化（Model Quantization）就是通过各种训练方式将浮点模型转为定点模型，可以压缩模…
应用
- 5
- 0
漾仔10月27日
腾讯研发全球首个大熊猫模型：实时识别、统计、分析大熊猫行为并生成报告
腾讯 10 月 25 日宣布，为了帮助饲养员全方位观察大熊猫，腾讯、中国大熊猫保护研究中心、广东工业大学，联合打造了全球首个大熊猫行为智能识别模型及智慧系统。 AI在线获悉，该模型可以识别大熊猫进食、喝水、睡觉等日常行为，并自动生成日报、周报、月报等可视化数据报表。项目组通过优化 SlowFast 算法，大幅提升了系统在遮挡环境下的行为识别能力，目前室内遮挡场景下的大熊猫行为识别准确率提升到了 …
应用
- 10
- 0
浩渺10月26日
AI 竞赛愈发激烈，消息称谷歌计划 12 月发布 Gemini 2.0 模型
感谢The Verge 今天凌晨报道称，OpenAI“正计划”在 12 月推出其下一代旗舰 AI 模型的同时，消息人士称谷歌也将在当月发布下一代的 Gemini 2.0 模型，AI 竞赛正随着冬季的临近而愈发激烈。据悉，OpenAI 的 CEO 阿尔特曼正逐步推出 GPT-4 的升级版本，首批使用者将是其商业合作伙伴；谷歌计划直接广泛发布 Gemini 的新版本。然而，最新的报告指出，由 De…
应用
- 4
- 0
清源10月26日
科大讯飞语音识别首次实现全国地级市方言全覆盖，星火大模型首次支持 9 种外语
在今日上午的 2024 科大讯飞全球 1024 开发者节上，科大讯飞宣布语音识别首次实现全国地级市方言全覆盖，支持包括 288 个地市的 202 种方言。在发布会上，科大讯飞首次发布星火多语言大模型，支持英语、俄语、日语、阿语、韩语、法语、西语、葡语、德语共 9 种外语。科大讯飞还展示了星火多语言大模型的多个使用场景，包括车载语音交互的任务推荐、意图理解、实时检索等，AI在线附图如下：星火多语…
应用
- 13
- 0
汪淼10月24日
开源版 OpenAI 再出神作：小模型吊打 Meta Llama 3，Ministral 系列开启边缘 AI 革命
Mistral 7B 诞生一周年之际，法国 AI 初创公司 Mistral 再次连发两个轻量级模型 Ministral 3B 和 Ministral 8B，性能赶超 Llama 3 8B。 Mistral 7B 仅仅发布一周年，法国 AI 初创小模型「les Ministraux」就打败它了。它堪称是，世界上最好的边缘模型。
应用
- 9
- 0
问舟10月23日
全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点
Time-MoE 采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了 Time-300B 数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。
应用
- 7
- 0
问舟10月23日
真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多
AI好好用报道编辑：杨文目前发布的最大的开源视频生成模型。 Genmo 当了一回「赛博菩萨」。昨晚，AI 视频生成公司 Genmo 推出了最新的视频生成模型 Mochi 1 ，并且大手一挥，直接给开源了。
应用
- 10
- 0
AI好好用10月23日
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型：功耗下降 80%，内存占用减少 1.6GB
感谢荣耀今日正式发布 MagicOS 9.0，号称是“行业首个搭载智能体的个人化全场景 AI 操作系统”。在 MagicOS 9.0 中，MagicOS 全新魔法大模型家族迎来升级，支持端云资源灵活调配，不同设备灵活部署，AI在线附各版本如下：500 万参数图像大模型，端侧部署，全系列支持4000 万参数图像大模型，端侧部署，中高端系列30 亿参数大语言模型，端侧部署，中高端系列10 亿参数多模…
应用
- 8
- 0
汪淼10月23日
谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型
科技媒体 The Decoder 昨日（10 月 22 日）发布博文，报道称谷歌 DeepMind 团队携手麻省理工学院（MIT），推出了全新的“Fluid”模型，在规模达到 105 亿参数时候，能取得最佳的文生图效果。目前在文生图领域，行业内的一个共识是自回归模型（Autoregressive Models）不如扩散模型（Diffusion Models）。 AI在线简要介绍下这两种模型：扩散…
应用
- 6
- 0
故渊10月23日
消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面，研发类 GPT-4o 端到端语音模型
感谢据“晚点 Auto”昨晚报道，微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面，主要负责研发端到端语音模型。报道称，月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称，目前正有 10 人左右的团队在研发视频模型，为确保产品更具差异性，对外发布计划仍在推迟。
应用
- 8
- 0
清源10月23日
微软开源 1.58bit 推理框架：千亿参数模型量化后单 CPU 可跑，速度每秒 5-7 个 token
微软开源 1bit 大模型推理框架！现在 1000 亿参数大模型量化后单 CPU 可跑，速度可达每秒 5-7 个 token。比如在苹果 M2 新品上运行 BitNet b1.58 3B 模型，be like：就是今年爆火论文 The Era of 1-bit LLMs 的官方代码实现，开源不到一周 GitHub 已揽获 7.9k Star。
应用
- 8
- 0
汪淼10月22日
IBM 推出 Granite 3.0：最佳企业 AI 模型，为智能体 AI 夯实基础
科技媒体 NeoWin 昨日（10 月 21 日）发布博文，报道称 IBM 在其年度 TechXchange 活动上，发布了全新的 Granite 3.0 系列 AI 模型，在学术和行业基准测试中可以持平或超越同等规模的模型。Granite 3.0 系列包含多种新模型，AI在线附上相关模型如下：通用 / 语言模型：Granite 3.0 8B InstructGranite 3.0 2B Inst…
应用
- 9
- 0
故渊10月22日
商汤 CEO 徐立内部信曝光，确定“三位一体”新 AI 战略
10 月 22 日上午消息，新浪科技独家获悉，商汤科技十周年之际，商汤科技董事长兼首席执行官徐立于近日发内部信，首次提及公司最新确立的“大装置-大模型-应用”的三位一体战略，同时宣布将围绕战略和核心资源，将构建更加集中和高效的组织架构，加快组织和管理的轻盈化进程。新浪科技了解到，在内部信中，徐立还阐述了自己对于传统 AI 1.0 和生成式大模型 AI 2.0 的理解。他指出，“AI 1.0 被看作…
应用
- 5
- 0
文猛10月22日
英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20
科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器…
应用
- 6
- 0
故渊10月22日
智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统
感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。
应用
- 16
- 0
沛霖（实习）10月21日
首发根据音频生成 4K 分辨率 1 小时长视频，复旦、百度联手打造 AI 开源模型 Hallo2
复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型，该模型可以生成长达数小时的 4K 分辨率人物动画，现已在 GitHub 发布开源。Hallo2 模型建立在 latent diffusion models 的基础上，相比上一代 Hallo 模型的效果更好，支持了长视频生成，通过引入数据增强方法如 patch-drop 和高斯噪声，有效提高了长时间视频的视觉一致性和时间连贯性。Ha…
应用
- 14
- 0
汪淼10月21日
中国移动上海产业研究院：金融领域 AI 大模型渗透率过半，系行业最高
据《北京商报》周日报道，在 2024 金融街论坛年会“AI 金融赋能数字金融新篇章”平行论坛上，中国移动上海产业研究院副总经理陈豫蓉介绍，金融领域是大模型渗透率最高的行业，渗透率超过 50%。智慧销售、智能问答和智能风控是现阶段金融行业最热门，也是应用成熟度最高的 AI 大模型应用场景。AI在线从报道获悉，金融业具备大规模、高质量的数据资源和多维度、多元化的应用场景，被视为大模型技术应用的最优行业…
应用
- 9
- 0
清源10月21日
相关人士回应字节大模型遭实习生攻击：破坏训练属实，损失金额及处理方式被夸大
据“证券时报・e 公司”报道，接近字节跳动的人士今日就“字节大模型遭实习生攻击”一事表示，确有实习生破坏 AI 模型训练，但损失金额和处理方式被夸大。AI在线附前情提要：近期流传消息称，今年 6 月，某高校博士在字节跳动商业化技术团队实习，因对团队资源分配不满，使用攻击代码破坏团队的模型训练任务。截至目前，官方未进行回应。
应用
- 3
- 0
清源10月19日
Meta 发布新 AI 模型：利用 AI 来评估 AI 的能力，无需人类参与
据路透社报道，Meta 当地时间周五宣布，其研究团队推出了一系列新的 AI 模型，其中包括一个名为“自我训练评估器”的工具。该工具有望推动 AI 开发过程中减少对人类干预的依赖。这个工具早前在 8 月的论文中首次亮相，其使用与 OpenAI 新发布的 o1 模型类似的“思维链”技术，让 AI 对模型的输出做出可靠判断。
应用
- 5
- 0
清源10月19日
X 平台修改隐私政策，11 月 15 日起第三方公司可将用户内容用于训练 AI 模型
感谢X 平台本周宣布，该平台将从 11 月 15 日起更新其服务条款和隐私政策，新增与 AI 和机器学习相关的内容，允许第三方使用该平台的内容来训练 AI 模型。新版服务条款中明确指出，X 平台可以利用用户发布的文字或提供的信息来改善服务，包括用于训练公司的机器学习和 AI 模型。此外，AI在线注意到新版隐私政策还增加了与第三方合作的条款，指出如果用户选择分享数据，X 平台“可能”会向第三方披露其…
应用
- 9
- 0
漾仔10月18日
RTX 4090 笔记本 0.37 秒直出大片：英伟达联手 MIT 清华祭出 Sana 架构，速度秒杀 FLUX
一台 4090 笔记本，秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构，得益于核心架构创新，具备了惊人的图像生成速度，而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本，仅需 0.37 秒，直接吐出 1024×1024 像素图片。
应用
- 5
- 0
问舟10月17日
英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5，仅次于 OpenAI o1
刚刚，英伟达开源了超强模型 Nemotron-70B，后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet，仅次于 OpenAI o1！AI 社区惊呼：新的开源王者又来了？业内直呼：用 Llama 3.1 训出小模型吊打 GPT-4o，简直是神来之笔！
应用
- 3
- 0
问舟10月17日