一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。 然而,现有的多模态大模型在处理 10 分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。 对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型 Video-XL。- 5
- 0
OpenAI 公布新型 AI 文生图方案“sCM”,号称效率是传统扩散模型 50 倍
OpenAI 本周公布了一款名为 sCM(Continuous-Time Consistency Model)的新型 AI 文生图方案。 与传统的扩散模型相比,sCM 仅需两个步骤即可生成高质量样本,号称能够将文生图效率提升约 50 倍,且生成的样本质量能与“业界较强的扩散模型”相比较,为 AI 文生图提供了新的方案。 目前业界通常使用扩散模型生成图片及音视频,但传统扩散模型的取样过程通常缓慢,通…- 7
- 0
Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备
继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后,Meta 于 10 月 24 日发布了这两个模型的量化版本,量化后的模型大小平均减少了 56%,RAM 使用量平均减少了 41%,模型速度提高了 2 至 4 倍,同时降低了功耗,使这些模型能够部署到更多移动设备上。 AI在线注:模型量化(Model Quantization)就是通过各种训练方式将浮点模型转为定点模型,可以压缩模…- 5
- 0
腾讯研发全球首个大熊猫模型:实时识别、统计、分析大熊猫行为并生成报告
腾讯 10 月 25 日宣布,为了帮助饲养员全方位观察大熊猫,腾讯、中国大熊猫保护研究中心、广东工业大学,联合打造了全球首个大熊猫行为智能识别模型及智慧系统。 AI在线获悉,该模型可以识别大熊猫进食、喝水、睡觉等日常行为,并自动生成日报、周报、月报等可视化数据报表。 项目组通过优化 SlowFast 算法,大幅提升了系统在遮挡环境下的行为识别能力,目前室内遮挡场景下的大熊猫行为识别准确率提升到了 …- 10
- 0
AI 竞赛愈发激烈,消息称谷歌计划 12 月发布 Gemini 2.0 模型
感谢The Verge 今天凌晨报道称,OpenAI“正计划”在 12 月推出其下一代旗舰 AI 模型的同时,消息人士称谷歌也将在当月发布下一代的 Gemini 2.0 模型,AI 竞赛正随着冬季的临近而愈发激烈。 据悉,OpenAI 的 CEO 阿尔特曼正逐步推出 GPT-4 的升级版本,首批使用者将是其商业合作伙伴;谷歌计划直接广泛发布 Gemini 的新版本。 然而,最新的报告指出,由 De…- 4
- 0
科大讯飞语音识别首次实现全国地级市方言全覆盖,星火大模型首次支持 9 种外语
在今日上午的 2024 科大讯飞全球 1024 开发者节上,科大讯飞宣布语音识别首次实现全国地级市方言全覆盖,支持包括 288 个地市的 202 种方言。 在发布会上,科大讯飞首次发布星火多语言大模型,支持英语、俄语、日语、阿语、韩语、法语、西语、葡语、德语共 9 种外语。 科大讯飞还展示了星火多语言大模型的多个使用场景,包括车载语音交互的任务推荐、意图理解、实时检索等,AI在线附图如下:星火多语…- 13
- 0
开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命
Mistral 7B 诞生一周年之际,法国 AI 初创公司 Mistral 再次连发两个轻量级模型 Ministral 3B 和 Ministral 8B,性能赶超 Llama 3 8B。 Mistral 7B 仅仅发布一周年,法国 AI 初创小模型「les Ministraux」就打败它了。 它堪称是,世界上最好的边缘模型。- 9
- 0
全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点
Time-MoE 采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。 研发团队还发布了 Time-300B 数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。 在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。- 7
- 0
真·赛博菩萨!最大的开源视频模型来了,我们实测:有点东西,但不多
AI好好用报道编辑:杨文目前发布的最大的开源视频生成模型。 Genmo 当了一回「赛博菩萨」。 昨晚,AI 视频生成公司 Genmo 推出了最新的视频生成模型 Mochi 1 ,并且大手一挥,直接给开源了 。- 10
- 0
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
感谢荣耀今日正式发布 MagicOS 9.0,号称是“行业首个搭载智能体的个人化全场景 AI 操作系统”。 在 MagicOS 9.0 中,MagicOS 全新魔法大模型家族迎来升级,支持端云资源灵活调配,不同设备灵活部署,AI在线附各版本如下:500 万参数图像大模型,端侧部署,全系列支持4000 万参数图像大模型,端侧部署,中高端系列30 亿参数大语言模型,端侧部署,中高端系列10 亿参数多模…- 8
- 0
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
科技媒体 The Decoder 昨日(10 月 22 日)发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院(MIT),推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。 目前在文生图领域,行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。 AI在线简要介绍下这两种模型:扩散…- 6
- 0
消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型
感谢据“晚点 Auto”昨晚报道,微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。报道称,月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称,目前正有 10 人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。- 8
- 0
微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU 可跑,速度每秒 5-7 个 token
微软开源 1bit 大模型推理框架!现在 1000 亿参数大模型量化后单 CPU 可跑,速度可达每秒 5-7 个 token。比如在苹果 M2 新品上运行 BitNet b1.58 3B 模型,be like:就是今年爆火论文 The Era of 1-bit LLMs 的官方代码实现,开源不到一周 GitHub 已揽获 7.9k Star。- 8
- 0
IBM 推出 Granite 3.0:最佳企业 AI 模型,为智能体 AI 夯实基础
科技媒体 NeoWin 昨日(10 月 21 日)发布博文,报道称 IBM 在其年度 TechXchange 活动上,发布了全新的 Granite 3.0 系列 AI 模型,在学术和行业基准测试中可以持平或超越同等规模的模型。Granite 3.0 系列包含多种新模型,AI在线附上相关模型如下:通用 / 语言模型:Granite 3.0 8B InstructGranite 3.0 2B Inst…- 9
- 0
商汤 CEO 徐立内部信曝光,确定“三位一体”新 AI 战略
10 月 22 日上午消息,新浪科技独家获悉,商汤科技十周年之际,商汤科技董事长兼首席执行官徐立于近日发内部信,首次提及公司最新确立的“大装置-大模型-应用”的三位一体战略,同时宣布将围绕战略和核心资源,将构建更加集中和高效的组织架构,加快组织和管理的轻盈化进程。新浪科技了解到,在内部信中,徐立还阐述了自己对于传统 AI 1.0 和生成式大模型 AI 2.0 的理解。他指出,“AI 1.0 被看作…- 5
- 0
英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20
科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器…- 6
- 0
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。- 16
- 0
首发根据音频生成 4K 分辨率 1 小时长视频,复旦、百度联手打造 AI 开源模型 Hallo2
复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型,该模型可以生成长达数小时的 4K 分辨率人物动画,现已在 GitHub 发布开源。Hallo2 模型建立在 latent diffusion models 的基础上,相比上一代 Hallo 模型的效果更好,支持了长视频生成,通过引入数据增强方法如 patch-drop 和高斯噪声,有效提高了长时间视频的视觉一致性和时间连贯性。Ha…- 14
- 0
中国移动上海产业研究院:金融领域 AI 大模型渗透率过半,系行业最高
据《北京商报》周日报道,在 2024 金融街论坛年会“AI 金融赋能数字金融新篇章”平行论坛上,中国移动上海产业研究院副总经理陈豫蓉介绍,金融领域是大模型渗透率最高的行业,渗透率超过 50%。智慧销售、智能问答和智能风控是现阶段金融行业最热门,也是应用成熟度最高的 AI 大模型应用场景。AI在线从报道获悉,金融业具备大规模、高质量的数据资源和多维度、多元化的应用场景,被视为大模型技术应用的最优行业…- 9
- 0
相关人士回应字节大模型遭实习生攻击:破坏训练属实,损失金额及处理方式被夸大
据“证券时报・e 公司”报道,接近字节跳动的人士今日就“字节大模型遭实习生攻击”一事表示,确有实习生破坏 AI 模型训练,但损失金额和处理方式被夸大。AI在线附前情提要:近期流传消息称,今年 6 月,某高校博士在字节跳动商业化技术团队实习,因对团队资源分配不满,使用攻击代码破坏团队的模型训练任务。截至目前,官方未进行回应。- 3
- 0
Meta 发布新 AI 模型:利用 AI 来评估 AI 的能力,无需人类参与
据路透社报道,Meta 当地时间周五宣布,其研究团队推出了一系列新的 AI 模型,其中包括一个名为“自我训练评估器”的工具。该工具有望推动 AI 开发过程中减少对人类干预的依赖。这个工具早前在 8 月的论文中首次亮相,其使用与 OpenAI 新发布的 o1 模型类似的“思维链”技术,让 AI 对模型的输出做出可靠判断。- 5
- 0
X 平台修改隐私政策,11 月 15 日起第三方公司可将用户内容用于训练 AI 模型
感谢X 平台本周宣布,该平台将从 11 月 15 日起更新其服务条款和隐私政策,新增与 AI 和机器学习相关的内容,允许第三方使用该平台的内容来训练 AI 模型。新版服务条款中明确指出,X 平台可以利用用户发布的文字或提供的信息来改善服务,包括用于训练公司的机器学习和 AI 模型。此外,AI在线注意到新版隐私政策还增加了与第三方合作的条款,指出如果用户选择分享数据,X 平台“可能”会向第三方披露其…- 9
- 0
RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX
一台 4090 笔记本,秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本,仅需 0.37 秒,直接吐出 1024×1024 像素图片。- 5
- 0
英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,仅次于 OpenAI o1
刚刚,英伟达开源了超强模型 Nemotron-70B,后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet,仅次于 OpenAI o1!AI 社区惊呼:新的开源王者又来了?业内直呼:用 Llama 3.1 训出小模型吊打 GPT-4o,简直是神来之笔!- 3
- 0
模型
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!