开源
百度文心大模型4.5将于3月16日发布 具备原生多模态、深度思考等能力
百度公司宣布,其最新的文心大模型4.5将于3月16日正式上线。 据悉,文心大模型是百度在人工智能领域的重要布局,自两年前首次发布以来,已在全球范围内产生了深远影响。 作为全球大厂中首个发布的生成式AI产品,文心大模型在不断发展壮大,而此次发布的4.5版本,在基础模型能力上有了大幅提升,并具备了原生多模态、深度思考等先进功能。
DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」
DeepSeek 的开源周终于迎来了最后一天。 今天他们开源了一个名为 3FS(Fire-Flyer File System)的系统。 这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。
DeepSeek 开源进度 5/5:高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s
2 月 28 日消息,DeepSeek 在开源周第五天发布了 3FS(Fire-Flyer File . System),这是一个专为充分利用现代 SSD 和 RDMA . 网络带宽而设计的并行文件系统,具备惊人的数据访问性能,为深度学习等数据密集型应用提供了强大的支持。
百度文心4.5或将在3月中旬发布 提升推理及多模态能力
路透社消息,百度公司正紧锣密鼓筹备其下一代人工智能模型的发布,预计将于3月中旬正式推出文心4.5版本。 据内部知情人士透露,新版本将在推理等多个核心领域实现显著能力提升,标志着百度在AI技术上的又一重要突破。 文心4.5的一大亮点在于其增强的多模态能力,该系统能够高效处理和融合来自文本、视频、图像及音频等不同类型的数据资源,实现跨格式的无缝转换,为用户提供更加丰富和多元的智能体验。
DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发
按时整活! DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:优化并行策略。 DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。
超越Sora!阿里正式完全开源最新、最强大的视频生成模型 Wan2.1
阿里巴巴通义实验室正式开源了他们最新、最强大的视频生成模型 Wan2.1 系列! Wan2.1 亮点速览✨ 复杂运动: 视频动作更流畅自然,复杂场景也能轻松驾驭🧲 物理模拟: 物体交互更真实,视频更具沉浸感🎬 电影质感: 视觉效果更上一层楼,细节更丰富,更具艺术性✏️ 可控编辑: 编辑能力更强大,创作空间更广阔✍️ 视觉文字: 中英文动态文字生成,应用场景更丰富🎶 音效音乐: 视听体验一体化,视频极具感染力Wan2.1 系列模型家族,为不同需求的用户提供了多样化的选择:Wan2.1-I2V-14B: 图像到视频 (I2V) 领域的天花板! 140亿参数,720P高清画质,I2V 性能 SOTA!
外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名
出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)
deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
分析一下EP并行和DeepSeek开源的DeepEP代码
被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.
手把手演示 IDEA 如何接入 DeepSeek,你学会了吗?
本文介绍如何在 IntelliJ IDEA 中集成 DeepSeek , 并展示如何利用它来提升开发效率 。 1.安装 CodeGPT 插件图片在插件市场里,搜索 CodeGPT ,安装即可。 假如网络安装慢,可以从插件下载地址,直接下载。
开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测来了!
当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部推理代码和权重,最宽松的开源协议)。 经常玩视频生成模型的同学应该知道,当前的很多模型仍然面临多方面挑战,比如难以还原复杂的人物动作,处理不好物体交互时的物理变化,遇到长文本指令就「选择性遵循」等。 如果三个方面都做得比较好,那模型厂商多半是不舍得开源的。
DeepSeek开源周第3天:发布DeepGEMM,FP8 GEMM库助力AI训练与推理
中国人工智能公司DeepSeek在其“开源周”第3天宣布推出DeepGEMM——一款支持FP8通用矩阵乘法(GEMM)的开源库。 这一工具专为密集型和混合专家(MoE)矩阵运算设计,为DeepSeek V3和R1模型的训练与推理提供强大支持。 官方消息通过X平台发布,迅速引发技术社区的热烈反响。
阿里通义千问推出推理模型QwQ-Max预览版 可在qwen.ai域名体验
2月25日,阿里巴巴宣布推出基于Qwen2.5-Max的推理模型QwQ-Max-Preview,并计划全面开源其最新推理模型QwQ-Max和Qwen2.5-Max。 此次发布的QwQ-Max-Preview是一个预览版本,阿里巴巴表示,正式版本将很快推出,并基于Apache2.0许可证全面开源。 与以往不同的是,此次开源不仅包括模型本身,还涵盖了更小的版本,如QwQ-32B,这些版本可以部署在本地设备上,进一步推动AI技术的普及和应用。
DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈
就在刚刚,DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。 这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。 经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。
国外权威认证!DeepSeek超150万模型,成最受欢迎开源大模型
今天凌晨3点,全球最大开源平台之一huggingface联合创始人兼首席执行官Clement Delangue发布了最新数据:中国开源大模型DeepSeek-R1在150万模型中,成为该平台最受欢迎的开源大模型,点赞超过1万。 前不久,Clement还特意发文恭喜DeepSeek-R1的下载量超过1000万次,同样创造了huggingface平台有史以来最受欢迎的模型。 看来,Clement也吃到DeepSeek的红利了,对它是真爱啊连续表扬。
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用。 在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。
不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research
OpenAI的Deep Research一经发布便引发了全网的热议。 作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。 在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。