资讯列表
中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元
一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。
AI点亮工厂之路:1月9日开年论坛,解锁智能制造密码!
在科技浪潮的推动下,我国生产制造领域正经历着一场深刻的变革。 “中国制造”向“中国智造”转型的故事正在上演,智能制造的未来发展趋势如何? 应如何把握发展时机,在人工智能时代的驱动下,推动“AI ”助力企业实现数字化智能转型。
AI Agent引领,火山引擎HiAgent助力实体产业智能化升级
12月18日,2024火山引擎FORCE原动力大会·冬在上海举办,火山引擎带来豆包大模型家族全新升级。 当天下午,在“AI Agent引领,实体产业智能化升级”专场论坛上,火山引擎发布了企业专属AI应用创新平台HiAgent 1.5 版本,新版本在敏捷迭代、知识增强、用户交互等方面全维提升,进一步助力企业打造 AI 原生应用,火山引擎还集中展示了实体产业智能化升级标杆案例。 专场论坛现场,火山引擎副总裁张鑫首先做开场致辞。
AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA
论文信息论文题目:LiON: Learning Point-wise Abstaining Penalty for LiDAR Outlier DetectioN Using Diverse Synthetic Data论文发表单位:清华大学, 厦门大学,滴滴出行, 香港中文大学-深圳论文地址::。 然而,由于点云不像图像那样具有丰富的语义信息,在点云中这个识别异常点是一项极具挑战性的任务。 本工作从两个方面缓解了点云缺乏语义信息对异常点感知的影响:1) 提出了一种新的学习范式,使模型能够学习更鲁棒的点云表征,增强点与点之间的辨别性;2) 借助额外的数据源,ShapeNet,提出了一套可以生成多样且真实伪异常的方法。
Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍! MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。 该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。
突发!ChatGPT、Sora、API发生重大错误,宕机数小时
今天凌晨5点,OpenAI宣布,ChatGPT、Sora和API产生了重大错误,大部分已经宕机了几个小时。 但已经确定了问题所在,并已开始着手恢复。 不过这下可让Sam Altman难看了,前几天他还特意发文送出圣诞节特别奖励——无限使用Sora。
消息称比亚迪成立未来实验室研发具身智能:包含机器人
据“每人 Auto”26 日援引独立信源消息称,比亚迪第十五事业部成立了一个专门的团队研发具身智能,事业部最高负责人罗忠良直接主管该项目。
15大机构十年研究证明:无约束AI必然超越人类,创造能力也更强!
人工智能领域已经发展了70年,从小数据验证,到大规模基准,再发展到现在,几乎每天都有新突破,不只是在简单问题上超越普通人类水准,在最难的问题上也能和顶尖人类掰掰手腕了。 但还有一个自人工智能诞生以来就一直广为讨论、看是无解的关键问题,各方业内人士仍然争辩不休:如果没有适当的限制和治理,人工智能在未来是否会发展到超越人类智能? 最近,来自东南大学、哈佛医学院、新加坡国立大学、新加坡南洋理工大学、新加坡国立脑科学研究院、清华大学、中山大学等多达15个顶尖机构的研究人员联合发表了一篇论文,在理论上证明了AI超越人类的可能性,即通过结合神经科学中的新型AI技术,可以创建出一个新的AI智能体,能够在细胞层面上精确模拟大脑及其功能系统(例如感知和认知功能),并且预期误差极小。
微软和 OpenAI 的 AI 金钱游戏:通用人工智能价码 1000 亿美元
科技媒体 The Information 昨日(12 月 26 日)披露了一份微软和 OpenAI 公司的合同文件,秘密为通用人工智能(AGI)贴上价格标签。
Cursor 深度评测:革命性提效工具还是过誉的玩具?
最近 Cursor 很火,火到我身边的程序员们已经不聊河北彩花,LOL,黑猴等,而是在各种场合讨论这个 Cursor 的辅助编程能力。 各类内容平台也在以惊人的速度,迭代出了许多相关教学视频:图片我试用了一段时间,第一感觉确实很惊艳,能帮我解决很多基础问题,实打实地提升开发效率,印象比较深的,包括:Codebase Indexing、@symbol 等功能带来的更强的上下文索引能力,而这极大提升最终 LLM 生成的代码效果;Cursor Composer 功能提供了一个注意力非常聚焦的编程面板,相比于过往 GPT 等产品的即聊即抛的模式,更容易做好跨文件的编辑开发,而这更符合专业开发者的模块化编程习惯。 但是,我觉得,至少在当下阶段,这类产品的定位只能是“辅助编程”,虽然能极大提升效率,但还只是编程活动中的辅助客体,俗称打下手;程序员本体 —— 人类智能依然是主体地位,有点类似于掌柜的吧。
联想新一代智能体系统“天禧 AS”发布,明年 Q2 落地 AI PC、AI 手机、AI 平板等
在大会上,新一代智能体系统天禧个人智能体系统(天禧 AS)升级。此次大会还见证了中国软件行业协会 AI 终端智能体创新专业委员会的成立仪式。
集中接入:将大模型统一管理起来,你觉得怎么样?
为什么要集中接入? 集中接入,就是把大模型的接入统一到一个地方管理起来,下面这张图可以很好地帮我们理解集中接入:图片从这个图上,你已经看出来了,所谓的集中接入,其实就是构建了一个代理,我们后面就称它为大模型代理。 到这里,你可能产生这样的疑问:我直接用大模型不好吗?
智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕
智谱技术团队公众号昨日(12 月 26 日)发布博文,宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于 Agent 任务。
国产大模型 DeepSeek-V3 开源:6710 亿参数自研 MoE,性能和 GPT-4o 不分伯仲
“深度求索”官方公众号昨日(12 月 26 日)发布博文,宣布上线并同步开源 DeepSeek-V3 模型,用户可以登录官网 chat.deepseek.com,与最新版 V3 模型对话。
消息称联想 CES 2025 将推出“人工智能旅行套装”,含接入 AI 大模型智能腕带 / TWS 耳机 / 吊坠
据消息源 Evan Blass 透露,联想将在 CES 2025 中公布一款“人工智能旅行套装”。据消息源称,该套装将包含一个智能腕带、一款 TWS 耳机和一个配备摄像头的吊坠,可与用户的智能手机进行连接以实现 AI 功能,为用户提供快速即时的 AI 见解。
OpenAI ChatGPT AI 服务再次“跳闸”,初步推测为微软数据中心电力故障导致
OpenAI 的 AI 服务器再次“跳闸”,本次系统服务中断于北京时间 12 月 27 日凌晨 2 点 30 分左右开始,影响 ChatGPT 聊天机器人、Sora 视频生成模型以及部分 API 调用。
“理想同学”上架苹果 App Store:支持知识问答、看世界等功能
理想同学 App 现上架苹果 App Store,商店页面显示该应用当前版本为 1.0.0、大小约 89.2MB,是由理想汽车依托自研大模型打造的人工智能应用。
一日一技:超简单方法显著提高大模型答案质量
很多人都知道Prompt大神李继刚,他使用Lisp语法来写Prompt,把大模型指挥得服服帖帖。 但我们很多时候没有办法把自己业务场景的Prompt改造成伪代码的形式。 相信不少人跟我一样,会使用Markdown格式来写Prompt,大部分时候没什么问题,但偶尔总会发现大模型返回的结果跟我们想要的不一样。