AI资讯列表 - AI在线

LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集，旨在评估系列模型的数学推理能力。FrontierMath 的题目由人工智能学方面资深专家设计，相应问题号称不仅要求 AI 理解数学概念，还需要具备复杂情境的推理能力，以避免模型利用以前学习过的类似题目进行比对作答。研究机构表示，他们利用 FrontierMath 对当前市场上的 AI 模型进行初步测试，发现这些模型普遍表现不佳，包括此前在 GSM-8K、MATH 上取得近乎满分成绩的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解题成功率也均败北（成功率低于 2%）。

字节即梦 AI 视频生成模型更新 P / S 2.0 Pro 双版本，全量开放使用

即梦 AI 宣布包含具有首帧一致性的 S2.0 Pro 和具有极高提示词遵循能力 P2.0 Pro 视频生成模型全量开放使用。

在AI和LLM架构中实现零信任：安全且负责任的AI系统实践指南

在AI和大型语言模型快速发展的背景下，安全不能再被视为事后的考虑。随着这些技术成为企业运营不可或缺的一部分，实施强有力的安全措施至关重要，然而，AI的安全超越了传统的网络安全实践——它还必须涵盖伦理考量和负责任的AI原则。本指南为IT从业人员和决策者提供了一种在AI和LLM架构中应用零信任原则的综合方法，强调从基础层面融入伦理考量。

正确启动AI助手的策略与实践

由于AI的快速发展以及对错失恐惧症(FOMO)的担忧，GenAI项目往往采用自上而下的推动方式，企业领导者很容易对这项突破性技术产生过度兴奋的情绪，然而，当企业急于构建和部署时，往往会遇到与其他技术实施中出现的所有典型问题。 AI复杂且需要专业知识，这意味着一些企业很快就会陷入困境。事实上，Forrester预测，尝试内部构建AI助手的企业中，有近四分之三将会失败。

阿里通义代码模式上线：号称即便不懂编程，也能大白话一键生成应用

通义代码模式基于 Qwen2.5-Coder 模型开发，官方表示即便用户不懂代码和编程，也可用大白话让通义 AI 自动编码，网站、数据图表和小游戏等。

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

中科院计算所、中国科学院大学、中关村实验室合作的一篇论文拿到了 EMNLP 2024 最佳论文奖。刚刚，EMNLP 2024 论文奖项结果出炉了！ EMNLP 2024 会议近日在美国迈阿密盛大开幕，现场热闹非凡。

大模型容易忽视的安全，火山方舟早就「刻」进了基因

大模型时代，企业使用云上模型的痛点有哪些？你可能会说模型不够精准，又或者成本太高，但这些随着AI技术的快速发展，在不远的将来或许都不再是问题。比如成本，自豆包大模型首次将价格带进“厘”时代以来，行业纷纷跟进，企业客户从此不再为使用模型的成本过度高昂而烦扰。

集成500+多模态现实任务！全新MEGA-Bench评测套件：CoT对开源模型反而有害？

随着人工智能技术的进步，多模态大模型正逐渐应用于多个领域，极大地提升了机器在视觉、文本等多种信息模式下的理解和生成能力。这些模型不仅用于对话、图片标注、视频分析等较常见的任务，还被广泛应用在复杂场景中，如程序编写、医疗影像诊断、自动驾驶、虚拟助手中的多模态交互，甚至用于游戏策略分析与操作应用程序。然而，全面、系统地评测多模态大模型的能力需要投入大量的资源。

新Scaling Law浮出水面！OpenAI内部员工爆料下一代模型Orion性能堪忧；量化Llama3困难，这些都有了新解

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）Scaling Law 最近被业内不少人士唱衰，一方面以OpenAI为代表大模型厂商们，基本上还是围绕着GPT-4在探索周边，虽说不是原地打转，但单就性能提升而言，就连OpenAI自家的员工都爆料说非常有限。 1.OpenAI内部人士：Orion性能提升遇到瓶颈昨天，外媒媒体曝出消息称，奥特曼一直吊胃口的下一代模型“Orion”，也被自家的两位知情人士，坦承：GPT-4与Orion之间的质量差距明显小于GPT-3与GPT-4之间的差距，并透露截止到夏末，Orion在回答未经训练的编码问题时表现不佳，仅在语言处理能力方面显示出提升。这可影响大了，业界都在向着OpenAI学习、追赶，OpenAI的放缓自然也就意味着大模型进展在放缓。

马斯克与阿尔特曼的法律纠纷升级：OpenAI 被指试图垄断生成式 AI 市场

据彭博社今日报道，埃隆·马斯克与萨姆·阿尔特曼的矛盾进一步升级，马斯克在法庭文件中指控 OpenAI 意图垄断生成式人工智能市场，在竞争中忽视了安全问题。

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

刚刚，EMNLP 2024最佳论文奖新鲜出炉！ 5篇中榜论文中，华人学者参与三篇，分别来自CMU、上海交通大学、中国科学院大学等机构。其中，Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院网络数据科学与技术重点实验、中国科学院大学的学者完成。

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

Is DNA all you need？ AI可以实现从分子到基因组尺度的预测和生成任务了！图片就在刚刚，这项研究登上了Science封面。

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

鲨疯了！谷歌新版Gemini超越o1，强势登顶竞技场总榜第一！在经6000 网友匿名投票后，不仅数学成绩和学霸o1相当，还拿下其它5个单项第一。

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

测评大模型Agent能力，从未如此直观。新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼，差距不要太明显，引来大量围观。图片如果让AI不断迭代，甚至能盖出一片建筑群。

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

2024 年，AI 大模型从「以分计价」跨入「以厘计价」的时代。信号指向很清晰：把基础设施成本打下来，就是为了应用的爆发，但「算力价格」这把尺子还不够用。在众多大模型中货比三家，需要投入大量信息成本。

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

陶哲轩强调了在数学应用和问题解决中需要找到合适的平衡点：既不过度简化，也不过度复杂化，避免过度优化和过度抽象导致的反效果。刚刚，著名数学家陶哲轩在个人社交平台更新的几篇帖子，引起大家广泛的共鸣。陶哲轩用浅显易懂的语言表达了自己对数学的理解与思考心得。

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

受 ChatGPT 强大问答能力的影响，大型语言模型（LLM）提供商往往优化模型来回答人们的问题，以提供良好的消费者体验。随着智能体研究日趋成熟，优化似乎有了新的方向。人工智能著名学者、斯坦福大学教授吴恩达今天指出：「现在有一种趋势是优化模型以适应智能体工作流程，这将为智能体性能带来巨大提升」，并撰写一篇博客简单阐述了这种趋势。

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。