资讯列表

LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北

研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集,旨在评估系列模型的数学推理能力。FrontierMath 的题目由人工智能学方面资深专家设计,相应问题号称不仅要求 AI 理解数学概念,还需要具备复杂情境的推理能力,以避免模型利用以前学习过的类似题目进行比对作答。研究机构表示,他们利用 FrontierMath 对当前市场上的 AI 模型进行初步测试,发现这些模型普遍表现不佳,包括此前在 GSM-8K、MATH 上取得近乎满分成绩的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解题成功率也均败北(成功率低于 2%)。

字节即梦 AI 视频生成模型更新 P / S 2.0 Pro 双版本,全量开放使用

即梦 AI 宣布包含具有首帧一致性的 S2.0 Pro 和具有极高提示词遵循能力 P2.0 Pro 视频生成模型全量开放使用。

在AI和LLM架构中实现零信任:安全且负责任的AI系统实践指南

在AI和大型语言模型快速发展的背景下,安全不能再被视为事后的考虑。 随着这些技术成为企业运营不可或缺的一部分,实施强有力的安全措施至关重要,然而,AI的安全超越了传统的网络安全实践——它还必须涵盖伦理考量和负责任的AI原则。 本指南为IT从业人员和决策者提供了一种在AI和LLM架构中应用零信任原则的综合方法,强调从基础层面融入伦理考量。

正确启动AI助手的策略与实践

由于AI的快速发展以及对错失恐惧症(FOMO)的担忧,GenAI项目往往采用自上而下的推动方式,企业领导者很容易对这项突破性技术产生过度兴奋的情绪,然而,当企业急于构建和部署时,往往会遇到与其他技术实施中出现的所有典型问题。 AI复杂且需要专业知识,这意味着一些企业很快就会陷入困境。 事实上,Forrester预测,尝试内部构建AI助手的企业中,有近四分之三将会失败。

阿里通义代码模式上线:号称即便不懂编程,也能大白话一键生成应用

通义代码模式基于 Qwen2.5-Coder 模型开发,官方表示即便用户不懂代码和编程,也可用大白话让通义 AI 自动编码,网站、数据图表和小游戏等。

这三家国内机构合作成果,斩获EMNLP 2024最佳论文奖,主办方:明年苏州见!

中科院计算所、中国科学院大学、中关村实验室合作的一篇论文拿到了 EMNLP 2024 最佳论文奖。 刚刚,EMNLP 2024 论文奖项结果出炉了! EMNLP 2024 会议近日在美国迈阿密盛大开幕,现场热闹非凡。

大模型容易忽视的安全,火山方舟早就「刻」进了基因

大模型时代,企业使用云上模型的痛点有哪些? 你可能会说模型不够精准,又或者成本太高,但这些随着AI技术的快速发展,在不远的将来或许都不再是问题。 比如成本,自豆包大模型首次将价格带进“厘”时代以来,行业纷纷跟进,企业客户从此不再为使用模型的成本过度高昂而烦扰。

集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?

随着人工智能技术的进步,多模态大模型正逐渐应用于多个领域,极大地提升了机器在视觉、文本等多种信息模式下的理解和生成能力。 这些模型不仅用于对话、图片标注、视频分析等较常见的任务,还被广泛应用在复杂场景中,如程序编写、医疗影像诊断、自动驾驶、虚拟助手中的多模态交互,甚至用于游戏策略分析与操作应用程序。 然而,全面、系统地评测多模态大模型的能力需要投入大量的资源。

新Scaling Law浮出水面!OpenAI内部员工爆料下一代模型Orion性能堪忧;量化Llama3困难,这些都有了新解

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)Scaling Law 最近被业内不少人士唱衰,一方面以OpenAI为代表大模型厂商们,基本上还是围绕着GPT-4在探索周边,虽说不是原地打转,但单就性能提升而言,就连OpenAI自家的员工都爆料说非常有限。 1.OpenAI内部人士:Orion性能提升遇到瓶颈昨天,外媒媒体曝出消息称,奥特曼一直吊胃口的下一代模型“Orion”,也被自家的两位知情人士,坦承:GPT-4与Orion之间的质量差距明显小于GPT-3与GPT-4之间的差距,并透露截止到夏末,Orion在回答未经训练的编码问题时表现不佳,仅在语言处理能力方面显示出提升。 这可影响大了,业界都在向着OpenAI学习、追赶,OpenAI的放缓自然也就意味着大模型进展在放缓。

马斯克与阿尔特曼的法律纠纷升级:OpenAI 被指试图垄断生成式 AI 市场

据彭博社今日报道,埃隆·马斯克与萨姆·阿尔特曼的矛盾进一步升级,马斯克在法庭文件中指控 OpenAI 意图垄断生成式人工智能市场,在竞争中忽视了安全问题。

多个中国团队斩获EMNLP'24最佳论文!UCLA华人学者中三篇杰出论文,明年顶会落户苏州

刚刚,EMNLP 2024最佳论文奖新鲜出炉! 5篇中榜论文中,华人学者参与三篇,分别来自CMU、上海交通大学、中国科学院大学等机构。 其中,Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院网络数据科学与技术重点实验、中国科学院大学的学者完成。

斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破

Is DNA all you need? AI可以实现从分子到基因组尺度的预测和生成任务了! 图片就在刚刚,这项研究登上了Science封面。

谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿

鲨疯了! 谷歌新版Gemini超越o1,强势登顶竞技场总榜第一! 在经6000 网友匿名投票后,不仅数学成绩和学霸o1相当,还拿下其它5个单项第一。

AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种

测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。 图片如果让AI不断迭代,甚至能盖出一片建筑群。

大模型时代需要什么样的安全水位?火山方舟首度公开「会话无痕」技术细节

2024 年,AI 大模型从「以分计价」跨入「以厘计价」的时代。 信号指向很清晰:把基础设施成本打下来,就是为了应用的爆发,但「算力价格」这把尺子还不够用。 在众多大模型中货比三家,需要投入大量信息成本。

陶哲轩:计算机通用方法,往往比深奥的纯数学更能解决问题

陶哲轩强调了在数学应用和问题解决中需要找到合适的平衡点:既不过度简化,也不过度复杂化,避免过度优化和过度抽象导致的反效果。  刚刚,著名数学家陶哲轩在个人社交平台更新的几篇帖子,引起大家广泛的共鸣。 陶哲轩用浅显易懂的语言表达了自己对数学的理解与思考心得。

Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

受 ChatGPT 强大问答能力的影响,大型语言模型(LLM)提供商往往优化模型来回答人们的问题,以提供良好的消费者体验。 随着智能体研究日趋成熟,优化似乎有了新的方向。 人工智能著名学者、斯坦福大学教授吴恩达今天指出:「现在有一种趋势是优化模型以适应智能体工作流程,这将为智能体性能带来巨大提升」,并撰写一篇博客简单阐述了这种趋势。

Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。