资讯列表

深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

「推理」是非常能展现「人类智能」的一项能力,需要结合现有证据和过去的经验,以逻辑和系统的方式思考某件事情,进而做出决策。 大型语言模型(LLMs)以其通用性,在多项任务上都取得了出色的性能,虽然思维链(CoT)提示已经证明了大模型具备多步推理能力,但这种能力到底来自于「抽象泛化」(abstract generalization)还是「浅层启发式」(shallow heuristics),仍然没有定论。 为了深入理解影响 CoT 推理的因素,普林斯顿大学、耶鲁大学的研究人员最近发布了一项案例研究,使用三个大模型(GPT-4、Claude 3 和 Llama 3.1)利用CoT提示来执行解码移位密码(decoding shift ciphers)的符号推理任务。

AlphaFold3重磅开源,诺奖级AI颠覆世界!GitHub斩获1.8k星,本地即可部署

AlphaFold3源码终于开放了! 六个月前,AlphaFold3横空出世震撼了整个学术界。 AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

昨天,The Information 的一篇文章让 AI 社区炸了锅。 这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继。 此外,OpenAI 研究者 Noam Brown 指出,更先进的模型可能在经济上也不具有可行性,因为花费数千亿甚至数万亿美元训练出的模型会很难盈利。

扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!

最近,YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。 图片Youtube热烈讨论那么,这到底是怎么回事呢? 让我们一起来看看吧。

ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态

2024 年的诺贝尔化学奖颁发给了在结构生物学领域取得重大成就的 David Baker 团队和 AlphaFold 团队,激发了 AI for science 领域新的研究热潮。 近两年科学界一个饱受争议的命题是:“AlphaFold 是否终结了结构生物学? ” 首先,AlphaFold 之类的结构预测模型的训练数据正是来自于以 X 射线、冷冻电镜(cryo-EM)等为代表的传统结构解析方法。

Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI

昨天,The Information爆料,传统的大模型Scaling Law已经撞墙,OpenAI下一代旗舰Orion遭遇瓶颈。 就在刚刚,路透社也发文表示,由于当前方法受到限制,OpenAI和其他公司正在寻求通向更智能AI的新途径。 有趣的是,昨天拱火的The Information,今天又急忙发出一篇文章来灭火。

当今最复杂的椭圆曲线找到了!29个独立有理点打破18年记录

又是计算机帮了忙。 对现代密码学稍有了解的人都必定听过椭圆曲线的赫赫威名,但椭圆曲线本身依然还存在很多悬而未决的问题。 今天,量子杂志作者 Joseph Howlett 介绍了这方面的一项打破 18 年记录的新突破:找到了一条迄今为止有理点模式最复杂的椭圆曲线。

完全开源的代码大模型OpenCoder来了,跻身性能第一梯队

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍

o1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的ARC任务时,准确率最高可提升至原来的5.83倍。

CCS 2024 | 如何严格衡量机器学习算法的隐私泄露? ETH有了新发现

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

李彦宏:不是要一个“超级应用”,是要打造数百万“超级有用”的应用​

“过去24个月,AI行业的最大变化是什么? 是大模型基本消除了幻觉。 ”11月12日,百度创始人李彦宏在百度世界2024大会上,发表了主题为《应用来了》的演讲,发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”。

NeurIPS 2024线下论文分享会启动,机器之心邀你共赴学术盛会

大模型的火爆,已经将各大 AI 顶会带到了新的高度。 NeurIPS 是当前全球最负盛名的 AI 学术会议之一,近年来受到的关注度也不断攀升。 根据官方公布的数据,NeurIPS 2023 大会收到的论文投稿有 13321 篇,有超过 1 万名优秀的 AI 研究人员聚集于新奥尔良的大会现场,盛况空前。

即插即用ChatTracker:多模态大模型重塑目标跟踪

写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。 最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。 然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。

通用场景拉满了!GenXD:生成任何3D&4D场景(新加坡国立&微软最新)

写在前面&笔者的个人理解近年来,利用扩散和自回归建模生成2D视觉内容已经取得了显著成功,并已在实际应用中进行广泛使用。 除了 2D 生成之外,3D 内容生成也至关重要,可应用于视频游戏、视觉效果和可穿戴混合现实设备。 然而,由于 3D 建模的复杂性和 3D 数据的局限性,3D 内容生成仍然远远不能令人满意,并且正在引起学术界和工业界越来越多的关注。

如何简单理解视觉语言模型以及它们的架构、训练过程?

关于视觉语言模型(VLMs),以及它们的架构、训练过程和如何通过VLM改进图像搜索和文本处理的多模态神经网络。 可以参考这篇文章:(VLMs),它们是未来的复合AI系统。 文章详细描述了VLMs的基本原理、训练过程以及如何开发一个多模态神经网络,用于图像搜索。

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

让大模型集体吃瘪,数学题正确率通通不到2%! 获大神卡帕西力荐,大模型新数学基准来势汹汹——一出手,曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。 所以,新挑战者到底啥来头?

克服机器学习转换器的局限性——从位置嵌入到RoPE和ALiBi方法

译者 | 朱先忠审校 | 重楼引言近年来开发出的机器学习模型的指数级进步与转换器架构的出现密切相关。 以前,人工智能科学家必须先为手头的每项任务选择架构,然后再进行超参数优化以获得最佳性能。 限制科学家们潜力的另一个挑战是难以处理数据的长期依赖性,难以解决梯度消失、长序列上下文丢失以及因局部约束而无法捕获全局上下文的问题。

浙大开源“最懂Excel的GPT”!首次将结构化数据作为独立模态训练,刷榜提升40百分点

大模型理解复杂表格,能力再次飞升了! 不仅能在不规则表格中精准找到相关信息,还能直接进行计算。 比如提问:如果2022年出口总额的人民币计价比实际数值少了10%,请计算新的出口总额并与实际数据比较。