Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
LLM究竟是否拥有类似人类的符合理解和推理能力呢? 许多认知科学家和机器学习研究人员,都会认为,LLM表现出类人(或「接近类人」)的语言能力。 然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有!- 970
- 0
LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北
研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集,旨在评估系列模型的数学推理能力。FrontierMath 的题目由人工智能学方面资深专家设计,相应问题号称不仅要求 AI 理解数学概念,还需要具备复杂情境的推理能力,以避免模型利用以前学习过的类似题目进行比对作答。研究机构表示,他们利用 FrontierMath 对当前市场上的 AI 模型进行…- 969
- 0
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
随着人工智能技术的进步,多模态大模型正逐渐应用于多个领域,极大地提升了机器在视觉、文本等多种信息模式下的理解和生成能力。 这些模型不仅用于对话、图片标注、视频分析等较常见的任务,还被广泛应用在复杂场景中,如程序编写、医疗影像诊断、自动驾驶、虚拟助手中的多模态交互,甚至用于游戏策略分析与操作应用程序。 然而,全面、系统地评测多模态大模型的能力需要投入大量的资源。- 968
- 0
新Scaling Law浮出水面!OpenAI内部员工爆料下一代模型Orion性能堪忧;量化Llama3困难,这些都有了新解
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)Scaling Law 最近被业内不少人士唱衰,一方面以OpenAI为代表大模型厂商们,基本上还是围绕着GPT-4在探索周边,虽说不是原地打转,但单就性能提升而言,就连OpenAI自家的员工都爆料说非常有限。 1.OpenAI内部人士:Orion性能提升遇到瓶颈昨天,外媒媒体曝出消息称,奥特曼一直吊胃口的下一代模型“Orion”…- 968
- 0
谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿
鲨疯了! 谷歌新版Gemini超越o1,强势登顶竞技场总榜第一! 在经6000 网友匿名投票后,不仅数学成绩和学霸o1相当,还拿下其它5个单项第一。- 968
- 0
登Science封面!基因组基础模型Evo重磅发布,AI解码分子、DNA、RNA和蛋白质
编辑 | X_XChatGPT 可以写小说、编写计算机代码、给出食谱,它的硅片上包含了互联网上的大部分信息。 如果它能对 DNA 做同样的事情会怎么样? 今天,刊登在《Science》封面上一项最新研究,美国 Arc 研究所(Arc Institute)和斯坦福大学的研究团队提出了一种机器学习模型「Evo」,其能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列。- 975
- 0
大模型“取长补短”新思路入选NeurIPS’24,显著优于现有路由方法,南科大港科大出品
高效组合多个大模型“取长补短”新思路,被顶会NeurIPS 2024接收。 名为RouterDC,是一种基于双重对比学习的路由架构,具有参数高效性(小于100M的参数)和计算高效性(不需要对于LLM进行梯度回传)的优势。 在具有挑战性语言理解、代码生成和数学推理等推理任务实验中,RouterDC在分布内( 2.76%)和分布外( 1.90%)设定下,都远超于现有的routing方法。- 968
- 0
李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS
大模型的具身智能决策能力,终于有系统的通用评估基准了。 李飞飞吴佳俊团队新提出的评估框架,对具身智能决策的四项关键子能力来了个全面检查。 这套基准已经被选为了NeurIPS数据和测试集(D&B)专栏Oral论文,同时也被收录进了PyPI,只要一行代码就能快速调用。- 969
- 0
深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?
在当前的图像生成技术中,文本渲染的能力已逐渐成为衡量其先进性的重要标准。 不论是学术界的最新研究还是市场上的先进产品,都在竞相展示其处理复杂文本的能力,这不仅标志着技术的进步,更是成为一种创新的分水岭。 实际上,字图生成技术在多个领域内显示出显著的实用性,例如在设计海报、书籍封面、广告和LOGO等方面,已成为不可或缺的工具。- 968
- 0
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
来自中国的视频生成模型,再一次震惊了全球大模型圈。 生数科技推出的Vidu 1.5,成为世界首个支持多主体一致性的多模态模型! 上传小哥、机甲、街景,接下来,就是见证奇迹的时刻。- 968
- 0
Meta最新!PARTNR:具身多智能体任务中规划与推理的基准测试框架
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&出发点本文提出了一个人机协作中的规划与推理任务基准(PARTNR),旨在研究家庭活动中的人机协调。 PARTNR任务展现了日常任务的特点,如空间、时间和异构agent能力约束。- 968
- 0
Waymo玩明白了!全新多模态端到端算法EMMA:感知规划一网打尽~
写在前面 & 笔者的个人理解本文介绍了EMMA,一种用于自动驾驶的端到端多模态模型。 EMMA建立在多模态大型语言模型的基础上,将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中,包括规划者轨迹、感知目标和道路图元素。 EMMA通过将所有非传感器输入(如导航指令和自车状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大型语言模型中的世界知识。- 968
- 0
Scaling Law还有救?MIT破解LLM进化新路!测试时训练让性能暴涨6倍,准确率媲美人类
OpenAI被曝出下代旗舰模型Orion进展缓慢,内部成立团队大改方向,一时间在全网掀起巨大的风暴。 大模型Scaling Law撞墙了、失效了....各种论调甚嚣尘上,OpenAI大牛不得不下场亲自挽救这场被怀疑论淹没的局面。 他们笃定的是,推理/测试时计算(test-time compute),是Scaling大模型另一个「齿轮」。- 968
- 0
一文看完多模态:从视觉表征到多模态大模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 转眼2024,距离上次知乎写作就快过去一年,上一次的计划主题还是“开源大模型”(参见《ChatGPT的朋友们:大语言模型经典论文一次读到吐》),无奈这个方向变化太快,而且也不乏优质总结文章,也就一直没有动笔。 正好最近做图文多模态大模型相关的工作,在查阅资料的过程中没遇到比较完整的脉络梳理文章,往往需要综合参考;反观这个方向的综述型论文又过于追求…- 968
- 0
阿里通义千问开源 Qwen2.5-Coder 全系列模型,号称代码能力追平 GPT-4o
阿里通义千问此前开源了 1.5B、7B 两个尺寸,本次开源带来 0.5B、3B、14B、32B 四个尺寸,覆盖了主流的六个模型尺寸。- 6
- 0
开源版SearchGPT来了,两张3090就可复现,超越Perplexity付费版
OpenAI推出SearchGPT没几天,开源版本也来了。 港中文MMLab、上海AI Lab、腾讯团队简易实现了Vision Search Assistant,模型设计简单,只要两张RTX3090就可复现。 Vision Search Assistant(VSA)以视觉语言模型(VLM)为基础,巧妙地将Web搜索能力融入其中,让VLM内部的知识得到实时更新,使其更加灵活和智能。- 969
- 0
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
「推理」是非常能展现「人类智能」的一项能力,需要结合现有证据和过去的经验,以逻辑和系统的方式思考某件事情,进而做出决策。 大型语言模型(LLMs)以其通用性,在多项任务上都取得了出色的性能,虽然思维链(CoT)提示已经证明了大模型具备多步推理能力,但这种能力到底来自于「抽象泛化」(abstract generalization)还是「浅层启发式」(shallow heuristics),仍然没有定…- 968
- 0
AlphaFold3重磅开源,诺奖级AI颠覆世界!GitHub斩获1.8k星,本地即可部署
AlphaFold3源码终于开放了! 六个月前,AlphaFold3横空出世震撼了整个学术界。 AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。- 971
- 0
Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI
昨天,The Information爆料,传统的大模型Scaling Law已经撞墙,OpenAI下一代旗舰Orion遭遇瓶颈。 就在刚刚,路透社也发文表示,由于当前方法受到限制,OpenAI和其他公司正在寻求通向更智能AI的新途径。 有趣的是,昨天拱火的The Information,今天又急忙发出一篇文章来灭火。- 968
- 0
即插即用ChatTracker:多模态大模型重塑目标跟踪
写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。 最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。 然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。- 969
- 0
o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%
让大模型集体吃瘪,数学题正确率通通不到2%! 获大神卡帕西力荐,大模型新数学基准来势汹汹——一出手,曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。 所以,新挑战者到底啥来头?- 968
- 0
浙大开源“最懂Excel的GPT”!首次将结构化数据作为独立模态训练,刷榜提升40百分点
大模型理解复杂表格,能力再次飞升了! 不仅能在不规则表格中精准找到相关信息,还能直接进行计算。 比如提问:如果2022年出口总额的人民币计价比实际数值少了10%,请计算新的出口总额并与实际数据比较。- 968
- 0
改进蛋白突变稳定性预测,清华龚海鹏团队AI蛋白工程模型登Nature子刊
编辑 | KX准确预测蛋白质突变效应在蛋白质工程和设计中至关重要。 近日,清华大学龚海鹏团队提出了一套基于几何学习的模型套件——GeoStab-suite,其中包含 GeoFitness、GeoDDG 和 GeoDTm 三个模型,分别用于预测蛋白质突变后的适应度得分、ΔΔG 和 ΔTm。 GeoFitness 采用专门的损失函数,允许使用深度突变扫描数据库中的大量多标记适应度数据对统一模型进行监督…- 5
- 0
模型
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!