-
苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错
近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。图源 Pexels周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示…- 5
- 0
-
谷歌追赶 OpenAI,加速推进会“思考”的 AI 通用推理模型
感谢彭博社昨日(10 月 2 日)报道,谷歌公司正在开发类人推理 AI,希望在进度方面追赶 OpenAI 公司的 o1 模型。OpenAI 最近为 ChatGPT 引入了 o1-preview 和 o1-mini 模型,可以模拟人类的思考模式,实现通用推理,让 AI 实现“思考”。AI在线援引彭博社报道,谷歌公司目前也在积极推进通用推理 AI 模型的落地,该 AI 模型更擅长处理数学和编程,不过消…- 8
- 0
-
OpenAI o1 在医学领域的初步研究,我们离 AI 医生更近了吗?
编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面…- 10
- 0
-
阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”,黄仁勋表示“给你加速 50 倍”
AI 界最有影响力的两个人,同时出现在一场活动:OpenAI CEO 阿尔特曼,暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋,则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”,不过最近几个月就会有重大改进,新范式的进步曲线非常陡峭。L2“…- 14
- 0
-
易用性对齐 vLLM,推理效率提升超200%,这款国产加速框架什么来头?
一、行业背景2022 年 10 月,ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮,全球科技企业纷纷加入大语言模型的军备竞赛,大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型(Large Language Model,简称 LLM 大模型)指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数,训练时需要处理数万亿…- 19
- 0
-
OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协
9 月 14 日消息,OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini,这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森(Simon Willison)专门发文,深入剖析了这些新模型背后的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。威利森表示,o1 并不是简单的 GPT-4o 直接升级版,而是在强化“推理”能力的…- 18
- 0
-
开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集
开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。新模型名为 Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在 反思 标签中纠正了自己。在官方评测中,70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemin…- 32
- 0
-
Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍
Cerebras Systems 今日宣布推出 Cerebras Inference,官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token,为 Llama 3.1 70B 提供每秒 450 个 token,速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。除了令人难以置信的性能之外,…- 29
- 0
-
智谱 AI 宣布 GLM-4-Flash 大模型免费开放:支持中文、英语、日语、韩语、等 26 种语言
智谱 AI 今日宣布,GLM-4-Flash 大模型免费开放,通过智谱 AI 大模型开放平台调用。GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务,生成速度能达到 72.14 token/s,约等于 115 字符/s。GLM-4-Flash 具备多轮对话、网页浏览、Function Call(函数调用)和长文本推理(支持最大 128K 上下文)等功能,同时支持包括中文、英语、…- 13
- 0
-
Llama 8B 搜索 100 次超越 GPT-4o,推理 + 搜索即可提升性能
最新论文表明,LLM 等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅 8B 的 Llama 3.1 模型搜索 100 次,即可在 Python 代码生成任务上达到 GPT-4o 同等水平。强化学习先驱、加拿大阿尔伯塔大学 CS 系教授 Rich Sutton 曾在 2019 年写下一篇名为《The Bitter Lesson》的博文,成为 AI 领域的经典…- 17
- 0
-
消息称 OpenAI 公司 2024 年资金缺口达到 50 亿美元
科技媒体 The Information 昨日(7 月 24 日)发布博文,爆料称 OpenAI 目前用于 AI 推理的算力,预估相当于 35 万台包含英伟达 A100 芯片的服务器,其中约 29 万台用于 ChatGPT,而且近乎满负荷运行。报道称截至今年 3 月,OpenAI 公司花费近 40 亿美元使用微软服务器为 ChatGPT 运行推理工作负载;此外 OpenAI 今年训练 ChatGP…- 7
- 0
-
研究:生成式 AI 更像是记忆大师而非推理高手
生成式 AI 的迅猛发展和广泛应用引发了诸多担忧,从隐私安全到潜在的失业危机。虽然 AI 聊天机器人如 ChatGPT 和微软 Copilot 在短短时间内取得了惊人进步,能够写代码、纠错甚至挑战人类创意,但它们真的像表面看起来那么聪明吗?麻省理工学院计算机科学与人工智能实验室(CSAIL)的一项最新研究指出,这些强大的大型语言模型(LLM)似乎更依赖记忆而不是真正的推理能力。它们在熟悉的任务上表…- 43
- 0
-
将来职场更“卷”,黄仁勋:“multi-shot”AI 具备超强推理能力,可视为“员工”
英伟达首席执行官黄仁勋发表新言论,表达将来职场会更“卷”,具备推理能力的 AI 可以充当“员工”的角色,处理各种繁杂的任务,在某些领域甚至会超越人类。图源:WikiMedia黄仁勋表达 AI 将会极大地改变将来就业形势,随着 AI 的盛行,程序员这个岗亭可能会“与世长辞”。黄仁勋表达由于写代码即将被淘汰,推荐下一代在专业方面最好选择生物、教育、制造或农业等其他职业。IT之家附上视频如下:黄仁勋预测…- 4
- 0
-
ICML 2024|Transformer究竟如何推理?基于样例还是基于条例
本文探究了 transformers 在做数学推理题目时究竟是采用 case-based reasoning 还是 rule-based reasoning- 28
- 0
-
商汤 AI 办公小次序“Raccoon 智能帮忙”上线:提炼文章重点、生成图表
感谢商汤科技宣布,鉴于商汤“日日新 SenseNova”大模型才智开发的数据分析产品“办公小浣熊”今天正式上线小次序版 ——“Raccoon 智能帮忙”。官方表示,可在小次序中,直接插入微信聊天中的文件(xls / xlsx / csv / txt / json 等),智能帮忙可以提炼重点、生成各类图表。所有结果采用流式方式输出,“所见即所得”,可随时打断。“办公小浣熊”是鉴于商汤大语言模型的大模…- 6
- 0
-
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文由 HMI Lab 完成。HMI Lab依托北京大学视频与视觉技…- 20
- 0
-
两句话,让 LLM 逻辑推理瞬间瓦解!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友 刺客 的线索投递!在基准尝试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,钻研机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理成绩,揭示了 LLM 基准尝试的盲区。一道简单的逻辑成绩,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的尝试并不算很难 ——「爱丽丝有 N 个弟兄…- 6
- 0
-
3年16亿营收!云天励飞迎来业绩增长
今日,云天励飞发布公告,公司与德元方惠签署《AI算力经营合作框架协定》。德元方恵将向云天励飞购买AI训练及推理异构算力效劳,总算力规模约4000PFLOPS,该协定预计在现在三年效劳期内为云天励飞贡献约16亿的营收。奠定现在的业绩本原作为国内领先的人工智能公司,云天励飞一直积极建设算力基座,并且对外提供算力经营效劳。今年3月,云天励飞在发布会上公布了“1 3”业务布局,即基于1个算法芯片化平台,打…- 22
- 0
-
消息称“AI 教母”李飞飞正建立草创公司,开发可理解 3D 空间关系的 AI 系统
当地时间周六,据路透社援引 6 名知情人士消息,计算机科学家李飞飞正在建立一家草创公司。该公司旨在利用类似人类的视觉处理技能,使 AI 具备高级推理威力,有望成为 AI 技能的一次飞跃。IT之家注:李飞飞被广泛称为“AI 教母”,与通常用来指因 AI 技能突破而在 2018 年获得图灵奖的三位研究人员的“AI 教父”对应。这三名“AI 教父”则是杰弗里・辛顿、杨立昆、约书亚・本西奥。一位消息人士通…- 8
- 0
-
商汤发布日日新 5.0 大模型:推理上下文窗口 200K,号称对标 GPT-4 Turbo
感谢4 月 23 日,商汤科技发布了日日新 5.0 大模型。据介绍,该模型接纳 MOE 混合专家架构,在知识、数学、推理和代码才能方面大幅提高。该模型鉴于超过 10TB tokens 训练,具备 200K 推理上下文窗口(IT之家注:相当于 36.5 万个汉字),推理时上下文窗口达到 200K 左右,更号称“全面对标 GPT-4 Turbo”。其供应自然语言处理、图片生成、自动化数据标注、自定义模…- 3
- 0
-
baidu李彦宏称开源 AI 模型会越来越发展
感谢baidu创始人、董事长兼 CEO 李彦宏今日在 Create 2024 baidu AI 开发者大会上默示,开源模型会越来越发展。李彦宏介绍,因为基础模型文心 4.0 可以根据需要,兼顾效验、响应速度、推理利润等各种考虑,剪裁出适合各种场景的更小尺寸模型,并且支持精调和 post pretrain。这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,一致尺寸下,效验明显更好;一致效验下…- 11
- 0
-
LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲
分解数据持续解锁大模型的数学推理后劲!数学课题办理威力一直被视为衡量言语模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学课题上表现出色。近日,一项由 Swin-Transformer 团队打造,来自西安交通大学、中国科学技术大学、清华大学和微软亚洲钻研院的学者共同完成的钻研工作 Xwin 颠覆了这一认知,揭示了通用预训练下 7B(即 70 亿参数)规模的…- 5
- 0
-
蚂蚁集团开源新算法,可助大模型推理提速2-6倍
近日,蚂蚁集团开源了一套新算法,可帮助大模型在推理时,提速2至6倍,引起业内关注。图:新算法在不同开源大模型上的提速表现。这套新算法名为Lookahead推理减速框架,能做到效果无损,即插即用,该算法已在蚂蚁大量场景举行了落地,大幅降低了推理耗时。以Llama2-7B-chat模型与Dolly数据集为例,实测token生成速度可由48.2个/秒,升至112.9个/秒,提速2.34倍。而在蚂蚁内部的…- 37
- 0
-
覆盖97.6%泌尿就医人群,蚂蚁团体开源首个调理专业推理数据集
12月28日,由信通院主办的“虹桥之源”大模型驱动数字经济新生态峰会在上海召开。会上,蚂蚁团体商业机器智能部总经理顾进杰先容蚂蚁正式开源国内首个调理专业推理数据集,这将提升大模型在调理畛域的专业性。图说:蚂蚁团体商业机器智能部总经理顾进杰先容国内首个调理专业推理数据集在调理行业,通用型语言模型在应对调理问诊时,会直接给出答案,而大夫则会根据专业学问进行反复的症状探讨,才能给出答案。另外,大模型的幻…- 8
- 0
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!