Llama分子嵌入优于GPT,LLM能理解分子吗?这一局Meta赢了OpenAI
编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型 (LLM),因其在化学信息学领域的潜力而日益受到认可,特别是在理解简化分子输入行输入系统(SMILES)方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学(University of Windsor)的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在…- 5
- 0
又遇到「GPT写的review」了?看看北大&密歇根的这个研究工作
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文是对发表在计算经济学顶级会议ACM Conference on …- 11
- 0
13瓦功耗处理10亿参数,接近大脑效率,消除LLM中的矩阵乘法来颠覆AI现状
编辑 | 萝卜皮通常,矩阵乘法 (MatMul) 在大型言语模型(LLM)总体盘算成本中占据主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度,这方面的成本只会增加。加州大学、LuxiTech 和苏州大学的钻研职员声称开发出一种新格式,通过消除过程中的矩阵乘法来更有效地运行人工智能言语模型。这从根本上重新设计了目前由 GPU 芯片加速的神经网络操作方式。钻研职员描述了如何在不使用 MatMu…- 36
- 0
击败25个份子计划算法,佐治亚理工、多伦多大学、康奈尔提出大说话模型MOLLEO
作者 | 佐治亚理工学院王浩瑞编辑 | ScienceAI份子发明作为优化问题,因其优化宗旨可能不可微分而带来显著的计算挑战。退化算法(EAs)常用于优化份子发明中的黑箱宗旨,通过随机突变和交叉来遍历化学空间,但这会导致大量昂贵的宗旨评价。在这项工作中,佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了份子说话增强退化优化(MOLLEO),通过将拥有化学知识的预训练大说话模型(LLMs)整合到…- 16
- 0
Meta 推出 LLM Compiler 代码优化模型,可搭配其他 AI 改善代码生成 / 编译能力
Meta 前天推出了一款名为“LLM Compiler”的模型,该模型基于 Meta 现有的 Code Llama 打造,主打代码优化,目前相干模型已登陆 Hugging Face,提供 70 亿参数及 130 亿参数两个版本,允许学术及商业应用,IT之家附项目地址如下:点此访问。Meta 认为,尽管业界各大谈话模型已在各种编程代码使命中展现了出色的能力,但此类模型在代码优化还有进步空间,目前推出…- 9
- 0
菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败
编辑:桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程,模型在最简单的题目上竟然做错了,甚至网友们发明,就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河题目上,如今所有的 LLM 都失败了!几天前,菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 G…- 6
- 0
Meta 发布基于 Code Llama 的 LLM 编译器:优化代码巨细、反汇编
感谢Meta 官方在 X 平台宣布推出 LLM 编译器,这是一个基于 Meta Code Llama 构建的模型家族,具备额外的代码优化和编译器功能。这些模型可以模拟编译器,预测代码巨细的最佳传递,并可反汇编代码,可以针对新的优化和编译器恣意进行微调。Meta 在 HuggingFace 上公开了 LLM 编译器的 7B 和 13B 模型,采用宽松的许可协议,允许用于研究和商业用途。IT之家附链接…- 8
- 0
200 亿估值之后,中国大模型公司还能拿谁的钱?
「200 亿」成为高风险投资代名词的直接原因,是无论美元基金(如红杉、IDG)或人民币基金(如启明、君联),其背后的 LP 主力背景里都有地方政府与国资,后者的投资喜好是风险厌恶。 「200亿是不是一个坎」成为投资者与创业者都要思考的共同问题。 目前,中国只有两家公司(智谱 AI 与月之暗面)在以估值约 30 亿美元、200 亿人民币进行新一轮融资。- 973
- 0
NeurIPS2024边沿装备大型语言模型寻衅
随着人工智能的迅猛发展,尤其是在自然语言处理(NLP)畛域,大型语言模型(LLM)展现了硕大的变革后劲。这些模型正在改变我们的工作和交流方式,并在各种计算装备上展现出广泛的运用前景。然而,LLM硕大的模型给它在智能手机、物联网装备和车载系统等边沿装备上的运用带来了不小的寻衅。我们的比赛旨在鞭策LLM在资源受限的边沿装备上的机能、效率和多任务处理能力的极限。比赛背景:虽然LLM具有硕大的运用后劲,但…- 29
- 0
《Python 机械进修》作者新作:从头开始构建庞大言语模型,代码已开源
自 ChatGPT 发布以来,庞大言语模型(LLM)已经成为推动人工智能发展的关键技术。近期,机械进修和 AI 研究员、畅销书《Python 机械进修》作者 Sebastian Raschka 又写了一本旧书 ——《Build a Large Language Model (From Scratch)》,旨在讲授从头开始构建庞大言语模型的整个过程,包括如何创立、训练和调整庞大言语模型。最近,Seb…- 41
- 0
谈天机器人胡说八道?牛津钻研职员操纵语义熵来识破 AI“幻觉”
近年来,人工智能蓬勃发展,谈天机器人等运用逐渐普及,人们可以通过简单的指令从这些谈天机器人(例如 ChatGPT)获取信息。然而,这些谈天机器人依然容易出现“幻觉”成绩,即提供错误的谜底,有时甚至是危险的信息。图源 Pexels造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过,牛津大学的钻研职员另辟蹊径,在最新出版的《自然》杂志上详细介绍了一种他们新开发的要领,…- 5
- 0
AI 教父 Hinton:我支撑超等 AI 代替人类
【新智元导读】「AI 教父」Geoffrey Hinton 在最近的采访中表达了自己对 AI 智能的了解 ——LLM 并不是简单的统计模型,已经具备了了解能力。与此同时,网友翻出了去年 12 月的「过期」视频,惊奇地发现 Hinton 早就「叛变」了,竟然对超等 AI 代替人类的未来意味支撑。最近,半退休的「AI 教父」Geoffrey Hinton 频频出现在各种采访中,输出他关于 ASI 的各…- 11
- 0
22个恣意超越SOTA,43个恣意媲美SOTA,Google推出医学医治通用大模型
编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法,这将是一个漫长且昂贵的恣意,需要满足许多不同的标准,而能够加快这一过程的人工智能模型将是无价之宝。然而,目前大多数人工智能方法只能解决一组定义狭窄的恣意,通常局限于特定领域。为了弥补这一差距,Google 团队提出了 Tx-LLM,这是一种通用大型言语模型(LLM),由 PaLM-2 微调而成,可编码有关各种医治方式的学问。仅使用一组权重,Tx-…- 7
- 0
Yandex 开源 LLM 训练对象浪费高达 20% 的 GPU 资本
跨国科技公司 Yandex 最近推出了 YaFSDP,这是一种用于训练大型语言模型 (LLM) 的开源方法。YaFSDP 是目前最有效的公开可用对象,用于增强 GPU 通讯并减少 LLM 训练中的内存运用量,与 FSDP 相比,其训练速率晋升最高可达 26%,具体取决于架构和参数数量。通过运用 YaFSDP 减少 LLM 的训练时间可以浪费高达 20% 的 GPU 资本。Yandex 承诺为寰球人…- 5
- 0
预计准确率达95.7%,ChatMOF利用LLM预计和生成金属有机框架
编辑 | X金属有机框架(MOF)因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而,在利用 AI 深入探索 MOF 设想与机能优化的研究征途中,科学家们正面临着前所未有的挑战。去年 3 月,韩国科学技术院(Korea Advanced Institute of Science and Technology,KAIST)的研究人员提出的 MOFTransformer 模型经过一百万个假设…- 28
- 0
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
让谈话模型「轻装上阵」。一直以来,矩阵乘法(MatMul)稳居神经网络操纵的主导地位,其中很大原因归结为 GPU 专门针对 MatMul 操纵进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出,成为深度进修崛起的历史性标志。在这当中,有个值得注意的点是,AlexNet 利用 GPU 来提高训练速度,超越了 CPU 的能力,至此,GPU 的加入使得深度进修仿佛赢得了…- 25
- 0
两句话,让 LLM 逻辑推理瞬间瓦解!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友 刺客 的线索投递!在基准尝试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,钻研机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理成绩,揭示了 LLM 基准尝试的盲区。一道简单的逻辑成绩,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的尝试并不算很难 ——「爱丽丝有 N 个弟兄…- 8
- 0
成功率达 53%,研讨显示 GPT-4 可自决操纵“零日”破绽攻破网站
据 NewAtlas 报道,研讨职员操纵自决协作的 GPT-4 机器人小组成功入侵了一半以上的尝试网站,这些机器人可以自决调和行动并根据需要生成新的“帮手”。更令人吃惊的是,他们操纵的是以前未知的、现实世界中从未公开的“零日”破绽(zero-day vulnerabilities)。图源 Pexels早在几个月前,同一批研讨职员就发表了一篇论文,声称他们能够使用 GPT-4 自动操纵“N day”…- 9
- 0
ChatGPT 真能记着你的话吗?DeepMind 与开源大佬揭示 LLM 影象之谜
【新智元导读】LLM 有影象本领吗?有,也没有。虽然 ChatGPT 聊天时好像可以记着你以前说的话,但实际上,模型在推理时记不住任何实质,而且它们在训练时的影象体例也不像我们想象的那么简单。Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章,核心观点是 —— 虽然很多 LLM 看起来有影象,但本质上是无状态函数。文章地址: 和 FireFox 的联合…- 8
- 0
芝大论文证明 GPT-4 选股准确率高达 60%,人类股票阐明师要下岗?AI 大牛质疑数据污染
【新智元导读】GPT-4 在为人类选股时,显露竟然超越了大部分人类阐明师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功阐明了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有 AI 大牛指出钻研中的 bug:之所以会这样,很大概是训练数据被污染了。最近,各位业内大咖都被芝大的一篇论文震惊了。钻研者发现,由 GPT-4 帮忙选择的股票,直接击败了人类!同时也 pk 掉了许…- 11
- 0
美国教授用 2 岁女儿训 AI 模型登 Science,人类幼崽头戴相机训练全新 AI
【新智元导读】为训练 AI 模型,纽约州立大学的一名教授 Brenden Lake,竟让自己不到 2 岁女儿头戴相机收集数据!要知道,Meta 训 Llama 3 直接用了 15 万亿个 token,如果 Lake 真能让 AI 模型进修人类幼崽,从有限的输入中进修,那 LLM 的全球数据荒岂不是解决了?为了训练 AI 模型,一位纽约州立大学的教授,竟然把类似 GoPro 的相机绑在了自己女儿头上…- 7
- 0
【论文解读】System 2 Attention提高大语言模型客观性和事实性
一、简要介绍 本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相干工作。基于transformer的大语言模型(LLM)中的软留神很容易将上下文中的不相干信息合并到其潜在的表征中,这将对下一token的生成产生不利影响。为了帮助纠正这些成绩,论文引入了System 2 Attention(S2A),它利用LLM的能力…- 13
- 0
在富岳超算上训练大模型,日本联合研讨团队发布 Fugaku-LLM
由多方企业和机构组成的日本联合研讨团队昨日发布了 Fugaku-LLM 大模型。该模型的最大特色就是其是在 Arm 架构超算“富岳”上训练的。Fugaku-LLM 模型的开发于 2023 年 5 月启动,初期参与方包括富岳超算所有者富士通、东京工业大学、日本东北大学和日本理化学研讨所(理研)。而在 2023 年 8 月,另外三家合作方 —— 名古屋大学、CyberAgent(也是游戏企业 Cyga…- 10
- 0
为什么要纯C说话手搓GPT-2,Karpathy回应网友质疑
Karpathy:for fun.几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上兑现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型(LM)训练变得简单 —— 使用纯 C 说话 / CUDA,不必要 245MB 的 PyTorch 或 107MB 的 cPython。例…- 29
- 0
llm
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!