llm

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI
编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM），因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在…
理论
- 5
- 0
ScienceAI7月11日
又遇到「GPT写的review」了？看看北大&密歇根的这个研究工作
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文是对发表在计算经济学顶级会议ACM Conference on …
工程
- 11
- 0
机器之心7月10日
13瓦功耗处理10亿参数，接近大脑效率，消除LLM中的矩阵乘法来颠覆AI现状
编辑 | 萝卜皮通常，矩阵乘法 (MatMul) 在大型言语模型（LLM）总体盘算成本中占据主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度，这方面的成本只会增加。加州大学、LuxiTech 和苏州大学的钻研职员声称开发出一种新格式，通过消除过程中的矩阵乘法来更有效地运行人工智能言语模型。这从根本上重新设计了目前由 GPU 芯片加速的神经网络操作方式。钻研职员描述了如何在不使用 MatMu…
理论
- 36
- 0
ScienceAI7月4日
击败25个份子计划算法，佐治亚理工、多伦多大学、康奈尔提出大说话模型MOLLEO
作者 | 佐治亚理工学院王浩瑞编辑 | ScienceAI份子发明作为优化问题，因其优化宗旨可能不可微分而带来显著的计算挑战。退化算法（EAs）常用于优化份子发明中的黑箱宗旨，通过随机突变和交叉来遍历化学空间，但这会导致大量昂贵的宗旨评价。在这项工作中，佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了份子说话增强退化优化（MOLLEO），通过将拥有化学知识的预训练大说话模型（LLMs）整合到…
理论
- 16
- 0
ScienceAI7月1日
Meta 推出 LLM Compiler 代码优化模型，可搭配其他 AI 改善代码生成 / 编译能力
Meta 前天推出了一款名为“LLM Compiler”的模型，该模型基于 Meta 现有的 Code Llama 打造，主打代码优化，目前相干模型已登陆 Hugging Face，提供 70 亿参数及 130 亿参数两个版本，允许学术及商业应用，IT之家附项目地址如下：点此访问。Meta 认为，尽管业界各大谈话模型已在各种编程代码使命中展现了出色的能力，但此类模型在代码优化还有进步空间，目前推出…
AI
- 9
- 0
漾仔6月30日
菲尔兹奖得主亲测 GPT-4o，经典过河难题破解失败
编辑：桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程，模型在最简单的题目上竟然做错了，甚至网友们发明，就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河题目上，如今所有的 LLM 都失败了！几天前，菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 G…
AI
- 6
- 0
远洋6月30日
Meta 发布基于 Code Llama 的 LLM 编译器：优化代码巨细、反汇编
感谢Meta 官方在 X 平台宣布推出 LLM 编译器，这是一个基于 Meta Code Llama 构建的模型家族，具备额外的代码优化和编译器功能。这些模型可以模拟编译器，预测代码巨细的最佳传递，并可反汇编代码，可以针对新的优化和编译器恣意进行微调。Meta 在 HuggingFace 上公开了 LLM 编译器的 7B 和 13B 模型，采用宽松的许可协议，允许用于研究和商业用途。IT之家附链接…
AI
- 8
- 0
沛霖（实习）6月28日
200 亿估值之后，中国大模型公司还能拿谁的钱？
「200 亿」成为高风险投资代名词的直接原因，是无论美元基金（如红杉、IDG）或人民币基金（如启明、君联），其背后的 LP 主力背景里都有地方政府与国资，后者的投资喜好是风险厌恶。「200亿是不是一个坎」成为投资者与创业者都要思考的共同问题。目前，中国只有两家公司（智谱 AI 与月之暗面）在以估值约 30 亿美元、200 亿人民币进行新一轮融资。
应用
- 973
- 0
张进6月28日
NeurIPS2024边沿装备大型语言模型寻衅
随着人工智能的迅猛发展，尤其是在自然语言处理（NLP）畛域，大型语言模型（LLM）展现了硕大的变革后劲。这些模型正在改变我们的工作和交流方式，并在各种计算装备上展现出广泛的运用前景。然而，LLM硕大的模型给它在智能手机、物联网装备和车载系统等边沿装备上的运用带来了不小的寻衅。我们的比赛旨在鞭策LLM在资源受限的边沿装备上的机能、效率和多任务处理能力的极限。比赛背景：虽然LLM具有硕大的运用后劲，但…
应用
- 29
- 0
新闻助手6月28日
《Python 机械进修》作者新作：从头开始构建庞大言语模型，代码已开源
自 ChatGPT 发布以来，庞大言语模型（LLM）已经成为推动人工智能发展的关键技术。近期，机械进修和 AI 研究员、畅销书《Python 机械进修》作者 Sebastian Raschka 又写了一本旧书 ——《Build a Large Language Model (From Scratch)》，旨在讲授从头开始构建庞大言语模型的整个过程，包括如何创立、训练和调整庞大言语模型。最近，Seb…
AI
- 41
- 0
机器之心6月24日
谈天机器人胡说八道？牛津钻研职员操纵语义熵来识破 AI“幻觉”
近年来，人工智能蓬勃发展，谈天机器人等运用逐渐普及，人们可以通过简单的指令从这些谈天机器人（例如 ChatGPT）获取信息。然而，这些谈天机器人依然容易出现“幻觉”成绩，即提供错误的谜底，有时甚至是危险的信息。图源 Pexels造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过，牛津大学的钻研职员另辟蹊径，在最新出版的《自然》杂志上详细介绍了一种他们新开发的要领，…
AI
- 5
- 0
远洋6月24日
AI 教父 Hinton：我支撑超等 AI 代替人类
【新智元导读】「AI 教父」Geoffrey Hinton 在最近的采访中表达了自己对 AI 智能的了解 ——LLM 并不是简单的统计模型，已经具备了了解能力。与此同时，网友翻出了去年 12 月的「过期」视频，惊奇地发现 Hinton 早就「叛变」了，竟然对超等 AI 代替人类的未来意味支撑。最近，半退休的「AI 教父」Geoffrey Hinton 频频出现在各种采访中，输出他关于 ASI 的各…
AI
- 11
- 0
汪淼6月18日
22个恣意超越SOTA，43个恣意媲美SOTA，Google推出医学医治通用大模型
编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法，这将是一个漫长且昂贵的恣意，需要满足许多不同的标准，而能够加快这一过程的人工智能模型将是无价之宝。然而，目前大多数人工智能方法只能解决一组定义狭窄的恣意，通常局限于特定领域。为了弥补这一差距，Google 团队提出了 Tx-LLM，这是一种通用大型言语模型（LLM），由 PaLM-2 微调而成，可编码有关各种医治方式的学问。仅使用一组权重，Tx-…
理论
- 7
- 0
ScienceAI6月12日
Yandex 开源 LLM 训练对象浪费高达 20% 的 GPU 资本
跨国科技公司 Yandex 最近推出了 YaFSDP，这是一种用于训练大型语言模型 (LLM) 的开源方法。YaFSDP 是目前最有效的公开可用对象，用于增强 GPU 通讯并减少 LLM 训练中的内存运用量，与 FSDP 相比，其训练速率晋升最高可达 26%，具体取决于架构和参数数量。通过运用 YaFSDP 减少 LLM 的训练时间可以浪费高达 20% 的 GPU 资本。Yandex 承诺为寰球人…
应用
- 5
- 0
新闻助手6月11日
预计准确率达95.7%，ChatMOF利用LLM预计和生成金属有机框架
编辑 | X金属有机框架（MOF）因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而，在利用 AI 深入探索 MOF 设想与机能优化的研究征途中，科学家们正面临着前所未有的挑战。去年 3 月，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员提出的 MOFTransformer 模型经过一百万个假设…
理论
- 28
- 0
ScienceAI6月11日
从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗
让谈话模型「轻装上阵」。一直以来，矩阵乘法（MatMul）稳居神经网络操纵的主导地位，其中很大原因归结为 GPU 专门针对 MatMul 操纵进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出，成为深度进修崛起的历史性标志。在这当中，有个值得注意的点是，AlexNet 利用 GPU 来提高训练速度，超越了 CPU 的能力，至此，GPU 的加入使得深度进修仿佛赢得了…
工程
- 25
- 0
机器之心6月11日
两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友刺客的线索投递！在基准尝试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，钻研机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理成绩，揭示了 LLM 基准尝试的盲区。一道简单的逻辑成绩，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的尝试并不算很难 ——「爱丽丝有 N 个弟兄…
AI
- 8
- 0
浩渺6月10日
成功率达 53%，研讨显示 GPT-4 可自决操纵“零日”破绽攻破网站
据 NewAtlas 报道，研讨职员操纵自决协作的 GPT-4 机器人小组成功入侵了一半以上的尝试网站，这些机器人可以自决调和行动并根据需要生成新的“帮手”。更令人吃惊的是，他们操纵的是以前未知的、现实世界中从未公开的“零日”破绽（zero-day vulnerabilities）。图源 Pexels早在几个月前，同一批研讨职员就发表了一篇论文，声称他们能够使用 GPT-4 自动操纵“N day”…
AI
- 9
- 0
远洋6月9日
ChatGPT 真能记着你的话吗？DeepMind 与开源大佬揭示 LLM 影象之谜
【新智元导读】LLM 有影象本领吗？有，也没有。虽然 ChatGPT 聊天时好像可以记着你以前说的话，但实际上，模型在推理时记不住任何实质，而且它们在训练时的影象体例也不像我们想象的那么简单。Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章，核心观点是 —— 虽然很多 LLM 看起来有影象，但本质上是无状态函数。文章地址：和 FireFox 的联合…
AI
- 8
- 0
清源6月1日
芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染
【新智元导读】GPT-4 在为人类选股时，显露竟然超越了大部分人类阐明师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功阐明了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有 AI 大牛指出钻研中的 bug：之所以会这样，很大概是训练数据被污染了。最近，各位业内大咖都被芝大的一篇论文震惊了。钻研者发现，由 GPT-4 帮忙选择的股票，直接击败了人类！同时也 pk 掉了许…
AI
- 11
- 0
汪淼5月27日
美国教授用 2 岁女儿训 AI 模型登 Science，人类幼崽头戴相机训练全新 AI
【新智元导读】为训练 AI 模型，纽约州立大学的一名教授 Brenden Lake，竟让自己不到 2 岁女儿头戴相机收集数据！要知道，Meta 训 Llama 3 直接用了 15 万亿个 token，如果 Lake 真能让 AI 模型进修人类幼崽，从有限的输入中进修，那 LLM 的全球数据荒岂不是解决了？为了训练 AI 模型，一位纽约州立大学的教授，竟然把类似 GoPro 的相机绑在了自己女儿头上…
AI
- 7
- 0
清源5月13日
【论文解读】System 2 Attention提高大语言模型客观性和事实性
一、简要介绍本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相干工作。基于transformer的大语言模型（LLM）中的软留神很容易将上下文中的不相干信息合并到其潜在的表征中，这将对下一token的生成产生不利影响。为了帮助纠正这些成绩，论文引入了System 2 Attention（S2A），它利用LLM的能力…
理论
- 13
- 0
合合信息5月11日
在富岳超算上训练大模型，日本联合研讨团队发布 Fugaku-LLM
由多方企业和机构组成的日本联合研讨团队昨日发布了 Fugaku-LLM 大模型。该模型的最大特色就是其是在 Arm 架构超算“富岳”上训练的。Fugaku-LLM 模型的开发于 2023 年 5 月启动，初期参与方包括富岳超算所有者富士通、东京工业大学、日本东北大学和日本理化学研讨所（理研）。而在 2023 年 8 月，另外三家合作方 —— 名古屋大学、CyberAgent（也是游戏企业 Cyga…
AI
- 10
- 0
溯波（实习）5月11日
为什么要纯C说话手搓GPT-2，Karpathy回应网友质疑
Karpathy：for fun.几天前，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上兑现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型（LM）训练变得简单 —— 使用纯 C 说话 / CUDA，不必要 245MB 的 PyTorch 或 107MB 的 cPython。例…
AI
- 29
- 0
机器之心4月11日