问题

OpenAI 的 GPT-4 变身考证能手：无额外训练通过日本理疗师考试，正确率 73.4%

一项新的同行评审研究表明，OpenAI 的 GPT-4 大语言模型无需任何额外训练，即可通过日本国家理疗考试。最新发表在《Cureus》杂志上的新研究，测试了 GPT-4 的文字和视觉技能。AI在线注：日本国家物理理疗师考试包括 160 道综合题和 40 道实践题，测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题，并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分，正确回答了 73.4% 的问题。不过，人工智能在处理技术性问题和包含图片或表格的问题时显得有些吃力。

8/31/2024 9:02:36 AM

故渊

消息称 OpenAI 正开发“草莓”项目：前身为神秘 Q * 算法，最快今年秋季推出

当地时间 8 月 7 日，阿尔特曼放出了一张关于草莓的照片，暗示神秘“草莓（Strawberry）”项目，引起全网热议。The Information 报道称，随着 OpenAI 寻求筹集更多资金，其研究人员正试图推出一种新的 AI 产品，能够比现有产品更好地解决棘手的问题。据称，OpenAI 今年夏天已经向美国国家安全官员展示了这项技术，一位直接了解这些会议的人士表示，这些会议此前没有被报道过（AI在线注：最早是路透社上个月发布的爆料）。两名内部人士透露，团队目标是最早在今年秋天之前将代号为草莓（以前称为 Q*）

8/27/2024 10:32:41 PM

问舟

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

感谢OpenAI 公司于 8 月 13 日发布新闻稿，宣布推出 SWE-bench Verified 代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注：SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时，LLM 会拿到一个代码库和 issue 描述，然后生成一个补丁来解决 iss

8/15/2024 2:34:33 PM

故渊

英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码

适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑，或者不知道如何应用 LLM 驱动数据生成。或许，英伟达的这篇博客可以提供答案。原文地址：，用 LLM 合成数据的本质究

7/29/2024 4:20:08 PM

清源

陶哲轩点评谷歌AlphaProof：AI在数学竞赛中展现「超凡智慧」

在奥数问题面前，AI 的「智商」往往不太够用。不过，这已经是过去式了。谷歌 DeepMind 用 AI 做出了今年国际数学奥林匹克竞赛 IMO 的真题，并且距拿金牌仅一步之遥。对于 AI 来说，奥数不再是问题了。IMO 2024 中六个问题的每一个问题满分为 7 分，总分最高 42 分。DeepMind 的系统最终得分为 28 分，意味着解决的 4 个问题都获得了满分 —— 相当于银牌类别的最高分。DeepMind 文章连接： AI 辅助证明的数学家陶哲轩近期正处在出差的忙碌中，对问题求解引擎 AlphaProof

7/28/2024 11:10:00 PM

机器之心

为什么AI数不清Strawberry里有几个 r？Karpathy：我用表情包给你解释一下

让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗？不知道 9.11 和 9.9 哪个大，数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点，大模型都只能接受人们的无情嘲笑。嘲笑之后，大家也冷静了下来，开始思考：低级错误背后的本质是什么？大家普遍认为，是 Token 化（Tokenization）的锅。在国内，Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性，因为 Tokenization 里的 token 指的未必是词，也可以

7/27/2024 11:22:00 PM

机器之心

ChatGPT 无法取代人类程序员： IEEE 35 页论文测出困难编码正确率仅为 0.66%

【新智元导读】6 月，IEEE 刊登了一篇对 ChatGPT 代码生成任务进行系统评估的论文，数据集就是程序员们最爱的 LeetCode 题库。研究揭示了 LLM 在代码任务中出现的潜在问题和能力局限，让我们能够对模型做出进一步改进，并逐渐了解使用 ChatGPT 写代码的最佳姿势。有了 ChatGPT，还需要人类程序猿编码吗？上个月，一项发表在 IEEE TSE 期刊（Transactions on Software Engineering）上的研究评估了 ChatGPT 所生成的代码在功能性、复杂性和安全性方面

7/8/2024 4:46:28 PM

清源

10家国产大模型、GPT-4o共同挑战新鲜高考作文，还自我打分，谁是第一？

机器之能报道编辑：杨文10家国产明星大模型PK高考作文，谁是AI圈的笔杆子？高考这几天，AI 可真够忙的 ——考前忙着押题，考后忙着做题，甚至监考都得上阵。6 月 7 日上午，备受瞩目的 2024 年高考正式开始。第一场语文，毫无意外爆上热搜，全是跟作文有关。其中新课标 I 卷直接拿「人工智能」做文章。有网友认为，今年的高考作文题目真简单，还有网友觉得想写出彩要费点心思。那么，当 AI 遇上高考作文，能碰撞出怎样的火花？我们决定使用国产明星大模型，尝试写一写高考作文，与各位考生「一较高下」。参赛选手包括 ——百度家

6/7/2024 1:57:00 PM

机器之能