问题
OpenAI 的 GPT-4 变身考证能手:无额外训练通过日本理疗师考试,正确率 73.4%
一项新的同行评审研究表明,OpenAI 的 GPT-4 大语言模型无需任何额外训练,即可通过日本国家理疗考试。最新发表在《Cureus》杂志上的新研究,测试了 GPT-4 的文字和视觉技能。AI在线注:日本国家物理理疗师考试包括 160 道综合题和 40 道实践题,测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题,并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分,正确回答了 73.4% 的问题。不过,人工智能在处理技术性问题和包含图片或表格的问题时显得有些吃力。
8/31/2024 9:02:36 AM
故渊
消息称 OpenAI 正开发“草莓”项目:前身为神秘 Q * 算法,最快今年秋季推出
当地时间 8 月 7 日,阿尔特曼放出了一张关于草莓的照片,暗示神秘“草莓(Strawberry)”项目,引起全网热议。The Information 报道称,随着 OpenAI 寻求筹集更多资金,其研究人员正试图推出一种新的 AI 产品,能够比现有产品更好地解决棘手的问题。据称,OpenAI 今年夏天已经向美国国家安全官员展示了这项技术,一位直接了解这些会议的人士表示,这些会议此前没有被报道过(AI在线注:最早是路透社上个月发布的爆料)。两名内部人士透露,团队目标是最早在今年秋天之前将代号为草莓(以前称为 Q*)
8/27/2024 10:32:41 PM
问舟
OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现
感谢OpenAI 公司于 8 月 13 日发布新闻稿,宣布推出 SWE-bench Verified 代码生成评估基准,解决了此前的局限性问题,能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注:SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 iss
8/15/2024 2:34:33 PM
故渊
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑,或者不知道如何应用 LLM 驱动数据生成。或许,英伟达的这篇博客可以提供答案。原文地址:,用 LLM 合成数据的本质究
7/29/2024 4:20:08 PM
清源
陶哲轩点评谷歌AlphaProof:AI在数学竞赛中展现「超凡智慧」
在奥数问题面前,AI 的「智商」往往不太够用。不过,这已经是过去式了。谷歌 DeepMind 用 AI 做出了今年国际数学奥林匹克竞赛 IMO 的真题,并且距拿金牌仅一步之遥。对于 AI 来说,奥数不再是问题了。IMO 2024 中六个问题的每一个问题满分为 7 分,总分最高 42 分。DeepMind 的系统最终得分为 28 分,意味着解决的 4 个问题都获得了满分 —— 相当于银牌类别的最高分。DeepMind 文章连接: AI 辅助证明的数学家陶哲轩近期正处在出差的忙碌中,对问题求解引擎 AlphaProof
7/28/2024 11:10:00 PM
机器之心
为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下
让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗?不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?大家普遍认为,是 Token 化(Tokenization)的锅。在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以
7/27/2024 11:22:00 PM
机器之心
ChatGPT 无法取代人类程序员: IEEE 35 页论文测出困难编码正确率仅为 0.66%
【新智元导读】6 月,IEEE 刊登了一篇对 ChatGPT 代码生成任务进行系统评估的论文,数据集就是程序员们最爱的 LeetCode 题库。研究揭示了 LLM 在代码任务中出现的潜在问题和能力局限,让我们能够对模型做出进一步改进,并逐渐了解使用 ChatGPT 写代码的最佳姿势。有了 ChatGPT,还需要人类程序猿编码吗?上个月,一项发表在 IEEE TSE 期刊(Transactions on Software Engineering)上的研究评估了 ChatGPT 所生成的代码在功能性、复杂性和安全性方面
7/8/2024 4:46:28 PM
清源
10家国产大模型、GPT-4o共同挑战新鲜高考作文,还自我打分,谁是第一?
机器之能报道编辑:杨文10家国产明星大模型PK高考作文,谁是AI圈的笔杆子?高考这几天,AI 可真够忙的 ——考前忙着押题,考后忙着做题,甚至监考都得上阵。6 月 7 日上午,备受瞩目的 2024 年高考正式开始。第一场语文,毫无意外爆上热搜,全是跟作文有关。其中新课标 I 卷直接拿「人工智能」做文章。有网友认为,今年的高考作文题目真简单,还有网友觉得想写出彩要费点心思。那么,当 AI 遇上高考作文,能碰撞出怎样的火花?我们决定使用国产明星大模型,尝试写一写高考作文,与各位考生「一较高下」。参赛选手包括 ——百度家
6/7/2024 1:57:00 PM
机器之能
重温图灵原理,感受反证法的力量
图灵原理揭示了人类永远不可能做到可知而全知,本文将阐释图灵是如何基于对角线证明,从反证法的角度对图灵原理进行证明的。
9/29/2023 12:00:00 PM
机器之心
5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」
内容一览:如果你正在学习如何创建或选择一个合适的数据集,那么这篇文章会给你一些实用的建议,帮助你在选择和创建数据集时做出明智的决策。
关键词:机器学习 数据集
6/2/2023 9:49:00 AM
HyperAI超神经
用深度学习解决旅行推销员问题,研究者走到哪一步了?
最近,针对旅行推销员等组合优化问题开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经组合优化步骤,将几个最近提出的模型架构和学习范式统一到一个框架中。透过这一系列步骤,作者分析了深度学习在路由问题方面的最新进展,并提供了新的方向来启发今后的研究,以创造实际的价值。
4/6/2022 5:11:00 PM
机器之心
WAIC 2021 | 云天励飞副总裁肖嵘:创「芯」时代 打造自进化城市智能体
在 WAIC 2021 AI 开发者论坛上,肖嵘发表主题演讲《创「芯」时代 打造自进化城市智能体》,在演讲中,他主要介绍了自进化城市智能体,并介绍了云天励飞最新研究成果及成功案例。
7/19/2021 2:56:00 PM
机器之心
- 1
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
全日程揭晓!ICLR 2025论文分享会我们北京见
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
AI视频
模态
驾驶
文本
人形机器人
xAI
搜索
大语言模型
Copilot
Claude
字节跳动
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练