GPT

OpenAI 与《期间》达成合作和谈：可用其杂志实质训练 ChatGPT
感谢当地时间周四，《期间》杂志与 OpenAI 宣布，两家公司达成了一项多年实质授权和谈和战略合作伙伴关系。OpenAI 可将《期间》的实质引入包括 ChatGPT 在内的产物。通过此次合作，OpenAI 将能够访问《期间》杂志过去 101 年来的海量档案中的当前、历史实质，以增强其产物并响应用户查询 —— 在 Time.com 上提供引文和原始来源的链接。作为和谈的一部分，《期间》杂志将可以使用…
AI
- 5
- 0
清源6月28日
大模型 2024 高考发榜，豆包等三款国产 AI 考上理科一本线
眼下，全国各地的高考课题陆续出炉，各种关于考生考了多少分的新闻也在不断登上头条。而最近，有一批特殊考生的课题也出炉了，他们就是由各家 AI 大模型组成的“测验天团”。大模型考上理科本科，豆包拿下国产 AI 最高分6 月 24 日，在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中，GPT-4o 以 562 分排名理科总分第一。国内产物中，字节跳动旗下的豆包拔得头筹，课题是 542.5 分。再往…
AI
- 7
- 0
汐元6月26日
10款国产大模型怒怼「玫瑰前夫」方协文，硬控了我30秒！
机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及歇息方式，但绝大部分人依然不知道该如何利用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能利用案例，来具体介绍AI利用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。AI 搞歪门邪道，很有一套，比如，谈爱情，打骂、骂人……上个月，博主「午夜狂暴哈士奇狗」凭一己之力，将 Cha…
应用
- 10
- 0
机器之能6月26日
大模型2024高考发榜，豆包等三款国产AI考上理科一本线
大模型参加高考，能考多少分，上什么大学？6月24日，在机构最新发布的高考新课标Ⅰ卷大模型评测报告中，GPT-4o 以562分排名理科总分第一。国内产物中，字节跳动旗下的豆包拔得头筹，问题是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同，河南高考录取分数线显示，理科本科一批录取分数线为521分，豆包等三款国产AI成功冲上…
应用
- 16
- 0
新闻助手6月25日
15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的危险性
最新发表在 arXiv 的钻研论文指出，包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输入结果并不危险。这项钻研标题为《跨模态危险调整》（Cross-Modality Safety Alignment），提出了一个全新的“危险输入但不危险输入”（SIUO），涉及品德、危险行为、自残、侵犯隐私、…
AI
- 9
- 0
故渊6月25日
研讨发现，OpenAI 的 GPT-4o 公德推理能力胜过人类大师
近期的一项研讨表明，OpenAI 最新的聊天机器人 GPT-4o 能够供应公德方面的解说和提议，且质量优于“公认的”公德大师所供应的提议。据 The Decoder 当地时间周六报道，美国北卡罗莱纳大学教堂山分校和艾伦 AI 研讨所的研讨人员从事了两项研讨，将 GPT 模型与人类的公德推理能力从事比拟，以探讨大言语模型是否可被视为“公德大师”。IT之家汇总研讨内容如下：研讨一501 名美国成年人对…
AI
- 20
- 0
清源6月24日
斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十
斯坦福大学前提模型研究中心（CRFM）6 月 11 日发布了大规模多任务说话理解能力评价（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大说话模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。据悉大规模多任务说话理解能力评价（MMLU on…
AI
- 17
- 0
满河（实习）6月22日
OpenAI 首席手艺官：GPT-5 将在一年半后宣布，部分领域智能到达“博士”级别
美国达特茅斯工程学院本周四公布了对 OpenAI 首席手艺官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下（GPT）进化的轨迹，像 GPT-3 这样的零碎可能只有幼儿才华程度，而像 GPT-4 这样的零碎则更像是聪明的高中生才华程度，在接下来的几年里，我们期待在一定工作上到达博士的才华程度。事情正在飞速变化、改善。”穆…
AI
- 4
- 0
清源6月22日
一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？
机器之能报道编纂：杨文玩梗、看病、耍心眼、做数学题，「新王」Claude 3.5能力真那么玄乎？它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——Claude 3.5 Sonnet！这款大模型有啥独到之处？首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。它还是Ant…
应用
- 56
- 0
机器之能6月21日
上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格
感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。该机构表示，Qwe…
AI
- 10
- 0
清源6月20日
智源更新大模型排行榜：豆包大模型“主观评测”排名国产第一
6月中旬，智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单：在有标准答案的“主观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在封闭问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-…
应用
- 141
- 0
新闻助手6月19日
研讨称 GPT-4 通过了图灵尝试，54% 的人将其误认为真人
感谢最新研讨称，越来越多的人难以在图灵尝试中区分 GPT-4 和人类。图源 Pexels据IT之家了解，“图灵尝试”由计算机科学家艾伦・图灵在 1950 年提出，又被称为“模仿游戏”。尝试的标准是机械能否像人类一样进行对话，让对方误以为其是真人。加州大学圣地亚哥分校的研讨人员招募了 500 名参与者，让他们与四位“对话者”进行五分钟的交流，这四位“对话者”分别是真人、上世纪 60 年代的初代谈天机…
AI
- 3
- 0
远洋6月17日
GPT-4o 更容易逃狱？北航 & 南洋理工上万次测试给出详细分析
GPT-4o，比上一代更容易被逃狱攻打了？来自北航和南洋理工的研究人员，通过上万次的 API 查问，对 GPT-4o 各种模态的危险性进行了详细测试。结果发现，GPT-4o 新引入的语音模态带来了新的攻打面，而且多模态整体危险性不敌 GPT-4V。具体来说，研究人员针对 4 个常用的基准测试，对 GPT-4o 支持的三种模态（文本、图象、音频）进行了测试。测试一共涉及到 4000 初始文本查问的优…
AI
- 19
- 0
清源6月12日
预计准确率达95.7%，ChatMOF利用LLM预计和生成金属有机框架
编辑 | X金属有机框架（MOF）因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而，在利用 AI 深入探索 MOF 设想与机能优化的研究征途中，科学家们正面临着前所未有的挑战。去年 3 月，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员提出的 MOFTransformer 模型经过一百万个假设…
理论
- 25
- 0
ScienceAI6月11日
Copilot Pro 定阅魅力下降，微软 7 月 10 日下线用户自建 GPT 办事
微软今天发布公告，宣布 Copilot Pro 办事将移除 GPT Builder，意味着定阅用户无法继续创造自己的 Copilot GPT。GPT Builder 也称为 Copilot GPT，定阅 Copilot Pro 的用户可以利用文档、外部或内部资源以及自定义指令创造自己的 Copilot GPT。Copilot Pro 是售价 20 美元的 Microsoft Copilot 定阅版…
AI
- 49
- 0
故渊6月11日
Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定
这是Karpathy「Neural Networks：zero to hero」系列视频的最新实质。AI 大牛 Andrej Karpathy 又「上新」了，这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2（1.24 亿参数）」。Karpathy 表示，此次视频之所以这么长，是因为它很全面：从空文件开始，最后得到一个 GPT-2（124M）模型。详细实现步骤包括以下：首先构…
AI
- 33
- 0
机器之心6月11日
两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友刺客的线索投递！在基准尝试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，钻研机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理成绩，揭示了 LLM 基准尝试的盲区。一道简单的逻辑成绩，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的尝试并不算很难 ——「爱丽丝有 N 个弟兄…
AI
- 7
- 0
浩渺6月10日
成功率达 53%，研讨显示 GPT-4 可自决操纵“零日”破绽攻破网站
据 NewAtlas 报道，研讨职员操纵自决协作的 GPT-4 机器人小组成功入侵了一半以上的尝试网站，这些机器人可以自决调和行动并根据需要生成新的“帮手”。更令人吃惊的是，他们操纵的是以前未知的、现实世界中从未公开的“零日”破绽（zero-day vulnerabilities）。图源 Pexels早在几个月前，同一批研讨职员就发表了一篇论文，声称他们能够使用 GPT-4 自动操纵“N day”…
AI
- 7
- 0
远洋6月9日
科大讯飞：讯飞星火 V4.0 在训练中，对标 GPT-4o 的产物也在研发
科大讯飞在“深交所互动易”平台回复网友发问时流露，对标 GPT-4 当前才智的讯飞星火 V4.0 在训练中，预计在 2024 年 6 月底公布，对标 GPT-4o 的产物在研发中。科大讯飞方面示意，公司将紧密结合人工智能的演进和突破，把成果持续应用到智慧教育的每个产物中，不断提升产物的用户体验和客户渗透率。而在本年 4 月，科大讯飞董事长刘庆峰曾流露，本年 6 月 27 日，讯飞星火 V4.0 将…
AI
- 7
- 0
清源6月2日
解锁 GPT-4o，“上帝”版 ChatGPT 绕过 OpenAI 防护栏：能回答制造汽油弹等问题
网名为 Pliny the Prompter 的用户 5 月 30 日发布推文，表示已成功逃狱 GPT-4o 模型，新推出的上帝模式“GODMODE”可以在 ChatGPT 挣脱安全措施，让用户纵情展开 AI 聊天。Pliny the Prompter 自称是网络白帽和红队（主要为攻击尝试），推文中表示：“请负责任地使用，并纵情享受！”IT之家附上相关截图如下：Pliny 分享了一些截图，证明已经…
AI
- 14
- 0
故渊6月1日
OpenAI 推出为大学开发的 ChatGPT Edu 教育版，对话和数据不用于训练模型
感谢OpenAI 在 5 月 30 日宣布推出 ChatGPT Edu，该版本专为大学设计，面向先生、教职员工、研究职员和校园运营部署 AI，同时该版本的对话和数据不会用于训练 OpenAI 模型。ChatGPT Edu 由 GPT-4o 驱动，能够在文本和视觉之间进行推理，并使用数据分析等高档工具。这个新产品包括企业级的安全性和管理，OpenAI 称价格对教育机构来说比较实惠。OpenAI 表示…
AI
- 31
- 0
沛霖（实习）5月31日
研讨：GPT-4 在展望公司红利方面超越人类分析师
芝加哥大学的一项新研讨表白，庞大说话模型 GPT-4 在展望公司将来红利增长方面可以胜过人类分析师，而且该人工智能模型仅应用了公司的财政报表，并没有额定的信息辅助。图源 Pexels以往，财政分析师依靠专业知识和经验来评估公司财政状况并展望将来红利。然而这项研讨表白，人工智能模型可以同样出色地实现这项任务，甚至做得更好。据IT之家了解，研讨职员向模型提供了匿名化的财政数据，包括资产负债表和损益表，…
AI
- 5
- 0
远洋5月27日
芝大论文证明 GPT-4 选股准确率高达 60%，人类股票阐明师要下岗？AI 大牛质疑数据污染
【新智元导读】GPT-4 在为人类选股时，显露竟然超越了大部分人类阐明师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功阐明了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有 AI 大牛指出钻研中的 bug：之所以会这样，很大概是训练数据被污染了。最近，各位业内大咖都被芝大的一篇论文震惊了。钻研者发现，由 GPT-4 帮忙选择的股票，直接击败了人类！同时也 pk 掉了许…
AI
- 10
- 0
汪淼5月27日
《自然》杂志研究：AI 追踪他人情绪状况能力与人类相当或逾越人类
在本月下旬最新一期的《自然-人类行为》期刊上，刊登了一篇关于 AI 的研究论文，其中提到，在尝试追踪他人情绪状况能力的使命中，两类 AI 大语言模型在特定情况下，具备与人类相似甚至逾越人类的显露。图源 Pixabay作为人类沟通交流、产生共鸣的关键，情绪状况能力（也称心智理论）对人类的社交互动来说非常重要。该论文的第一作家 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strac…
AI
- 7
- 0
清源5月25日