AI

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下，Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力，正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道，Chatbot Arena 旨在通过这家新公司获取更多资源，从而显著改善其平台的功能和服务。

4/18/2025 12:02:40 PM

AI在线

METR 实测：OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

风险测试机构“机器智能测试风险”（METR）昨日（4 月 17 日）发布报告，与 OpenAI 合作测试其 o3 模型时发现，该模型展现出更强的“作弊”或“黑客行为”倾向，试图通过操控任务评分系统提升成绩。

4/18/2025 11:16:39 AM

故渊

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

紧跟o4-mini，谷歌上新了Gemini 2.5 Flash preview版本。作为更注重效率的Flash，在大模型竞技场上排名并列第二，第一是自家的Gemini 2.5 Pro。这样的表现，让Gemini 2.5 Flash的性价比直接拉满。

4/18/2025 10:43:23 AM

最新万字长文！强化学习之父联合谷歌RL副总裁：未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样：回顾人工智能的发展，深度学习确实奏效了！现在强化学习正如火如荼，OpenAI o系列，DeepSeek R0都显示出了强化学习的巨大威力，人类生成的数据推动了人工智能的惊人进步，但接下来会发生什么？谷歌强化学习副总裁 David Silver与图灵奖获得者，强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》犹如《TheBitterLesson（苦涩的教训）》的续章给我们当头一棒：人类数据正在见顶，经验是下一个超级数据源，真正能推动AI跃升的数据，必须随模型变强而自动增长。

4/18/2025 10:01:41 AM

AI寒武纪

亚洲崛起：DeepSeek、巨额投资与数据中心助力 AI 竞争力

在今年的达沃斯世界经济论坛上，众多商界和政界领袖齐聚一堂，普遍认为美国科技巨头在人工智能（AI）领域占据主导地位，而中国乃至整个亚洲似乎都在这一赛道上滞后。然而，在与会者离开后，这种看法开始遭遇挑战。首先，来自中国的一家名不见经传的对冲基金 —— 深度寻求（DeepSeek）在这一时刻引发了全球的注意。

4/18/2025 10:01:28 AM

AI在线

AI 应用安全挑战与测评实践指南

作者 | 陈达在人工智能蓬勃发展的时代，AI应用广泛融入人们的生活与工作，从智能客服到智能推荐系统，从医疗影像诊断到金融风险预测，AI的身影无处不在。然而，随着AI应用的普及，其潜在风险也逐渐凸显，AI风险测评成为保障应用可信的关键环节。本文将围绕“AI风险测评助力应用可信”这一主题，深入探讨AI应用面临的风险、业界测评方法、实践思路及关键要点。

4/18/2025 9:45:47 AM

Thoughtworks洞见

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

视频理解的CoT推理能力，怎么评？中科大等团队提出了评估基准——VCR-Bench，里面包含七个独立评估维度的任务框架，每个维度针对性地考察模型的不同能力（如时空推理、因果推断等）。为确保评估的全面性和可靠性，每个维度都设计了100余条高质量样本。

4/18/2025 9:13:00 AM

量子位

异议！顶流AI决战「逆转裁判」：o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时，Ilya Sutskever曾用一个生动的比喻来解释。想象你在读一本悬疑小说，如果仅凭前面的线索就能在最后一页推断出罪犯是谁，那么你对这个故事的理解无疑是深刻的。同样，AI通过学习海量文本，掌握了从字面到语义的「线索」，展现出惊人的智能。

4/18/2025 9:07:00 AM

新智元

微软 BitNet b1.58 2B4T 登场：内存占用仅 0.4GB，20 亿参数模型颠覆 AI 计算

微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T，区别于传统训练后量化的方式，这款拥有 20 亿参数的大型语言模型（LLM）以 1.58 位低精度架构原生训练而成。

4/18/2025 8:54:22 AM

故渊

UC伯克利：让推理模型少思考，准确率反而更高了！

让推理模型不要思考，得到的结果反而更准确？ UC伯克利新研究发现，强制要求模型跳过思考过程，推理能力却比正常思考还好。例如在定理证明任务当中，“不思考”模式仅使用30%的Token，就能实现和完整思考一样的准确率。

4/18/2025 8:42:52 AM

量子位

自主式AI对安全专家来说既是福音也是祸患

网络安全在自主式AI面前站在了一个十字路口，我们从未拥有过如此强大的工具，它可以在眨眼之间创建大量的代码，发现并解除威胁，并且可以被如此果断且防御性地使用，这已经被证明是一个巨大的力量倍增器和生产力红利。但虽然功能强大，自主式AI却并不可靠，这就是目前的困境。所创建的代码可能包含微妙的缺陷，并且最终可能会弊大于利，比如通过助长网络钓鱼诱饵和构建新型恶意软件。

4/18/2025 12:10:00 AM

David Strom

阿里、蚂蚁、腾讯纷纷推出 AI 组件库，React / Vue 全覆盖，AI 组件库超全汇总来啦！

随着 AI 技术的快速发展，阿里、蚂蚁、腾讯都相继发布了各自的 AI 组件库。这些组件库支持 React 和 Vue 技术栈，为开发者提供了高效的解决方案。 Ant DesIgn XAnt Design X 是蚂蚁集团开发的 AI 组件库。

4/18/2025 12:04:00 AM

前端充电宝

联想展示 AI换脸防诈技术，精准识别 Deepfake伪造视频

随着人工智能和大模型技术的迅猛发展，它们为人们的生活带来了前所未有的便利与变革。从DeepSeek等应用的爆火，到AI PC等端侧AI设备的加速普及，AI 的身影无处不在。然而，AI 技术的滥用也带来了新的安全威胁。

4/17/2025 6:19:00 PM

新闻助手

攻克胰腺癌早筛难题，阿里AI模型获国际权威认定“突破性医疗器械”

4月17日消息，阿里巴巴AI模型DAMO PANDA被FDA认定为“突破性医疗器械”。 DAMO PANDA是阿里巴巴达摩院研发的胰腺癌筛查AI模型，可精准识别平扫CT影像中的细微病灶，攻克了胰腺癌早期筛查的国际难题。这也是中国头部科技企业首次拿下该项权威认可。

4/17/2025 6:08:00 PM

新闻助手

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天，上海人工智能实验室再次引领潮流，推出了全新的多模态大模型 “书生・万象3.0”。这一升级版本不仅在技术上进行了全面提升，还在多模态预训练和后训练方法的加持下，展现出了更强大的基础能力和应用潜力。 “书生・万象3.0” 具备同时处理文本和多种多模态输入的能力，这使得它在多个应用场景中都能表现出色。

4/17/2025 2:01:15 PM

AI在线

阿里巴巴AI模型DAMO PANDA获FDA认定为“突破性医疗器械”，攻克胰腺癌早期筛查难题

，阿里巴巴AI模型DAMO PANDA正式获得美国食品药品监督管理局（FDA）认定为“突破性医疗器械”。这一认证标志着阿里巴巴在人工智能医疗领域的突破性进展，也是中国头部科技企业首次获得这一权威认可。图源备注:图片由AI生成，图片授权服务商MidjourneyDAMO PANDA是由阿里巴巴达摩院研发的胰腺癌筛查AI模型，旨在通过精准分析CT影像中的细微病灶，实现早期胰腺癌的筛查。

4/17/2025 11:01:19 AM

AI在线

DeepSeek创始人梁文锋荣登《时代》“2025年全球最具影响力100人”榜单

近日，DeepSeek创始人梁文锋入选《时代》杂志“2025年全球最具影响力100人”榜单，成为全球科技与金融领域的领军人物之一。与此同时，梁文锋还凭借330亿元人民币的财富首次登上了2025年3月27日发布的《胡润全球富豪榜》，进一步巩固了他在全球商业界的影响力。梁文锋的成功之路始于2008年，当时他开始带领团队利用机器学习等前沿技术，探索全自动量化交易。

4/17/2025 11:00:49 AM

AI在线

揭秘大模型的魔法：从零开始你的AI冒险

你好，我是写代码的中年人！你有没有想过，那些能写诗、答题、甚至帮你 debug 代码的 AI 到底是怎么回事？它们其实是“大型语言模型”（Large Language Models，简称 LLM）的产物。

4/17/2025 9:00:00 AM

写代码的中年人

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind