AI在线 AI在线

AI

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。 根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。
4/18/2025 12:02:40 PM
AI在线

METR 实测:OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

风险测试机构“机器智能测试风险”(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的“作弊”或“黑客行为”倾向,试图通过操控任务评分系统提升成绩。
4/18/2025 11:16:39 AM
故渊

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

紧跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。 作为更注重效率的Flash,在大模型竞技场上排名并列第二,第一是自家的Gemini 2.5 Pro。 这样的表现,让Gemini 2.5 Flash的性价比直接拉满。
4/18/2025 10:43:23 AM

最新万字长文!强化学习之父联合谷歌RL副总裁:未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样:回顾人工智能的发展,深度学习确实奏效了! 现在强化学习正如火如荼,OpenAI o系列,DeepSeek R0都显示出了强化学习的巨大威力,人类生成的数据推动了人工智能的惊人进步,但接下来会发生什么? 谷歌强化学习副总裁 David Silver与图灵奖获得者,强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》 犹如《TheBitterLesson(苦涩的教训)》的续章给我们当头一棒:人类数据正在见顶,经验是下一个超级数据源,真正能推动AI跃升的数据,必须随模型变强而自动增长。
4/18/2025 10:01:41 AM
AI寒武纪

亚洲崛起:DeepSeek、巨额投资与数据中心助力 AI 竞争力

在今年的达沃斯世界经济论坛上,众多商界和政界领袖齐聚一堂,普遍认为美国科技巨头在人工智能(AI)领域占据主导地位,而中国乃至整个亚洲似乎都在这一赛道上滞后。 然而,在与会者离开后,这种看法开始遭遇挑战。 首先,来自中国的一家名不见经传的对冲基金 —— 深度寻求(DeepSeek)在这一时刻引发了全球的注意。
4/18/2025 10:01:28 AM
AI在线

AI 应用安全挑战与测评实践指南

作者 | 陈达在人工智能蓬勃发展的时代,AI应用广泛融入人们的生活与工作,从智能客服到智能推荐系统,从医疗影像诊断到金融风险预测,AI的身影无处不在。 然而,随着AI应用的普及,其潜在风险也逐渐凸显,AI风险测评成为保障应用可信的关键环节。 本文将围绕“AI风险测评助力应用可信”这一主题,深入探讨AI应用面临的风险、业界测评方法、实践思路及关键要点。
4/18/2025 9:45:47 AM
Thoughtworks洞见

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

视频理解的CoT推理能力,怎么评? 中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。 为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。
4/18/2025 9:13:00 AM
量子位

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。 想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。 同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。
4/18/2025 9:07:00 AM
新智元

微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。
4/18/2025 8:54:22 AM
故渊

UC伯克利:让推理模型少思考,准确率反而更高了!

让推理模型不要思考,得到的结果反而更准确? UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。 例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。
4/18/2025 8:42:52 AM
量子位

自主式AI对安全专家来说既是福音也是祸患

网络安全在自主式AI面前站在了一个十字路口,我们从未拥有过如此强大的工具,它可以在眨眼之间创建大量的代码,发现并解除威胁,并且可以被如此果断且防御性地使用,这已经被证明是一个巨大的力量倍增器和生产力红利。 但虽然功能强大,自主式AI却并不可靠,这就是目前的困境。 所创建的代码可能包含微妙的缺陷,并且最终可能会弊大于利,比如通过助长网络钓鱼诱饵和构建新型恶意软件。
4/18/2025 12:10:00 AM
David Strom

阿里、蚂蚁、腾讯纷纷推出 AI 组件库,React / Vue 全覆盖,AI 组件库超全汇总来啦!

随着 AI 技术的快速发展,阿里、蚂蚁、腾讯都相继发布了各自的 AI 组件库。 这些组件库支持 React 和 Vue 技术栈,为开发者提供了高效的解决方案。 Ant DesIgn XAnt Design X 是蚂蚁集团开发的 AI 组件库。
4/18/2025 12:04:00 AM
前端充电宝

联想展示 AI换脸防诈技术,精准识别 Deepfake伪造视频

随着人工智能和大模型技术的迅猛发展,它们为人们的生活带来了前所未有的便利与变革。 从DeepSeek等应用的爆火,到AI PC等端侧AI设备的加速普及,AI 的身影无处不在。 然而,AI 技术的滥用也带来了新的安全威胁。
4/17/2025 6:19:00 PM
新闻助手

攻克胰腺癌早筛难题,阿里AI模型获国际权威认定“突破性医疗器械”

4月17日消息,阿里巴巴AI模型DAMO PANDA被FDA认定为“突破性医疗器械”。 DAMO PANDA是阿里巴巴达摩院研发的胰腺癌筛查AI模型,可精准识别平扫CT影像中的细微病灶,攻克了胰腺癌早期筛查的国际难题。 这也是中国头部科技企业首次拿下该项权威认可。
4/17/2025 6:08:00 PM
新闻助手

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天,上海人工智能实验室再次引领潮流,推出了全新的多模态大模型 “书生・万象3.0”。 这一升级版本不仅在技术上进行了全面提升,还在多模态预训练和后训练方法的加持下,展现出了更强大的基础能力和应用潜力。 “书生・万象3.0” 具备同时处理文本和多种多模态输入的能力,这使得它在多个应用场景中都能表现出色。
4/17/2025 2:01:15 PM
AI在线

阿里巴巴AI模型DAMO PANDA获FDA认定为“突破性医疗器械”,攻克胰腺癌早期筛查难题

,阿里巴巴AI模型DAMO PANDA正式获得美国食品药品监督管理局(FDA)认定为“突破性医疗器械”。 这一认证标志着阿里巴巴在人工智能医疗领域的突破性进展,也是中国头部科技企业首次获得这一权威认可。 图源备注:图片由AI生成,图片授权服务商MidjourneyDAMO PANDA是由阿里巴巴达摩院研发的胰腺癌筛查AI模型,旨在通过精准分析CT影像中的细微病灶,实现早期胰腺癌的筛查。
4/17/2025 11:01:19 AM
AI在线

DeepSeek创始人梁文锋荣登《时代》“2025年全球最具影响力100人”榜单

近日,DeepSeek创始人梁文锋入选《时代》杂志“2025年全球最具影响力100人”榜单,成为全球科技与金融领域的领军人物之一。 与此同时,梁文锋还凭借330亿元人民币的财富首次登上了2025年3月27日发布的《胡润全球富豪榜》,进一步巩固了他在全球商业界的影响力。 梁文锋的成功之路始于2008年,当时他开始带领团队利用机器学习等前沿技术,探索全自动量化交易。
4/17/2025 11:00:49 AM
AI在线

揭秘大模型的魔法:从零开始你的AI冒险

你好,我是写代码的中年人! 你有没有想过,那些能写诗、答题、甚至帮你 debug 代码的 AI 到底是怎么回事? 它们其实是“大型语言模型”(Large Language Models,简称 LLM)的产物。
4/17/2025 9:00:00 AM
写代码的中年人