AI在线 AI在线

理论

算法面试80%会问:大模型评估指标全解析

从训练到部署的评估链条大模型的评估贯穿了从研发到部署的全生命周期:训练阶段:使用交叉熵等损失函数指导模型优化方向生成评估:通过BLEU、ROUGE等指标量化生成内容质量能力测试:利用GLUE、MMLU等标准化基准评估多维度能力实战对比:在竞技场上与其他模型直接PK,检验实际效果交叉熵与困惑度熵最初源自物理学,用于描述系统无序程度。 在信息论中,熵衡量信息的不确定性:$H(X) = -\sum_{x} P(x)log_b P(x)$交叉熵是评估预测分布与真实分布差异的指标,也是大模型训练中最常用的损失函数:$H(p, q) = -\sum_{i} p(i) \log q(i)$困惑度是评估语言模型的老牌指标,简单说就是预测下一个词有多"困难"。 计算公式:复制在实际项目中,我们常用它监控预训练过程。
4/10/2025 7:00:00 AM
贝塔街的万事屋

你的AI政策中应该包含的十件事

从理解AI在企业环境中的含义,到确保合规性,再到不忘第三方所扮演的角色,以下是制定AI政策时需要牢记的十个关键点。 GenAI的流行给企业带来了一个棘手的局面。 一方面,这是一种具有降低成本和增加收入潜力的颠覆性技术,另一方面,AI的滥用可能会颠覆整个行业,引发公关灾难、客户和员工的不满,以及安全漏洞。
4/10/2025 7:00:00 AM
Maria Korolov

刚刚!谷歌最强AI全家桶上线!自家主干网络都要公开对外用了!黄仁勋站台,最新TPU性能猛涨3600倍,提Agent通信新协议

编辑|云昭4月10凌晨,谷歌CEO皮查伊带着一系列重磅的发布亮相拉斯维加斯Next2025,可谓从底层的TPU芯片到上层的Agent构建,都有让人眼前一亮的新品。 1.性能提升3600倍,专为推理而生的TPU正式发布谷歌第七代 TPU Ironwood,它专为推理而设计。 皮查伊介绍道,相较于第一代云 TPU ,Ironwood 性能提升了 3600 倍,效率提升了 29 倍。
4/10/2025 6:16:33 AM
云昭

一文读懂 Agentic RAG 技术点滴

大型语言模型(Large Language Models, LLMs)彻底改变了我们与信息的交互方式。 然而,LLMs 完全依赖内部知识的局限性,常常限制了其在处理复杂问题时的准确性和深度。 正是在这一背景下,检索增强生成(Retrieval-Augmented Generation, RAG)应运而生。
4/10/2025 12:12:00 AM
Luga Lee

人人都可定制Agent应用,阿里云百炼全面支持MCP服务部署与调用

4月9日,阿里云百炼上线业界首个全生命周期MCP服务,无需用户管理资源、开发部署、工程运维等工作,5分钟即可快速搭建一个连接MCP服务的 Agent(智能体)。 百炼平台首批上线了高德、无影、Fetch、Notion等50多款阿里巴巴集团和三方MCP服务,覆盖生活信息、浏览器、信息处理、内容生成等领域,可满足不同场景的Agent应用开发需求。 阿里云百炼MCP服务上线,全面支持MCP服务部署与调用MCP已被公认为大模型连接软件应用的标准协议,短短数月,兼容MCP协议的软件应用呈现指数型增长,极大地拓宽了大模型的应用边界。
4/9/2025 2:37:09 PM

阿里云刘伟光:AI正在推动各行各业的生产力变革

“阿里云大模型的战略就是服务企业市场创造社会价值,AI正在推动各行各业的生产力变革,通义大模型将深耕企业市场。 ”4月9日,阿里云在京召开AI势能大会,阿里云智能集团资深副总裁、公共云事业部总裁刘伟光称,大模型的社会价值正在企业市场释放,阿里云将坚定投入,打造全栈领先的技术,持续开源开放,为AI应用提速。 近一年多来,通义大模型技术加速迭代,在to B和to C赛道都取得了一些进展,在消费端表现为用户体验的优化,在产业侧表现为生产力的极大提升。
4/9/2025 2:35:50 PM

量化单个细胞中表达的一半蛋白质组,质谱技术最新进展推动SCP发展

编辑丨coisini单细胞蛋白质组学(single-cell proteomics,SCP)是研究单个细胞内蛋白质表达多样性的研究领域。 自 2020 年以来,蛋白质组学在可达到的灵敏度方面实现了超过 100 倍的提升,这一成就得益于质谱仪设计的一系列改进以及结合机器学习的数据处理算法。 SCP 有潜力扩展现有分析工具集,但在吞吐量和蛋白质组深度方面仍受到限制。
4/9/2025 2:15:00 PM
ScienceAI

AI发论文被顶会接收?拿到6/7/6同行评审的AI Scientist-v2有多强,技术细节来了

编辑 | ScienceAI还记得 2024 年 8 月 Sakana AI 发布的 AI Scientist 吗? 全球首个用于自动化科学研究和开放式发现的 AI 系统。 如今它已经进化到了 AI Scientist-v2 版本,并且它生成的论文几乎达到被 AI 顶会接收的水平了!
4/9/2025 2:12:00 PM
ScienceAI

孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

神经辐射场(NeRF)及三维高斯泼溅(3D Gaussian Splatting,3DGS)虽能构建静态数字孪生,却无法模拟真实世界的动态,不仅限制了虚拟现实和混合现实的真实感,也是智能训练与Real2Sim2Real范式突破的关键瓶颈。 如何让数字孪生世界具备真实物理规律,实现可预测、可操控的动态环境,是自动驾驶、具身智能等空间智能应用亟待解决的核心挑战。 为此,北京大学陈宝权教授研究团队提出RainyGS技术(合作者为楚梦渝、陈文拯助理教授,博士生戴启宇、倪星宇和本科生沈千帆),探索了一条通向「孪生世界动态仿真」的新路径。
4/9/2025 1:25:34 PM
新智元

5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

今早,谷歌Deep Research迎来史上最强升级,正式搭载了Gemini 2.5 Pro全球顶尖模型。 这一次,新版本在以下方面得到显著的提升:分析推理:逻辑更清晰,结论更有深度信息整合:从海量数据中快速提炼要点,化繁为简报告洞察力:生成的报告不仅详尽,还能提供独到的见解。 谷歌CEO劈柴哥转发力挺。
4/9/2025 1:19:29 PM
新智元

南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。 目前已被集成至 Diffusers 与 ComfyUI。 论文标题:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址::: AI 的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。
4/9/2025 1:16:26 PM
机器之心

CVPR 2025 HighLight|打通视频到3D的最后一公里,清华团队推出一键式视频扩散模型VideoScene

论文有两位共同一作。 汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。 刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。
4/9/2025 1:11:27 PM
机器之心

论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

刚刚,alphaXiv 推出了新功能「Deep Research for arXiv」,该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读,显著提升文献检索及研究效率。 体验链接:,当用户输入「Can you help me do a lit review for self-supervised learning. with relevant applications?」时,系统迅速生成了一篇内容完整、结构清晰的文献综述,并提供了 arXiv 链接。
4/9/2025 12:48:13 PM
机器之心

CDO 的价值要求:通过 Agentic AI 推动业务影响

首席数据官 (CDO) 的角色发生了巨大变化。 曾经的后台职能已被推到业务战略的最前沿。 CDO 现在发现自己处于第一线,肩负着将人工智能和分析转化为切实的业务优势的任务,压力很大。
4/9/2025 12:39:46 PM
晓晓

鏖战企业级市场,AI Agent如何重塑智能商业未来?

在科技的浩瀚星河中,DeepSeek掀起的技术风暴余波未平,全球首款通用Agent产品Manus的惊艳登场,再度点燃了整个行业的激情,让科技圈为之沸腾。 暂且不论Manus自身性能究竟达到何种高度,其引发的从“被动应答”到“主动执行”的颠覆性范式跃迁,正以前所未有的态势,不断突破繁杂业务流程场景下智能化的边界,为企业级市场带来无限可能。 近期,IDC发布的《中国AI Agent应用市场概览(2025Q1)》,首次对中国AI Agent应用的市场格局进行了系统性梳理。
4/9/2025 12:30:41 PM

RAG还是微调?AI落地的关键选择

你是否曾经面临这样的困境:部门刚刚决定采用大语言模型解决业务痛点,但技术团队却陷入了"到底该用RAG还是微调"的激烈争论中? 一边是成本控制派,坚持RAG轻量级方案;另一边是性能至上派,认为只有微调才能满足业务需求。  让我们跳出技术视角,用真实业务场景来理解这两种方案。
4/9/2025 11:59:29 AM
大数据AI智能圈

斯坦福AI指数:重塑企业技术战略的五个关键见解

斯坦福以人为本AI研究所(HAI)发布了《2025年AI指数报告》,对AI的全球发展进行了数据驱动的分析。 过去几年,HAI一直在研发AI报告,其首个基准报告发布于2022年。 毋庸置疑,其间发生了诸多变化。
4/9/2025 11:25:36 AM
Sean

差距仅仅0.3%!李飞飞最新报告揭示:中美AI模型性能基本持平

你知道吗? 中美顶级AI模型的性能差距已经缩小到惊人的0.3%。 近日,由李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布《2025年人工智能指数报告》,这份长达456页的报告深度剖析了全球AI领域的最新趋势,给出了这一令人瞩目的结论。
4/9/2025 10:53:48 AM
舒云