RAG系列:系统评估 - 五个主流评估指标详解
引言在 RAG系列:一文让你由浅到深搞懂RAG实现 中,我们将 RAG 系统主要分为问题理解、检索召回以及答案生成这三个模块,因此对 RAG 系统的评估也是围绕问题(Question)、检索到的上下文(Retrieved Context)、实际答案(Actual Answer)、参考答案(Reference Answer)这四个维度开展,通过衡量这四个维度之间的相关性来评估 RAG 系统的有效性。 下面我们对每个指标一一展开讲解。 评估指标上下文召回率(Context Recall)衡量检索到的上下文是否覆盖参考答案所需的所有关键信息,避免遗漏关键信息。
5/23/2025 6:00:00 AM
燃哥讲AI
IT主管如何应对AI的巨大变化
自主式AI时代已经到来,它不仅带来了运营上的巨大变革,还承诺将提高生产力。 尽管前景光明,但CIO仍在努力应对早期创新浪潮遗留下来的深度变革任务。 在第22届麻省理工学院斯隆管理学院CIO研讨会上,这种紧张氛围尤为明显,技术高管们齐聚一堂,讨论了AI采用的长期影响。
5/23/2025 4:00:00 AM
Roberto
进化智能体 AlphaEvolve:科学发现与算法优化的新引擎
大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒
RAG系列:系统评估 - 构造QA测试数据集
引言在 RAG系列:基于 DeepSeek Chroma LangChain 开发一个简单 RAG 系统 中,我们搭建了一个基础版的 RAG 系统,实现了文档解析和切分 - 文档向量化存储 - 用户输入问题 - 根据问题检索相关知识 - 将检索到的知识和原问题重新组合成 prompt - 最后 LLM 根据增强后的 prompt 给出答案。 构造一个基础版的 RAG 系统是非常简单的,借助 LangChain 等框架可快速搭建出完整流程,代码也不会很多,但基础版的问答效果往往比较差,无法直接在实际业务中应用。 在 RAG系列:一文让你由浅到深搞懂RAG实现 中,我们将 RAG 系统主要分为问题理解、检索召回以及答案生成这三个模块。
5/23/2025 2:00:00 AM
阿里燃哥
实战:Dify智能体+Java=自动化运营服务!
我们在运营某个圈子的时候,可能每天都要将这个圈子的“热门新闻”发送到朋友圈或聊天群里,但依靠传统的实现手段非常耗时耗力,我们通常要先收集热门新闻,再组装要新闻内容,再根据内容设计海报等。 那怎么才能简化并高效的完成以上工作呢? 答案是我们可以借助 AI 工具:Dify Java 服务来实现热点新闻自动生成功能,最终生成效果如下:实现思路具体实现步骤如下:在 dify 中创建 Agent 应用。
5/23/2025 12:01:00 AM
磊哥
OpenAI 宣布“星际之门”首个国际部署项目落户阿联酋,并考虑扩张至亚太地区
OpenAI联合G42、Oracle、英伟达等科技巨头宣布在阿联酋建设首个国际AI基础设施项目Stargate UAE,首个200兆瓦AI集群预计2026年投入运营。OpenAI首席战略官下周将访问亚太探讨合作机会。#人工智能##OpenAI#
5/22/2025 11:08:36 PM
远洋
瑞典支付巨头 Klarna 一季度巨亏,曾称 AI 能替代 700 名全职客服
瑞典支付巨头Klarna一季度净亏损9900万美元,CEO曾高调宣称AI客服可替代700名全职员工,如今承认技术未达预期。公司暂缓IPO计划,信贷损失攀升至1.36亿美元。#Klarna巨亏##AI客服神话破灭#
5/22/2025 6:41:07 PM
辰辰
英国 AI 初创企业 Builder.ai 宣布破产,曾获微软投资
英国AI初创Builder.ai宣布进入破产程序,这家曾获微软等投资、融资超5亿美元的公司因财务问题无法继续运营。创始人已辞去CEO职务,公司现金储备被冻结。#科技初创##AI企业#
5/22/2025 6:21:25 PM
远洋
聊天机器人被指诱导 14 岁少年自杀,美国法官裁定谷歌须与 Character.AI 共同担责
这是美国首批涉及 AI 心理伤害责任的案件之一。诉状称,Garcia 的儿子在沉迷 Character.AI 的聊天机器人后走上绝路。
5/22/2025 6:02:47 PM
清源
字节发布14B参数多模态神器BAGEL,碾压Qwen2.5-VL,图像生成媲美SD3
字节跳动Seed团队在Hugging Face平台重磅发布BAGEL,一款基于混合专家(MoE)架构的开源多模态基础模型,拥有14亿总参数和7亿活跃参数。 BAGEL在数万亿token的交错多模态数据集上预训练,性能超越Qwen2.5-VL和InternVL-2.5,图像生成质量媲美SD3,并支持复杂推理任务如自由图像编辑、未来帧预测和3D生成,引发全球AI社区热议。 AIbase综合最新社交媒体动态,深入解析BAGEL的技术亮点及其对多模态AI领域的革命性影响。
5/22/2025 6:00:45 PM
AI在线
一图生万物?AI“神笔马良”3DTown,单张照片变3D城市,这波操作太秀了!
最近,一项黑科技直接颠覆了我们对3D 世界构建的认知!普林斯顿大学、哥伦比亚大学和一家叫 Cyberever AI 的公司,联手推出了一套名叫3DTown 的框架。 听名字就知道,它就是来帮你搞3D 城镇的!最骚的是什么?它能仅仅凭借一张俯视图,就能帮你生成一个逼真、连贯的3D 城镇场景! 而且,它还是个免训练(training-free)的框架,这意味着你不用费劲巴拉地去收集海量3D 数据来训练它,直接就能用!
5/22/2025 6:00:45 PM
AI在线
商汤科技推出元萝卜 AI 下棋机器人五合一版,京东 Joy Inside 首度合作
商汤科技旗下的家用机器人品牌 “元萝卜 SenseRobot” 在京东发布了与京东联合定制的新品 —— 元萝卜 AI 下棋机器人五合一版。 这款产品是京东 Joy Inside 系列的首款消费类智能硬件,专为3至12岁的儿童设计,旨在帮助孩子从零基础开始学习象棋、围棋、国际象棋、国际跳棋和五子棋五种棋类。 元萝卜 AI 下棋机器人不仅是孩子的棋类启蒙老师,还通过京东角色大模型驱动的对话智能体,激发孩子对人工智能的兴趣。
5/22/2025 6:00:45 PM
AI在线
美年健康联手阿里达摩院,AI 技术赋能体检筛查多种疾病
美年健康集团近日与阿里巴巴达摩院在上海举行战略合作签约仪式,双方将合作探索利用达摩院研发的“一扫多查”医疗 AI 技术进行癌症和慢性病等多种重大疾病的筛查,并将在智能体检服务等领域展开合作。 美年健康集团董事长俞熔和达摩院院长张建锋出席并见证了签约。 据介绍,达摩院首创的“一扫多查”AI 技术能够通过一次 CT 扫描识别多种人眼难以发现的病变,已应用于多种癌症(如胰腺癌、食管癌、胃癌、结直肠癌、肝癌)、慢性病(如骨质疏松、脂肪肝)以及主动脉综合征等急症。
5/22/2025 6:00:30 PM
AI在线
全球规模最大的单细胞基础大模型 CellFM 发布:基于国产超算,中山大学、华为等研发
该模型创新性地整合了超 1 亿人类单细胞数据(规模达同类 2 倍以上),构建了 8 亿参数的深度学习框架(参数量超同类 8 倍),在生物表征学习和跨数据集泛化能力上取得重大突破。
5/22/2025 5:55:33 PM
汪淼
李彦宏:百度模型研发重点在有实际应用价值的领域,不必每个方向都领先
百度创始人李彦宏在财报电话会上表示,百度将模型研发重点放在有实际应用价值的领域,不必每个方向都领先。他还透露,百度正积极洽谈无人驾驶合作,萝卜快跑有望成为长期增长核心驱动力。#百度财报# #无人驾驶#
5/22/2025 5:51:55 PM
远洋
全球首个全尺寸“机甲拳王”格斗赛落地深圳,人形机器人将上台比武
首个以“全尺寸类人身高”的人形机器人为竞技主体的赛事“众擎机器人自由格斗赛之‘机甲拳王’”将在深圳举办。
5/22/2025 5:31:02 PM
清源
赌赢就是iPhone2.0,赌输下一个AI Pin!OpenAI史上最大收购案:65亿刀,苹果旧将集结!网友:真赌徒,钱少但人疯
编辑 | 云昭用“疯狂买买买”来形容5月的OpenAI,再不为过! 要是有“AI初创公司求并购直播间”,OpenAI 妥妥的拿下“榜一大哥”! 先是30亿美金拿下AI编码市场老二Windsurf,一度被外界认为是OpenAI最大的收购案,紧接着又开始为自己的产品部门花重金聘任了新的 CEO,Simo。
5/22/2025 5:09:15 PM
云昭
腾讯混元 TurboS 技术报告全面揭秘,560B参数混合Mamba架构
腾讯发布了混元 TurboS 技术报告,揭示了其旗舰大语言模型 TurboS 的核心创新与强大能力。 根据全球权威大模型评测平台 Chatbot Arena 的最新排名,混元 TurboS 在239个参赛模型中位列第七,成为国内仅次于 Deepseek 的顶尖模型,并在国际上仅落后于谷歌、OpenAI 及 xAI 等几家机构。 混元 TurboS 模型的架构采用了创新的 Hybrid Transformer-Mamba 结构,这种新颖的设计结合了 Mamba 架构在处理长序列上的高效性与 Transformer 架构在上下文理解上的优势,从而实现了性能与效率的平衡。
5/22/2025 5:00:55 PM
AI在线
资讯热榜
昆仑万维面向全球发布天工超级智能体Skywork Super Agents
超多案例!让 Lovart 作图更好看更高效的提示词在这里了!
Flowith NEO发布!全球首款无限步骤、上下文与工具的AI Agent
昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!
Meta 发布巨型 AI 化学数据集 OMol25及通用模型 UMA
谷歌发布Flow AI剪辑工具:Veo3 与Imagen4 驱动、镜头控制与场景扩展
YouTube 推出 AI 广告新利器“Peak Points”,Gemini 精准捕捉用户注意力
DeepSeek-V3 发布新论文,揭示低成本大模型训练的奥秘
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
学习
GPT
Meta
图像
AI创作
技术
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
生成式
英伟达
蛋白质
开发者
腾讯
神经网络
Anthropic
研究
3D
计算
Sora
机器学习
AI设计
AI for Science
生成
苹果
GPU
AI视频
搜索
场景
华为
百度
训练
人形机器人
预测
伟达
Claude
xAI
深度学习
Transformer
大语言模型
智能体
字节跳动
模态
文本
具身智能
神器推荐
Copilot
驾驶
LLaMA
视觉
算力
API
应用
安全
干货合集
大型语言模型
视频生成
Agent
工具