AI在线 AI在线

RAG系列:系统评估 - 五个主流评估指标详解

引言在 RAG系列:一文让你由浅到深搞懂RAG实现 中,我们将 RAG 系统主要分为问题理解、检索召回以及答案生成这三个模块,因此对 RAG 系统的评估也是围绕问题(Question)、检索到的上下文(Retrieved Context)、实际答案(Actual Answer)、参考答案(Reference Answer)这四个维度开展,通过衡量这四个维度之间的相关性来评估 RAG 系统的有效性。 下面我们对每个指标一一展开讲解。 评估指标上下文召回率(Context Recall)衡量检索到的上下文是否覆盖参考答案所需的所有关键信息,避免遗漏关键信息。
5/23/2025 6:00:00 AM
燃哥讲AI

IT主管如何应对AI的巨大变化

自主式AI时代已经到来,它不仅带来了运营上的巨大变革,还承诺将提高生产力。 尽管前景光明,但CIO仍在努力应对早期创新浪潮遗留下来的深度变革任务。 在第22届麻省理工学院斯隆管理学院CIO研讨会上,这种紧张氛围尤为明显,技术高管们齐聚一堂,讨论了AI采用的长期影响。
5/23/2025 4:00:00 AM
Roberto

进化智能体 AlphaEvolve:科学发现与算法优化的新引擎

大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒

RAG系列:系统评估 - 构造QA测试数据集

引言在 RAG系列:基于 DeepSeek Chroma LangChain 开发一个简单 RAG 系统 中,我们搭建了一个基础版的 RAG 系统,实现了文档解析和切分 - 文档向量化存储 - 用户输入问题 - 根据问题检索相关知识 - 将检索到的知识和原问题重新组合成 prompt - 最后 LLM 根据增强后的 prompt 给出答案。 构造一个基础版的 RAG 系统是非常简单的,借助 LangChain 等框架可快速搭建出完整流程,代码也不会很多,但基础版的问答效果往往比较差,无法直接在实际业务中应用。 在 RAG系列:一文让你由浅到深搞懂RAG实现 中,我们将 RAG 系统主要分为问题理解、检索召回以及答案生成这三个模块。
5/23/2025 2:00:00 AM
阿里燃哥

实战:Dify智能体+Java=自动化运营服务!

我们在运营某个圈子的时候,可能每天都要将这个圈子的“热门新闻”发送到朋友圈或聊天群里,但依靠传统的实现手段非常耗时耗力,我们通常要先收集热门新闻,再组装要新闻内容,再根据内容设计海报等。 那怎么才能简化并高效的完成以上工作呢? 答案是我们可以借助 AI 工具:Dify Java 服务来实现热点新闻自动生成功能,最终生成效果如下:实现思路具体实现步骤如下:在 dify 中创建 Agent 应用。
5/23/2025 12:01:00 AM
磊哥

OpenAI 宣布“星际之门”首个国际部署项目落户阿联酋,并考虑扩张至亚太地区

OpenAI联合G42、Oracle、英伟达等科技巨头宣布在阿联酋建设首个国际AI基础设施项目Stargate UAE,首个200兆瓦AI集群预计2026年投入运营。OpenAI首席战略官下周将访问亚太探讨合作机会。#人工智能##OpenAI#
5/22/2025 11:08:36 PM
远洋

瑞典支付巨头 Klarna 一季度巨亏,曾称 AI 能替代 700 名全职客服

瑞典支付巨头Klarna一季度净亏损9900万美元,CEO曾高调宣称AI客服可替代700名全职员工,如今承认技术未达预期。公司暂缓IPO计划,信贷损失攀升至1.36亿美元。#Klarna巨亏##AI客服神话破灭#
5/22/2025 6:41:07 PM
辰辰

英国 AI 初创企业 Builder.ai 宣布破产,曾获微软投资

英国AI初创Builder.ai宣布进入破产程序,这家曾获微软等投资、融资超5亿美元的公司因财务问题无法继续运营。创始人已辞去CEO职务,公司现金储备被冻结。#科技初创##AI企业#
5/22/2025 6:21:25 PM
远洋

聊天机器人被指诱导 14 岁少年自杀,美国法官裁定谷歌须与 Character.AI 共同担责

这是美国首批涉及 AI 心理伤害责任的案件之一。诉状称,Garcia 的儿子在沉迷 Character.AI 的聊天机器人后走上绝路。
5/22/2025 6:02:47 PM
清源

字节发布14B参数多模态神器BAGEL,碾压Qwen2.5-VL,图像生成媲美SD3

字节跳动Seed团队在Hugging Face平台重磅发布BAGEL,一款基于混合专家(MoE)架构的开源多模态基础模型,拥有14亿总参数和7亿活跃参数。 BAGEL在数万亿token的交错多模态数据集上预训练,性能超越Qwen2.5-VL和InternVL-2.5,图像生成质量媲美SD3,并支持复杂推理任务如自由图像编辑、未来帧预测和3D生成,引发全球AI社区热议。 AIbase综合最新社交媒体动态,深入解析BAGEL的技术亮点及其对多模态AI领域的革命性影响。
5/22/2025 6:00:45 PM
AI在线

一图生万物?AI“神笔马良”3DTown,单张照片变3D城市,这波操作太秀了!

最近,一项黑科技直接颠覆了我们对3D 世界构建的认知!普林斯顿大学、哥伦比亚大学和一家叫 Cyberever AI 的公司,联手推出了一套名叫3DTown 的框架。 听名字就知道,它就是来帮你搞3D 城镇的!最骚的是什么?它能仅仅凭借一张俯视图,就能帮你生成一个逼真、连贯的3D 城镇场景!  而且,它还是个免训练(training-free)的框架,这意味着你不用费劲巴拉地去收集海量3D 数据来训练它,直接就能用!
5/22/2025 6:00:45 PM
AI在线

​商汤科技推出元萝卜 AI 下棋机器人五合一版,京东 Joy Inside 首度合作

商汤科技旗下的家用机器人品牌 “元萝卜 SenseRobot” 在京东发布了与京东联合定制的新品 —— 元萝卜 AI 下棋机器人五合一版。 这款产品是京东 Joy Inside 系列的首款消费类智能硬件,专为3至12岁的儿童设计,旨在帮助孩子从零基础开始学习象棋、围棋、国际象棋、国际跳棋和五子棋五种棋类。 元萝卜 AI 下棋机器人不仅是孩子的棋类启蒙老师,还通过京东角色大模型驱动的对话智能体,激发孩子对人工智能的兴趣。
5/22/2025 6:00:45 PM
AI在线

美年健康联手阿里达摩院,AI 技术赋能体检筛查多种疾病

美年健康集团近日与阿里巴巴达摩院在上海举行战略合作签约仪式,双方将合作探索利用达摩院研发的“一扫多查”医疗 AI 技术进行癌症和慢性病等多种重大疾病的筛查,并将在智能体检服务等领域展开合作。 美年健康集团董事长俞熔和达摩院院长张建锋出席并见证了签约。 据介绍,达摩院首创的“一扫多查”AI 技术能够通过一次 CT 扫描识别多种人眼难以发现的病变,已应用于多种癌症(如胰腺癌、食管癌、胃癌、结直肠癌、肝癌)、慢性病(如骨质疏松、脂肪肝)以及主动脉综合征等急症。
5/22/2025 6:00:30 PM
AI在线

全球规模最大的单细胞基础大模型 CellFM 发布:基于国产超算,中山大学、华为等研发

该模型创新性地整合了超 1 亿人类单细胞数据(规模达同类 2 倍以上),构建了 8 亿参数的深度学习框架(参数量超同类 8 倍),在生物表征学习和跨数据集泛化能力上取得重大突破。
5/22/2025 5:55:33 PM
汪淼

李彦宏:百度模型研发重点在有实际应用价值的领域,不必每个方向都领先

百度创始人李彦宏在财报电话会上表示,百度将模型研发重点放在有实际应用价值的领域,不必每个方向都领先。他还透露,百度正积极洽谈无人驾驶合作,萝卜快跑有望成为长期增长核心驱动力。#百度财报# #无人驾驶#
5/22/2025 5:51:55 PM
远洋

全球首个全尺寸“机甲拳王”格斗赛落地深圳,人形机器人将上台比武

首个以“全尺寸类人身高”的人形机器人为竞技主体的赛事“众擎机器人自由格斗赛之‘机甲拳王’”将在深圳举办。
5/22/2025 5:31:02 PM
清源

赌赢就是iPhone2.0,赌输下一个AI Pin!OpenAI史上最大收购案:65亿刀,苹果旧将集结!网友:真赌徒,钱少但人疯

编辑 | 云昭用“疯狂买买买”来形容5月的OpenAI,再不为过! 要是有“AI初创公司求并购直播间”,OpenAI 妥妥的拿下“榜一大哥”! 先是30亿美金拿下AI编码市场老二Windsurf,一度被外界认为是OpenAI最大的收购案,紧接着又开始为自己的产品部门花重金聘任了新的 CEO,Simo。
5/22/2025 5:09:15 PM
云昭

​腾讯混元 TurboS 技术报告全面揭秘,560B参数混合Mamba架构

腾讯发布了混元 TurboS 技术报告,揭示了其旗舰大语言模型 TurboS 的核心创新与强大能力。 根据全球权威大模型评测平台 Chatbot Arena 的最新排名,混元 TurboS 在239个参赛模型中位列第七,成为国内仅次于 Deepseek 的顶尖模型,并在国际上仅落后于谷歌、OpenAI 及 xAI 等几家机构。 混元 TurboS 模型的架构采用了创新的 Hybrid Transformer-Mamba 结构,这种新颖的设计结合了 Mamba 架构在处理长序列上的高效性与 Transformer 架构在上下文理解上的优势,从而实现了性能与效率的平衡。
5/22/2025 5:00:55 PM
AI在线