检索

RAG：让大模型知道更多东西
虽然我们说大模型的特点之一是知识丰富，但这里的知识仅限于通用的知识，也就是网上能够很容易找到的知识。对于一些特定的知识，比如你所在业务领域的知识，它就一无所知了。个中缘由，不言而喻，大模型训练时，根本不可能拿到你们公司的数据。
理论
- 974
- 0
greencoatman12月4日
解读GraphRAG
RAG 结合了大型语言模型和信息检索模型的力量，允许它们用从大量文本数据中提取的相关事实和细节来补充生成的响应。事实证明，这种方法在提高模型输出的实际准确性和总体质量方面是有效的。图片然而，随着 RAG 系统得到更广泛的采用，它们的局限性开始浮出水面，具体而言：平面检索: RAG 将每个文档作为一个独立的信息。
理论
- 975
- 0
曹洪伟11月26日
LightRAG: 港大黄超团队打造简单高效的RAG系统, 大幅降低大模型检索增强成本
项目地址：: ，结合了图结构与双层检索机制，显著降低了大模型检索增强的成本，同时提升了信息检索的准确性和效率。首先，通过引入图结构，LightRAG能够更好地捕捉实体之间的复杂依赖关系，实现全面的信息理解。其次，其双层检索策略允许系统同时处理具体和抽象的查询，确保用户获得既相关又丰富的响应。
理论
- 5
- 0
新闻助手10月14日
OpenAI 翁荔提出大模型「外在幻觉」：万字 blog 详解抵抗办法、产幻原因和检测方式
大模型幻觉还分内在、外在了 ——OpenAI 科学家翁荔最新 Blog，提出 LLM 外在幻觉（extrinsic hallucination）。有别于代指模型生成与现实不符、虚构、不一致或者毫无意义的内容，翁荔将 LLM“幻觉”问题具体化为模型输出内容是虚构的，并且不基于所提供的上下文或世界知识。由此，幻觉有两种类型：上下文内幻觉：模型输出应该与上下文中的源内容一致（出现上下文内幻觉时，输出与源…
应用
- 18
- 0
清源7月13日
有望发力搜索领域，OpenAI 收买数据库分析公司 Rockset
当地时间 6 月 21 日，OpenAI 宣布完成了对数据库检索和分析公司 Rockset 的收买。公司将调整 Rockset 的技术和人员，强化各项产物的检索基础设施。OpenAI 在新闻稿中强调，AI 将有机会改变人们组织、利用自身数据的方式，这便是公司收买 Rockset 的原因。后者是一个供应“世界级”的数据索引、盘问性能的及时分析数据库。据悉，Rockset 将使用户、开发人员和企业能够…
AI
- 5
- 0
清源6月22日
内置10000+Github 热门代码库，baidu正式发布Comate代码常识加强2.0
5月18日，iTechClub华北区第七届互联网技术精英高峰论坛举行，baidu工程效能部总监臧志带来“迈向人机协同的AI原生研发新范式”主题演讲。他重磅发布了baidu智能代码帮忙Comate最新成果——Comate代码常识加强2.0，这是国内首个撑持及时检索的智能代码帮忙，内置超过10000个Github 热门代码库，这为全球开发者带来了前所未有的编程体验。作为本次大会的亮点之一，Comate…
工程
- 8
- 0
新闻助手5月22日
狂奔一年后的向量数据库，何去何从？｜对话 MyScaleDB
2023 年可以说是大模型元年，借着大模型的东风，向量数据库也迎来了大爆发，被带到了更高的关注度上。一方面，向量数据库和 RAG 得到广泛的关注和认可，是因为他们的确可以解决一些短期内大模型无法攻克的难题，比如模型幻觉题目等。同时，在尝试用向量数据库和 RAG 做场景落地的时候，效果也还不错。不过另一方面，我们也无法回避对他们普遍的困惑与争议，比如向量数据库是否已经凉了，以及如今势头正盛的 RAG…
理论
- 4
- 0
机器之心5月14日
Snowflake 开源 Arctic embed，号称全球最实用的检索文本嵌入 AI 模型
Snowflake 公司近日发布新闻稿，宣布在 Apache 2.0 许可下，推出开源 Arctic embed 系列模型。根据 MTEB（衡量文本嵌入模型的评估指标合集）的检索（Retrieval）排行榜，Arctic embed 系列最大模型参数只有 3.34 亿个，是唯一一个平均检索功能超过 55.9 的模型。感兴趣的用户目前可以会见 Hugging Face 使用 Arctic embed…
AI
- 10
- 0
故渊4月17日
ICCV 2023 | 重塑人体作为生成，融合集中模型与检索策略的新范式ReMoDiffuse来了
来自南洋理工大学和商汤科技的研究者联合提出了一种全新的文本驱动作为生成框架——ReMoDiffuse。
AI
- 11
- 0
MMLab23年9月27日
言语模型悄悄偷懒？新研究：上下文太长，模型会略过中间不看
言语模型：太长我不看。
AI
- 9
- 0
机器之心23年7月24日
对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军
近日，在 AI 顶会 NeurIPS 2021 的图象近似度寻衅赛中（Image Similarity Challenge），来自腾讯在线视频 BU-AI 技巧中心的团队，在 Matching Track 赛道战胜来自全球 1000 多支队伍，荣获季军。
AI
- 6
- 0
机器之心22年1月9日
参数量仅为4%，性能媲美GPT-3：开发者图解DeepMind的RETRO
构建越来越大的模型并不是提高性能的唯一方法。
AI
- 35
- 0
机器之心22年1月4日
ACL 2021 | 腾讯AI Lab、港中文杰出论文：用单语影象实现高机能NMT
在 ACL 2021 的一篇杰出论文中，钻研者提出了一种基于单语数据的模型，机能却优于应用双语 TM 的「TM-augmented NMT」基线方式。自然语言处理（NLP）领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。据官方数据, 本届 ACL 共收到 3350 篇论文投稿，其中主会论文录用率为 21.3%。腾讯 AI Lab 共入选 25 篇论文（含 9 篇 findi…
AI
- 18
- 0
机器之心21年8月5日
淘宝推荐、视频搜刮背后的检索技能：深度揭秘达摩院向量检索引擎Proxima
淘宝搜刮推荐、视频搜刮背后使用了什么样的检索技能？非结构化数据检索，向量检索，以及多模态检索，它们到底处理了什么题目？今天由阿里达摩院的科学家从业务题目出发，抽丝剥茧，深度揭秘达摩院内部技能，向量检索引擎 Proxima，以及相关领域的现状、挑战和未来。
AI
- 6
- 0
特邀精选21年3月8日