数据

LightRAG: 港大黄超团队打造简单高效的RAG系统, 大幅降低大模型检索增强成本
项目地址：: ，结合了图结构与双层检索机制，显著降低了大模型检索增强的成本，同时提升了信息检索的准确性和效率。首先，通过引入图结构，LightRAG能够更好地捕捉实体之间的复杂依赖关系，实现全面的信息理解。其次，其双层检索策略允许系统同时处理具体和抽象的查询，确保用户获得既相关又丰富的响应。
理论
- 5
- 0
新闻助手10月14日
OpenAI 发布 MMMLU 数据集：更广、更深评估 AI 模型，支持简体中文
科技媒体 marktechpost 昨日（9 月 23 日）发布博文，报道称 OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解（MMMLU）数据集。背景随着语言模型日益强大，评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI 决定推出 MMMLU 数据集，通过提供强大的多语言和多任务数据集，来评估大型语言模型（LLMs）在各种任务中的性能，从而应对这…
应用
- 6
- 0
故渊9月24日
阿里国际发布最新开源多模态模型Ovis，多模态能力再升级
看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态大模型能够处理和理解多种不同类型的数据输入，例如文本、图像。与大型语言模型（LLMs）相比，大语言模型在处理和生成文本数据方面有专长，而多模态大…
应用
- 8
- 0
新闻助手9月19日
全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集：含 3750 张照片、分 15 项类别
以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集，供开发者开发和训练 AI 模型使用。AI在线获悉，该样本数据集包含 3,750 张照片，分为商业、教育、医疗健康、运动与健身、物品与物体、插图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容，可用于训练机器学习和 AI 模型，开发多种应用场景。▲ 相关图片选集目前，这一…
应用
- 69
- 0
漾仔9月9日
更高分辨率，更经济，深度生成模型与主动学习策略结合，推进大规模单细胞研究
编辑 | 萝卜皮单细胞测序是分析复杂疾病细胞复杂性的重要工具。然而，其高昂的成本阻碍了其在广泛的生物医学研究中的应用。传统的细胞反卷积方法可以从更便宜的批量测序数据中推断出细胞类型比例，但它们无法提供单细胞水平分析所需的精细分辨率。为了克服这一挑战，加拿大麦吉尔大学（McGill University）的研究人员引入了「scSemiProfiler」，这是一个创新的计算框架，将深度生成模型与主动学…
应用
- 15
- 0
ScienceAI9月3日
迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试
编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。Git…
理论
- 28
- 0
ScienceAI9月3日
谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型
谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。项目背景基数估计（cardinality estimation，简称 CE）是优化关系数据库查询性能的关键，涉及预测数据库查询将返回的中间结…
应用
- 13
- 0
故渊9月3日
美国加州通过人工智能训练数据透明度法案，要求企业披露 AI 模型数据来源
今日，美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案，该法案将提交给州长加文・纽瑟姆，但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时，对其使用的数据集进行更加透明的披露。AI在线注意到，这项由议员雅克・欧文提出的法案（AB 2013）原本适用范围更广，但在 8 月 20 日范围缩小至仅适用于生成式人工智能，即能生成文本、图像和类似内…
应用
- 10
- 0
远洋8月28日
Transformer 作者 Aidan Gomez 预警：只卖模型玩不过 OpenAI
Transformer 八子中最年轻的 Aidan Gomez 在最新的采访中感叹：只卖模型真的不赚钱！谷歌版的 Aidan Gomez，是给 AI 领域带来深远影响的 Transformer 作者之一。而现在的 Aidan Gomez，是估值飙升 55 亿美元的 Cohere 公司的联合创始人兼 CEO（此前推出了 Command R 系列开源大模型）。在这次与 20VC 主理人 Harry S…
应用
- 24
- 0
清源8月24日
明确了：文本数据中加点代码，训练出的大模型更强、更通用
代码知识原来这么重要。如今说起大语言模型（LLM），写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码，即使对于并非专门为代码设计的大模型来说，也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用，但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中，研究者系统地研究了代码数据对通用大模型性能的影响…
理论
- 40
- 0
机器之心8月22日
Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据
北京时间 8 月 21 日，近日，Meta 悄悄地发布了一款新的网络爬虫，用于搜索互联网并收集大量数据，为其人工智能模型提供支持。据三家追踪网络抓取器的公司称，Meta 新网络爬虫机器人 Meta External Agent 于上月推出，类似于 OpenAI 的 GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。根据使用档案历史记录显示，Meta 确实在 …
应用
- 17
- 0
余青8月21日
中国工程院院士邬贺铨：AI 大模型仍需“大力出奇迹”、提升算力枢纽利用率
据中新社报道，中国工程院院士邬贺铨 19 日在 2024 北京人工智能生态大会上表示，人工智能是新质生产力的引擎，大模型的发展仍然需要“大力出奇迹”，多措并举提升对物理世界的模拟能力。算力、数据等是促进人工智能发展的关键要素。据AI在线此前报道，中国信通院 7 月数据显示，截至 2023 年，全国在用算力中心机架总规模已超过 810 万标准机架，算力总规模达到 230EFLOPS，位居全球第二。邬…
应用
- 6
- 0
沛霖（实习）8月20日
Nature 曝惊人内幕：论文被天价卖出喂 AI，作者 0 收入
Nature 的一篇文章透露：你发过的 paper，很可能已经被拿去训练模型了！有的出版商靠卖数据，已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们，却拿不到一分钱，这合理吗？全球数据告急，怎么办？论文来凑！最近，Nature 的一篇文章向我们揭露了这样一个事实：连科研论文，都被薅去训 AI 了……据悉，很多学术出版商，已经向科技公司授权访问自家的论文，用来训练 AI 模型。一篇论文从酝酿 …
应用
- 19
- 0
汪淼8月15日
最强 AI 程序员 Genie 砸饭碗：84 秒跑通代码，像人一样思考，团队仅 5 人
继 Devin 之后，又一个 AI 软件工程师被刷屏了 —— 它叫 Genie，号称目前地表最强，已经可以像人一样思考和行动了！那么这个“地表最强”，到底强到什么程度？先来看下评测分数。在权威榜单 SWE-Bench 中，Genie 以解决了 30.07% 问题的成绩夺得榜首。（SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。）而这个成绩可谓是遥遥领先第二名 19.27%，解锁了…
应用
- 7
- 0
汪淼8月13日
「AI 数据荒」雪上加霜，MIT 发现网页数据的公开共享正走向衰落
人工智能系统依靠充足、高质量的训练数据来获得高性能，但 MIT 等机构最近的一项研究发现，曾经免费提供的数据在多个方面变得越来越难获取。随着 GenAI 产品开发和研究变得越来越广泛，训练数据的抓取许可也越来越成为受关注的话题。最近，吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究，其结果似乎让本就迫近的「AI 数据荒」雪上加霜。研究人员发现，C4、RefineWeb、Dolma …
应用
- 8
- 0
汪淼8月13日
OpenAI 宣布改变开发者大会举办形式，不会公布 GPT-5
8 月 6 日消息，去年，人工智能初创公司 OpenAI 在旧金山举办了首次开发者大会，声势浩大，并推出了包括最终未能成功的 GPT Store（类似苹果应用商店）在内的多款新产品和工具。然而，今年的活动将相对低调。本周一，OpenAI 宣布，将其 DevDay 开发者大会转型为一系列聚焦开发者的参与式会议。公司还确认，在 DevDay 期间不会发布下一代主旗舰模型，而是将重点放在其 API 和开…
应用
- 7
- 0
小小8月6日
英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码
适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑…
应用
- 18
- 0
清源7月29日
突破传统缺陷检测的界限，”Defect Spectrum”首次实现超高精度丰富语义的工业缺陷检测。
在现代制造业中，精准的缺陷检测不仅是保证产品质量的关键，更是提升生产效率的核心。然而，现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性，导致模型无法识别具体的缺陷类别或位置。为了解决这一难题，由香港科技大学广州和思谋科技组成的顶尖研究团队，创新性地开发出了“Defect Spectrum”数据集，为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示，相比其他工业数据集，“Defect…
理论
- 80
- 0
机器之心7月26日
AI 训 AI 遭投毒 9 次后大崩溃，牛津剑桥等发现登 Nature 封面
感谢AI在线网友刺客的线索投递！用 AI 生成的数据训练 AI，模型会崩溃？牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文，今天登上了 Nature 封面。如今，LLM 已经强势入侵了人类的互联网，极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的，我们用网络数据训练出的 GPT-n，会发生什么？论文地址：，如果在训练中不加区别地使用 AI 产生的内容，模型就会出…
应用
- 5
- 0
汪淼7月25日
ChatGPT用于科学，如何与你的数据对话？LLM帮你做科研
编辑 | 白菜叶「计算机，分析。」在科幻小说中，人物不需要编程技能来从数据中提取有意义的信息，他们只是简单地提出要求而已。现在，越来越多的公司正尝试利用大型语言模型 (LLM) 将这一幻想变成现实。这些功能强大的人工智能（AI）工具让研究人员能够用自然语言询问数据问题，例如「对照组和实验组有什么区别？」。但与科幻小说中的人工智能不同，这些人工智能给出的答案仍然需要谨慎对待，并经过仔细检查才能安全使…
理论
- 7
- 0
ScienceAI7月25日
基于Transformer的新方法，可从纳米孔测序中准确预测DNA甲基化
编辑 | 萝卜皮DNA 甲基化在各种生物过程中起着重要作用，包括细胞分化、衰老和癌症发展。哺乳动物中最重要的甲基化是5-甲基胞嘧啶，主要发生在 CpG 二核苷酸的背景下。全基因组亚硫酸盐测序等测序方法可以成功检测 5-甲基胞嘧啶 DNA 修饰。然而，它们存在读取长度短的严重缺陷，可能会引入扩增偏差。新加坡 A*STAR 的研究人员开发了一种深度学习算法 Rockfish，该算法通过使用纳米孔测序（…
应用
- 7
- 0
ScienceAI7月18日
苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型：5.7GB，涉及 4.8 万个频道 17.4 万个视频字幕
非营利性新闻工作室 ProofNews 昨日（7 月 16 日）发布博文，表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司，在训练其 AI 模型时均使用了来自 YouTube 的视频资源。报道称这些科技公司在训练其 AI 模型过程中，使用了名为 YouTube Subtitles 的数据集，大小为 5.7GB（4.89 亿个单词）。该数据集由 Eleuth…
应用
- 3
- 0
故渊7月17日
诚邀您参与佐治亚理工与Nvidia联合举办的LLM4HWDesign@ICCAD2024竞赛！
由佐治亚理工EIC实验室与Nvidia公司联合举办的LLM4HWDesign@ICCAD 2024大赛正式启动！此次比赛旨在推动大语言模型（LLM）在辅助硬件设计中的性能，诚邀各界精英踊跃参与，共同探索自动化数据生成、收集、清洗和标注的方法，构建一个开源、大规模、高质量的硬件代码数据集，实现LLM辅助硬件设计领域的革命性变革。竞赛目标大赛的主要目标是通过探索构建和标注数据集的方法，来提升LLM在辅…
应用
- 6
- 0
新闻助手7月15日
北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快
批评不仅能让人进步，也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下，验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上，它可以让模型的准确率从 86.6…
应用
- 10
- 0
清源7月8日