中国工程院院士邬贺铨:AI 大模型仍需“大力出奇迹”、提升算力枢纽利用率
据中新社报道,中国工程院院士邬贺铨 19 日在 2024 北京人工智能生态大会上表示,人工智能是新质生产力的引擎,大模型的发展仍然需要“大力出奇迹”,多措并举提升对物理世界的模拟能力。算力、数据等是促进人工智能发展的关键要素。据AI在线此前报道,中国信通院 7 月数据显示,截至 2023 年,全国在用算力中心机架总规模已超过 810 万标准机架,算力总规模达到 230EFLOPS,位居全球第二。邬…- 5
- 0
Nature 曝惊人内幕:论文被天价卖出喂 AI,作者 0 收入
Nature 的一篇文章透露:你发过的 paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?全球数据告急,怎么办?论文来凑!最近,Nature 的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训 AI 了……据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练 AI 模型。一篇论文从酝酿 …- 13
- 0
最强 AI 程序员 Genie 砸饭碗:84 秒跑通代码,像人一样思考,团队仅 5 人
继 Devin 之后,又一个 AI 软件工程师被刷屏了 —— 它叫 Genie,号称目前地表最强,已经可以像人一样思考和行动了!那么这个“地表最强”,到底强到什么程度?先来看下评测分数。在权威榜单 SWE-Bench 中,Genie 以解决了 30.07% 问题的成绩夺得榜首。(SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名 19.27%,解锁了…- 5
- 0
「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落
人工智能系统依靠充足、高质量的训练数据来获得高性能,但 MIT 等机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。随着 GenAI 产品开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。最近,吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的「AI 数据荒」雪上加霜。研究人员发现,C4、RefineWeb、Dolma …- 5
- 0
OpenAI 宣布改变开发者大会举办形式,不会公布 GPT-5
8 月 6 日消息,去年,人工智能初创公司 OpenAI 在旧金山举办了首次开发者大会,声势浩大,并推出了包括最终未能成功的 GPT Store(类似苹果应用商店)在内的多款新产品和工具。然而,今年的活动将相对低调。本周一,OpenAI 宣布,将其 DevDay 开发者大会转型为一系列聚焦开发者的参与式会议。公司还确认,在 DevDay 期间不会发布下一代主旗舰模型,而是将重点放在其 API 和开…- 6
- 0
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑…- 16
- 0
突破传统缺陷检测的界限,”Defect Spectrum”首次实现超高精度丰富语义的工业缺陷检测。
在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“Defect Spectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“Defect…- 54
- 0
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
感谢AI在线网友 刺客 的线索投递!用 AI 生成的数据训练 AI,模型会崩溃?牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了 Nature 封面。如今,LLM 已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的,我们用网络数据训练出的 GPT-n,会发生什么?论文地址:,如果在训练中不加区别地使用 AI 产生的内容,模型就会出…- 5
- 0
ChatGPT用于科学,如何与你的数据对话?LLM帮你做科研
编辑 | 白菜叶「计算机,分析。」在科幻小说中,人物不需要编程技能来从数据中提取有意义的信息,他们只是简单地提出要求而已。现在,越来越多的公司正尝试利用大型语言模型 (LLM) 将这一幻想变成现实。这些功能强大的人工智能(AI)工具让研究人员能够用自然语言询问数据问题,例如「对照组和实验组有什么区别?」。但与科幻小说中的人工智能不同,这些人工智能给出的答案仍然需要谨慎对待,并经过仔细检查才能安全使…- 6
- 0
基于Transformer的新方法,可从纳米孔测序中准确预测DNA甲基化
编辑 | 萝卜皮DNA 甲基化在各种生物过程中起着重要作用,包括细胞分化、衰老和癌症发展。哺乳动物中最重要的甲基化是5-甲基胞嘧啶,主要发生在 CpG 二核苷酸的背景下。全基因组亚硫酸盐测序等测序方法可以成功检测 5-甲基胞嘧啶 DNA 修饰。然而,它们存在读取长度短的严重缺陷,可能会引入扩增偏差。新加坡 A*STAR 的研究人员开发了一种深度学习算法 Rockfish,该算法通过使用纳米孔测序(…- 7
- 0
苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型:5.7GB,涉及 4.8 万个频道 17.4 万个视频字幕
非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。 报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。该数据集由 Eleuth…- 3
- 0
诚邀您参与佐治亚理工与Nvidia联合举办的LLM4HWDesign@ICCAD2024竞赛!
由佐治亚理工EIC实验室与Nvidia公司联合举办的LLM4HWDesign@ICCAD 2024大赛正式启动!此次比赛旨在推动大语言模型(LLM)在辅助硬件设计中的性能,诚邀各界精英踊跃参与,共同探索自动化数据生成、收集、清洗和标注的方法,构建一个开源、大规模、高质量的硬件代码数据集,实现LLM辅助硬件设计领域的革命性变革。竞赛目标大赛的主要目标是通过探索构建和标注数据集的方法,来提升LLM在辅…- 4
- 0
北大千问团队推出数学专用版 CriticGPT,“找茬”让大模型进步更快
批评不仅能让人进步,也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上,它可以让模型的准确率从 86.6…- 6
- 0
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
感谢AI在线网友 刺客 的线索投递!ChatGPT 早已成为世界耗能大户:一天用掉超 50 万度电,相当于 1.7 万个美国家庭的用电量!然而,大模型对能源的吞噬,远不仅如此。国际能源署(IEA)预测,从 2022 年到 2026 年,数据中心的用电量将翻一番。随着 AI 计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从 2021 年到 22 年飙升了 34%,ChatGPT 每处理…- 25
- 0
百度智能云(乌镇)AI 数据产业基地启动,将实现当地 AI 原生应用全面落地
感谢“百度智能云”官方公众号发文宣布,由百度智能云与桐乡市乌镇大数据高新技术产业园区合作共建的百度智能云(乌镇)AI 数据产业基地今日正式启动。该基地位于桐乡市乌镇镇“直通乌镇”产业园,双方将携手打造 AI 基础数据要素流通交易集聚地,为乌镇发展大数据与人工智能产业注入新动能,目标是“全国领先”。AI在线从百度智能云方面获悉,乌镇具备健全的数据要素产业,将结合百度智能云千帆大模型、自动驾驶等技术,…- 22
- 0
蚂蚁团体WAIC发布大模型密算平台,助力大模型破解数据供应寻衅
大模型向下扎根深入行业,必须要破解高质量数据供应的寻衅。7月5日,2024年世界人工智能大会进入第二天,作为数据要素领域的主要技能效劳商,蚂蚁团体发布“暗语Cloud”大模型密算平台,通过软硬件结合的可托隐衷盘算技能,在大模型托管和大模型推理等环节实现数据密态流转,保护模型资产、数据危险和用户隐衷。当下,高质量数据供应和危险流通,成为大模型进入笔直产业利用的首要寻衅。其一,行业大模型要获得解决专科…- 20
- 0
腾讯云发布自研大数据高本能算计引擎Meson,本能最高晋升6倍
7月4日消息,腾讯云发布全新自研大数据高本能算计引擎Meson。通过软硬一体加快和智能技巧的综合应用,该引擎能显著为AI等场景下的大数据任意提供更优的算计本能,并节省更多算计资源。比如,在数据湖场景下,Meson能够助力单个数据查问综合提速6倍,在微信读书“AI问书”项目中,Meson助力大数据任意节省了9成的资源消耗。目前,Meson 已登陆腾讯云数据湖、搜索综合效劳、云数据仓库三大业务线,作为…- 22
- 0
调整多组学数据,华大基因团队图神经网络模型SpatialGlue登Nature子刊
编辑 | KX空间转录组学是继单细胞转录组学出现以来,在生物样本分解领域的又一重大进展。多组学数据的调整至关重要。近日,新加坡科技研讨局(A*STAR)、华大基因和上海交通大学医学院附属仁济医院等组成的研讨团队,提出了一种具有双注意力机制的图神经网络模型 SpatialGlue,能够以空间感知的方式调整多组学数据。SpatialGlue 能够有效地将多种数据模态与其各自的空间背景相结合,以揭示构造…- 12
- 0
有望发力搜索领域,OpenAI 收买数据库分析公司 Rockset
当地时间 6 月 21 日,OpenAI 宣布完成了对数据库检索和分析公司 Rockset 的收买。公司将调整 Rockset 的技术和人员,强化各项产物的检索基础设施。OpenAI 在新闻稿中强调,AI 将有机会改变人们组织、利用自身数据的方式,这便是公司收买 Rockset 的原因。后者是一个供应“世界级”的数据索引、盘问性能的及时分析数据库。据悉,Rockset 将使用户、开发人员和企业能够…- 5
- 0
微软正努力治疗 AI 幻觉,以技巧手段及时屏蔽和重写毫无根据的信息
就在 GPT-4 因征服标准化尝试而登上头条时,微软研究人员正在对其他 AI 模型进行一种非常另类的尝试 —— 一种旨在让模型捏造信息的尝试。为了治好这种被称为“AI 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型推戴,这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 担任项目的首席产物官 Sarah Bird 意味,“微软希望其所有 AI 系统都…- 8
- 0
英伟达开源 3400 亿巨兽:98% 分解数据训出最强开源通用模型,性能对标 GPT-4o
【新智元导读】刚刚,英伟达全新发布的开源模型 Nemotron-4 340B,有可能彻底改变训练 LLM 的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B 直接超越了 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和 GPT-4 掰手腕!就在刚刚,英伟达再一次证明了自己的 AI 创新领域的领导地位…- 11
- 0
揭秘100年环球陆地脱氧,上交大通过人工智能重修「窒息的陆地」,ICML已收录
作者 | 卢彬,韩璐羽陆地溶解氧是维持陆地生态系统功能的关键因子。然而,随着环球变暖和人类活动影响加剧,近年来陆地呈现脱氧趋势,日渐窒息的陆地对渔业发展、气候调节等多方面造成严重后果。近期,上海交通大学电子信息与电气工程学院王新兵、甘小莺教授团队联合上海交通大学陆地学院张经院士、周磊教授、周韫韬副教授,共同提出了一种稀薄陆地察看数据驱动的深度图学习模型 OxyGenerator,首次对 1920 …- 19
- 0
消息称苹果 AI 服务器将使用“神秘算计”技术来处置数据,保护用户隐衷
苹果即将在 WWDC 大会上公布其人工智能战术,该战术将作为 iOS 18 及其他操作系统更新的一部分发布。IT之家注意到,此前彭博社报导,苹果计划采用一种结合设置装备摆设端处置和服务器端处置的混合方式来兑现人工智能功能。然而,将用户数据处置转移至苹果的服务器也引发了隐衷方面的担忧,尤其是在苹果多年来一直大力推广设置装备摆设端处置的情况下。据《The Information》报导,苹果似乎找到了一…- 8
- 0
世界数据尺度化技巧委员会正式批复筹建
2024年5月24日下午,第七届数字华夏设置装备摆设峰会主论坛在福州召开。国度数据局党组书记、局长刘烈宏,国度市场监管总局党组成员、副局长,国度尺度委主任田世宏等出席会议。会上,田世宏宣读了“关于筹建世界数据尺度化技巧委员会的通知”。世界数据尺度化技巧委员会将负责数据资源、数据技巧、数据流畅、智慧城市、数字化转型等基础通用尺度,以及支撑数据流畅使用的数据基础设施尺度和保障数据流畅使用的安全尺度制修…- 3
- 0
数据
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!