数据

172个机构合作，发觉奇异粒子，机器学习阐明约1.6亿次粒子碰撞数据
ATLAS 事情显示了本研讨中神经网络发觉的与尺度模型展望偏差最大的八个事情之一。（来源：欧洲核子研讨中心）编辑 | X粒子物理学家的任务是挖掘大量不断增长的碰撞数据，寻觅尚未发觉的粒子证据。特别是，他们正在寻觅未包含在粒子物理尺度模型中的粒子，科学家怀疑我们目前对宇宙构成的明白是不完整的。近日，来自 ATLAS 合作组的 172 个研讨机构的科学家，使用一种受大脑启发的机器学习算法——神经网络，…
应用
- 8
- 0
ScienceAI4月18日
中国电信开源 TeleChat-12B 星斗语义大模型，年内开源千亿级参数大模型
感谢中国电信已开源 120 亿参数 TeleChat-12B 星斗语义大模型，还表示将于年内开源千亿级参数大模型。相较 1 月开源的 7B 版本，12 版版本在内容、性能和应用等方面整体后果晋升 30%，其中多轮推理、安全问题等领域晋升超 40%。据介绍，TeleChat-12B 将 7B 版本 1.5T 训练数据晋升至 3T，优化数据洗濯、标注策略，持续建立专项任务 SFT (监督微调) 数据，…
AI
- 6
- 0
问舟4月16日
你的自拍和聊天记录，正被硅谷大厂砸数十亿美圆疯抢
新智元报道编辑：Aeneas 好困【新智元导读】2026 年的数据荒越来越近，硅谷大厂们曾经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美圆，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。现在，硅谷大厂们曾经纷纷出动，买下所有能…
AI
- 7
- 0
远洋4月7日
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
本周早些时候，《华尔街日报》报导称 AI 公司在采集高质量训练数据方面碰到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的实质。报导称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报导提到，OpenAI 在…
AI
- 9
- 0
汪淼4月7日
弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书
离大谱了，弱智吧登上正经 AI 论文，还成了最好的华文训练数据？？具体来说，应用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是钻研团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项尝试中取得最高分。没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的华文社区，画风通常是这样的：最离谱的是，弱智吧 AI 代码能力也超…
AI
- 7
- 0
清源4月4日
联合国际顶尖高校昆仑万维开源数字智能体研发东西包AgentStudio
AgentStudio旨在为钻研人员和开发者供应一个覆盖智能体完整开发流程的综合性平台，让开发者们能够轻松、高效、灵活地构建专属数字智能体。
AI
- 23
- 0
机器之心3月30日
可用于训练“多见皮肤疾病”AI，google推出 SCIN 数据集
google民间新闻稿，google近日与斯坦福大学医学院合作，收集了涵盖各种肤色、身体部位皮肤疾病照片，整合而成一款用于 AI 训练的“SCIN 数据集”，该数据集号称“完全使用志愿者利用网络提交的照片”，因此号称可以“反映出人们多见的皮肤问题”。▲ 图源 google民间新闻稿（下同）google提到，业界许多调理专用的皮肤科影像数据集合一般为“重大疾病”，例如人们多见的皮疹、过敏、感染等照片…
AI
- 9
- 0
漾仔3月22日
腾讯AI Lab 3篇蛋白质组论文当选国际顶级期刊，为阐释性命提供重要技能参考
编辑 | ScienceAI只有蛋白质组才能从根本上阐释性命。3月20日，腾讯 AI Lab实验室3篇蛋白质组论文相继当选国际顶级学术期刊，论文分别在蛋白质组的检测、阐明以及探究发现方面提出全新的钻研方案，为人类从根本上阐释性命提供重要技能参考。科学界曾经认为，只要绘制出人类基因组序列图，就能了解疾病的根源，但事实并非如此。相同的基因往往有不同的表达，比如，人体不同构造器官的基因组是一样的，但是各…
理论
- 2
- 0
ScienceAI3月20日
大模型增速远超摩尔定律！MIT 最新钻研：人类快要喂不饱 AI 了
【新智元导读】近日，来自 MIT （麻省理工学院）的钻研职员发表了关于大模型才智增速的钻研，结果表明，LLM 的才智大约每 8 个月就会翻一倍，速率远超摩尔定律！硬件马上就要跟不上啦！我们人类可能要养不起 AI 了！近日，来自 MIT FutureTech 的钻研职员发表了一项关于大模型才智增长速率的钻研，结果表明：LLM 的才智大约每 8 个月就会翻一倍，速率远超摩尔定律！论文地址：的才智提升…
AI
- 7
- 0
清源3月18日
OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里
感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，没法明确说明 Sora 的训练数据来历。在采访中，尔子直接问询 Murati 关于 Sora 训练数据来历时，她仅以含糊的民间话术搪塞：“我们运用的是公然可用数据和允许数据。”当尔子追问具体来历能否包含 YouTube 视频时，Murati…
AI
- 9
- 0
远洋3月18日
LLaMA-2-7B数学威力上限已达97.7%？Xwin-Math利用分解数据解锁后劲
分解数据持续解锁大模型的数学推理后劲！数学课题办理威力一直被视为衡量言语模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学课题上表现出色。近日，一项由 Swin-Transformer 团队打造，来自西安交通大学、中国科学技术大学、清华大学和微软亚洲钻研院的学者共同完成的钻研工作 Xwin 颠覆了这一认知，揭示了通用预训练下 7B（即 70 亿参数）规模的…
工程
- 8
- 0
机器之心3月14日
星尘数据MorningStar正式发布！狙击“数据债”成最大看点
3月11日，AI数据技术公司星尘数据（Stardust AI）正式发布MorningStar——一款面向AI的数据闭环产品。 MorningStar是目前首个专注数据价值发现的AI数据平台，基于DataOps的理念打造，全面覆盖AI算法从训练到生产全链路中的数据发现、管理、协作、迭代等各个环节。 ▲MorningStar正式发布数据技术已经推动了人工智能的三次变革。
应用
- 972
- 0
王悦3月13日
更全面、更准确的格式，佐治亚理工学院团队用DL对scRNA-seq数据从事批次效力和前提效力建模
编辑 | 萝卜皮单细胞 RNA 测序 (scRNA-seq) 已广泛用于疾病钻研，其中在分别前提下（包括人口群体、疾病阶段和药物治疗）从捐赠者中收集样本批次。值得注意的是，此类钻研中样本批次之间的悬殊是批次效力引起的技巧混杂因素和前提效力引起的生物变异的混合体。但是，当前的去除批次效力格式往往同时肃清技巧批次效力和有意义的前提效力，而扰动展望格式仅关注前提效力，导致由于未考虑批次效力而导致基因表达…
应用
- 10
- 0
ScienceAI3月11日
OpenAI 视频生成效劳 Sora 引发隐衷担忧，意大利数据禁锢机构展开观察
感动意大利数据保护机构 (Garante) 周五宣布，已对微软支持的 OpenAI 公司开发的一项效劳展开观察，这个名为 Sora 的效劳可以根据文本提示生成视频。禁锢机构要求 OpenAI 廓清其向用户和非用户示知其产品 Sora 应用的数据的办法能否合乎欧盟律例。OpenAI 公司暂未对此事发表评论。意大利数据禁锢机构是欧盟国家中最为积极的禁锢机构之一，一直致力于评估人工智能平台能否合乎欧盟的…
AI
- 5
- 0
远洋3月10日
想搞AI，高中别学数据迷信：奥特曼、马斯克此刻终于一致了
高中阶段进修数据迷信能不能替代数学，这个话题的讨论已经延伸到了 AI 圈。为了 AI 的发展，再不加强本原教训就晚了。在大模型技术高速发展，各家公司激烈竞争的同时，有人站出来对于未来的人才表示了担忧，焦点在于数学。近日，加州大学（UC）系统对于退学新生设立数学本原规范的消息掀起了轩然大波。随着全国范围内数学成绩的下降，一些教训工作者认为，规范的代数密集型数学教训须要改革，既可以吸引更多的门生，也可…
应用
- 7
- 0
机器之心3月7日
可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架
编辑 | 红菜苔随着单细胞技术的发展，许多细胞特性可以被测量。此外，多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据，需要多模态数据集成的计算方法。树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust ，一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上，并增加了两个专为多模式数据处理设计的掩码模块：编码…
应用
- 6
- 0
ScienceAI2月5日
ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集
作者 | 田宇编辑 | 白菜叶近年来，人工智能模型的公道性问题受到了越来越多的关注，尤其是在医学领域，因为医学模型的公道性对人们的健康和生命至关重要。高质量的医学公道性数据集对促进公道进修钻研非常必要。现有的医学公道性数据集都是针对分类任务的，而没有可用于医学宰割的公道性数据集，但是医学宰割与分类一样都是非常重要的医学 AI 任务，在某些场景宰割甚至优于分类，因为它能够提供待临床医生评价的器官异常…
应用
- 7
- 0
ScienceAI1月23日
2023京东零卖技能年度盘点
过去一年，围绕开放生态建设、低价心智等主要方向，京东零卖技能团队持续攻坚。从百亿补贴、调整流量分配机制为用户提供低价品质好货，到简化商家进驻流程、优化商家体会，带动商家数量增长和平台生态活跃，再到将大模型结合到内部大量营业场景，探索服从提拔……快速响应、助力营业的同时，京东零卖技能团队继续夯实增强自身才能、探索创新。我们选取了11项有代表性的技能成果，与大家分享。供应链创新技能入围行业最高奖项京…
应用
- 16
- 0
机器之心1月23日
OpenLAM | 深度势能预训练大模型DPA-2发布
在迈向通用大原子模型（Large Atomic Model，LAM）的征途上，深度势能核心开发者团队面向社区，发起 OpenLAM 大原子模型意图。OpenLAM 的口号是“征服元素周期表！”，希望通过建立开源绽放的围绕微尺度大模型的生态，为微观科学研究提供新的基础设施，并推动材料、能源、生物制药等领域微尺度工业设计的变革。经过北京科学智能研究院、深势科技、北京运用物理与计算数学研究所等 29 家…
应用
- 34
- 0
ScienceAI23年12月28日
华东政法数据功令研究中心、蚂蚁团体等公布《数据跨域管控白皮书》
12月27日，在“第六届中国数据功令高峰论坛”上，《数据跨域管控白皮书》（以下简称“白皮书”）正式公布。该白皮书由华东政法大学数据功令研究中心、蚂蚁团体牵头，华控清交、华为云、中电数创、广州数据交易所等单位联合参与。白皮书首次系统化给出了数据跨域管控的实操指引，是行业积极响应国家数据流利政策，共同应对数据滥用、数据泄露、义务不清等数据流利危害挑战，助力数据价值释放的首要成果。（《数据跨域管控白皮…
应用
- 5
- 0
新闻助手23年12月28日
第四范式、南洋理工联合研究成果入围国际顶会 SIGMOD 2024
近日，第四范式与新加坡南洋理工大学教授Shuhao Zhang的最新联合研究成果（乱序数据流中实现积极缺点抵偿的流式窗口对接,论文标题 PECJ: Stream Window Join on Disorder Data Streams with Proactive Error Compensation），被国际顶级数据库学术会议 SIGMOD 2024 (ACM SIGMOD/PODS Inter…
应用
- 28
- 0
新闻助手23年12月18日
腾讯科技Hi Tech Day暨2023数字开物大会：智能涌现将通往无数的现在
腾讯科技讯 12月14日，以“智能涌现数开万物”为中心的腾讯科技Hi Tech Day暨2023数字开物大会在北京国家会议中心召开，腾讯科技邀请知名院士、知名经济学家、知名大学教授、研究院院长、家产大咖、互联网大厂高管、知名科技领域头部企业高管、家产数字化转型企业高管等共话AI趋势。大会开场，腾讯新闻运营总经理黄晨霞发表主办方致辞。她回顾了2023年新手艺的涌现开展，并提出如何让这些新手艺打开真…
应用
- 7
- 0
新闻助手23年12月16日
为通用人工智能提速，蚂蚁图较量争论连续四次突破权势巨子测评世界纪录
近日，国内联系关系数据基准委员会（Linked Data Benchmark Council，以下简称LDBC）发布了图数据基准测评“LDBC SNB-BI”最新结果。由蚂蚁集团自研的流式图较量争论引擎TuGraph Analytics在30TB领域的数据集上成功完成了基准尝试，数据领域和性能突破了此前美国某图数据库厂商的公开纪录，关键指标中的并发吞吐量提高至2.84倍，盘问才能提高至1.86倍。…
应用
- 13
- 0
新闻助手23年12月12日
哈工大与腾讯团队合作开发：一种专门针对蛋白质组数据设计的深度学习反卷积格式
编辑 | 萝卜皮细胞典型反卷积是一种用于从洪量测序数据中确定/解析细胞典型比例的计算格式，并且经常用于剖析肿瘤构造样本中的不同细胞典型。然而，由于重复性/再现性、参照标准可变以及缺乏单细胞蛋白质组参照数据的应战，使用蛋白质组数据剖析细胞典型的反卷积技巧仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研讨团队合作开发了一种专门针对蛋白质组数据设计的鉴于深度学习的反卷积格式…
理论
- 10
- 0
ScienceAI23年10月24日