数据

估值飙至 138 亿美元，27 岁天才少年再获融资：数据标注会是下一个风口？
【新智元导读】Alexandr Wang 兴办的 Scale AI 是一个为 AI 模型提供训练数据的数据标注平台，近期完成新一轮 10 亿美元融资，估值飙升至 138 亿美元。该公司表示将利用新资金生产丰富的前沿数据，为通向 AGI 铺平道路。Scale AI 为想要训练呆板进修模型的公司提供数据标注服务，已从亚马逊和 Meta 等众多知名机构和企业投资者那里筹集了 10 亿美元的 F 轮融资。…
AI
- 4
- 0
清源5月25日
欧盟数据保护委员会：ChatGPT 的“数据精确性”仍未达标
据路透社报道，欧盟数据保护委员会的一个出格工作组近期表示，尽管 OpenAI 在减少 ChatGPT 输入信息的错误率上做出了一定努力，但它仍旧不足以确保“完全符合”欧盟的数据条例。当地时间周五，该工作组发布了一份通知并指出，“为了遵照透明度的准则，OpenAI 采取了一些步伐，也有利于避免 ChatGPT 输入错误信息，但这些步伐仍旧不足以遵照数据精确性的准则。”图源 PexelsIT之家注：以…
AI
- 5
- 0
清源5月25日
用 AI 预告未来 0-15 日气候状况，中国局面局颁布局面预告大模型树模筹划
据《中国局面报》消息，在日前的第七届数字中国建设峰会・数字局面分论坛期间，中国局面局颁布了人工智能局面预告大模型树模筹划。该筹划旨在推进大模型标准规范和有序发展，引诱解决预告交易实际难题，促进人工智能局面预告大模型交易的利用转化、准入，打造人工智能技术研发利用的创新生态。树模筹划对象为人工智能局面预告大模型，将使用中国局面局提供的及时实情剖析数据作为输入场，制作未来 0 至 15 天的局面预告。据…
AI
- 4
- 0
清源5月24日
北京：推进数字疗法、AI 辅助治疗等产品研发使用，支持调理大模型开发、落地
北京市人民政府办公厅今日印发《北京市放慢医药健康配合翻新行动计划（2024-2026 年）》，提到人工智能手艺、大模型、算力等一系列内容。IT之家汇总部分重点任务：实施调理大数据同享与使用。修复全市同享的门急诊、住院、体检、科研等电子病历体系。鞭策标准化、信息化临床研究数据同享，明确数据脱敏标准，打通病院之间数据链接。鞭策检验结果、调理影像在全市三级病院实现互联互通互认。鞭策病院展开调理大数据的登…
AI
- 5
- 0
清源5月23日
提高光学数据集利用率，天大团队提出增强光谱猜测成效 AI 模型
编辑 | 枯叶蝶近日，天津大学激光与光电子研讨所吴亮副教授、姚建铨院士团队联合自然语言处理实验室熊德意教授团队报道了一种使用多频次补偿输出的深度进修模型来增强光谱猜测成效的方案。该方案可无效地提高现有光学数据集的利用率，在不额外增加训练成本的基础上，增强了与超外表结构对应的光谱响应的猜测成效。有关研讨成果以「Enhanced spectrum prediction using deep learn…
理论
- 11
- 0
ScienceAI5月22日
绕过直接数值模拟或试验，生成分散模型用于湍流研究
编辑 | 绿罗了解湍流平流粒子的统计和几何特点是一个拥有挑战性的问题，对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物分散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和试验方面做出了很多努力，但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特点。近日，意大利罗马第二大学（University of Rome Tor Vergata）的研究人员，提…
理论
- 4
- 0
ScienceAI5月20日
数据更多更好还是品质更高更好？这项研讨能帮你做出选择
当计较估算低时，反复运用高品质数据更好；当不差钱时，运用大量数据更有利。对基础模型从事 scaling 是指运用更多数据、计较和参数从事预训练，简单来说就是「范围扩张」。虽然直接扩张模型范围看起来简单粗暴，但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研讨都认可扩大神经模型范围的做法，所谓量变引起质变，这种观点也被称为神经扩张律（neural scaling laws）。近段时间，又有不…
工程
- 9
- 0
机器之心5月20日
ChatGPT 可以实时互动分解 Excel 数据了，网友挖出背后新模型
【新智元导读】GPT-4o 之后，ChatGPT 又迎来更新。这次，数据分解才能再上一个新台阶，将支持google、微软在线文档上传，并实时交互，自定义图表。更重要的是，网友已经灰度尝试到背后的新模型了。ChatGPT 更强了...刚刚，OpenAI 再次放出大招 ——ChatGPT 可以直接打开线上数据文献，完成实时数据分解。全新的增强功能，具体包括：- 直接从 Google Drive 和 M…
AI
- 9
- 0
清源5月17日
微软发布 MatterSim 模型：模仿质料、猜测功能，AI 探索质料设想的无限可能
微软研究院科学智能中心（Microsoft Research AI for Science）近日推出 MatterSim 模型，可以在广泛的元素、温度和压力规模内，精确高效地模仿质料和猜测功能，助力质料设想的数字化转型。新质料探索对纳米电子学、能量储存和医疗健康等多个领域的技巧进步至关重要。质料设想中的一个核心难点是如何在不举行实际分解和测试的情况下猜测质料属性。由于新质料可能涉及元素周期表中 1…
AI
- 11
- 0
故渊5月15日
Nature 子刊，胶葛数据有两重效应，武大、北大「量子胶葛」研讨新进展
编辑 | X量子胶葛是量子计算的核心资源。将胶葛集成到量子机械进修（QML）模型的丈量中，导致训练数据巨细大幅减少，超过指定的展望缺点阈值。然而，对数据胶葛度如何作用模型功能的分析理解仍然难以捉摸。在此，来自武汉大学、北京大学、南洋理工大学和悉尼大学的研讨团队，通过建立量子「没有免费的午饭」 (no-free-lunch，NFL) 定理来解决这一知识差距。与之前的发现相反，研讨证明胶葛数据对展望缺…
理论
- 7
- 0
ScienceAI5月8日
从基因组到蛋白质组连续翻译，南开大学开发通用跨模态数据分解步骤
编辑 | 萝卜皮近期，科学家在单个细胞内同时分解多组学模态的进展，使得细胞异质性和分子层次结构的钻研成为可能。然而，技术限制导致多模态数据的高噪声和高昂的成本。在这里，南开大学的钻研团队提出了 scButterfly，一种基于双对齐变分自动编码器和数据巩固方案的多功能单细胞跨模态翻译步骤。通过对多个数据集的全面实验，钻研职员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和…
理论
- 5
- 0
ScienceAI5月4日
美国酝酿 AI「登月计划」，陶哲轩领衔 62 页报告重磅发布
【新智元导读】就在刚刚，陶哲轩领衔的一份 62 页报告出炉了，总结和展望了 AI 对半导体、超导体、宇宙底子物理学、生命迷信等畛域带来的巨大改变。如果这些展望在几十年后不妨完成，美国酝酿的 AI「登月计划」就将成真。就在刚刚，陶哲轩领衔的一份 AI 技巧对全球钻研潜在影响的技巧报告发布了。这份报告长达 62 页，总结了 AI 对质料、半导体设想、气候、物理、生命迷信等畛域已经做出的改变，以及展望它…
AI
- 7
- 0
清源5月1日
平均准确率达96.4%，中山大学&重庆大学开发基于Transformer的单细胞诠释办法
编辑 | 萝卜皮使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定，可在单细胞分辨率下深入了解基因调控和表观遗传异质性，但由于数据的高维性和极度稀少性，scATAC-seq 的细胞诠释仍然具有挑战性。现有的细胞诠释办法大多集中在细胞峰矩阵上，而没有充分利用底层的基因组序列。在这里，中山大学与重庆大学的研究人员提出了一种办法 SANGO，通过在 scATAC 数据中的可及性峰…
理论
- 4
- 0
ScienceAI4月29日
172个机构合作，发觉奇异粒子，机器学习阐明约1.6亿次粒子碰撞数据
ATLAS 事情显示了本研讨中神经网络发觉的与尺度模型展望偏差最大的八个事情之一。（来源：欧洲核子研讨中心）编辑 | X粒子物理学家的任务是挖掘大量不断增长的碰撞数据，寻觅尚未发觉的粒子证据。特别是，他们正在寻觅未包含在粒子物理尺度模型中的粒子，科学家怀疑我们目前对宇宙构成的明白是不完整的。近日，来自 ATLAS 合作组的 172 个研讨机构的科学家，使用一种受大脑启发的机器学习算法——神经网络，…
应用
- 6
- 0
ScienceAI4月18日
中国电信开源 TeleChat-12B 星斗语义大模型，年内开源千亿级参数大模型
感谢中国电信已开源 120 亿参数 TeleChat-12B 星斗语义大模型，还表示将于年内开源千亿级参数大模型。相较 1 月开源的 7B 版本，12 版版本在内容、性能和应用等方面整体后果晋升 30%，其中多轮推理、安全问题等领域晋升超 40%。据介绍，TeleChat-12B 将 7B 版本 1.5T 训练数据晋升至 3T，优化数据洗濯、标注策略，持续建立专项任务 SFT (监督微调) 数据，…
AI
- 4
- 0
问舟4月16日
你的自拍和聊天记录，正被硅谷大厂砸数十亿美圆疯抢
新智元报道编辑：Aeneas 好困【新智元导读】2026 年的数据荒越来越近，硅谷大厂们曾经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美圆，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。现在，硅谷大厂们曾经纷纷出动，买下所有能…
AI
- 4
- 0
远洋4月7日
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
本周早些时候，《华尔街日报》报导称 AI 公司在采集高质量训练数据方面碰到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的实质。报导称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报导提到，OpenAI 在…
AI
- 6
- 0
汪淼4月7日
弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书
离大谱了，弱智吧登上正经 AI 论文，还成了最好的华文训练数据？？具体来说，应用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是钻研团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项尝试中取得最高分。没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的华文社区，画风通常是这样的：最离谱的是，弱智吧 AI 代码能力也超…
AI
- 6
- 0
清源4月4日
联合国际顶尖高校昆仑万维开源数字智能体研发东西包AgentStudio
AgentStudio旨在为钻研人员和开发者供应一个覆盖智能体完整开发流程的综合性平台，让开发者们能够轻松、高效、灵活地构建专属数字智能体。
AI
- 20
- 0
机器之心3月30日
可用于训练“多见皮肤疾病”AI，google推出 SCIN 数据集
google民间新闻稿，google近日与斯坦福大学医学院合作，收集了涵盖各种肤色、身体部位皮肤疾病照片，整合而成一款用于 AI 训练的“SCIN 数据集”，该数据集号称“完全使用志愿者利用网络提交的照片”，因此号称可以“反映出人们多见的皮肤问题”。▲ 图源 google民间新闻稿（下同）google提到，业界许多调理专用的皮肤科影像数据集合一般为“重大疾病”，例如人们多见的皮疹、过敏、感染等照片…
AI
- 7
- 0
漾仔3月22日
腾讯AI Lab 3篇蛋白质组论文当选国际顶级期刊，为阐释性命提供重要技能参考
编辑 | ScienceAI只有蛋白质组才能从根本上阐释性命。3月20日，腾讯 AI Lab实验室3篇蛋白质组论文相继当选国际顶级学术期刊，论文分别在蛋白质组的检测、阐明以及探究发现方面提出全新的钻研方案，为人类从根本上阐释性命提供重要技能参考。科学界曾经认为，只要绘制出人类基因组序列图，就能了解疾病的根源，但事实并非如此。相同的基因往往有不同的表达，比如，人体不同构造器官的基因组是一样的，但是各…
理论
- 2
- 0
ScienceAI3月20日
大模型增速远超摩尔定律！MIT 最新钻研：人类快要喂不饱 AI 了
【新智元导读】近日，来自 MIT （麻省理工学院）的钻研职员发表了关于大模型才智增速的钻研，结果表明，LLM 的才智大约每 8 个月就会翻一倍，速率远超摩尔定律！硬件马上就要跟不上啦！我们人类可能要养不起 AI 了！近日，来自 MIT FutureTech 的钻研职员发表了一项关于大模型才智增长速率的钻研，结果表明：LLM 的才智大约每 8 个月就会翻一倍，速率远超摩尔定律！论文地址：的才智提升…
AI
- 6
- 0
清源3月18日
OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里
感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，没法明确说明 Sora 的训练数据来历。在采访中，尔子直接问询 Murati 关于 Sora 训练数据来历时，她仅以含糊的民间话术搪塞：“我们运用的是公然可用数据和允许数据。”当尔子追问具体来历能否包含 YouTube 视频时，Murati…
AI
- 9
- 0
远洋3月18日
LLaMA-2-7B数学威力上限已达97.7%？Xwin-Math利用分解数据解锁后劲
分解数据持续解锁大模型的数学推理后劲！数学课题办理威力一直被视为衡量言语模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学课题上表现出色。近日，一项由 Swin-Transformer 团队打造，来自西安交通大学、中国科学技术大学、清华大学和微软亚洲钻研院的学者共同完成的钻研工作 Xwin 颠覆了这一认知，揭示了通用预训练下 7B（即 70 亿参数）规模的…
工程
- 5
- 0
机器之心3月14日