数据
揭秘100年全球海洋脱氧,上交大通过人工智能重建「窒息的海洋」,ICML已收录
作者 | 卢彬,韩璐羽海洋溶解氧是维持海洋生态系统功能的关键因子。然而,随着全球变暖和人类活动影响加剧,近年来海洋呈现脱氧趋势,日渐窒息的海洋对渔业发展、气候调节等多方面造成严重后果。近期,上海交通大学电子信息与电气工程学院王新兵、甘小莺教授团队联合上海交通大学海洋学院张经院士、周磊教授、周韫韬副教授,共同提出了一种稀疏海洋观测数据驱动的深度图学习模型 OxyGenerator,首次对 1920 年至 2023 年全球百年海域溶解氧数据进行重建,重建性能显著超越了专家经验主导的 CMIP6 系列数值模式结果。研究成
消息称苹果 AI 服务器将使用“机密计算”技术来处理数据,保护用户隐私
苹果即将在 WWDC 大会上公布其人工智能战略,该战略将作为 iOS 18 及其他操作系统更新的一部分发布。IT之家注意到,此前彭博社报道,苹果计划采用一种结合设备端处理和服务器端处理的混合方式来实现人工智能功能。然而,将用户数据处理转移至苹果的服务器也引发了隐私方面的担忧,尤其是在苹果多年来一直大力推广设备端处理的情况下。据《The Information》报道,苹果似乎找到了一个解决方案,既可以在其云端提供强大的 AI 处理能力,又能保持严格的隐私标准。《The Information》的报道称,苹果计划采用“
全国数据标准化技术委员会正式批复筹建
2024年5月24日下午,第七届数字中国建设峰会主论坛在福州召开。国家数据局党组书记、局长刘烈宏,国家市场监管总局党组成员、副局长,国家标准委主任田世宏等出席会议。会上,田世宏宣读了“关于筹建全国数据标准化技术委员会的通知”。全国数据标准化技术委员会将负责数据资源、数据技术、数据流通、智慧城市、数字化转型等基础通用标准,以及支撑数据流通利用的数据基础设施标准和保障数据流通利用的安全标准制修订工作。筹建单位和业务指导单位为国家数据局,秘书处承担单位为中国电子技术标准化研究院。全国数据标准化技术委员会将在国家数据局指导
估值飙至 138 亿美元,27 岁天才少年再获融资:数据标注会是下一个风口?
【新智元导读】Alexandr Wang 创办的 Scale AI 是一个为 AI 模型提供训练数据的数据标注平台,近期完成新一轮 10 亿美元融资,估值飙升至 138 亿美元。该公司表示将利用新资金生产丰富的前沿数据,为通向 AGI 铺平道路。Scale AI 为想要训练机器学习模型的公司提供数据标注服务,已从亚马逊和 Meta 等众多知名机构和企业投资者那里筹集了 10 亿美元的 F 轮融资。本轮融资由 Accel 领投,它之前还领投了 Scale AI 的 A 轮融资,并参与了后续的风险投资。这轮融资让 Sc
欧盟数据保护委员会:ChatGPT 的“数据准确性”仍未达标
据路透社报道,欧盟数据保护委员会的一个特别工作组近期表示,尽管 OpenAI 在减少 ChatGPT 输出信息的错误率上做出了一定努力,但它仍然不足以确保“完全符合”欧盟的数据规则。当地时间周五,该工作组发布了一份报告并指出,“为了遵守透明度的原则,OpenAI 采取了一些措施,也有利于避免 ChatGPT 输出错误信息,但这些措施仍然不足以遵守数据准确性的原则。”图源 PexelsIT之家注:以意大利政府为首的国家监管机构此前对广泛使用的 AI 服务提出了担忧,欧盟数据保护委员会随后成立了“ChatGPT 特别工
用 AI 预报未来 0-15 日天气状况,中国气象局发布气象预报大模型示范计划
据《中国气象报》消息,在日前的第七届数字中国建设峰会・数字气象分论坛期间,中国气象局发布了人工智能气象预报大模型示范计划。该计划旨在推进大模型标准规范和有序发展,引导解决预报业务实际难题,促进人工智能气象预报大模型业务的应用转化、准入,打造人工智能技术研发应用的创新生态。示范计划对象为人工智能气象预报大模型,将使用中国气象局提供的实时实况分析数据作为输入场,制作未来 0 至 15 天的气象预报。据悉,示范内容包含高空气象要素、地面气象要素、定量降水预报、台风路径及强度预报、灾害性天气过程预报等 5 类预报产品。上述
北京:推进数字疗法、AI 辅助治疗等产品研发应用,支持医疗大模型开发、落地
北京市人民政府办公厅今日印发《北京市加快医药健康协同创新行动计划(2024-2026 年)》,提到人工智能技术、大模型、算力等一系列内容。IT之家汇总部分重点任务:实施医疗大数据共享与应用。建设全市共享的门急诊、住院、体检、科研等电子病历体系。推动标准化、信息化临床研究数据共享,明确数据脱敏标准,打通医院之间数据链接。推动检验结果、医疗影像在全市三级医院实现互联互通互认。推动医院开展医疗大数据的登记、评估、流通,拓展在创新研发端应用。推动临床样本数字化管理使用。建立面向全市开放、充分保护隐私的临床样本共享信息系统和
提高光学数据集利用率,天大团队提出增强光谱预测效果 AI 模型
编辑 | 枯叶蝶近日,天津大学激光与光电子研究所吴亮副教授、姚建铨院士团队联合自然语言处理实验室熊德意教授团队报道了一种使用多频率补充输入的深度学习模型来增强光谱预测效果的方案。该方案可有效地提高现有光学数据集的利用率,在不额外增加训练成本的基础上,增强了与超表面结构对应的光谱响应的预测效果。相关研究成果以「Enhanced spectrum prediction using deep learning models with multi-frequency supplementary inputs」为题,于 20
绕过直接数值模拟或实验,生成扩散模型用于湍流研究
编辑 | 绿罗了解湍流平流粒子的统计和几何特性是一个具有挑战性的问题,对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物扩散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和实验方面做出了很多努力,但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特性。近日,意大利罗马第二大学(University of Rome Tor Vergata)的研究人员,提出了一种基于最先进的扩散模型的机器学习方法,可以在高雷诺数的三维湍流中生成单粒子轨迹,从而绕过直接数值模拟或实验来获得可
数据更多更好还是质量更高更好?这项研究能帮你做出选择
当计算预算低时,重复使用高质量数据更好;当不差钱时,使用大量数据更有利。对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练,简单来说就是「规模扩展」。虽然直接扩展模型规模看起来简单粗暴,但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法,所谓量变引起质变,这种观点也被称为神经扩展律(neural scaling laws)。近段时间,又有不少人认为「数据」才是那些当前最佳的闭源模型的关键,不管是 LLM、VLM 还是扩散模型。随着数据质量的重要性得到认可,已
ChatGPT 可以实时互动分析 Excel 数据了,网友挖出背后新模型
【新智元导读】GPT-4o 之后,ChatGPT 又迎来更新。这次,数据分析能力再上一个新台阶,将支持谷歌、微软在线文档上传,并实时交互,自定义图表。更重要的是,网友已经灰度测试到背后的新模型了。ChatGPT 更强了...刚刚,OpenAI 再次放出大招 ——ChatGPT 可以直接打开线上数据文件,完成实时数据分析。全新的增强功能,具体包括:- 直接从 Google Drive 和 Microsoft OneDrive 上传最新版本的文件- 在新的可扩展视图中与表格和图表进行交互- 自定义并下载图表,用于演示文
微软发布 MatterSim 模型:模拟材料、预测性能,AI 探索材料设计的无限可能
微软研究院科学智能中心(Microsoft Research AI for Science)近日推出 MatterSim 模型,能够在广泛的元素、温度和压力范围内,准确高效地模拟材料和预测性能,助力材料设计的数字化转型。新材料探索对纳米电子学、能量储存和医疗健康等多个领域的技术进步至关重要。材料设计中的一个核心难点是如何在不进行实际合成和测试的情况下预测材料属性。由于新材料可能涉及元素周期表中 118 种元素的任意组合,且其合成和工作温度、压力范围极广,这些因素极大地影响了材料内部原子的相互作用,使得准确预测材料属
Nature 子刊,纠缠数据有双重效应,武大、北大「量子纠缠」研究新进展
编辑 | X量子纠缠是量子计算的核心资源。将纠缠集成到量子机器学习(QML)模型的测量中,导致训练数据大小大幅减少,超过指定的预测误差阈值。然而,对数据纠缠度如何影响模型性能的分析理解仍然难以捉摸。在此,来自武汉大学、北京大学、南洋理工大学和悉尼大学的研究团队,通过建立量子「没有免费的午餐」 (no-free-lunch,NFL) 定理来解决这一知识差距。与之前的发现相反,研究证明纠缠数据对预测误差的影响表现出双重效应,具体取决于允许的测量数量。通过足够数量的测量,增加训练数据的纠缠可以一致地减少预测误差,或减小实
从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分析方法
编辑 | 萝卜皮近期,科学家在单个细胞内同时分析多组学模态的进展,使得细胞异质性和分子层次结构的研究成为可能。然而,技术限制导致多模态数据的高噪声和高昂的成本。在这里,南开大学的研究团队提出了 scButterfly,一种基于双对齐变分自动编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集的全面实验,研究人员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和揭示细胞类型特异性生物学解释方面优于基线方法。同时,scButterfly 可应用于单模态数据的综合多组学分析、低质量单
美国酝酿 AI「登月计划」,陶哲轩领衔 62 页报告重磅发布
【新智元导读】就在刚刚,陶哲轩领衔的一份 62 页报告出炉了,总结和预测了 AI 对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现,美国酝酿的 AI「登月计划」就将成真。就在刚刚,陶哲轩领衔的一份 AI 技术对全球研究潜在影响的技术报告发布了。这份报告长达 62 页,总结了 AI 对材料、半导体设计、气候、物理、生命科学等领域已经做出的改变,以及预测它们在未来可能由 AI 产生的改变。报告地址: AI 工具已经改变的科学领域的小插曲,陶哲轩等人还发出了三个呼吁 ——1.
平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法
编辑 | 萝卜皮使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。在这里,中山大学与重庆大学的研究人员提出了一种方法 SANGO,通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集
172个机构合作,发现奇异粒子,机器学习分析约1.6亿次粒子碰撞数据
ATLAS 事件显示了本研究中神经网络发现的与标准模型预测偏差最大的八个事件之一。(来源:欧洲核子研究中心)编辑 | X粒子物理学家的任务是挖掘大量不断增长的碰撞数据,寻找尚未发现的粒子证据。特别是,他们正在寻找未包含在粒子物理标准模型中的粒子,科学家怀疑我们目前对宇宙构成的理解是不完整的。近日,来自 ATLAS 合作组的 172 个研究机构的科学家,使用一种受大脑启发的机器学习算法——神经网络,来筛选大量粒子碰撞数据,搜索数据中的异常特征或异常现象。研究团队使用一种称为异常检测的机器学习方法来分析大量 ATLAS
中国电信开源 TeleChat-12B 星辰语义大模型,年内开源千亿级参数大模型
感谢中国电信已开源 120 亿参数 TeleChat-12B 星辰语义大模型,还表示将于年内开源千亿级参数大模型。相较 1 月开源的 7B 版本,12 版版本在内容、性能和应用等方面整体效果提升 30%,其中多轮推理、安全问题等领域提升超 40%。据介绍,TeleChat-12B 将 7B 版本 1.5T 训练数据提升至 3T,优化数据清洗、标注策略,持续构建专项任务 SFT (监督微调) 数据,优化数据构建规范,大大提升数据质量;同时,基于电信星辰大模型用户真实回流数据,优化奖励模型和强化学习模型,有效提升模型问