训练

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪
又一个看似坚固无比的数学理论，被证伪了！最近，UCLA和MIT的研究者证伪了概率论中众所周知的假设——「上下铺猜想」。上下铺猜想（Bunkbed Conjecture）也称为双层床猜想，是渗透理论中的一个陈述，该领域处理的是在图的边随机删除后存在的路径和簇。
理论
- 974
- 0
新智元11月4日
提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架
字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。官方宣称，HybridFlow（开源项目名：veRL）是一个灵活且高效的大模型 RL 训练框架，兼容多种训练和推理框架，支持灵活的模型部署和多种 RL 算法实现。该框架采用混合编程模型，融合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，可更好实现和执行多…
应用
- 17
- 0
沛霖（实习）11月3日
英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20
科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器…
应用
- 7
- 0
故渊10月22日
端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]
理论
- 21
- 0
机器之心9月30日
中国电信 AI 研究院完成首个全国产化万卡万参大模型训练，TeleChat2-115B 对外开源
“中国电信人工智能研究院”官方公众号今天宣布，中国电信人工智能研究院（AI在线注：下文称 TeleAI）成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型，并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 —— 星辰语义大模型 TeleChat2-115B。官方表示，这项科研成果标志着国产大模型训练真正实现全国产化替代，正式进入全国产自主创新、安全可控的新阶段。T…
应用
- 23
- 0
清源9月28日
微软亚洲研究院与上海市精神卫生中心展开联合研究，借助多模态大模型为认知障碍患者带来全新训练方法
据微软亚洲研究院官方披露，该研究院与上海市精神卫生中心携手展开联合研究，基于微软 Azure OpenAI 服务中的多模态大模型，开发了利用多种模态数据（如语音、文字、图片、音乐等信息）的个性化认知训练框架，为认知障碍患者的认知训练带来了新的可能。▲ 图源微软亚洲研究院公众号AI在线从微软亚洲研究院获悉，综合上海市精神卫生中心专家的建议与患者的需求，微软亚洲研究院的研究员们从易用性、界面友好性、功…
应用
- 6
- 0
浩渺9月22日
原子、分子、复合物级性质预测均最佳，清华分子预训练框架登Nature子刊
编辑 | KXAI 已广泛用于药物发现和材料设计中的分子筛选。当前的自监督分子预训练方法往往忽略了分子的基本化学特性和物理原理。为了解决这个问题，来自清华大学的研究人员提出了一种称为分数去噪（Fractional denoising，Frad）的分子预训练框架，以学习有效的分子表示。通过这种方式，噪声变得可自定义，允许纳入化学先验，从而大大改善分子分布建模。实验表明，Frad 始终优于现有方法，在…
理论
- 18
- 0
ScienceAI9月20日
训大模型为啥这么贵？专家：一半以上算力被浪费了
人工智能时代，大模型的发展带来了智能算力需求的大爆发。据估算，自 2012 年以来，AI 模型训练算力需求每 3~4 个月就翻一番，每年训练 AI 模型所需算力增长幅度高达 10 倍。同时，OpenAI 曾在 2020 年提出 Scaling law 定律。该定律指出，大模型的最终性能与计算量、模型参数量及训练数据量的大小密切相关。换言之，若要提升大模型的能力，就需要不断增加模型参数和训练数据量，…
应用
- 39
- 0
新闻助手9月13日
全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集：含 3750 张照片、分 15 项类别
以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集，供开发者开发和训练 AI 模型使用。AI在线获悉，该样本数据集包含 3,750 张照片，分为商业、教育、医疗健康、运动与健身、物品与物体、插图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容，可用于训练机器学习和 AI 模型，开发多种应用场景。▲ 相关图片选集目前，这一…
应用
- 69
- 0
漾仔9月9日
美国加州通过人工智能训练数据透明度法案，要求企业披露 AI 模型数据来源
今日，美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案，该法案将提交给州长加文・纽瑟姆，但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时，对其使用的数据集进行更加透明的披露。AI在线注意到，这项由议员雅克・欧文提出的法案（AB 2013）原本适用范围更广，但在 8 月 20 日范围缩小至仅适用于生成式人工智能，即能生成文本、图像和类似内…
应用
- 11
- 0
远洋8月28日
摩尔线程开源音频理解大模型 MooER：基于国产全功能 GPU 训练和推理
摩尔线程开源了音频理解大模型 —MooER（摩耳），是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。基于摩尔线程夸娥（KUAE）智算平台，MooER 大模型用 38 小时完成了 5000 小时音频数据和伪标签的训练。MooER 不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。在 Covost2 中译英测试集中，MooER-5K 取得了 25.2 的 BLEU 分数，接…
应用
- 17
- 0
沛霖（实习）8月23日
明确了：文本数据中加点代码，训练出的大模型更强、更通用
代码知识原来这么重要。如今说起大语言模型（LLM），写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码，即使对于并非专门为代码设计的大模型来说，也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用，但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中，研究者系统地研究了代码数据对通用大模型性能的影响…
理论
- 40
- 0
机器之心8月22日
Nature 曝惊人内幕：论文被天价卖出喂 AI，作者 0 收入
Nature 的一篇文章透露：你发过的 paper，很可能已经被拿去训练模型了！有的出版商靠卖数据，已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们，却拿不到一分钱，这合理吗？全球数据告急，怎么办？论文来凑！最近，Nature 的一篇文章向我们揭露了这样一个事实：连科研论文，都被薅去训 AI 了……据悉，很多学术出版商，已经向科技公司授权访问自家的论文，用来训练 AI 模型。一篇论文从酝酿 …
应用
- 19
- 0
汪淼8月15日
最强 AI 程序员 Genie 砸饭碗：84 秒跑通代码，像人一样思考，团队仅 5 人
继 Devin 之后，又一个 AI 软件工程师被刷屏了 —— 它叫 Genie，号称目前地表最强，已经可以像人一样思考和行动了！那么这个“地表最强”，到底强到什么程度？先来看下评测分数。在权威榜单 SWE-Bench 中，Genie 以解决了 30.07% 问题的成绩夺得榜首。（SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。）而这个成绩可谓是遥遥领先第二名 19.27%，解锁了…
应用
- 7
- 0
汪淼8月13日
消息称马斯克 X 平台同意不使用部分欧盟用户数据来训练 AI
感谢路透社今天（8 月 9 日）报道，马斯克旗下的 X 平台同意不使用部分欧盟用户数据，来训练其 AI 聊天机器人。爱尔兰一家法院周四表示，社交媒体平台 X 同意在欧盟用户选择撤销同意之前，暂时不使用从他们那里收集的个人数据来训练其 AI 系统。爱尔兰数据保护委员会本周寻求一项命令，要求暂停或限制 X 公司，不得处理用户数据来开发、训练或改进其人工智能系统。AI在线曾于 7 月报道，X 用户发现他…
应用
- 6
- 0
故渊8月9日
马斯克 X 平台因抓取用户数据训练 AI 在爱尔兰被起诉
感谢爱尔兰数据保护委员会（DPC）向高等法院提起诉讼，指控马斯克旗下的 X 平台擅用用户数据，用于训练 Grok AI 模型等增强型搜索工具。DPC 已委托 Remy Farrell SC 律师事务所提交诉讼，指控 Twitter International Unlimited Company 公司没有遵守 GDPR 规定的义务，使用用户数据训练 Grok。DPC 表示 X 平台虽然已提供了退出等…
应用
- 9
- 0
故渊8月8日
清华“太极-Ⅱ”光芯片面世：成果登 Nature，首创全前向智能光计算训练架构
据清华大学官方消息，清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径，首创了全前向智能光计算训练架构，研制了“太极-II”光训练芯片，实现了光计算系统大规模神经网络的高效精准训练。该研究成果以“光神经网络全前向训练”为题，于北京时间 8 月 7 日晚在线发表于《自然》期刊。AI在线查询获悉，清华大学电子系为论文第一单位，方璐教授、戴琼海教授为论文的通讯作者，清华大学电子系博士生薛…
应用
- 41
- 0
汪淼8月8日
Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU，训练千亿参数级 AI 模型
Meta 公司于 8 月 5 日发布博文，表示为了满足大规模分布式 AI 训练对网络的需求，构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络，从原型发展到部署了众多集群，每个集群可容纳数千个 GPU。这…
应用
- 50
- 0
故渊8月7日
英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI
科技媒体 404Media 披露的文件显示，英伟达收集了大量受版权包含的内容，用于训练人工智能（AI）。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示，英伟达从 YouTube 等多个来源收集视频素材，用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑，认为擅自使用 YouTube 视频以及研究目的编译的数据集，在法律层面可能会存在问题。不过项目经理的回…
应用
- 16
- 0
故渊8月6日
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成
只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子，还是…
应用
- 23
- 0
汪淼7月30日
全新FBI-LLM低比特大语言模型发布：首个从零训练的二值化语言模型
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播
理论
- 16
- 0
机器之心7月28日
AI 训 AI 遭投毒 9 次后大崩溃，牛津剑桥等发现登 Nature 封面
感谢AI在线网友刺客的线索投递！用 AI 生成的数据训练 AI，模型会崩溃？牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文，今天登上了 Nature 封面。如今，LLM 已经强势入侵了人类的互联网，极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的，我们用网络数据训练出的 GPT-n，会发生什么？论文地址：，如果在训练中不加区别地使用 AI 产生的内容，模型就会出…
应用
- 5
- 0
汪淼7月25日
番茄小说被曝要求网文作者同意将作品用于训练 AI，引发作者联合抵制
据蓝鲸新闻今晚报道，近期有不少网文作者发帖称，字节跳动网文平台“番茄小说”的签约协议中增加了“AI 训练补充协议”，要求作者同意给平台“喂”作品，用于“内容开发”。觉察到这一情况的作者前往同为字节系的“豆包”AI 进行验证，不少人通过和豆包的对话获得了自己已发表作品的故事梗概和大纲。抖音集团方对此回应称，豆包是基于公开搜索结果呈现作品及概述，不存在盗用信息行为。番茄小说对于已经签署补充协议、或签约…
应用
- 53
- 0
清源7月22日
科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列
据 Wired 报道，包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意，就使用了他们视频的字幕文件来训练人工智能模型。AI在线注意到，此次事件影响到的创作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔等。这些被用于训练 AI 的字幕文件相当于视频的文本转录内容。调查…
应用
- 9
- 0
远洋7月16日