训练

清华“太极-Ⅱ”光芯片面世：成果登 Nature，首创全前向智能光计算训练架构
据清华大学官方消息，清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径，首创了全前向智能光计算训练架构，研制了“太极-II”光训练芯片，实现了光计算系统大规模神经网络的高效精准训练。该研究成果以“光神经网络全前向训练”为题，于北京时间 8 月 7 日晚在线发表于《自然》期刊。AI在线查询获悉，清华大学电子系为论文第一单位，方璐教授、戴琼海教授为论文的通讯作者，清华大学电子系博士生薛…
应用
- 35
- 0
汪淼8月8日
Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU，训练千亿参数级 AI 模型
Meta 公司于 8 月 5 日发布博文，表示为了满足大规模分布式 AI 训练对网络的需求，构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络，从原型发展到部署了众多集群，每个集群可容纳数千个 GPU。这…
应用
- 42
- 0
故渊8月7日
英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI
科技媒体 404Media 披露的文件显示，英伟达收集了大量受版权包含的内容，用于训练人工智能（AI）。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示，英伟达从 YouTube 等多个来源收集视频素材，用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑，认为擅自使用 YouTube 视频以及研究目的编译的数据集，在法律层面可能会存在问题。不过项目经理的回…
应用
- 15
- 0
故渊8月6日
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成
只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子，还是…
应用
- 22
- 0
汪淼7月30日
全新FBI-LLM低比特大语言模型发布：首个从零训练的二值化语言模型
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播
理论
- 13
- 0
机器之心7月28日
AI 训 AI 遭投毒 9 次后大崩溃，牛津剑桥等发现登 Nature 封面
感谢AI在线网友刺客的线索投递！用 AI 生成的数据训练 AI，模型会崩溃？牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文，今天登上了 Nature 封面。如今，LLM 已经强势入侵了人类的互联网，极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的，我们用网络数据训练出的 GPT-n，会发生什么？论文地址：，如果在训练中不加区别地使用 AI 产生的内容，模型就会出…
应用
- 5
- 0
汪淼7月25日
番茄小说被曝要求网文作者同意将作品用于训练 AI，引发作者联合抵制
据蓝鲸新闻今晚报道，近期有不少网文作者发帖称，字节跳动网文平台“番茄小说”的签约协议中增加了“AI 训练补充协议”，要求作者同意给平台“喂”作品，用于“内容开发”。觉察到这一情况的作者前往同为字节系的“豆包”AI 进行验证，不少人通过和豆包的对话获得了自己已发表作品的故事梗概和大纲。抖音集团方对此回应称，豆包是基于公开搜索结果呈现作品及概述，不存在盗用信息行为。番茄小说对于已经签署补充协议、或签约…
应用
- 48
- 0
清源7月22日
科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列
据 Wired 报道，包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意，就使用了他们视频的字幕文件来训练人工智能模型。AI在线注意到，此次事件影响到的创作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔等。这些被用于训练 AI 的字幕文件相当于视频的文本转录内容。调查…
应用
- 6
- 0
远洋7月16日
模型训练成本“平民化”，前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2
GPT-2 是 OpenAI 于 2019 年推出的模型，其训练费用一度为每小时 256 美元，那么 5 年过后的 GPT-4 时代，软硬件和数据的进步，是否意味着训练同一模型所需的时间和成本会随之减少呢？答案是肯定的。据 Tom's Hardware 今日报道，前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT…
应用
- 14
- 0
清源7月13日
人形机器人将当上银行“大堂经理”，国内首个场景训练基地在上海浦东启用
据“上海金融官微”公众号，国内首个人形机器人银行大堂经理场景训练基地在建行上海浦东分行正式启用。银行大堂经理场景训练基地是业内首个商业银行场景应用训练基地，其首次采用开放式的创新训练模式，有助于加快提升人形机器人的能力，推动关键技术、重点产品和重点场景应用。据介绍，此次参训的机器人拥有高度仿生的躯干构型和拟人化的运动控制，结合视觉、听觉、语音等人工智能技术，科学家可以通过具身智能的推理和规划等对其…
应用
- 28
- 0
清源7月11日
北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快
批评不仅能让人进步，也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下，验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上，它可以让模型的准确率从 86.6…
应用
- 6
- 0
清源7月8日
Anthropic 首席执行官：未来三年内，AI 大模型训练成本将上升至百亿甚至千亿美元
据 Tom's Hardware 今日报道，AI 初创公司 Anthropic 的首席执行官 Dario Amodei 近期接受播客节目采访时表示，目前像 GPT-4o 这样的模型训练成本约为 1 亿美元，而目前正在开发的 AI 大模型训练成本可能高达 10 亿美元（AI在线备注：当前约 72.94 亿元人民币）。当然，10 亿美元还不是“终点”。Dario Amodei 作出预测，未来…
应用
- 4
- 0
清源7月8日
破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍
感谢AI在线网友刺客的线索投递！ChatGPT 早已成为世界耗能大户：一天用掉超 50 万度电，相当于 1.7 万个美国家庭的用电量！然而，大模型对能源的吞噬，远不仅如此。国际能源署（IEA）预测，从 2022 年到 2026 年，数据中心的用电量将翻一番。随着 AI 计算需求的膨胀，还需要用水来冷却计算系统。研究称，微软用水量从 2021 年到 22 年飙升了 34%，ChatGPT 每处理…
应用
- 25
- 0
远洋7月7日
巴西政府机构出手，禁止 Meta 公司应用用户数据训练生成式 AI 模型
感谢据美联社报道，巴西国度数据保护局本地时间周二（2 日）认定，拥有 Facebook、Instagram、WhatsApp 等平台的交际搜集巨头 Meta 将不得应用来自巴西的数据来训练其生成式 AI 模型。Meta 短期革新了隐衷政策，允许公司可将人们的暗地帖子用于训练其模型。根据巴西国度数据保护局的公报，Meta 此举将会对受影响数据主体的基本权利造成严重的、不可挽回的或难以修复的损害，此次…
AI
- 10
- 0
清源7月3日
从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定
很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型，是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中，作者将展示如何将从头开始构建一个小规模的文本生成视频模型，涵盖了从理解理论概念、到编辑整个架构再到生成最终结果的所有内容。由于作者没有大算力…
AI
- 12
- 0
机器之心7月1日
Yandex 开源 LLM 训练对象浪费高达 20% 的 GPU 资本
跨国科技公司 Yandex 最近推出了 YaFSDP，这是一种用于训练大型语言模型 (LLM) 的开源方法。YaFSDP 是目前最有效的公开可用对象，用于增强 GPU 通讯并减少 LLM 训练中的内存运用量，与 FSDP 相比，其训练速率晋升最高可达 26%，具体取决于架构和参数数量。通过运用 YaFSDP 减少 LLM 的训练时间可以浪费高达 20% 的 GPU 资本。Yandex 承诺为寰球人…
应用
- 4
- 0
新闻助手6月11日
视觉说话模型导论：这篇论文能成为你进军VLM的第一步
近些年，说话建模范围进展非凡。Llama 或 ChatGPT 等许多大型说话模型（LLM）有才智解决多种不同的使命，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的才智。如果能将视觉与说话打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型说话模型扩展到了视觉范围，但视觉与说话之间的连接尚…
AI
- 19
- 0
机器之心6月11日
夺冠！卓世AI斩获全球顶会AAMAS 2024 CE 比赛冠军
近日，在全球瞩目的AAMAS 2024 Computational Economics Competition（计算经济学挑战赛）上，卓世科技人工智能前沿实验室团队“Zhuoshi Technology AI Cutting-edge Laboratory”一举夺得两个核心赛道的冠军和亚军，展现出其在计算经济学和人工智能范畴的强大竞争力。冠军证书亚军证书AAMAS 2024 是第23届国际自主智能…
AI
- 41
- 0
新闻助手6月11日
2024智源大会议程公开丨大说话模型
2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研讨者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。大说话模型论坛丨6月14日下午近年来，大说话模型取得了重要的手艺进展，成为了人工智能范围最受社会关注的研讨方向之一，其应用范围逐渐覆盖了信息产业的多个范围。对…
应用
- 10
- 0
新闻助手6月4日
ChatGPT 真能记着你的话吗？DeepMind 与开源大佬揭示 LLM 影象之谜
【新智元导读】LLM 有影象本领吗？有，也没有。虽然 ChatGPT 聊天时好像可以记着你以前说的话，但实际上，模型在推理时记不住任何实质，而且它们在训练时的影象体例也不像我们想象的那么简单。Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章，核心观点是 —— 虽然很多 LLM 看起来有影象，但本质上是无状态函数。文章地址：和 FireFox 的联合…
AI
- 7
- 0
清源6月1日
OpenAI 重启机器人团队，团结多方回归老赛道
感谢福布斯报导称，随着对人工智能机器人投资的升温，OpenAI 正式重启其先前保持的机器人团队，OpenAI 随后确认了这一消息。OpenAI 成立初期，机器人技术就是其主攻方向之一，团结创始人沃伊切赫・扎伦巴领导的团队最初试图打造一个“通用机器人”。2019 年，十多位 OpenAI 研究人员团结发表了一篇论文，描述了他们如何训练神经网络使用单只机械手复原魔方，并声称这是朝着训练机器人系统执行各…
AI
- 5
- 0
沛霖（实习）5月31日
绕过直接数值模拟或试验，生成分散模型用于湍流研究
编辑 | 绿罗了解湍流平流粒子的统计和几何特点是一个拥有挑战性的问题，对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物分散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和试验方面做出了很多努力，但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特点。近日，意大利罗马第二大学（University of Rome Tor Vergata）的研究人员，提…
理论
- 4
- 0
ScienceAI5月20日
为确保训练数据公开透明，英国政府将加快制订人工智能相关法规
据《金融时报》报导，近日，英国政府文化大臣露西・弗雷泽发表将加快制订有关人工智能透明度的法规，以帮助保护实质创作者。她表示，这些法规的出台将意味着 AI 公司必须更加公开、透明地披露训练模型所用的数据情况，用户也可以自己选择哪些数据可被 AI 公司用来训练，作品被用于训练模型的创作者也将获得酬劳。图源 Pexels不仅仅是英国，欧盟当前也正在根据其人工智能法案制订类似的法规。根据该法案，AI 开发…
AI
- 10
- 0
清源5月19日
索尼音乐集团警告 AI 公司不得应用自家资产进行模型训练
感谢根据彭博社的一份新报告，索尼音乐集团正在通知各大 AI 公司不得“未经授权应用公司旗下的资产进行模型训练”。IT之家获悉，索尼音乐目前已经向 700 多家公司发送了函件，以保护其知识产权，索尼提到，任何 AI 公司未经明确许可，不得应用索尼旗下的专辑封面艺术、音乐作品和歌词等内容。在 AI 模型的训练上，版权一直是一项令人“头大”的问题，如今业界举着牌子声称“某某模型侵犯原始作者版权”的事件已…
AI
- 9
- 0
漾仔5月17日