哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据

早在今年3月,哈佛大学就曾透露其“机构数据计划(IDI)”,并表示这一计划旨在为AI提供“合法数据的可信通道”。直到正式启动后,该计划才确认得到了微软和OpenAI的资金支持。

据 TechCrunch 12 日报道,哈佛大学与谷歌宣布,联合发布 100 万本公共领域书籍作为 AI 训练数据集。

AI 训练所需的数据成本高昂,但却更适合资金充裕的科技公司。因此,哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集,这些书籍覆盖多种类型、语言和作者,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,因这些作品的版权已随时间过期。

哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据

图源 Pexels

虽然这个新数据集尚未公开,也不清楚具体的发布方式和时间,但它来源于谷歌的长期项目 —— 谷歌图书(Google Books)。因此,谷歌将参与这次“宝贵财富”的广泛发布。

据AI在线了解,早在今年 3 月,哈佛大学就曾透露其“机构数据计划(IDI)”,并表示这一计划旨在为 AI 提供“合法数据的可信通道”。直到正式启动后,该计划才确认得到了微软和 OpenAI 的资金支持

IDI 的执行董事格雷格・莱佩特(Greg Leppert)表示,该数据集的目标是“让竞争环境更加公平”,通过向包括研究机构和 AI 初创公司在内的各类机构开放这一庞大的数据集,以帮助他们训练大型语言模型。

相关资讯

哈佛校长辞职:被指学术不端,史上在位时间最短

学术抄袭丑闻已经严重影响了学校的运转。哈佛大学和美国高等教育界,近期面临着前所未有的挑战和不断升级的争议。本周二,哈佛大学校长克洛迪娜・盖伊(Claudine Gay)发表声明,宣布辞去哈佛大学校长一职。盖伊于去年 7 月起出任哈佛大学校长,最终任期仅 6 个月零两天,是哈佛大学历史上任职时间最短的校长。去年,盖伊的任命被视为哈佛大学的突破性时刻。她不仅是首位黑人校长和第二位女性校长,更以海地移民的女儿和政府中少数群体代表专家的身份,在美国最高法院驳回了哈佛大学等高校歧视种族的招生的标志性时刻走马上任。盖伊的倒台部

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差,提供了新的研究框架。众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。最近,许多机构在训练 SOTA 生成式 AI 模型时报告了训练过程中的不稳定情况,它们通常以损失尖峰的形式出现,比如谷歌的 PaLM 模型训练过程中出现了多达 20 次的损失尖峰。数值偏差是造成这种训

谷歌最高优先级项目曝光:下一代AI搜索,誓要打败ChatGPT

岁末年初,科技公司似乎集体进入了反思阶段。过去一个月里,谷歌创始人拉里・佩奇、谢尔盖・布林与公司高管一直在开会,讨论新型 AI 聊天机器人。