内含超 100 万小时多语种录音，MLCommons 推出大型音频数据集

2025-02-10 06:07

这一名为 the Unsupervised People's Speech 的数据集资源来自 Archive.org，整体规模超 48 TB，大部分内容属于美式英语。

AI 工程联盟 MLCommons 当地时间 1 月 30 日宣布 the Unsupervised People's Speech 数据集，这一数据集包含超过 100 万小时的音频内容，有望为 AI 在音频领域的下一步发展奠定基础。

Unsupervised People's Speech 数据集的资源来自 Archive.org，由 MLCommons 和 HuggingFace 联合创建，未进行数据推理和预处理。

这一数据集整体规模超 48 TB。虽然 Unsupervised People's Speech 的内容以美式英语为主，但仍涵盖数十种语言；其中大多数音频的长度在 1 到 10 分钟之间，仅有 14 个超过了 100 小时。

内含超 100 万小时多语种录音，MLCommons 推出大型音频数据集

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

MLPerf Client 基准测试的诞生是 AMD、英特尔、微软、英伟达、高通和顶级 PC OEM 等利益相关方的合作成果。

12/12/2024 3:12:14 PM

溯波（实习）

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

编辑 | ScienceAI问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choice questions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答(openQA

7/24/2024 2:36:00 PM

ScienceAI

LANL将中子星并合用于人工智能训练模型

美国洛斯阿拉莫斯国家实验室（LANL）开发的中子星并合模拟正在为Polymathic AI合作项目做出重要贡献，该项目正在训练人工智能模型，以帮助推动看似不同领域的科学发现。这些模拟准确地跟踪了宇宙中一些最具活力的事件的后果，为基础模型数据集提供了独特的代码，可以帮助训练人工智能模型，使其能够做出与天体物理学、生物学、声学、化学、流体动力学等领域相关的预测。中子星并合是指两个中子星互相绕转，释放引力波，轨道能量损失，最终在剧烈碰撞、释放引力波暴之后合二为一。

12/19/2024 2:08:35 PM

AI情报室

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

内含超 100 万小时多语种录音，MLCommons 推出大型音频数据集

相关资讯

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

LANL将中子星并合用于人工智能训练模型