上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

2025-04-17 09:01

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上，新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据，涵盖文本、图片、音频、视频四大模态，数据总量超过1150万条，音视频时长超过2.6万小时，成为小语种多模态领域的重要资源。 “万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。

微信截图_20250417083637.png

“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。它不仅扩充了语种数量，还全面升级了数据模态和总量，新增了图片 - 文本、音频 - 文本、视频 - 文本、特色指令微调（SFT）四大模态数据，覆盖多模态研究全链路。数据经过成熟生产管线及安全加固，结合过滤算法与当地专家人工精细化标注质检，成为覆盖多模态、多领域的高质量数据集，适配文化旅游、商业贸易、科技教育等不同场景。

此次开源的内容包括:图片 - 文本累计开源超过200万条;音频 - 文本开源超过1600小时;视频 - 文本开源超过2.5万小时;SFT 数据开源18万条。开源数据覆盖了多种语种，为开发者提供了丰富的多模态数据资源。

“万卷·丝路2.0”展现出显著的模型赋能效应。基于7B 参数基础模型训练时，模型综合性能跃升52.3%;在700亿参数的大模型训练中，仍保持12.8% 的性能增益。该数据集使轻量化模型在多语言处理领域展现出超越大模型的卓越表现，为多语言模型的微调提供了有力支持。

数据集地址:

https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

一键微调框架:

https://github.com/modelscope/ms-swift

人工智能与版权：如何平衡作者权利与AI训练需求？

近年来，人工智能（AI）成为热议话题，尤其是在其使用及相关风险方面的讨论愈发激烈。然而，AI 如何获取数据以及如何进行训练的问题也日益受到关注。最近，位于墨尔本的一家出版社向其作者发出请求，希望使用其作品来训练 AI。

3/17/2025 11:32:00 AM

AI在线

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

相关资讯

人工智能与版权：如何平衡作者权利与AI训练需求？

作者集会抗议Meta盗用作品训练 AI，版权问题引发热议

调查：超72% 的企业选择 AI 工具时最看重易用性