中国移动、电子标准院及 16 家重点央企发布《通用大模型评测标准》

感谢AI在线从中国移动官方获悉,在今天召开的 2024 中国移动全球合作伙伴大会期间,中国移动联合电子标准院及 16 家重点央企共同开展大模型评测体系建设工作,并发布《通用大模型评测标准》。据介绍,该标准是大模型评测体系建设的重要成果,为产业界遴选优质大模型提供重要参考依据。第一阶段将围绕通用领域和 4 个重点行业领域,从评测标准制定、评测基地建设、评测试点应用等方面开展工作。
感谢AI在线从中国移动官方获悉,在今天召开的 2024 中国移动全球合作伙伴大会期间,中国移动联合电子标准院及 16 家重点央企共同开展大模型评测体系建设工作,并发布《通用大模型评测标准》。

中国移动、电子标准院及 16 家重点央企发布《通用大模型评测标准》

据介绍,该标准是大模型评测体系建设的重要成果,为产业界遴选优质大模型提供重要参考依据。第一阶段将围绕通用领域和 4 个重点行业领域,从评测标准制定、评测基地建设、评测试点应用等方面开展工作。

通用大模型评测标准基于“2-4-6”框架如下:

  • “2”:两类评测视角,以重点行业实际使用需求为导向,与国标对模型能力要求拉齐,将评测任务划分为理解和生成两类视角。

  • “4”:四类评测要素,从评测全生命周期中提取出评测工具、评测数据、评测方式和评测指标四类关键要素,确保评测工作可实施性。

  • “6”:六大评测维度,综合考虑大模型应用过程中的核心能力,设定功能性、准确性、可靠性、安全性、交互性和应用性六大维度。

相关资讯

DataWorks数据建模 - 一揽子数据模型管理解决方案

作者:DataWorks产品经理 刘天鸢在当下的商业环境中,正确的数据治理策略对于数据增值是非常重要的。据统计,企业的数据一直都在以每年50%的速度增长,因此企业数据治理与整合的难度就不断加大了。DataWorks一直以来都致力于成为用户更方便、更快捷地进行数据开发与数据治理的好帮手。此次发布的数据建模,是对已有数据治理领域能力的补齐,为用户带来了在数据开发前,实施事前治理的能力。一、为什么要数据建模引用《大数据之路:阿里巴巴大数据实践》中的内容:“如果把数据看作图书馆里的书,我们希望它们在书架上分门别类地放置;如

谷歌承认“窃取”OpenAI 模型关键信息:成本低至 150 元,调用 API 即可得手

什么?谷歌成功偷家 OpenAI,还窃取到了 gpt-3.5-turbo 关键信息???是的,你没看错。根据谷歌自己的说法,它不仅还原了 OpenAI 大模型的整个投影矩阵(projection matrix),还知道了确切隐藏维度大小。而且方法还极其简单 —— 只要通过 API 访问,不到 2000 次巧妙的查询就搞定了。成本根据调用次数来看,最低 20 美元以内(折合人民币约 150 元)搞定,并且这种方法同样适用于 GPT-4。好家伙,这一回阿尔特曼是被将军了!这是谷歌的一项最新研究,它报告了一种攻击窃取大模

ChatGPT 参数规模被扒:只有 7B

ChatGPT 惨遭攻击,参数规模终于被扒出来了 —— 很可能只有 7B(70 亿)。消息来自南加州大学最新研究,他们使用一种攻击方法,花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的机密给挖了出来。果然,OpenAI 不 Open,自有别人帮他们 Open。具体来说,南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度(embedding size)为 4096 或 4608。而几乎所有已知的开源大模型如 Llama 和 Mistral,嵌入向量维度 4096 的时候