2024年1月19日,业界首个网络保险平安大模型评测平台SecBench正式发布,该平台由腾讯朱雀实验室和腾讯保险平安科恩实验室,联合腾讯混元大模型、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队、上海人工智能实验室OpenCompass团队共同建造,主要解决开源大模型在网络保险平安运用中保险平安威力的评价难题,旨在为大模型在保险平安范围的落地运用选择基座模型提供参考,加速大模型落地进程。同时,通过建造保险平安大模型评测基准,为保险平安大模型研发提供公平、公正、客观、片面的评测威力,推动保险平安大模型建造。
行业首发,弥补大模型在网络保险平安垂类范围评测空白
自2022年11月ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮,大模型的落地进程也随之加速。然而,在网络保险平安运用中,大模型研发人员如何选择合适的基座模型,当前大模型的保险平安威力是否已经达到业务运用需要,都成为亟待解决的问题。
SecBench网络保险平安大模型评测平台,将重点从威力、言语、范围、保险平安证书测验四个维度对大模型在网络保险平安范围的各方面威力进行评价,为大模型研发人员、学术研究者提供高效、公正的基座模型选型工具和研究参考。
图 1. SecBench网络保险平安大模型评测整体设计架构
图 2. GPT-4在威力维度、言语维度以及保险平安范围威力的评价结果
图 3. GPT-4在各类保险平安证书测验中的评价结果(绿色为通过测验)
SecBench设计架构
图1. 为SecBench网络保险平安大模型评测初期规划的架构,主要围绕三个维度进行构建:
一是积累行业独有的网络保险平安评测数据集。评测数据是评测基准建造的基础,也是大模型威力评测最关键的部分。目前行业内还没有专门针对大模型在网络保险平安垂类范围的评测基准/框架,主要原因也是由于评测收据缺失的问题。因此,构建网络保险平安大模型评测基准的首要目标是积累行业内独有的网络保险平安评测数据集,覆盖多言语、多题型、多威力、多范围,以片面地评测大模型保险平安威力。
二是搭建方便快捷的网络保险平安大模型评测框架。“百模大战”下,大模型的形态各异,有HuggingFace上不断涌现的开源大模型,有类似GPT-4、腾讯混元、文心一言等大模型API服务,以及自研本地部署的大模型。评测框架如何支撑各类大模型的倏地接入、倏地评测也很关键。此外,评测数据的多样性也挑战着评测框架的灵活性,例如,选择题和问答题往往需要差别的prompt和评价目标,如何倏地比拟few shot和zero shot的差异。因此,需要搭建方便快捷的网络保险平安大模型评测框架,以支撑差别模型、差别数据、差别评测目标的灵活接入、倏地评测。
三是输入片面、清晰的评测结果。网络保险平安大模型研发的差别阶段其实对评测的需要差别。例如,在研发初期进行基座模型选型阶段,通常只需要了解各类基座模型的威力排名、比拟差别模型威力差异;而在网络保险平安大模型研发阶段,就需要了解每次迭代模型威力的变化,仔细分析评价结果等。因此,网络大模型评测需要输入片面、清晰的评测结果,如评测榜单、威力比拟、中间结果等,以支撑差别研发阶段的需要。
SecBench除了围绕上述三个目标进行建造外,还设计了两个网络保险平安特色威力:保险平安范围评测和保险平安证书测验评价。保险平安范围评测从垂类保险平安视角,评测大模型在九个保险平安范围的威力;保险平安证书测验评价支撑经典证书测验评价,评测大模型通过保险平安证书测验的威力。
二、SecBench评测框架
SecBench网络保险平安评测框架可以分为数据接入、模型接入、模型评测、结果输入四个部分,通过配置文件配置数据源、评测模型、评价目标,即可倏地输入模型评测结果。
数据接入:在数据接入上,SecBench支撑多类型数据接入,如选择题、判断题、问答题等,同时支撑自定义数据接入及评测prompt模板定制化。模型接入:在模型接入上,SecBench同时支撑HuggingFace开源模型、大模型API服务、本地部署大模型自由接入,还支撑用户自定义模型。模型评测:在模型评测上,SecBench支撑多任务并行,加快评测速度。此外,SecBench已内置多个评价目标以支撑常规任务结果评价,也支撑自定义评价目标满足特殊需要。结果输入:在结果输入上,SecBench不仅可以将评测结果进行前端页面展示,还可以输入模型评测中间结果,如配置文件、输入输入、评测结果文件等,支撑网络保险平安大模型研发人员数据分析需要。
图 4. SecBench网络保险平安大模型评测框架
SecBench评测数据
网络保险平安大模型的威力难以评测,主要原因之一还是网络保险平安垂类数据的缺失。为了解决这一问题,SecBench目前已经收集整理了12个保险平安评测数据集,累计数据10000余条。
言语维度:覆盖中文、英文两类常见言语的评测。威力维度:从保险平安视角,支撑大模型对保险平安知识的知识记忆威力、逻辑推理威力、理解表达威力的评价。范围维度:支撑大模型在差别保险平安范围威力的评测,包括数据保险平安、运用保险平安、端点与主机保险平安、网络与基础架构保险平安、身份与访问控制、基础软硬件与技术、保险平安管理等。证书测验:SecBench还积累了各类保险平安证书模拟试题,可支撑大模型保险平安证书等级测验评价。
图 5. SecBench网络保险平安大模型评测数据分布
当前SecBench评测数据仍然存在多样性不足、分布不均匀等问题,当前正在持续补充建造多题型、多威力、多维度的评测数据。
SecBench评测结果
SecBench正在逐步接入大模型进行网络保险平安威力评测,目前主要针对经典GPT模型以及小规模开源模型进行评测榜单输入。展示模型在威力、言语、保险平安范围差别威力维度的结果,同时支撑保险平安等级证书测验结果输入。后续将持续接入商用大模型、保险平安大模型,支撑模型威力比拟等威力。
图 6. SecBench网络保险平安大模型评测榜单
随着大模型在网络保险平安范围的落地运用加速,网络保险平安大模型的评测变得尤为关键。SecBecnch已初步建立起围绕网络保险平安垂类范围的评测威力,以更好地支撑网络保险平安大模型的研发及落地运用。此外为评价大模型在Prompt保险平安方面的表现,腾讯朱雀实验室已联合清华大学深圳国际研究生院,发布了《大言语模型(LLM) 保险平安性测评基准》。
未来展望
SecBecnch初步建立起围绕网络保险平安垂类范围的评测威力,然而还有许多需要优化迭代的地方:一是仍需持续补充构建高质量的网络保险平安评测数据,覆盖多范围、多题型,以更好地支撑模型在网络保险平安范围的片面评测;二是倏地跟进大模型评测,对于新发布的大模型,能够及时输入评测结果;三是丰富模型结果呈现方式,支撑模型比拟、结果分析等功能,以满足差别用户的使用需要。SecBench也希望能够引入更多的合作伙伴,包括学术界、工业界相关从业者,共创共赢,共同推动网络保险平安大模型的发展。