作者 | 陈达
在人工智能蓬勃发展的时代,AI应用广泛融入人们的生活与工作,从智能客服到智能推荐系统,从医疗影像诊断到金融风险预测,AI的身影无处不在。然而,随着AI应用的普及,其潜在风险也逐渐凸显,AI风险测评成为保障应用可信的关键环节。
本文将围绕“AI风险测评助力应用可信”这一主题,深入探讨AI应用面临的风险、业界测评方法、实践思路及关键要点。
一、AI应用典型风险面面观
AI技术栈涵盖数据、模型和应用三个层面,其中应用层作为直接与用户交互的部分,成为风险暴露的主要窗口,以下是大模型系统的典型风险分析。
1. 数据泄露:隐藏在暗处的威胁
数据泄露风险在AI应用中尤为突出。以智能体应用Writer为例,它能通过对话自动检索信息并生成报告。但攻击者利用其数据获取机制,创建假网站并将白色隐藏指令混入其中。当Writer加载该假网站内容时,隐藏指令会被执行,导致敏感信息被读取并发送给攻击者。这一攻击利用了Writer智能体系加载Markdown时对图片创建HTTP参数GET请求的特性,揭示了AI应用在数据安全方面的脆弱性。数据泄露不仅侵犯用户隐私,还可能导致企业面临法律风险和声誉损失。
2. 模型越狱:突破安全防线的挑战
模型越狱是指突破模型的安全防范机制,获取不符合预期的输出。测试人员曾通过模拟两人对话,成功绕过GPT 4的安全防范,让其详细描述盗窃车辆的步骤,产生了有害内容。如今,随着新技术如DBCC的兴起,国外安全团队对其进行大量模型越狱测试。对于接入开源产品(如Deepseek)的应用来说,如何抵御模型越狱攻击,在投入市场后经得起安全团队的测试,成为开发者亟待解决的问题。模型越狱可能导致模型被恶意利用,产生违背道德和法律的输出,损害用户利益和社会安全。
3. 智能体过度:缺乏防范的隐患
智能体过度风险体现为智能体对用户输入缺乏有效过滤和防范。例如,国外某卡车销售商使用智能体协助销售,当顾客表示预算仅为一元时,智能体竟爽快答应交易。这一案例表明智能体在处理用户请求时,可能出现不合理响应,反映出智能体应用在业务逻辑和风险控制方面的不足。智能体过度响应可能导致企业遭受经济损失,同时也影响用户对AI应用的信任。
二、AI应用风险测评的困境
从企业内部视角出发,理想的AI风险测评应具备自动化、低成本、持续评测且不影响性能的特点,同时能全面覆盖信息安全和内容安全等多方面风险。但在实际操作中,智能体应用的特性给测评工作带来诸多挑战。
1. 不确定性:测评的难题
智能体应用存在诸多不确定性。它针对不同指令调用的工具不同,且同一工具在相同输入下返回结果的字数或形式可能不同,尽管含义或许一致。这种不确定性使得传统基于规则或机器学习的检测方式难以适用。传统方法难以处理智能体返回值的多样性,无法准确判断其是否符合预期,给测评工作增加了难度。
2. 局限性:难以全面覆盖
一方面,不同基础模型抗风险能力不同,应用调用不同基础模型时面临的风险敞口各异,增加了应用管理风险的难度。另一方面,目前测试应用多借鉴基础模型的评测手段,而基础模型的评测指标主要针对语言理解、编码算数等任务,无法完全覆盖应用的特点。例如,一个涉及图像识别和自然语言处理的多模态AI应用,现有的基础模型评测指标难以全面评估其风险。
3. 复杂性:通用指标的困境
智能体应用的复杂性体现在其涉及多个基础模型和工具的组合使用。通用评估指标难以完全适配智能体应用,不同任务基于不同基础模型,使得应用在管理风险时面临更大挑战。一个智能体应用可能同时调用用于文本生成的大模型和用于数据分析的工具,如何综合评估这些不同组件带来的风险,是当前测评面临的难题。
三、业界AI应用风险测评方法梳理
目前业界的测评方法主要从指标丰富度和对业务的适配能力两个维度进行分类,大致可分为以下四类。
1. 基准测评:传统方法的局限
基准测评(Benchmark)是一种传统的测评方式,早期主要聚焦于基础模型的任务完成情况。近年来,部分Benchmark开始增加内容安全相关测评,如幻觉、毒性检测等。但这类方法大多是非连续性的,对于开源模型的测试环境与企业实际使用环境存在差异,更多用于榜单排名。以某开源模型为例,其测试环境是自行搭建的,与企业在实际项目中使用该开源模型的环境不同,导致测试结果可能无法真实反映企业应用的风险状况。
2. 模型厂商测评:应用层的缺失
模型厂商通常会整合多种Benchmark,在真实环境下对各类任务进行测评,涵盖语言理解、编码、数学、幻觉等方面,近期也加入了更多内容安全测评标准。OpenAI较早采用大模型评测大模型(LLM-as-Judge)的方式,并倡导使用思维链(Thought Chain)来评测自定义指标,这些方法在业界被广泛应用。然而,模型厂商的评测主要侧重于基础模型层面,对应用层的关注较少,企业仍需自行探索应用层的测评方法。
3. 商业平台测评:成本与适配问题
商业平台如Google的S66等,集成了对基础模型、任务和内容安全的相关评测,并且具备自动化评测能力,可对RAG进行测试。但从企业角度看,商业平台在测评智能体应用时,存在成本较高以及指标不完全适配的问题,难以完全满足企业的需求。企业在使用商业平台进行测评时,可能需要支付高额费用,且部分测评指标与企业实际业务场景不匹配,影响测评效果。
4. 开源工具测评:整合的需求
开源工具如DeepEval、Galileo、LangSmith等在测试智能体应用方面各有优势,但也存在不足,没有一款工具能够全面解决所有测评问题,需要企业自行整合使用。DeepEval提供了一些针对智能体特点的指标函数,但在与其他工具的兼容性方面可能存在问题;LangSmith则更侧重于对语言模型应用的监控和分析。
四、AI应用风险测评的实践思路
基于对业界测评方法的分析,为有效进行AI风险测评,可从以下几个方面入手。
1. 构建智能体:选择合适的框架
推荐使用Lang chain构建智能体。Lang chain可以通过内部函数监控每个函数的调用成本和性能,这对于企业落地应用至关重要。通过Lang chain,企业可以清晰了解智能体在调用不同工具时的资源消耗情况,从而评估其在实际应用中的可行性,为优化智能体性能提供依据。
2. 定义大模型评估器:自动化与高效性
使用大模型作为评估器具有自动化运行和评估效果好的优势。从GPT 3.5及以上能力的大模型,其评估能力已超越人类评估。利用Lang chain定义大模型评估器,可参考OpenAI的做法,利用大模型的结构化输出功能,对智能体的输出进行评估。通过设定评估文档相关性的任务,让大模型判断检索到的文档与用户问题的相关性,给出“是”或“否”的评分,提高评估的准确性和效率。
3. 自定义测试数据与指标:贴合应用需求
由于应用测试数据相对较少,推荐使用大模型生成合成测试数据。通过定义模板和输入输出格式,让大模型生成类似特定类型的数据。在应用运行一段时间后,其日志和记录也可作为测试数据。在指标方面,除了使用业界已有的指标函数,如DeepEval提供的任务完成度、工具选择等指标,还应基于这些指标的父类进行继承和扩展,自定义适合应用场景的指标。当智能体与RAG一起使用时,可将RAG的忠诚度、答案相关性等指标继承过来,通过大模型评估自定义指标的有效性,使测评更贴合应用实际需求。
4. 集成自动化流水线:持续测评的保障
通过代码实现和YAML配置,在每次代码推拉时,使用Poetry进行自动化测试。在运行态,推荐使用专门的大模型测试工具进行红队测试(Red-Teaming)。微软推出的PORT工具包,内置大量Prompt,通过模拟用户与应用进行多轮对话,测试应用的安全性和可靠性。定义YAML文件,让PORT工具测试对话中是否包含对特定群体的偏见等内容,以此评估应用在内容安全方面的表现,确保应用在整个生命周期内都能得到持续有效的测评。
5. 运行时红队测试:模拟真实攻击
红队测试是模拟攻击者对应用进行攻击,以发现潜在的安全漏洞。使用专门的工具和方法,如微软发布的PyRIT,使用对话的形式(内置SelfAskTrueFalseScorer和RedTeamingOrchestrator)结合自定义的风险清单,对应用进行多轮攻击测试。风险清单涵盖内容安全、信息安全等方面的风险,如毒性、暴力、偏见、数据泄露等。通过红队测试,可及时发现应用在面对攻击时的薄弱环节,从而采取相应的措施进行修复和改进,提升应用的安全性。
五、AI应用风险测评的关键要点
通过构建智能体、定义大模型评估器、自定义测试数据与指标、集成自动化流水线以及进行运行时红队测试等实践思路,并把握选择评估器、生成测试数据、自定义指标和持续迭代测评方式等关键要点,企业能够有效提升AI应用的安全性和可靠性。
1. 选择合适的评估器:权衡线上线下
目前推荐使用大模型作为评估器,但在选择大模型时,需考虑线上和线下的差异。如果企业自行部署大模型,如使用Deepseek作为评估器,与使用线上的GPT存在区别,应根据具体应用需求进行选择。对于对数据隐私和安全性要求较高的应用,可能更适合使用自行部署的大模型;而对于对实时性要求较高、对数据隐私要求相对较低的应用,则可选择线上的大模型。
2. 生成针对性的测试数据:基于威胁分析
通过威胁分析,明确应用面临的风险,根据风险清单和威胁分级结果,生成针对性的测试数据。测试数据应尽可能覆盖应用可能面临的各种风险场景,确保测评的全面性和有效性。以金融类AI为例应重点考虑数据泄露、欺诈风险等场景,生成相应的测试数据,以准确评估应用在实际使用中的风险。
3. 自定义适配的指标:贴合实际风险拟定指标
根据应用的特点和面临的风险,自定义评估指标。可通过继承和扩展已有指标函数的方式,编写适合应用场景的指标。在自定义指标时,应确保指标具有可衡量性、相关性和可操作性,能够准确反映应用的风险状况。对于一个电商推荐智能体,可自定义推荐准确性、推荐多样性等指标,以评估其在业务场景中的表现,为优化推荐策略提供依据。
4. 持续迭代测评方式:适应变化
由于模型和应用不断迭代,测评方式也应持续更新。通过工程化的方式,将测评过程自动化、规范化,确保测评结果的准确性和可靠性。建立定期的测评机制,每次模型或应用更新后,都进行全面的风险测评,及时发现并解决新出现的风险问题,使测评工作与AI应用的发展保持同步。
六、AI应用风险测评的实施步骤
评估大型语言模型(LLM)应用的三个主要步骤:诊断与设计、数据准备和执行评估。在“诊断与设计”阶段,确定评估目标、范围和指标;在“数据准备”阶段,收集输入和输出数据,清洗和转换原始数据,生成测试数据,并拟定指标测评函数;在“执行评估”阶段,运行评估程序,分析结果,识别问题,并根据结果优化和改进LLM应用,将其集成到CI/CD流程中进行持续监控。
AI风险测评是保障AI应用可信的核心环节,核心价值是 :提高 LLM 系统可信、降低 LLM 应用风险、确保LLM系统合规性。当前AI应用风险多样,测评面临诸多挑战,而业界现有的测评方法各有利弊。在未来,随着AI技术的不断发展,风险测评也需持续创新和完善,以应对新的风险挑战,推动企业的AI应用在可信的轨道上健康发展。