大模型产业发展,需要可信中立的数据深加工平台,如何填补空白?
2024 世界人工智能大会(2024 WAIC)落幕,围绕「算法、算力和数据」AI 三大要素如何持续演进发展的讨论,贯穿了三天的会期,全球顶级学者带来前沿构想,产业界带来创新的解决方案。
最为聚焦的还是大模型从通用走向应用,如何在这三个维度上实现突破性的进展。其中的共识是,高质量的数据供给是大模型产业发展的关键,是决定大模型是「专家」或是「砖家」一条分界线。
然而,获取高质量数据的核心在于数据安全可信流通,打破数据孤岛这一老问题,在新的产业变革趋势下,变得更为紧迫。企业和行业之间由于对数据安全、隐私保护以及商业利益的担忧,往往不愿或不敢共享数据。不同企业的信息系统架构不同、格式各异,使得数据难以互通,同时数据标准化程度低,缺乏统一规范,进一步增加了数据整合的难度。
蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬认为,数据供给决定了大模型能力的上限,而隐私计算技术决定了数据跨域供给的上限。当大模型从通用走向专业应用,从技术想象力走向产业的生产力,必须要解决高质量数据集稀缺与专业数据阻滞的挑战,否则大模型作为「智力引擎」,只会陷入空转。
数据融合的价值潜力巨大,却常常卡在价值验证这一环。深层次的数据挖掘往往意味着多方数据的融合。然而,找到一个中立可信、具备规模化数据深度加工能力的第三方机构,对接各方数据进行融合分析,目前仍是一大挑战。
蚂蚁集团韦韬:数据密态化是大模型产业未来之路
大模型密算平台:基于云服务的破题尝试
高质量数据供给和安全流通,是大模型进入垂直领域应用的首要挑战。
行业大模型要获得解决专业问题的能力,首先要经过数量充足、质量高的专业数据训练。然而,专业数据往往分散在不同的机构、企业中,并且由于价值大、保密要求高,难以流动。此外,在企业、大模型厂商和用户之间存在信任壁垒,企业担心数据对外泄露,大模型厂商担心模型资产安全,用户担心个人数据和隐私风险。
和多家机构交流后,蚂蚁密算 CEO 王磊发现他们主要有三方面担心:其一,数据非常容易被拷贝,数据供出来后,会不会被拿走、滥用。其二,行业大模型某种程度上是数据的衍生品,大模型是会「记住」数据的,数据安全和数据价值没办法得到保证。最后,在数据「供出」后,数据供给方和模型提供方都希望能够持续分润。但怎么知道模型被谁用了、用了多少次以及盈利情况,行业参与者之间难以建立信任机制。
构建行业大模型,核心是要有行业数据。但是当数据安全、数据价值保护不能够解决时,机构不愿意把数据提供出来,构建行业大模型就无从谈起。「我们认为,密算是大模型产业深入应用的必经之路。」王磊说。
7 月 5 日在 2024 WAIC 上,蚂蚁密算(全称浙江蚂蚁密算科技有限公司)发布了隐语 Cloud 大模型密算平台,这也是这家刚成立一个月的「创业公司」面向市场推出的第一款产品。
「隐语 Cloud 大模型密算平台」通过软硬件结合的可信隐私计算技术,在大模型托管和大模型推理等环节实现数据密态流转,保护模型资产、数据安全和用户隐私。大模型密态托管,指模型提供方可以将模型加密后托管在平台上,一键完成云上密态部署,保护模型资产不被泄漏和盗用;大模型密态推理,是指数据以密态形式完成推理,保护用户交互时的数据安全、商业机密等。
性能上,平台支持 GPU 在可信执行环境下进行计算,使得大模型推理在密态形式下的响应时间和使用效率与明文大模型接近,实现规模化商业可用。安全保障上,利用内存、磁盘加密等方法,实现用户访问的端到端加密和托管模型的跨域访问控制。易用性上,支持轻量化远程认证,用户在网页访问时就可以完成远程认证,不需要额外的操作步骤。
在实践中,大模型在垂直行业应用时,许多企业倾向选择私有化部署方案,来应对数据安全挑战。然而,私有化部署成本高,即使已经从早期一两千万,下降到现在的一两百万,对很多机构来说,依然没有足够的预算。其次,私有化部署模型的更新迭代很慢,更新时间短则一个月,长则几个月才能完成。因此,私有化部署,也被一些业内人士认为是以更高的成本、更低的效率,换取「体感安全」的妥协路径。
如何在云上提供密态计算服务,这也是隐语 Cloud 大模型密算平台,选择切入市场的差异点。根据产品介绍,该平台提供公有云和专有云交付方案,支持市面上主流的通用大模型。以公有云为例,模型提供者可以一键加密上传自己的大模型,10 分钟即可完成高可用推理服务的发布。用户通过网页就可以实现对模型的加密访问,无需感知到复杂的加密过程,即开即得。
王磊透露,未来也会在大模型的密算产品上做持续的打磨,主要是在两个维度的提升:第一,从数据标注到在线推理全链路的密算能力增强,这次先推出的功能是大模型密态推理和大模型密态托管。第二,采用多重密算技术防御,适应不同场景,平衡安全性和成本。
市场经济发展的不同阶段,一直在解决信任的问题。不论是立法、市场规则,到近几十年技术迭代,都是在不断夯实商业信任的根基。比如,在电子商务发展初期,为解决淘宝平台上买卖双方的信任,支付宝应运而生,作为一个中立的平台,提供「担保交易」服务。
在大模型市场中,数据流动的链路更多复杂,在数据提供方、模型提供方以及用户之间的信任,同样需要一家中立平台来提供技术服务。在韦韬看来,这就是密态计算的意义所在。
如果说支付宝首创的「担保交易」见证了中国电子商务井喷式的发展,蚂蚁密算要在更为复杂的数据可信流转链路中,构建更多参与主体之间的信任,见证数据要素市场化的大潮。
破局隐私计算成本难题
技术创新与市场机制双管齐下
从 2016 年开始深耕隐私计算领域,历经技术探索、场景探索和规模化应用等阶段,到今年 6 月份,由蚂蚁集团全资控股的蚂蚁密算科技有限公司正式设立。
外界普遍认为,在蚂蚁集团在 5 月底公布未来的科技战略聚焦「人工智能和数据要素技术」后,这是在科技商业化上的最新落子。专门成立一家公司,参与到数据要素市场之中,在国内一线大厂里,蚂蚁显得尤为坚定。
韦韬透露,这个动作是深思熟虑后的果断决策。首先是基于蚂蚁对未来的判断,「我们认为,未来大规模高价值的数据要素流转,一定是以密态的形式进行的,而密态计算是数据要素可信流通的重要支撑技术。」
当前,数据要素市场的建设正在提速。今年 1 月 4 日,国家数据局等部门关于印发《“数据要素×” 三年行动计划(2024—2026年)》的通知,提出到 2026 年底,数据要素应用广度和深度大幅拓展,在经济发展领域数据要素乘数效应得到显现。围绕这一目标,数据要素市场正在快速集聚资金、人才和技术。
然而,构建数据要素可信流通体系,不论是技术服务市场的建设,或者技术标准体系的建立,许多挑战亟待解决。从技术能力上,隐私计算的技术价值无可非议,市场上也有大量未被满足的需求,然而高昂的成本制约了规模化应用。如何从小众的「奢侈品」变成「公共服务产品」,把密态计算的成本降下来,是蚂蚁密算走向市场要啃的硬骨头。
隐私计算的成本之高,是技术复杂性导致的。由于其涉及密码学、人工智能、计算机体系结构等多学科的交叉融合,技术开发难度大、门槛高,导致研发成本居高不下。近年来,也有一些业界人士认为,脱离隐私计算技术的业务价值来谈成本,正如脱离安全来谈发展一样,是一个偏颇的观点。
在韦韬看来,如果单纯看技术链路的成本,应用隐私计算后,成本肯定更高。但综合考虑商业因素、人为因素、技术因素和合规因素等,隐私计算技术的成本是更低的。「明文计算看起来算起来很简单,一旦泄露,需要付出巨大的代价,包括商业利益的损失、连带的法律风险等等。」
在数据跨域流通的大趋势下,隐私计算技术的成本之高,显得更为突出。由于对流动中的数据实现有效管控,密码学是技术界公认的本源技术。然而,但单纯使用密码学技术,由于性能和成本原因,更难以大规模应用。
2024 世界人工智能大会期间,公众在蚂蚁集团展台了解隐语 Cloud 大模型密算云平台。图片来源:2024 WAIC
如何降低隐私计算的应用成本,在商业上更具规模化可能,是一个集技术创新、构建技术标准和市场化机制等多方面合力的结果。
在技术方案上,蚂蚁提出了软硬件技术结合的技术融合路线,通过可信芯片和机密计算技术来协同保障,平衡隐私计算的性能、成本和安全,实现低成本密态计算。第二步,在产业应用上,先在高需求、高价值数据场景中应用,在实现规模化后,降低边际成本,进而服务更多的场景。这个与云计算的商业化过程,也有着高度相似之处。
规模化推广的成本临界点在哪里?韦韬认为,让密态计算成本低于数据流通价值的5%,就能够实现规模化推广。这一判断来自蚂蚁在隐私计算的产业应用探索,在多个金融场景中,已经成为了现实。
农业农村部大数据发展中心与网商银行、蚂蚁集团联合发起的「农户秒贷」服务,基于隐语与星绽可信隐私计算技术栈,联合搭建金融风控模型,结合网商银行大山雀风控系统,发起农户秒贷服务。截至今年 5 月,超 600 万农户获得贷款额度,累计授信 964 亿元,其中约 8 成农户种植面积不到 10 亩。该项目还入选了国家数据局「数据要素x」典型案例。
另一个破题的方向,是为不同的数据场景,匹配最合适的技术路线,杀鸡无需宰牛刀。实际上,数据有分级分类,那么在对技术进行安全分级后,两者间建立映射关系,根据数据场景匹配最合适的技术路线,是最具性价比的选择。
韦韬透露,针对不同数据流通场景对安全、性能和成本的不同诉求,蚂蚁密算公司将提供灵活的解决方案。对于一般数据处理,目前可将密算成本控制在明文分布式计算的 2 倍以内;对于涉及重要数据,在达到高安全级别的同时,可将成本控制在明文分布式计算的 10 倍以内。
技术方案和技术标准,是在解决应用过程中的问题,那么当黑天鹅事件真的发生,如何来兜底?参考国外的行业实践,网络安全保险(Cyber Security Insurance),被认为是可行之道。
数据安全保险之于数据产品交易,如同交强险之于道路交通。韦韬认为,正如在道路交通中,驾驶员的责任不仅限于自身安全,数据产品交易也不仅仅关乎交易双方,一旦发生数据泄露,其潜在风险可能波及个人隐私、行业利益乃至国家安全。
通过这种市场化的机制,企业可以更加清晰地认识到数据泄露的风险成本,并主动加大安全投入,从而降低整体风险,形成良性循环。欧美国家在个人信息数据交易等领域已开始强制要求购买网络安全保险。
数据要素市场,来了一家新的创业团队
过去几年,数据要素市场面临着变现场景不足的挑战,除风控和营销外,大量非结构化数据尚未被充分利用。但大模型横空出世,迅速进入产业化阶段,成为数据要素市场的一大关键增量。
当下,隐私计算市场尚处于探索期,尽管面临着技术、应用、法律法规等方面的挑战和风险,但整体向好毋庸置疑——市场规模持续扩大,应用场景不断拓展;技术创新持续推进,性能和安全性不断提升;行业标准逐步完善,生态体系日益成熟。
中国在数据要素市场的建设上,具有独特的优势。政策和法律法规层面,政府高度重视数据安全和隐私保护,出台了一系列切实可行的法律法规,为数据要素市场的健康发展保驾护航;技术层面,除了蚂蚁集团,蓝象智联、微众银行、同盾科技、洞见科技、富数公司等多家创企和阿里、腾讯、百度、华为、京东、字节、平安等巨头也都有丰富积累,并在不断突破性能瓶颈。
对于蚂蚁密算公司来说,如何平衡数据安全与商业利益,如何构建可持续发展的密态计算商业模式,如何应对日益激烈的市场竞争,趟过这片的深水区,是接下来发展的关键。
韦韬告诉AI在线:我们选择把科技和生态上的积累,用商业化的方式对外开放,因为只有当商业的模式健康运转起来,技术的迭代才会可持续地发展起来。
「我们相信,整个行业将会从通算、智算走向密算。密算是数据可信流通的一个基本色,并且一定是整个行业发展的最优解。未来,密算会成为数据可信流通的新算力,但在那之前,还有很多的工作要做。」他说。