本文为「驱动未来的AI技术」系列主题「可信AI」圆桌环节的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。
技术为王?畅谈可信AI 征途中的技术实践与应用机遇
在圆桌环节,蚂蚁集团金融机器智能部图学习技术负责人张志强,星云Clustar的孙军欢及中智行的李军围绕本期的主题畅谈可信AI征途中的技术实践与应用机遇。以下为部分精选 QA,完整内容可通过机器之心机动组视频号回顾了解。
Q1:您对2021年可信AI的发展情况怎么看?如哪些技术进展比较快?哪些发展和突破让您觉得比较印象深刻?可否展开给观众介绍一下
张志强: 2021年对于可信AI的这一技术领域来说,是一个具有里程碑式的时间点。越来越多的企业关注数据安全、算法公平性。在这个形势下,可信AI的发展整体来说是非常快的,尤其是隐私计算下的一些 AI 建模。我可以分享一下这一块技术的一个小的突破,是来自于蚂蚁集团共享智能团队的一个工作。这个工作主要提出了一个大规模的隐私保护逻辑回归算法。其实从16年底或者说17年初的时候,蚂蚁集团就开始从事隐私保护相关方面的一些技术。如果将隐私保护放到 AI 这个领域来看的话,一共要考虑三个方面:隐私保护的强度、模型的精度和建模的效率,这三者之间其实是互相牵制的。我们发现有很多隐私保护性很好的方法,在性能上、建模的效率上其实是比较不好的,所以提出了这样一个大规模的隐私保护的逻辑回归算法。这个算法的创新点是以一个强隐私保护的特性的密码学的技术为起点,同时结合分布式机器学习的方法,能够使性能提升大概两个数量级。在后面的实践中,相信会在安全性、计算效率方面取得突破,像是联邦学习、去中心化学习等。
Q2:请问您如何看待技术的变化对工业标准的变化影响?
张志强:对于这个问题我有两方面的观点,同时我也想阐述一下,这里提到的技术变化对工业标准变化的影响,其实已经发生了。以深度学习、神经网络为代表的一些人工智能技术的发展,对于整个世界的影响是非常大的,同时它也在推动着我们的一些工业标准发生变化。我们能看到很多对于数据、算法的法律法规的出台,其实就是受到技术变化对工业标准的影响。
我的第一个核心的观点是,如果我们撇除掉可信AI相关的一些属性,比如说公平性、可解释性等,那很有可能AI的算法,从性能指标来看是最好的。但我们在将AI技术进行商业化、应用化的的时候,我们不可避免地需要考虑这些 AI 技术如何保护用户的权益,或者是说最大化用户的利益。因此,才有了如今AI技术发展到一定程度,我们发现如果不给它加上一些属性,可能很难去控制它向一个比较好的方向发展。
第二个观点是到现在这个阶段,可以变成说一个工业标准的变化会对技术的变化产生怎样的影响。如今,工业标准的变化需要我们去考虑解释性、隐私保护、公平性等。但现在在学术圈中,讨论可信 AI 时,更多的时候聚焦的还是可信的算法,但我个人认为在一个工业系统里面这样做是不够的。我们当然一定是要考虑AI 算法本身的一些属性,我们也要考虑这些标准、评测的方案,如何如何更广泛地应用在工业系统中。这一点我觉得在未来一年两年三年内可能是需要工业界、学术界一起去探讨的,我们需要面向的更多的是实际应用的层面,到底一个AI系统怎么样才能做到真正的可信,而不单单只是一个 AI 的算法怎么做到可信。
Q3:在实际的应用场景下,如金融风控、交通出行等,哪些技术能真的用得起来?哪些其实不太能用?场景与技术的适配如何考虑?
张志强:我想分享两个例子,一个关于鲁棒性,另一个关于可解释性。第一个例子关于一些 AI 算法的鲁棒性,如今不管是在工业界还是学术界,都有很多的工作在研究某类方法如何应对各种各样的这种攻击样本对模型的损害。对于这类的研究工作,很多时候我们是首先要想一个攻击的办法,然后再去想相应的防御办法,最终能够提高模型的鲁棒性。但在真正的工业系统里面,使用这样的方式去攻击先不说你能不能攻击成功,这个方式一般都是做不出来,因为绝大多数AI相关的工业系统,都不单纯是一个模型,而是一套很复杂的决策结果。所以说,在研究过程中的很多攻击手段,它的实用性并没有那么高,它的价值是侧面作用,就是帮助我们提高模型,适配各种各样的分布外的样本的一些分类的结果,或者是预测的一些结果。
第二个关于可解释性,我想分享用支付宝来进行付款的例子。涉及到交易的话,本身就会有非常多的关于交易风控的一些问题,比如说反欺诈。当识别一笔交易是不是欺诈交易时,我们首先会做一些人工的特征,然后通过一个提供可解释性的分类器,达到一定程度的反欺诈识别效果。后来想了一个新的思路,这个思路可以提供更好的解释性,同时也可以提供更好的效果。传统的方法都是基于一些特征工程之后再接一个分类器,新的思路是把这些特征工程做的尽可能的简化,然后不再使用深度神经网络的模型,而使用图神经网络的模型。因为我们会发现,如果要识别一笔交易,很多时候不单单关心这笔交易本身,还要关心这笔交易之前发生什么,甚至之后发生什么。而之前和之后发生的这些交易,都可以被形式化成一个局部的图的结构。图结构的第一个好处是相较于基于人工经验做的特征,它的视野会更全面一些。第二点是通过图神经网络的一些特殊的设计,我们可以去给出之前或者之后的每一个行为或者每一笔交易,对目标的这笔交易的预测上的重要性,也就是说它能告诉决策者这个决策是依据之前哪些交易,最终判断这笔交易可能是一个欺诈的交易。所以说,我们希望从一些新的角度入手,让AI模型有更好的性能的同时,也能够让它具备可解释性、鲁棒性、公平性等特点,这是我对于AI技术落地于金融场景的一些思考。
孙军欢:目前,隐私计算在金融领域落地的案例比较多,在传统的机器学习场景方面已经做的比较好。但对于一些需要高算力,特别是涉及深度神经网络等场景中,会有一些性能方面的挑战。因为深度的神经网络本身对算力的要求比较高,而加密技术又会带来额外的性能开销。星云在隐私计算的算力加速方面具有深厚的技术积累,借助于算力加速方面的能力,已经成功将联邦学习技术应用在医疗影像等领域。随着算力提升,后面在深度的神经网络场景中,隐私计算会有更好的落地案例。
Q4:车路协同对自动驾驶的技术或者安全方面的提升有哪些?现在的道路都是按人开车来设计的。畅想将来的道路基础设施规划和建设,应该如何更好支持自动驾驶&车路协调的感知、决策的AI计算,车路协同可信AI能发挥多大作用?
李军:第一个问题是车路协同对自动驾驶技术安全提升,我觉得最重要的还是在功能安全方面。自动驾驶技术从大的模块上来讲分为感知预测、规划控制,还有一些像高清地图的底层服务。在这些方面,车路协同技术都可以给到自动驾驶很多的能力的增强或者叫赋能。
从感知的角度,路测和云端的观测的能力可以帮助车辆去看得更远,提前看到很多原本看不到的一些事件。从预测的角度,由于我们录测的设备是持续的在一个位置进行观测的,它具有很多的历史数据和信息,可以比较准确的预测它所在的位置发生的事件。从规划的角度,云端汇聚了很大范围内的交通流量和交通参与者的轨迹信息,可以帮助车端来做一些全局的调度和最优路径的选择。从控制的角度,车路协同技术也可以给自动驾驶车辆很多的帮助。所以总体上来讲,车路协同技术可以对自动驾驶的安全性,尤其是功能安全性提升有很多方面的帮助。
关于第二个问题,我们现在的很多道路的确都是按照人开车来设计的,但未来智能车的时代迟早会到来。以红绿灯为例,现在的红绿灯都给人类驾驶员去看的,自动驾驶车辆去识别红绿灯其实是比较困难的。但采用路端协同技术,红绿灯信息是不用自动驾驶车去感知识别的,通过网络就会把红绿灯的数字化的信息直接发送到车端,车辆可以很安全地获取信息。当然,我们也一定要确保数据传输的链路安全性和数据来源的权威性。
Q5:聚焦于您目前所从事的方向,可信AI在未来的发展道路会上存在哪些瓶颈?
张志强:我主要聚焦的是金融领域的一些工作。不管是在金融领域,还是在其他的一些应用领域上面,我觉得有一个目前需要去克服的瓶颈是我们怎么看待可信AI这件事情。其实前面我也表达过一个观点,就是很多时候我们做的一些尤其是学术研究,很多时候我们会聚焦在可信的 AI 算法,但我觉得这个是远远不够的。今天不管是金融相关的风控系统,还是刚才提到的无人车的系统,这些智能系统都是一个非常复杂的系统,里面包括了很多机器学习的算法,也包括了一些基于专家经验的决策规则,甚至一些自动化生成的规则。这样一些复杂的技术组合成的系统,它怎样能够做到可信,怎样能够做到鲁棒,适配更多的一些攻击、应付更复杂的一些情况,怎样能够做到数据的隐私保护。我们做的一些假设需要放在实际工业应用里面去看,而现在我们在这方面的思考还不太够,这是我对于未来发展的瓶颈,以及我们需要具备的看法和思路的想法。
李军: 在刚才我分享的车路协同领域,我认为可信 AI 的发展可能会有三个瓶颈或者是挑战。第一个是目前各个自动驾驶企业对可信AI的重视程度,我认为还是普遍存在一些不足的,当然这也是因为可信AI技术发展的历史阶段所决定的。大家现在更多的关注还是在自动驾驶的算法的基础性功能上,对安全性的重视普遍不足。第二个问题是可信AI数据安全和信息安全相关的标准和规范不是很统一,每家开发出来的响应通信协议等并不是很一致,因此在互通互联时,存在着一些困难和障碍。第三点是自动驾驶,尤其是基于车路协同的自动驾驶,是一种强实时性的应用,路端和车端需要在非常确定的高频状态下进行数据的通信。在这种情况下,加上可信AI属性,不管是加解密也好,还是一些校验或者是鉴权,势必会增加处理的耗时。也就是说,怎么在这个安全和实施之间做好一个平衡,也是我们现在的重点着力解决的一个问题。
孙军欢:我从事的领域是隐私计算,未来发展的两个方向,一个是性能的问题,一个是互联互通的问题。性能的问题会直接影响规模化落地,性能和安全的平衡会是未来一个非常大的挑战。在互联互通方面,有多个不同的机构在推动标准的制定,但实际在落地过程中会遇到一些阻力,各个厂商之间需要更紧密的配合,共同推动行业标准的制定。
Q6:在未来一年里,推动可信AI逐步发展的技术路径中,在有可能在近期内就会有较大进展与突破的方向是什么?为什么?
张志强:对于未来的进展,我觉得未来半年到一年时间里,很明显的进展一定会在应用层面出现。在过去几年里,在隐私保护、鲁棒性、公平性等方面,学术研究已经积累到一定程度了,所以我觉得从研究到应用这个方向去切换的话,半年到一年的时间应该会看到很多成果。
李军:关于这个问题,我想先稍微介绍一下,车路协同的行业和技术现在发展到了一个什么样的阶段。最近行业里有一种提法,说车路协同进入了下半场,也就是说要进行大规模的部署和商业化落地。车路协同要自己从过去的政府支持的模式,变成自己跑通商业模式,持续化地运营,并且进入到健康的商业运作的过程中。基于这样的背景,我们接下来会把苏州市作为我们的一个根据地来进行这种尝试,进行城市级的车路协同的智慧路网的建设和基于车路协同自动驾驶技术的研发和商业化的运营。
在未来一年中,有关可信AI方面突破,我觉得主要有两个方面。第一个方面是刚才提到了,我们会在苏州为根据地进行商业化的部署和验证,打造安全可信的数据中心,建立一整套的数据处理pipeline ,采集、清洗、脱敏、分析挖掘,数据中心的构建是以安全作为第一要务来去设计的。
第二点是我们会重点去建设可信网络。在这方面也已经和中国电信进行了比较深度的合作,共同来研发可信网络的技术,包括5G网络的传输、V2X网络的传输,怎么构建安全的、可信的身份认证和中间的数据通信安全等。
孙军欢:在隐私计算领域,相关部门的政策导向还是比较明显的,相继出台多个数据保护相关的法案,会加速推动隐私计算技术的落地。从我的感受来看,在2020年底以前,国有的大行或者是股份制银行,很少有真正地去落地隐私计算的产品。但是从2020年底开始,有一些规模庞大的银行开始尝试隐私计算产品落地探索,截止到2021年底,在所有股份制银行中,几乎每一家都有隐私计算相关的项目立项。预计今年隐私计算领域会在去年的基础上涌现出更多爆发式的需求。