第四范式、南洋理工联合研究成果入围国际顶会 SIGMOD 2024

近日,第四范式与新加坡南洋理工大学教授Shuhao Zhang的最新联合研究成果(乱序数据流中实现积极缺点抵偿的流式窗口对接,论文标题 PECJ: Stream Window Join on Disorder Data Streams with Proactive Error Compensation),被国际顶级数据库学术会议 SIGMOD 2024 (ACM SIGMOD/PODS International Conference on Management of Data 2024)作为常规研究论文录取。SI

近日,第四范式与新加坡南洋理工大学教授Shuhao Zhang的最新联合研究成果(乱序数据流中实现积极缺点抵偿的流式窗口对接,论文标题 PECJ: Stream Window Join on Disorder Data Streams with Proactive Error Compensation),被国际顶级数据库学术会议 SIGMOD 2024 (ACM SIGMOD/PODS International Conference on Management of Data 2024)作为常规研究论文录取。SIGMOD是数据库范畴的顶级会议,堪称数据库范畴的”奥林匹克”,入选论文代表了数据库范畴的最高水平。

第四范式、南洋理工联合研究成果入围国际顶会 SIGMOD 2024

论文预印本下载地:https://tonyskyzeng.github.io/downloads/PECJ_TR.pdf

流窗口对接(Stream Window Join,SWJ)是将两个输出流在不同的有限子集或窗口内进行对接的操作,是数据流分析的关键组成部分。与传统的关系对接操作有所不同,SWJ 不等待完整的输出数据就能实时生成对接结果。这类操作在实时范畴有着重要的作用,广泛应用于金融市场、欺诈检测零碎和传感器网络等流式计算场景下。

SWJ 面临的挑战之一是由于诸如网络迟延等因素导致数据无序的到达。这种现象被称为数据流震荡。传统法子下,处置惩罚这些无序数据流通常涉及缓冲输出数据,来提供更全面的窗口内数据视图,从而直接在潜在无序数据流上运行 SWJ。然而,由于其非线性特性,额外缓冲时间通常会导致大量迟延成本。

联合团队提出了一种新颖的解决方案:积极性缺点抵偿(PECJ),旨在积极管理无序数据流。与现有的仅依赖已到达的数据(即窗口内数据)的法子不同,PECJ 操纵预测出未来的无序数据来提高Join准确性。这种创新的处置惩罚无序数据法子可在不增加迟延的情况下实现准确度提升。

图一:积极性缺点抵偿(PECJ)算法架构

第四范式操纵AI解决企业实际商业问题时发现,诸如金融反欺诈等在高实效性、高准确性要求的场景中,由于网络迟延、数据源不一致性等引起的影响数据流及时性的情况下,所需数据不能及时传输,会大幅影响风控零碎的实效性及准确性。以股票交易所数据中心部署的在线异常检测零碎为例,考虑一笔可能用于恶意空头交易的海外交易,理想情况下应在低至200毫秒的迟延内处置惩罚。然而,由于数据流震荡的不可预测影响,这笔交易可能会经历长达800毫秒或更长的迟延。传统的处置惩罚法子有两种,其一是舍实效保准确,等待迟延数据;其二是保实效舍准确,使用不完整的数据进行处置惩罚,但可能导致更低的准确性。在高风险的金融环境应用中,这两种选择都差强人意。

相比之下,PECJ通过预测分析,积极应对。具体来说,PECJ通过操纵变分推断(variation inference, VI)法子来估计未观察数据的后验分布(posterior distribution approximation, PDA),在保持零碎延时不大幅增加的情况下,操纵预测数据来提升零碎的判断准确性,在计算效率和准确性之间实现了一种平衡,使得零碎能够在对迟延极高敏感的金融环境中有效运作。此次,联合团队进一步将 PECJ 集成到多线程 SWJ 基准测试平台(AllianceDB)中,在一些真实数据集(Stock)中,在相同的延时下,PECJ将错误率从高达47%降至1%。

图二:PECJ 在基准测试平台(AllianceDB)下的迟延改进和错误率下降

未来,嵌入PECJ算法的第四范式机器学习开源数据库项目 OpenMLDB(https://github.com/4paradigm/OpenMLDB)将逐步应用于更多行业高并发、高吞吐的业务场景,进一步提高流式数据的处置惩罚效率和可靠性。

给TA打赏
共{{data.count}}人
人已打赏
应用

清华大学张璇、周光敏团队在联邦进修实行服役电池共同分类收受接管研究中取得新进展

2023-12-18 16:26:00

应用

数智上海 2023 峰会“数智说”产业智能化论坛成功举办

2023-12-18 16:53:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索