阿里云首创PilotScope新技术,为AI4DB应用提速

12月20日,数据库国际顶会VLDB2024公布新一批论文,阿里云新技术PilotScope成功入围,该平台技术可实现AI算法在数据库的“一键部署”,极大降低数据库中AI算法的应用门槛,为数据库智能化开辟了全新空间。同日阿里云宣布将PilotScope全部技术免费开源。图说:数据库顶会VLDB2024数据库是事关国计民生的基础软件技术,数据库技术的更新影响着数字时代的千行百业,其中一个前沿领域即是数据库智能化(AI4DB,AI for Database)。现在的数据库系统非常复杂,对稳定性要求极高,即便将单一AI算

12月20日,数据库国际顶会VLDB2024公布新一批论文,阿里云新技术PilotScope成功入围,该平台技术可实现AI算法在数据库的“一键部署”,极大降低数据库中AI算法的应用门槛,为数据库智能化开辟了全新空间。同日阿里云宣布将PilotScope全部技术免费开源。

阿里云首创PilotScope新技术,为AI4DB应用提速

图说:数据库顶会VLDB2024

数据库是事关国计民生的基础软件技术,数据库技术的更新影响着数字时代的千行百业,其中一个前沿领域即是数据库智能化(AI4DB,AI for Database)。现在的数据库系统非常复杂,对稳定性要求极高,即便将单一AI算法与单一数据库作匹配调试,也需要双方工程师紧密配合数周甚至数月,效率低、效果差,导致业界迟迟无法将日新月异的AI算法应用到数据库中。

阿里云首创PilotScope新技术,为AI4DB应用提速

图说:阿里云PilotScope架构图

针对这一难题,阿里云提出了新解法:通过在数据库和AI系统级抽象和通用化模块及接口定义,研发出一个全新的中间件系统平台PilotScope,让AI算法在数小时乃至数分钟内在数据库内实现“一键部署”。VLDB评议认为,PilotScope基于应用场景开创性的系统设计,将开启数据库智能化的全新方向。

据了解,PilotScope针对参数调优、索引推荐、基数估计、查询优化等数据库主流任务,预置了10多种AI算法,并完成PostgreSQL和Spark等两大主流开源数据库的适配打样。实验数据显示,使用PilotScope将AI算法嵌入数据库,较传统“硬植入”方法,查询优化等任务提速1到2倍不等,且PilotScope本身对部署产生的额外代价基本可忽略,表现突出。 阿里云首创PilotScope新技术,为AI4DB应用提速

图说:PilotScope效果图

“PilotScope就像个数据库AI‘超级管理员’,通过这一平台,AI工程师只需专注于设计通用算法,可实现对不同数据库的部署和应用;而数据库使用者可像调用API那样,方便又高效地用上AI。”该项目负责人朱鎔介绍说,PilotScope对数据库“零侵入”,并设计了智能检测、回退、隔离等机制,降低AI幻觉风险,在确保数据库稳定性的前提下实现智能化提升。

目前,PilotScope已在阿里云内部展开试点应用,相关技术也通过GitHub及Modelscope魔搭社区对外免费开源。

据了解,VLDB是数据库三大国际顶级会议之一,每年仅收录在学术界和产业实践中产生重要影响的新成果,是权威的数据库技术风向标。第50届VLDB大会预计于2024年8月在中国广州举办。

附开源地址:

https://github.com/alibaba/pilotscope

相关资讯

了解「AI 对齐失败数据库」

AI对齐失败数据库是一个用于追踪“机器学习系统的目标与人类的设计意图不一致”实例(instance)的社区项目,该项目由安远AI发起。今天,作为该项目的运营伙伴,机器之心SOTA!模型社区正式上线「AI对齐失败数据库」中文社区站点!

甲骨文推出 HeatWave GenAI:提供数据库内大语言模型等功能

感谢甲骨文公司宣布正式推出 HeatWave GenAI,其中包含数据库内大语言模型、自动化数据库内向量存储、可扩展向量处理,以及基于非结构化内容进行自然语言上下文对话的能力。HeatWave 是一项云技术服务,在一个产品中为交易和湖仓(IT之家注:Lakehouse,一种新的数据架构)规模分析提供自动化、集成的生成式 AI 和机器学习。这些新功能使客户能够将生成式 AI 的功能应用于客户数据,不需要具备 AI 专业知识,也不需要将数据移动到单独的向量数据库中。HeatWave GenAI 将立即提供,且无需 He

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源

大模型和 AI 数据库双剑合璧,成为大模型降本增效,大数据真正智能的制胜法宝。大模型(LLM)的浪潮已经涌动一年多了,尤其是以 GPT-4、Gemini-1.5、Claude-3 等为代表的模型你方唱罢我登场,成为当之无愧的风口。在 LLM 这条赛道上,有的研究专注于增加模型参数,有的疯狂卷多模态…… 这当中,LLM 处理上下文长度的能力成为了评估模型的一个重要指标,更强的上下文意味着模型拥有更强的检索性能。例如有些模型一口气可以处理高达 100 万 token 的能力让不少研究者开始思考,RAG (Retriev