用好企业学问库是大模型应用破局的关键。
从 ChatGPT 最初发布算起,虽然大模型的热潮已经持续了一年多,但大部分时间依然停留在学术前沿和技巧创新层面,深入具体场景实现产业价值的案例并不多见。
实际落地的种种挑战最终指向一个方向:行业学问。
面对各行各业的垂直场景,依靠网络公开信息和学问预训练的通用模型很难搞定准确性、稳定性、性价比等课题。如果在外部实时信息搜刮之余辅以强大的专门的企业学问库,让模型对行业学问的了解大大巩固,效果自然更好。
这就好比我们熟悉的「开卷考试」模式,人类大脑的「内存容量」越强越好,但终归有上限,而带进考场的参考资料正如外接「硬盘」,让考生不需要去背诵繁杂的学问点,而是可以将精力更多地花在了解学问的本质逻辑上。
在 12 月 19 日举办的 Baichuan2 Turbo 系列 API 发布活动上,百川智能创始人、CEO 王小川做了一个更精确的类比:大模型就像计算机的 CPU ,通过预训练将学问内化在模型内部,然后根据用户的 Prompt 生成结果,上下文窗口可以看做计算机的内存,存储了当下正在处理的文本,而互联网实时信息与企业完整学问库共同构成了大模型时代的硬盘。
这些最新的技巧思考,已经融入到百川智能的大模型产品之中。
百川智能正式开放了基于搜刮巩固的 Baichuan2-Turbo 系列 API ,包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo 。该系列 API 不仅支持 192K 的超长上下文窗口,还增加了搜刮巩固学问库的能力,所有用户均可上传特定文本资料构建自身专属学问库,根据自身业务需求构建更完整、高效的智能解决方案。
与此同时,百川智能也升级了官网模型体验,正式支持 PDF 文本上传以及 URL 网址输入,普通用户均可通过官网入口体验长上下文窗口和搜刮巩固加持后的通用智能水平的飞升。
大模型落地,「内存」和「硬盘」缺一不可
大模型应用的关键在于用好企业数据,对于这一点,领域内从业者都感受非常深刻。
对于企业自身来说,过去数年在数字化建设过程中,大量的高价值数据和经验被沉淀下来,这些自有数据构成了企业的核心竞争力,也决定了大模型落地的深度和广度。
以往,实力雄厚的企业多在预训练阶段利用自身数据来训练大模型,但这种体例所需要的时间和算力成本是巨大的,也需要配备专业的技巧团队。也有企业团队选择引入业界领先的基础大模型,使用自身数据进行后训练(Post- Train)和有监督微调(SFT),一定程度上弥补了大模型建设周期过长和领域学问匮乏的缺点,但仍然无法解决的是大模型落地的幻觉和时效性课题。无论是预训练(Pre-Train)还是后训练(Post- Train)和有监督微调(SFT)的体例,每更新一次数据都要重新训练或微调模型,并且无法保证训练的可靠性和应用的稳定性,多次训练后仍会出现课题。
这意味着,大模型落地需要一种更高效、精确、实时的数据利用体例。
近期,扩展上下文窗口和引入向量数据库的方法被寄予厚望。从技巧层面来看,上下文窗口所能容纳的信息越多,模型在生成下一个字时可以参考的信息就越多,「幻觉」发生的可能性就越小,生成的信息就越准确,因此这项技巧是大模型技巧落地的必要条件之一。向量数据库则为大模型外接了一个「存储」。相对于单纯扩大模型规模而言,引入外挂数据库能够让大模型在更广泛的数据集上回答用户课题,以非常低的成本提高模型对各种环境和课题的适应能力。
只不过,每一种方法都存在局限,大模型无法依靠单个方案来突破落地挑战。
比如,上下文窗口过长时存在的容量限制、成本、性能、效率等课题。首先是容量课题,128K 的窗口最多可以容纳 23 万汉字,也不过是一个 658KB 左右的文本文档。另外是计算成本课题,长窗口模型的推理过程需要消耗大量 token 造成的成本。再从性能上看,由于模型的推理速度与文本长度正相关,即使是运用了大量的缓存技巧,长文本也会导致性能的下降。
对于向量数据库,由于其查询和索引操作比传统的关系型数据库更复杂,这将给企业带来更多的计算和存储资源压力。而且国内的向量数据库生态系统相对薄弱,对于中小企业来说存在相当高的开发门槛。
在百川智能看来,只有将长窗口模型与搜刮 / RAG(检索巩固生成)相联合,形成「长窗口模型 + 搜刮」的完整技巧栈,才能真正实现高效、高质量的信息处理。
在上下文窗口方面,百川智能在 10 月 30 日推出了当时全球最长上下文窗口模型 Baichuan2-192K,一次可输入 35 万汉字,达到了业界领先的水准。同时,百川智能将向量数据库升级为搜刮巩固学问库,使得大模型获取外部学问的能力大大巩固,其与超长上下文窗口的联合可以连接全网信息以及全部企业学问库,从而替代绝大部分的企业个性化微调,解决了 99% 企业学问库的定制化需求。
这样一来,企业获益显而易见,不仅成本大大降低,还能更好沉淀垂直领域学问,使得企业专有学问库这一核心资产持续增值。
长窗口模型 + 搜刮巩固
如何提升大模型的应用潜力?
一方面,在不修改底层模型本身的情况下,通过增加内存(即更长的上下文窗口)和借助搜刮巩固(即访问互联网实时信息和从专业领域学问库中获取专家学问)强强联合的方法,大模型可以将内化学问与外部学问融会贯通。
另一方面,搜刮巩固技巧的加入,能更好地发挥长上下文窗口优势。搜刮巩固技巧能让大模型精确了解用户意图,在互联网和专业 / 企业学问库海量的文档中找到与用户意图最相关的学问,然后将足够多的学问加载到上下文窗口,借助长窗口模型对搜刮结果做进一步的总结和提炼,更充分地发挥上下文窗口能力,帮助模型生成最优结果,从而实现各技巧模块之间的联动,形成一个闭环的强大能力网络。
两种方法的联合,能够将上下文窗口的容量拓展到一个全新的高度。百川智能通过长窗口 + 搜刮巩固的体例,在 192K 长上下文窗口的基础上,将大模型能够获取的原本文本规模提升了两个数量级,达到 5000 万 tokens 。
「大海捞针」测试(Needle in the Heystack)是由海外知名 AI 创业者兼开发者 Greg Kamradt 设计的,业内公认最权威的大模型长文本准确度测试方法。
为验证长窗口 + 搜刮巩固的能力,百川智能采样了 5000 万 tokens 的数据集作为大海(Haystack),并使用多个领域的问答作为针(Needle)插入大海(Haystack)不同位置中,并分别测试了纯 embedding 检索和稀少检索 + embedding 检索的检索体例。
对于 192K tokens 以内的请求,百川智能可以实现 100% 回答精度。
而对于 192K tokens 以上的文档数据,百川智能联合搜刮系统,将测试集上下文长度扩展到 5000 万个 tokens,分别评测了纯向量检索和稀少检索 + 向量检索的检索效果。
测试结果显示,稀少检索 + 向量检索的体例可以实现 95% 的回答精度,即使在 5000 万 tokens 的数据集中也可以做到接近全域满分,而单纯的向量检索只能实现 80% 的回答精度。
同时,在博金大模型挑战赛 – 金融数据集(文档了解部分)、MultiFieldQA-zh 和 DuReader 三个测试集上,百川智能搜刮巩固学问库的得分均领先 GPT-3.5、GPT-4 等行业头部模型。
长窗口与搜刮联合不易,百川智能「见招拆招」
「长窗口模型 + 搜刮」固然可以突破大模型在幻觉、时效性和学问等方面的瓶颈,但前提是先要解决二者的联合难题。
二者能不能完美融合,很大程度上决定了模型最终的使用效果。
尤其是在当下,用户信息需求表达体例正在发生潜移默化的变化,其与搜刮的深度联合在各个环节都对百川智能提出了新的考验。
一方面,在输入体例上,用户的课题不再是一个词或短句,而是转变成了更自然的对话互动甚至是连续多轮对话。另一方面,课题形式也更加多元,并且紧密关联上下文。输入风格上更加口语化,输入课题趋于复杂化。
这些在 Prompt 方面的变化与传统基于关键词或者短句表达搜刮逻辑并不婚配,如何实现二者对齐是长窗口模型与搜刮联合要解决的第一个难题。
为了更精确地了解用户意图,百川智能首先利用自研大模型对用户意图了解进行微调,将用户连续多轮、口语化的 Prompt 转换为更符合传统搜刮引擎了解的关键词或语义结构,呈现出来的搜刮结果也更精确和更相关。
其次,针对用户实际场景中日益复杂的课题,百川智能不仅借鉴了 Meta 的 CoVe(链式验证)技巧,将复杂 Prompt 拆分为多个独立且能并行检索的搜刮友好型查询,让大模型对每个子查询进行定向学问库搜刮,最终提供更准确详实答案的同时减少幻觉输出。此外,还利用自研的 TSF(Think Step-Further)技巧推断并挖掘出用户输入背后更深层的课题,更精确、全面地了解用户意图,引导模型输出更有价值的答案。
另外一个难题与企业学问库本身相关。用户需求与搜刮查询的婚配程度越高,大模型的输出结果自然更好。但在学问库场景中,模型要想进一步提升学问获取的效率和准确性,则需要更强大的检索和召回解决方案。
学问库场景有其独特的特征,用户数据通常是私有化的,利用传统的向量数据库无法很好保证用户需求与学问库的语义婚配。
为此,百川智能自研了 Baichuan-Text-Embedding 向量模型,在超过 1.5T tokens 的高质量中文数据上进行预训练,并通过自研损失函数解决对比学习体例依赖 batchsize 的课题。效果很显著,该向量模型登顶了当前最大规模、最全面的中文语义向量评测基准 C-MTEB,并在分类、聚类、排序、检索和文本相似度 5 个任务及综合评分上取得领先。
虽然当前构建大模型学问库的主流方法是向量检索,但单纯依靠它显然是不够的。究其原因,向量数据库的效果对训练数据覆盖的依赖很大,在未覆盖的领域泛化能力会大打折扣,这无疑给数据私有化学问库场景造成了不小的麻烦。同时,用户 Prompt 与学问库中文档长度存在差距,二者不婚配也为向量检索带来挑战。
因此,百川智能在向量检索基础上引入稀少检索和 rerank 模型,形成向量检索与稀少检索并行的混合检索体例,大幅提升了目标文档的召回率。用数据说话,这种混合检索体例对目标文档的召回率达到了 95%,而绝大多数开源向量模型的召回率低于 80%。
此外,大模型在回答课题过程中也会因引用资料不准确以及与大模型不婚配,加重自身的幻觉现象。
对此,百川智能在通用 RAG 的基础上首创 Self-Critique 大模型自省技巧,让大模型基于 Prompt、从相关性和可用性等角度对检索回来的内容自省,进行二次查看,从中筛选出与 Prompt 最婚配、最优质的候选内容,让材料的学问密度和广度更上一个台阶,还能降低检索结果中的学问噪声。
沿着「长窗口模型 + 搜刮」技巧栈路线,百川智能凭借自身在搜刮领域的技巧积累,尤其是业界领先的向量检索与稀少检索的配合,解决了大模型与用户 Prompt、企业学问库联合中需求不婚配的痛点,让自身搜刮巩固学问库的能力凸显出来,对于大模型更高效地赋能行业垂直场景真可谓如虎添翼。
大模型落地,搜刮巩固开启企业定制化新阶段
短短一年间,大模型的发展超乎人们的想象。我们曾经展望「行业大模型」能够带来千行百业的生产力释放,但行业大模型受到专业技巧人才和算力支撑等因素制约,更多中小企业更无法在这波大模型浪潮中收获红利。
由此可见,走出「从产品到落地」这一步,的确比当初的「从技巧到产品」更难。
在轰轰烈烈的百模大战到定制化大模型的比拼中,技巧经历了一轮又一轮迭代,从最开始基于预训练做行业大模型、基于后训练或 SFT 做企业专属模型,到之后利用长窗口、向量数据库等技巧开发专属定制化模型,虽然都推动大模型离理想中的「全知全能」更近了一些,但在广泛行业垂直场景中的应用落地还无法真正实现。
百川智能打造「大模型 + 搜刮」技巧栈,在凭借长窗口提升模型基础性能的同时,利用搜刮巩固更高效、全面地连接领域学问和全网学问,提供了一种更低成本的定制化大模型之路,率先迈出实现「全知」的一步。我们有理由相信,这将引领大模型产业落地走向全新阶段。