今年年初,英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实,他的原话是「过去,几乎每个人都会告诉你,学习计算机至关重要,每个人都应该学会编程。但事实恰恰相反,我们的工作是创造计算技术,让大家都不需要编程,编程语言就是人类语言。」
编程,是为了不再编程,这一愿景由来已久,而且在大模型出现之后逐渐成为可能。但在现阶段,直接把一个大模型丢给某个人或某个企业去用效果仍然不好。比如,你不能指望一个不会写 Prompt 的人利用大模型去构建一整个网站,也不能指望一个没有配置 AI 人才的公司把某个大模型变成公司「智囊」。
也就是说,现在的大模型离「开箱即用」还有一段距离。
不过,在 5 月 17 日的腾讯云生成式 AI 产业运用峰会上,我们看到了可以缩小这一距离的产品,比如能调用腾讯官方插件和学问库的一站式 AI 智能体创作与分发开放平台 —— 腾讯元器,能帮助一线业务人员用好大模型解决实际业务难题的腾讯云大模型学问引擎、腾讯云大模型图象创作引擎、腾讯云大模型视频创作引擎等。
为这些产品提供支撑的腾讯混元大模型本领也在持续升级,部分中文本领已追平 GPT-4,撑持 16 秒视频生成。目前,腾讯混元 hunyuan-pro、hunyuan-standard、hunyuan-lite 等多种尺寸模型,已通过腾讯云,面向企业、开发者全量开放。其中 hunyuan-standard 撑持 256K 上下文,长文档理解和处理本领更强了。
在这次全新发布中,学问引擎是一款比较有代表性的 PaaS 类产品,可以让企业 5 分钟就开发出一款客服营销、企业学问社区类学问服务运用。这类大模型平台的出现打破了人人都需要掌握大模型庞大用法的局面,让大模型离产业更近了。
利用学问引擎,企业用户只需要输入模型选择、角色设定、学问库管理等基本信息,5 分钟就可以搭建出一款学问运用。
量产「销冠」、5 分钟创建智能助手
学问引擎是怎么做到的?
如果你在视频号上关注过一个叫「李蠕蠕」的博主,那你一定看过她的「销冠」系列。在视频中,她扮演的销冠角色会展示不同的销售策略,比如如何通过判断顾客的心理和需求来推销产品、如何应对还价、如何判断顾客的购买力等。批量复制这类「销冠」是每一个公司的梦想。
腾讯云学问引擎有助于实现这个梦想。它利用「LLM+RAG」的技术路线,可以帮企业轻松搭建融合了自己私有领域学问库的问答助手。如此一来,每个员工都能够以问答的形式迅速获取公司学问,学习「老员工」经验,快速晋升业务本领。
某公司利用腾讯云学问引擎构建了一个「保险经纪人销售助理」,通过生成保险产品学问和安抚话术来辅助保险经纪人。其问答准确率由传统机器人的 57% 晋升至 85%,保险经纪人人均提效 50%。
而这个过程之所以这么轻松,是因为腾讯云学问引擎封装了一些好用的模型和工具。
腾讯云大模型学问引擎聚焦全技术链路晋升,当用户提问时,学问引擎会先通过 RAG(检索增强生成),从一个庞大的文档集合(企业学问库)中检索出相关的文档片段,然后把这些信息按照一定的规则重新排列,转换成 prompt 输给大模型(LLM)。大模型会基于这些内容生成回答。这种方式相当于带着「课本」去考试,可以大幅度降低幻觉,回答内容更安全可靠。
整合 OCR 大模型,文档鉴别准确率晋升 30%
在利用学问引擎构建运用后,企业首先需要导入自己的学问库,以供检索。在这一环节,文档排版的庞大性决定了,剖析这些学问不是一件容易的事,要克服图文混排处理、结构化表格鉴别、公式鉴别、流程图鉴别、阅读顺序保持等诸多问题。
针对这些问题,腾讯云学问引擎集成了 OCR 剖析大模型,通过三个步骤来剖析文档:
第一步是版面分析,即利用自研的版面分析算法定位图象中所有版面元素(包括段落、表格、图片、标题等)的位置、顺序和类型;
第二步是通过文本鉴别、表格鉴别等精准匹配的垂类鉴别算法来鉴别、提取不同元素的内容;
第三步则是将鉴别结果按照人的阅读顺序整合成 Markdown 格式文件进行输出,保证信息的连贯性和易读性。
其中,表格、公式的情况较为庞大,比如有些表格可能没有框线。针对这类问题,OCR 大模型通过融合行列关系特征和元素特征来预测表格的行列间隔线。这样一来,即使表格没有明显的框线,也能通过算法推理出结构。此外,这个 OCR 大模型还能鉴别跨页合并表格、多行表等,对科研论文场景的庞大公式剖析效果也比较好,是国内少数能够与海外顶尖模型(如 Google 的 MP 模型)相媲美的模型之一。
整体来看,OCR 剖析大模型将文档鉴别的准确率晋升了 30%。这种对文档结构的深入理解对于处理更庞大的任务至关重要,比如信息的归纳、总结、对比分析和数值计算等。
提出业内首个语义切分大模型,回答完整性晋升 20%
让 OCR 剖析大模型把学问剖析出来,就能进行检索了吗?不,中间还有一个重要的步骤 —— 学问切分。
学问切分的难点在于如何准确地鉴别出某些信息属于一个信息块,并将其完整地切出来,比如跨页的流程图、表格。传统的切分方法是按照规则去切分,但不同的内容往往需要不同的切分方式,这使得切分规则变得异常庞大,不易维护。
为了解决这一问题,腾讯云推出了业内首个基于语义判断的学问切分大模型。和传统切分方法不同,它不需要你告诉它如何切分,而是自己去理解整篇文章的一级、二级、三级段落是怎样的分布,实现端到端的切分。这得益于模型在预训练过程中获得的语义理解、长上下文关联本领。此外,巧妙设置 prompt、构造微调数据也起到了很大作用,使大模型能够适应长文本切分需求并有较快的推理速度。
通过准确的学问切分,大模型可以更有效地撑持检索,让检索系统可以基于更合理、语义更完整的文本块进行搜索,从而提高检索的准确性和效率。在这个模型的帮助下,学问引擎的回答完整性晋升了 20%。
自研长文本 Embedding 模型,上万行超大表格也能检索
在文档被充分剖析、恰当切分后,检索过程就能更加顺利地进行了。不过,如何从海量的多模态数据中检索到最相关的信息依然是一大挑战。
腾讯云学问引擎从两个方向入手来优化检索效果。首先,通过自研的长文档 Embedding 模型,它把检索最大长度从 512 晋升到 4K,以撑持更庞大的长文本检索任务。在国际知名的 C-MTEB 榜单上,该模型在 8 个中文任务上可以达到效果最优。
其次,它撑持向量关键词检索、表格文字混合检索等多种检索策略,这使其检索本领不仅限于传统的文本检索,还撑持大型庞大表格等庞大检索需求。甚至,对于上万行、上百列的超大表格,学问引擎也能从容应对。
这些检索到的信息是大模型回答用户问题的重要依据,有助于提高生成文本的质量和可靠性。
整合多模态、多行业大模型,应对多样提问
在检索过程完成后,大模型会得到一个包含答案线索的 Prompt,用于回答用户提问。
这些问题有时会很专业,涉及到行业术语和规范。比如一个「教案助手」必须知道教案需要包含哪些内容,以何种形式编写。为此,腾讯云在通用大模型的基础上,深入了上百个用户场景,融入了大量的垂直领域学问,训练、调优了多个行业大模型,以降低特定行业的落地成本。
河南省数字教育发展有限公司基于腾讯学问引擎打造的智慧教育平台,面向河南省上万所中小学打造教师助理及学生助手,百科 + 教学辅助场景评测端到端学问准确率高于 90%。
此外,用户的提问可能会非常多元,不仅有文字,还会附上图片、文档、表格甚至非常庞大的流程图。为了解决这些问题,腾讯云学问引擎集成了多模态大模型的本领,撑持数据表、数据图、操作图等图文交错的多轮问答,能够满足各种真实场景的需求。
当然,在问答过程中,学问引擎也会遇到一些解决不了的问题(bad case)。但好在,它的背后还有一个强大的底座 —— 腾讯云 TI 平台。TI 平台上有一整套数据处理、模型精调工具,可以将 bad case 转化为有价值的训练数据,还有 100 多种任务类型的精调配比数据可供选择,帮助进一步晋升模型性能。这是很多学问引擎类运用所不具备的优势。
多个开箱即用平台齐发
瞄准「产业实用」
除了学问引擎,腾讯云这次还发布了其他几个开箱即用的平台,包括腾讯元器、图象创作引擎、视频创作引擎等。
其中,腾讯元器是一个智能体创作和分发平台,主打「低门槛」。通过提示词、插件、工作流、AI 辅助创建等本领,每个人都可以在几分钟内通过打字、点选等简单操作构建自己的专属智能体。
而且,元器平台上预集成了腾讯生态特色插件、学问库资源,还将开放第三方本领,丰富智能体的功能。
创建完成后,你可以将这些智能体发布到 QQ、微信或 APP 上,优质智能体有机会获得流量扶持。
图象创作引擎撑持图象风格化、AI 写真、线稿生图等本领,可以大幅缩短素材创作和生产周期。
视频创作引擎撑持视频风格化、运动笔刷、画布拓展等视频 AI 创作本领,还能一键转译视频语言,帮助企业投放海外市场。
这些引擎和学问引擎共同组成了大模型时代原生工具链,体现了腾讯云「产业实用」的大模型核心战略。
这一战略可以被解读为:如何让用户以最低的成本或门槛、最小的必要输入来获得最佳的大模型运用实践。
这一价值主张在学问引擎等产品中有多种体现。从整体来看,它有工具层、模型层和运用层的全方位撑持,而不仅仅是模型本身,而且解决方案涵盖了从数据处理、模型训练、运用开发到最终的部署和运维等多个环节。
从细节来看,它没有限制底层的大模型,而是以实用为判断标准,提供了混元大模型、精调的行业大模型、客户定制大模型以及基于第三方大模型精调而成的学问引擎专用模型等多种选择,帮助企业控制成本。此外,它的接入方式也非常简单,提供开箱可用的运用模板和可被集成的原子本领 API 两种便捷使用方式,把门槛降到无限接近于 0。
就像腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生所说,「大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标」。我们也期待看到更多这类「产业实用」的大模型运用产品出现。