12月28日,由信通院主办的“虹桥之源”大模型驱动数字经济新生态峰会在上海召开。会上,蚂蚁团体商业机器智能部总经理顾进杰先容蚂蚁正式开源国内首个调理专业推理数据集,这将提升大模型在调理畛域的专业性。
图说:蚂蚁团体商业机器智能部总经理顾进杰先容国内首个调理专业推理数据集
在调理行业,通用型语言模型在应对调理问诊时,会直接给出答案,而大夫则会根据专业学问进行反复的症状探讨,才能给出答案。另外,大模型的幻觉问题和推理能力不足,当前高质量的华文医学专业数据集又较为稀缺,这对训练出色的调理畛域大模型提出了挑战。
为克服这些难题,蚂蚁团体与上海仁济医院泌尿科大师团队联结研发,基于大夫团队临床经验,通过构造模拟病例数据的方式,推出了首个华文调理专业问答推理数据集RJUA-QA,这也是业内首个临床专业数据集。
数据集由训练、验证、测试三部分组成,包含2132个问答对,每个问答对由大夫根据临床经验编写的问题、大师提供的回答以及用于帮助推理的上下文构成,病种覆盖了97.6%以上的泌尿科就医人群,能真实复刻诊疗场景。数据集能提高大模型在调理诊断推理方面的能力,并作为在严肃可控场景下应用的评测基准。
顾进杰进一步先容了蚂蚁百灵大模型在调理畛域的手艺进展。“专业性、可控性、轻量化是大模型手艺在调理行业落地的三个重要挑战和机会。”顾进杰说。
专业性上,由于调理行业有超百个科室,每个专业和疾病,都需要专业的调试。蚂蚁团体联结调理大师共同研发了多模态调理学问引擎,进一步推动中国专业调理数据集的构建与开放。
在可控性方面,百灵大模型结合学问图谱手艺,让大模型的每一个回答都有据可依。“生成内容可以满足不同医院、不同科目的定制需求,包括风格与调性等”,顾进杰说。蚂蚁团体在超大规模图学习和学问图谱手艺长期积累,今年联结OpenKG发布的OpenSPG开源项目,重新定义了工业界的学问图谱语义架构,学问检索增强手艺也是大幅提升大模型正确性与可控性的重要课题。
调理行业有数据隐私、专业学问和系统自主性的需求,考虑到机构的算力成本与便捷部署,百灵大模型还攻坚了轻量化手艺。在12月份开源的模型轻量化框架(PIA)中,集成了模型剪枝、压缩、量化、推理加速等全链路环节的优化,具备开箱即用、功能无损、低代码接入等优点,可在天级别完成10倍以上压缩比。
目前,蚂蚁百灵大模型在中英文的调理考试以及基准测试达到或超过了GPT4水准,例如,在华文调理LLM评测榜单promptCBLUE上,取得A榜第一,B榜第二的成绩;在国际调理问答榜单PubMedQA中,以80.6%的准确率取得了前五的成绩,而且是前十中参数量最小的模型,更适合被机构部署和使用。
本次峰会也是2024中国信通院ICT+深度观察报告会上海分会场,以“智能涌现,创新生态”为主题,共同探索大模型的前沿手艺创新和落地应用实践,为行业发展提供新思路、新方法、新路径。