幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

经历了 2023 年「百模大战」的洗礼,不管是国内还是海外,不管是开源还是闭源,各家大模型都从追赶和超越中获得了实质的进步。在语言、语音、视觉范畴,大模型已经获得了强大的生成本领,不仅能在几秒钟之内生成非常合理的内容,甚至可以媲美拥有多年技能和学问储备的专家。这些进展似乎为「大模型超越人类智能」的说法提供了令人信服的证据,也具象化了大模型规模化落地的前景。按照目前的进展情况,2024 年很可能会成为大模型部署元年。但同样需要注意的是,大模型在技巧上仍然存在一些关键缺陷,这或许会导致使用之路并不一定如想象中顺利。业界

经历了 2023 年「百模大战」的洗礼,不管是国内还是海外,不管是开源还是闭源,各家大模型都从追赶和超越中获得了实质的进步。

在语言、语音、视觉范畴,大模型已经获得了强大的生成本领,不仅能在几秒钟之内生成非常合理的内容,甚至可以媲美拥有多年技能和学问储备的专家。这些进展似乎为「大模型超越人类智能」的说法提供了令人信服的证据,也具象化了大模型规模化落地的前景。

按照目前的进展情况,2024 年很可能会成为大模型部署元年。但同样需要注意的是,大模型在技巧上仍然存在一些关键缺陷,这或许会导致使用之路并不一定如想象中顺利。

业界对此的担忧包括但不限于以下几点:

第一,幻觉仍是大模型难以克服的成绩,这关乎生成内容的可靠性。比如模型会笃定地说出错误的答案,对于金融、法律等专业度要求较高的范畴来说,这会导致大模型难以胜任实际场景中的任务。

第二,大模型的推理本领仍有不足,面对一些复杂的数学和逻辑推理任务,大模型的回答正确率普遍不高。

第三,大模型需要增强对长上下文的懂得本领,这也决定了大模型在很多范畴能否落地。在下半年,我们看到很多大模型公司已经将上下文窗口扩展到了 100k Token 以上。那么,这个窗口是不是越长越好?是否真能增加模型的懂得本领?上下文窗口长度又会如何影响模型训练、部署的方式?

这引发了人们的种种疑问。如果希望在 2024 年实现大模型规模化落地,仍需先探索出这些成绩的结论。

在近日举办的 2023 年数字科技生态大会人工智能与数据产业发展合作论坛论坛上,我们见到了中国电信星斗系列大模型的最新升级,以及针对上述成绩所提出的一系列技巧创新。

其中,星斗语义大模型正式发布了千亿参数版本,在推理和回答准确性方面都有显著提高,并将上下文窗口提到了 96K Token。特别是,中国电信首次提出了缓解多轮幻觉的解决方案,使得大模型的幻觉率降低了 40%。

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

                               中电信人工智能科技有限公司总经理何忠江解读星斗 AI 大模型。

与此同时,中国电信还宣布将加入到开源开放的行列中,预计今年年底开源百亿级别的大模型,明年 4 月则会开源千亿级别的大模型,旨在让更多研究者和开发者从中受益。此外,中国电信还将根据星斗大模型构建各种工具链,以满足不同用户的需求。

「幻觉率」降低 40%,星斗语义大模型是如何做到的?

大模型的幻觉成绩,是学界和业界都非常关心的成绩,也是其落地使用面临的最难挑战之一。

在千亿参数大模型发布之前,星斗语义大模型已经具备了多版本稳定可用的大模型基座,覆盖 3B、7B、12B 和 130B 等参数量级。

在目前的大模型范畴,百亿参数是一种非常主流的选择,这也是各家公司基于推理成本等因素的选择。至于为什么选择升级打造千亿参数版本的星斗语义大模型,何忠江也解释了背后的思考。

我们都知道,大模型的底层架构是「预测下一个 token」,导致其容易产生「幻觉」,给出事实上不正确的陈述。何忠江认为,从另外一个角度看,这恰恰反映了大模型像人一样,是因为并没有真正懂得成绩,才会回答出风马牛不相及的内容。解决办法可以是加强数据溯源,也可以是增加参数量,这些都能让大模型学到更多的东西,并真正地懂得一个事物,而不是「胡说八道」。

让人最为关注的是,中国电信千亿参数星斗语义大模型在业界首次提出了缓解多轮幻觉的解决方案,将模型幻觉率降低了 40%。这一方案包括四项关键技巧:

关键信息注意力增强技巧:通过对关键信息进行注意力增强,可以提高模型懂得本领和答案回复一致性的本领,较大程度缓解模型幻觉成绩;

学问图谱强化:通过学问图谱确保训练数据集学问事实性,并通过学问图谱学问提示本领辅助模型学问问答本领提高,大幅降低模型幻觉,提高通用问答准确率。

多轮学问记忆和强化技巧:通过采用更优模型学问记忆方案,以及关联信息的强化训练方案,增强了模型上下文记忆本领和关联学问懂得本领,增强了上下文回复一致性,降低了模型幻觉成绩;

学问溯源本领:通过多种湖源方式,关联成绩相关参考出处,生成答案更加可靠。

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

另一方面,中国电信将此前的百亿参数增加到千亿级别,使得星斗语义大模型获得了很大的性能提高:

首先,星斗语义大模型在长文本生成和长文懂得上提高尤其明显,分别有 30% 和 20% 的提高;其次,在学问问答方面提高 18%,在对内开放平台上回答正确率更可达 98%,可支持 96K Token 上下文懂得;此外,逻辑推理、数学本领和代码本领等方面,也有 10-15% 不等的提高。

截止目前,电信大模型已在电信内外多个场景落地:对内可提高办公、生产协同效率,包括了行文写作、代码编程、网络故障分析以及经营分析等多场景;对外可赋能 2B 和 2G 业务场景,提质提效、优化体验。同时,中国电信也联合多样化的工具辅助,来提高大模型在不同范畴下的使用体验,包括外挂学问、插件使用以及百余种预置 Prompts。

从对话框走向千行百业,大模型落地还需要什么?

人们都在期待着规模化的 AI 使用诞生,而这种成果必将来自于大模型的底层创新。

除了让大语言模型的本行 —— 文本的懂得与生成本领不断进化之外,科技巨头也竞相推出多模态方面的更新,将更多 AI 驱动的工具直接集成到核心产品中。比如这几个月来,OpenAI 陆续赋予了 ChatGPT 看(GPT-4V)、听(Whisper)、说(最新 TTS 技巧)、画(DALL・E)的本领。

前几天,OpenAI 召开了自家的首场开发者大会。全新升级后的 GPT-4 Turbo API ,将这些多模态本领开放给了每一位用户。当多模态本领被整合,必然会催生很多场景化使用。

何忠江指出,实际场景中的大模型使用不仅是一个简单的对话框,需要与多模态模型联动,才能真正去改变一些工作的流程和思路,提高其效率。而我们此前所熟悉的大模型 —— 语义大模型会是整个通用人工智能的核心,起到类似人类大脑的思考作用。

因此,在星斗语义大模型的打造过程中,中国电信同时开发了星斗多模态大模型和星斗语音大模型。

在这场论坛中,中国电信隆重介绍了星斗多模态大模型,该模型主要聚焦提高图文生成、图文懂得本领,训练了超过 12 亿各种风格数据,支持近 20 种绘画风格,中文意象懂得生成本领提高 30%,语义细粒度生成效果提高 25%。

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

此外,星斗语音大模型也是一大亮点。据介绍,星斗语音大模型基于数十万小时语音数据进行训练,具备精准的多语种 / 方言语音识别、语音实时自定义敏感词检测、超自然多音色语音生成和编辑、声音匿名等多项语音本领,支持智能会议、智慧办公、智能客服、智能语音机器人等多场景解决方案。

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

以「智能客服」为例,何忠江介绍说,此前 TTS 技巧已经能够合成非常优美的声音,但还远远算不上自然,接电话的人很容易识别出声音是否由机器生成,这就是 TTS 技巧在落地智能客服使用受到的最大阻碍。据统计,这类合成人声的挂断率甚至达到 70% 左右。

要想破解使用的成绩,就要依靠技巧创新,达到「高仿真」。星斗语音大模型目前已经实现「超自然人声合成」,比如下面这段声音,听起来和真人发音别无二致,语气词和停顿节奏都比较还原:

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

在通用模型之外,面向垂直范畴的行业大模型也是各个厂商的「必争之地」。构建一个智能对话框不是最难的,让大模型融入具体的业务、成为新的生产工具更重要。对此,中国电信已早早布局。

本次论坛中,中国电信宣布了首批试商用 12 个行业大模型,包括星斗教育大模型、治理大模型、政务服务大模型、应急大模型、医保大模型、交通大模型、住建大模型、金融大模型、神农一号大模型、出行大模型、旅游导览大模型、矿山大模型。

比如星斗教育大模型,这是中国电信基于教育行业亿级服务数据沉淀,训练出具有国家中英文作文特级教师水平的「精准教学大模型」,15 秒就能完成一篇中英文作文的打分、点评和改进建议,目前已在河南 1.2 万师生教学中使用并取得良好的效果。再比如星斗基层治理大模型,主要使用场景包括矛盾调节助手、线上法律顾问和公文助手等,目前已在某些城市的多个基层社区上线使用。

通用人工智能,越来越近

转眼间,距离 ChatGPT 发布已经快过去一年,热度却丝毫未减。究其原因,是因为大模型终于清晰地指出了一条前往通用人工智能的路。

一直以来,中国电信都将通用人工智能的目标当成长期努力的方向。近年来,从视觉、语音、语义到集各种模态本领于一身的数字人,中国电信目前已完成了全面布局,很多技巧成果也逐渐投入实际生产使用。

谈到对通用人工智能的懂得,何忠江表示,这仍然是一条漫长的道路,包括「感知智能」、「认知智能」、「具身智能」、「群体智能」几种阶段。

理想中的人工智能是像人一样能看、能听、会思考。借助视觉和语音的技巧,模型把信息采集到以后,核心是要对信息做出判断,给出下一步的决策思路,这其实就是大语言模型在目前阶段起到的作用。

当这种决策本领落在虚拟空间中的数字人或是现实空间中的机器人,就意味着「具身智能」的诞生,假如数字人和机器人能够相互协作、统筹和调度,这就意味着「群体智能」诞生了,通用人工智能在这个过程中离我们越来越近。

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

比如在下方这个案例中,星斗语义大模型用来撰写宣传主题文案,星斗多模态大模型用来绘制产品海报,在这个过程中,数字人起到了下达指令的作用,也可视为人类的「数字分身」。

最开始,数字人将任务描述为:「中国电信有一款最新的产品是直连卫星的产品,我们假设要给这款产品做一些广告宣传的文案,我们应该通过大模型怎么来做?」短短两分钟,一张精美的海报就完成了。

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

幻觉率直降40%,中国电信千亿参数「星斗大模型」炸场,业界首提缓解多轮幻觉解决方案

面向下一阶段的竞争,中国电信的万亿大模型已经开启训练计划,并预计将于明年 5 月份完成。据了解,电信万亿参数大模型是以「成长策略」进行训练,是首个万亿稠密大模型,将拥有更高阶的「智能」。 

可以想象的是,在不远的未来,融合语言、视觉和语音等多模态本领的大模型将会适应现实世界中不同模态的任务,逐渐接近甚至超越人类的水平。曾经只会出现在科幻作品的情节,终将走进现实。

给TA打赏
共{{data.count}}人
人已打赏
应用

最强AI芯片英伟达H200深夜发布,Llama2-70B推理提速90%,2024年二季度发货

2023-11-15 11:15:00

应用

比ChatGPT早发两周,被喷下线的Galactica成了LeCun最大的意难平

2023-11-15 15:12:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索