距离上一个大版本仅两个月过去,科大讯飞在 1024 对外正式推出讯飞星火认知大模型 3.0 版本。
今年 5 月,讯飞星火认知大模型刚刚面世时,科大讯飞董事长刘庆峰曾立下 Flag:10 月 24 日,星火认知大模型的威力要全面对标 ChatGPT。
在今天的颁布会上,刘庆峰对外正式宣告,星火 V3.0 已经完成全方位逾越 ChatGPT,在中文上完成全面逾越,在英文上完成对标。
相较于上一个版本,讯飞星火 3.0 版本在文本生成、语言理解,知识问答、逻辑推理、数学威力、代码威力、多模态威力等七大核心威力上继续降级,并且推出了个性化功能。
多项威力的提升,推动了更多应用场景的落地,落地价值开始彰显。在此次颁布会上,讯飞对外介绍了智能编程帮忙 iFlyCode2.0、星火科研帮忙、启发互动式英语 AI 答疑辅学、青少年 AI 心思咨询、AI 健康帮忙等一系列细分场景应用,并对外颁布了金融、汽车、运营商、工业、住建、物业、法律等十二个行业模型。
刘庆峰称,通过与华为在算力上共同合作,讯飞在半年内完成了星火大模型训练和推理效率翻番。讯飞联合华为共同颁布 “飞星一号” 大模型算力平台,并启动对标 GPT-4 的更大参数规模的星火大模型训练,2024 年上半年将完成对标 GPT-4。
七大维度全面降级,整体逾越 ChatGPT
从大模型本身的技术降级来看,这次讯飞星火 V3.0 在其七大核心威力上都有不同程度的提升。
其中,代码威力、数学威力、主动对话、小样本学习、多模态指令跟随、个性化等威力是此次提升的重点和亮点。
先从代码威力上看,星火 3.0 版本进一步提高了代码的项目级理解威力,大模型可能理解和执行更复杂的代码生成要求,适用场景增多,降本增效效果更加明显。
颁布会上,刘庆峰展示了一个简单的 Python 生成 Prompt,要求大模型 “用 Python 代码画出一个大大的心形,然后里面大大小小的五颜六色的很多星星逐步呈现出来。”新版本大模型在代码威力上的项目理解威力被强化,不再只能执行单一的任务要求。
在全新的星火大模型对话页面,Python 威力也被单独归纳成为一个小组件,可供用户在单独环境下使用。
由于颁布会上介绍,降级过后的星火大模型在 Python 代码生成威力上已经逾越了 ChatGPT,但距离 GPT-4 还有一定差距。
机器之心第一时间体验了讯飞星火 V3.0,接下来我们选取一个 Python 课题 ——“编写一个 Python 程序,完成一个简单的聊天机器人,可能回答用户的课题”,分别让 ChatGPT 以及星火 3.0 进行生成,最后用 GPT-4 对这两者的答案进行检验和点评。
讯飞星火 V3.0 的回答速度很快,几乎没有停顿时间:
# Python高级工程师解法 # 依赖库:chatterbot from chatterbot import ChatBot from chatterbot.trainers import ChatterBotCorpusTrainer chatbot = ChatBot('Chatbot') trainer = ChatterBotCorpusTrainer(chatbot) # 使用英文语料库训练它 trainer.train("chatterbot.corpus.english") # 获取用户输入 user_input = input("User: ") # 获取机器人的回答 bot_response = chatbot.get_response(user_input) print("Chatbot: ", bot_response)
根据 GPT-4 对此段代码验证和点评,这段代码并没有错误,并且足够简洁地完成了 Prompt 提出的课题。
接下来,同一个课题,我们比对一下 ChatGPT 的回答:
import random # 定义聊天机器人的回答 responses = { "你好": "你好!有什么我可以帮助你的吗?", "你叫什么名字": "我是ChatGPT,一个聊天机器人。", "你喜欢什么食物": "我不吃东西,因为我是一个程序。", "再见": "再见,如果有任何课题,随时来找我!", "默认回答": "抱歉,我不太明白你的课题。请再问一次。", } # 定义聊天机器人的主要函数 def chat(): print("你好!我是一个聊天机器人。请输入你的课题或者说 '再见' 来结束对话。") while True: user_input = input("用户: ") response = get_response(user_input) print("聊天机器人: " + response) if user_input == "再见": break # 根据用户输入获取回答 def get_response(user_input): user_input = user_input.lower() for key in responses: if key in user_input: return responses[key] return responses["默认回答"] # 运行聊天机器人程序 if __name__ == "__main__": chat()
GPT-4 对上述代码的点评显示,GPT3.5 所构建的代码同样是一个足够简洁且可能完成预设功能的代码,但是它可能存在 “面对复杂或意图不清的课题时不够准确” 的课题。
将两段代码进行综合对比,GPT-4 罗列了两者各自的优缺点,在能基本完成任务的前提下,两个大模型所生成的回答各有优缺点。星火 V3.0 生成的代码拥有更高的可扩展性,在更复杂的开发场景和项目制工作中,星火 V3.0 在代码生成上会更具优势。
除了代码威力,数学威力的降级也是本次讯飞星火 V3.0 的重点,大模型可能自动提炼数学规律。由于教育是科大讯飞一直以来的重点落地场景,讯飞在教育领域积累了大量数据,此次所降级的威力也将用于讯飞 AI 学习机之中。在测试中,小学、初中、高中不同难度的数学题,星火大模型 V3.0 都可能流畅回答,并且准确率为 100%。
同样的课题,ChatGPT 与星火的答案基本一致,不过解题步骤上略有繁杂。在第一个课题上,ChatGPT 在答案上多做了一步常识性筛选,将香蕉数量进行了取整。
而 GPT-4 则在这三道题中表现失常。其中,第二题求解等差数列首项和公差,GPT-4 得出了错误答案 a=2、d=2。机器之心将第二道题目单独取出提问,多次提问 GPT-4,均得到错误答案。
在多模态方面,星火 V3.0 在指令跟随与细节表达等威力上进一步提升,大模型可能理解更新颖、细节的 Prompt,并且表现地更加丰富。
在多模态威力提升的加持下,没有绘画和创作基础的普通人,也可以通过和讯飞星火大模型 V3.0 的人机互动,发挥自己的奇思妙想,进行 “儿童绘本制造”。
只需要打开 “有声绘本创作帮忙”,随意输入你的想法,比如一只兔子想去太空冒险,然后持续跟模型对话,模型会自动扩写故事线并且根据故事进行绘画。即使在多轮对话下,故事和图片内的主要人 / 物都会自动延续所设定的 IP 特色。创作结束后,就可以导出绘本故事到本地。
除了上文提到的 ““python 大脑”、“绘本制造”,在全新的讯飞星火大模型对话界面,被包装好的模版化 “帮忙” 已经十分丰富,还有 “法律咨询”、“文本扩写” 等等。
“直到现在,我们发现大家对大模型仍然有两个期待,一个是大模型不仅要能回答课题,还要可能就是主动提出课题,主动交互。另一个,大模型不仅要有权威知识的信息,还要有能反映个性的威力”,刘庆峰提出,大模型正在从通用进化到个性
在颁布会现场,科大讯飞研究院院长刘聪要求大模型用 “孔夫子” 的人设,来为自己写作一篇特色演讲稿,AI 也可以有了人设。
更进一步,还可以上传关于自己的语料,如既往工作演讲资料,来训练一个更符合自己风格的 AI,让大模型以自己的方式来为自己写演讲稿。
如果想要更加有个人风格一些,还可以继续上传一些生活沟通记录,比如和家人的聊天记录,让大模型更懂自己的说话方式。在现场,刘聪使用自己的个人帮忙,给女儿写了一封有个人风格的沟通信,信里陈述的方式就是刘聪本人的说话方式。
除了可以自己训练,讯飞星火大模型 V3.0 新增的 “友伴” 功能,已经训练了一些经典影视剧和文学作品中的人设,我们可以在广场中,选择他们并跟他们聊天。
当然,在平台中内置了自定义人设功能,我们可以自己设定自己想要的 AI 人设,根据性格模拟、情绪理解、表达风格生成自己喜欢的对话对象。“这不只是聊天,还可以释放灵感、教育孩子、解放情绪”,刘庆峰说。
机器之心在讯飞星火 App 尝试创建一个自己喜欢的 AI 人设。输入姓名后,可以设定它的头像、声音、随机为它增加身份描述。它的人设是一个天真无邪有着小朋友声音的小学生,它是一个火星居民,正在准备开始它的太空旅行。
还可以精调它的性格,调整外向性、抗压性、友好度等,为它打造一个你喜欢的性格特征。
最后 ,就可以顺利开启对话了。和可爱小朋友“Aliceeee”的对话过程中,“Aliceeee”自己的人设意识相对连贯,可能按照人设对课题做出反应,我们可以跟“Aliceeee”一起开太空旅行的脑洞,进行天马行空但有“Aliceeee”逻辑的想象。
此外,受益于讯飞星火大模型生态的发展,在如今的大模型对话页面,在涉及到简历生成、流程图制造、PPT 制造、文档问答等特定场景,平台可以支持打开相关插件,获得更加专业的生成服务。
以 PPT 制造为例,我打开了 PPT 制造插件,然后在对话框中输入 “请帮我制造一份介绍讯飞星火 V3.0” 的 PPT,系统识别要求后开始调用 PPT 制造插件,大约在 3 秒后,一份 PPT 文件就显示制造好了,并可供下载,生成质量可能达到基本的使用需要。
连续颁布多款落地应用,将在 2024 年完成对标 GPT-4
经过过去一年的加速发展,目前国内领先厂商的自研大模型水平已基本达到 GPT3.5,下一阶段应用落地成为大模型的重点。金融、法律、教育、营销等常见的行业大模型已经在部分具体场景中发展成熟,开始产生实际价值。此次颁布会上,讯飞在教育、调理科研、代码领域颁布了多款新产品。
正式颁布调理大模型,讯飞晓医 APP 为每个家庭提供健康帮忙
此次颁布会上,讯飞正式对外颁布调理领域大模型以及搭载了调理大模型的 “讯飞晓医” APP,集成了症状自查、报告解读、调理信息快速查询、健康档案管理等功能。比如,当用户不知道怎么准确表达自己的病情,不知道买药该注意什么禁忌,想要快速比对自己不同时期的体检报告时,可以直接询问讯飞晓医。
和其他场景不一样,调理场景的大模型对结果的容错率更低,出错带来的风险性更高。讯飞星火调理大模型通过上线实际使用数据抽查 12 万例并通过国家科技信息资源综合利用与公共服务中心(STI)第三方测试数据显示,讯飞星火调理大模型在调理海量知识问答、调理复杂语言理解、调理专业文本生成、调理诊断治疗推荐的课题回答率全面逾越 GPT-4。
颁布 AI 心思伙伴 “小星”,帮助青少年舒缓心思困扰
AI 心思咨询师 “小星” 是科大讯飞基于星火认知大模型推出的一款帮助青少年舒缓心思困扰的多模态心思产品,它可能通过视频、语音、文字等多模态方式与青少年展开类人自由对话,理解青少年的情绪情感,表达接纳与共情,促进青少年自我觉察,并提供个性化行动建议。
“小星” 具备多模态情感识别、共情表达、寻因式提问、个性化心思指导四大核心威力,具有极其丰富的心思学知识 ——10 亿 + 条心思类数据、40 万 + 篇期刊文献、100 万 + 通脱敏心思对话案例、550 万 + 个心思评估数据。
智能编程帮忙 iFlyCode 降级 2.0 版本,代码威力逾越 ChatGPT
持续提升的代码威力在产品上的落地效果已经十分明显。刘庆峰表示,自讯飞星火颁布以来,代码威力持续降级,星火 3.0 已基本全面逾越 ChatGPT,正在追赶 GPT-4。
搭载讯飞星火 V3.0 的智能编程帮忙 iFlvCode2。0 正式颁布后,发现产品在编程的设计阶段提效 50%、开发阶段提效 37%、测试阶段提效 44%,大幅提升软件从业人员效率。
以智慧课堂的从 Windows 到 Linux 跨平台移植为例,项目代码超过 20 万行,在智能编程帮忙 iFlyCode 的帮助下,开发时间从传统方式在的 3 个月,缩短到了一个月。
iFlyCode 颁布以来,已在京东云、软通动力等 107 家机构完成深度对接应用。今年 11 月份,几乎全国所有软件名城都会和科大讯飞开展相关合作。
颁布会上,讯飞联合华为还共同颁布了 “飞星一号” 大模型算力平台,此前,讯飞和华为 “联合特战队” 半年内完成星火大模型训练和推理效率均翻番。
“大模型时代的大幕才刚刚揭开,改变世界的伟大征程才刚刚开始。” 刘庆峰透露,对标 GPT-4 的更大参数规模的星火大模型正式启动训练,2024 年将完成对标 GPT-4。