当「养老」遇上 AI 大模型

作者:赖文昕编辑:陈彩娴鲜少有人关注到这样一个现象:在大模型的发展初期,「研发」与「产品」往往来自同一个群体——程序员。 由于大模型技术的系统复杂,新一代大模型产品经理的数量稀少,程序员往往既是技术、又是产品。 因此,程序员对 AI 大模型「究竟能解决什么问题」、「如何解决某个问题」的思考,也就在一定程度上刻画了第一批大模型落地应用的模样。

作者:赖文昕

编辑:陈彩娴

鲜少有人关注到这样一个现象:

在大模型的发展初期,「研发」与「产品」往往来自同一个群体——程序员。

由于大模型技术的系统复杂,新一代大模型产品经理的数量稀少,程序员往往既是技术、又是产品。因此,程序员对 AI 大模型「究竟能解决什么问题」、「如何解决某个问题」的思考,也就在一定程度上刻画了第一批大模型落地应用的模样。

换言之,程序员不仅难以被淘汰,反而对大模型的进步扮演重要角色。

基于这个背景,由中国电子学会主办、ATEC 前沿科技探索社区承办的第四届 ATEC 科技精英赛(ATEC2023),也以程序员为中心,将镜头聚焦在了程序员与大模型技术的「对话」上,探索程序员会如何利用大模型技术来解决现实生活中的实际难题,如「科技助老」。

上周,ATEC 2023 的比赛内容以真人综艺节目《燃烧吧!天才程序员》的形式播出,让观众在 48 小时的直播中观看了青年一代程序员应用大模型思考应用解法的真实工作情况,在各大网络平台上引起了广泛关注。

从赛题的内容设置来看,ATEC 2023 一反常规,在评测程序员的大模型解法时,不是基于现有的学术界制定的性能评测榜单,如 C-Eval 等,而是从真实世界的用户体验出发,围绕老人用支付宝在生活缴费、医疗服务、红包社交等场景中的问题,直接向程序员发起挑战。

这也是国内首个围绕大模型如何解决真实社会难题的程序员比赛。

48 小时的大模型极限挑战

4 月 21 日晚,国内首个基于真实场景的大模型全链路应用竞赛——ATEC 2023 的最后一轮比赛结束。

通过多轮线上赛、线下赛的比拼与评委的层层筛选,最终角逐出一支冠军队伍。团队成员分别是毕业于哈尔滨工业大学(深圳) 电子与通信工程专业的周青松,东南大学软件工程专业硕士在读的吴东冬,华中科技大学软件工程专业硕士在读的“最年少选手”邱晨浩,以及华中科技大学网络空间安全专业硕士在读的王浩宇。

当「养老」遇上 AI 大模型

ATEC 2023 的线下比赛是一个「48 小时大模型极限挑战」,进入线下赛的 16 名选手面对直播镜头的全程记录,使用由赛事提供的近50张 A100 卡资源实战,最终胜出者能获得 100 万元奖金。

作为国内程序员与在校大学生首选的一线赛事,这已经是 ATEC 科技精英赛连续举办的第四个年头了。

与传统的技术竞赛不同,ATEC 通过紧扣社会价值的命题设计,搭建模拟真实工作环境的比赛环境,旨在考察选手及其团队成员间的综合性问题解决能力。这种赛制设计不仅考验参赛者的专业技能,也锻炼了他们的团队合作和现场应变能力,为应用型技术人才的培养提供了实践平台。

ATEC 一直倡导紧贴当下技术发展趋势和产业实际需求命题,以反映真实工业场景中的挑战。选手们在参赛过程中所面临的技术难题和解决方案,正是工业界中亟待解决的技术或产品痛点。

围绕真实场景和数据设计考点,ATEC 还为产业界提供了一个观察和选拔人才的机会。在前三届,线下赛的命题分别为「野生动物保护」、「科技反诈」与「科技助实」。

通过运营《燃烧吧!天才程序员》这一业内首档代码竞技真人秀,ATEC 科技社区全景展现了比赛过程中青年科技选手间的竞争与合作、挑战与反击,真实地呈现了中国年轻一代科技从业者的面貌。

当「养老」遇上 AI 大模型

48小时线下赛现场

刚刚结束的 ATEC 2023 则首次围绕大模型技术,以「科技助老」为题,基于真实场景和数据,使用清华大学计算机科学与技术系与智谱华章公司共同研发的千亿参数多模态大模型 GLM,并采用全链路应用的考察形式,对选手的算法及工程实现能力提出了更高的要求。

比赛由中国电子学会主办,ATEC 前沿科技社区承办,清华大学、浙江大学、西安交通大学、上海交通大学、蚂蚁集团共同协办,包括北京大学、南京大学、新加坡南洋理工大学在内的12所高校参与合作。

作为本届赛事的命题方之一,清华大学全程参与了线上赛、答辩、线下赛阶段的命题及组织工作。

评审组负责人、清华大学副教授任炬在赛后指出:“我们希望用贴近真实工业场景的考察方式,鼓励技术从业者和学习者脚踏实地,关注实践应用、拒绝空中楼阁;每年会锚定一个具有社会价值的命题,提醒所有的行业同侪,技术应当造福社会;同时借助科技竞技、甚至极限挑战的形式,培养青年科技人坚忍不拔、勇于奋进的态度和面貌。”

比赛吸引了行业内众多年轻有为的高手,赛事报名人数创下了历史新高,一共有1901支队伍、3000余位选手报名,并且超过51%的报名者来自211及以上院校。选手们来自清华大学、北京大学、中国科学技术大学、华中科技大学、中山大学、哈尔滨工业大学等高校,平均年龄只有 26 岁。

经过「大模型的知识引入」、「大模型的工具学习」、「AI新闻检测」、「网络安全大模型」这四个赛道长达三个月的线上淘汰赛后,最终有16支队伍从千人竞技中脱颖而出,成功杀入线下赛环节。

线下赛赛题贴近工业真实,清华大学与蚂蚁集团围绕「科技助老」来联合命题,从「生活助老」、「智慧医疗」、「安全守护」三大板块展开,选手们需要依托大模型技术,为银发族开发一套能够提供服务多方面养老需求的智能助理。

当「养老」遇上 AI 大模型

具体而言,这16支队伍需要基于支付宝智能助理的真实场景,以老年人在支付宝上常用的生活类场景为例(生活缴费、医疗服务、红包社交等),去探索如何借助大模型提供的自然语言交互的方式,使得老年人无需学习繁琐的App操作方式,即可便捷地完成想要的操作。

在综合性的考察下,选手们需要在48小时的极限直播中通过大模型技术破解老年人异地就医所遇到的一系列现实问题。

冠军团队中的周青松认为,本届比赛「科技助老」的主题很有实用价值,能降低智能工具的学习门槛,帮助老年人及其他存在学习障碍的人群,借助 AI 大模型的帮助,以简单的对话就能办理业务。

当养老乘上「Agent」快车

为什么本届 ATEC 会聚焦「科技助老」呢?

如何依托先进的大模型技术,为老年人实现智慧养老,自然成为科技工作者面临的重要挑战。

基于「科技助老」这个主旨,选手们需要在比赛中解决技术与应用两大层次的难题。

当「养老」遇上 AI 大模型

赛时选手代码页

在技术角度上,选手们面临的第一个考核要点是检索。模型需要通过网络搜索引擎或者内部的检索获取文档,然后再基于文档来回答医疗相关的问题,文档具有权威性,回答自然就可以更精确。

第二个考核要点则是对工具的调用。语言模型只能回复文字,但如果选手们的方案能调用工具完成实际任务,得分就会更高。比如,在对话框输入自然语言需求“帮我订一张明天十点从杭州到上海的二等座票”后,模型就能直接预订好火车票。

此外,技术层面中检测谣言、异常提问等均为语言大模型使用中的安全问题,同样是本届 ATEC 科技精英赛的重要考核点。

而从应用角度出发,能否让语言模型为老年人提供更好的智能化体验,则是评判选手们的方案能否获得高分的关键。其中,智能化体验需紧密围绕老年人需求,如出行、政策咨询、医疗咨询、安全能力等。

另外,探索如何降低模型部署的成本,是大模型面临的现实问题与技术难点,同样也是出题方设计赛题、考验选手们是否充分思考、发挥创造力的考点之一。

“以前的模型不大,可以独立部署,但现在模型部署成本很高。如果能通过隐私保护技术,对语言模型的输入或交互方式提供保护,就可能节省大量资源。我们希望模型能变成类似发电站的工具,就不可能把发电机放在家里。因此,将原模型放在计算平台上,通过一次计算方式调用或使用,这是一个非常有前景的技术与工程问题。”张志强在赛事直播时向观众解读道。

当「养老」遇上 AI 大模型

节目直播讲解现场

当然,想在48小时内完成一个功能完备的 Agent 开发任务并不现实。因此,出题方将 Agent 完整的链路拆开成数个环节,每个环节再提供对应的数据逻辑,让选手们在有限时间内逐一攻破不同阶段的任务。

周青松和团队成员一起,赢得了这场「大模型极限挑战赛」的冠军,2022年硕士毕业于哈尔滨工业大学(深圳) 电子与通信工程专业的他,目前在科技大厂担任高级工程师一职。

周青松擅长自然语言处理(NLP)与数据挖掘,曾获「kaggle master」称号,也在2021年的ATEC科技精英赛赢得了冠军。两年后,周青松在ATEC的赛场上再度夺得桂冠。

在谈及参赛目的时,周青松坦言,高额的奖金是吸引他参赛的最初动力,同时,来自真实工业场景的命题,也让「科技竞技」变得更有价值。

让周青松印象最深刻的是线下赛的最后一道赛题。题目落脚于医疗领域,选手们需要将医疗垂类知识引入大模型,尽可能提升大模型对诊疗相关问题的理解能力,增加其医疗知识的深度和广度。

具体而言,模型需要在被问到一系列的疾病症状时,能提供准确的诊断并给出详细的治疗意见。诊断越精确、治疗意见越恰当,选手们的得分就更高。

当「养老」遇上 AI 大模型

周青松与队友们

在周青松看来,整场比赛中最具挑战的部分是提升代码的运行速度。代码运行速度变慢,就会显著增加训练模型所需的时间和成本。

AI First

作为国内首个基于真实场景的大模型全链路应用竞赛,ATEC 精英赛是从本届起开始聚焦大模型的。

“大模型技术在去年上半年火起来,在我们去年线下赛时已经很热门,所以就提出今年赛题一定要做大模型相关的考题,这是热点更是挑战。”

张志强花名「零幺」,作为蚂蚁大模型的技术核心负责人,他与团队负责蚂蚁基础技术的研发,包括语言模型、知识图谱与图神经网络,这些技术在支付宝中的人脸识别与金融、医疗等产品中都有所应用。

目前,语言模型的语料优化是张志强团队最重要的工作内容之一,团队负责千亿参数模型研发与语料优化,并在百灵大语言模型基座的基础上研发医疗行业大模型。

作为联合命题方之一的蚂蚁集团,与清华大学一起决定将本届 ATEC 赛事以大模型为技术基座,也折射了蚂蚁近年来「All In AI」的力度。

2023年,蚂蚁集团提出了「AI First」战略,与「支付宝双飞轮」同「加速全球化」一起并称为集团三大战略。

其实早在「AI First」战略对外宣布之前,蚂蚁集团就已经对 AI 领域进行了深入投资和研究。大约在2022年9月,公司内部已经明确了以大模型为核心的 AI 研究方向。2022年底,蚂蚁集团正式启动大模型的研发项目。2023年11月,蚂蚁百灵大模型通过备案。

除了自研模型的进程外,蚂蚁的「AI First」战略更体现在其不断将大模型融入生活、金融、医疗健康等业务场景的努力中:

现正产品灰测、下月逐步开放的支付宝智能助理,能为用户提供出行、健康、政务等领域的数字生活服务;

「金融管家」支小宝,可为用户提供高质量的行情分析、持仓诊断、资产配置和投教陪伴等专业服务;

智能研发工具 CodeFuse,则支持整个软件开发生命周期,可为企业提供AI研发全周期管理;

安全一体化解决方案「蚁天鉴」,能提供从检测到防御的大模型一站式安全服务解决方案……

通过将特定领域的专业知识整合进通用大模型基座,大模型能够更精准地适应并优化多种垂直行业场景的应用。目前来看,蚂蚁集团的大模型技术已在医疗、遥感、政务、金融等多个行业展现出显著的应用成效,推动了这些领域的智能化转型和效率提升。

而蚂蚁自2020年起参与的 ATEC 科技精英赛也在不知不觉中成为国内最热门的 AI 赛事之一,搭起连接优秀技术研发者的桥梁,并以综艺节目的方式向大众传播当下最新的 AI 技术。

写在最后

ATEC 2023 由清华大学与蚂蚁集团联合命题,基于「科技助老」的主旨引入支付宝智能助理的场景和数据,赛题及数据库会在不久后向全国众多高校开放。清华学子们将首批在课程中直接学习到 AI 大模型在工业场景的实际应用。

不言而喻,在 ATEC 2023 中,学术界与产业界的深度合作相辅相成,中国电子学会、ATEC 前沿科技探索社区与以清华大学为代表的顶尖学术机构为竞赛提供了强大的理论支持和人才培养平台,蚂蚁集团则提供了真实的工业场景及数据,双方共同推动了 AI 大模型产学结合的发展。这种合作模式不仅为学生提供了实践机会,也为科技企业输送了高质量的人才。

作为出题方之一,蚂蚁聚焦「AI First」战略,在以赛事吸引 AI 人才的同时,也紧锣密鼓的布局着自研模型与大模型的落地应用,再加上多年打磨出来的技术和积累的数据资产,蚂蚁在大模型竞赛中逐渐筑起一条「护城河」,拥有独特的优势。

除了蚂蚁集团外,随着 AI 行业的焦点从「百模大战」转向 AI 应用落地,中国科技企业主导或深度参与的 STEM、编程、AI 领域的赛事越来越多,比如华为软件精英挑战赛、华为极客算法精英大赛、百度AI科技科技创新大赛、腾讯广告算法大赛与阿里巴巴全球数学竞赛等等。

科技企业纷纷在赛事布局与加注,除了让科技青年们能提前「步入战场」,在真卡、真算力、真场景下练兵外,更是以高额的奖金与校内难接触的算力资源,拉开了一场企业间吸引尖端科技人才的较量。

毕竟,在大模型竞赛中,人才方为攻城略地的关键。

以 ATEC 科技精英赛为首的一众竞赛不仅是科技企业对资源、技术实力的展示,更是对 AI 领域专业人才的深度挖掘和培养。通过竞赛,企业能够识别并吸引那些对大模型技术有深刻理解的人才,同时激发他们的创新潜力,促进与企业的合作。

赛事不断,人才不断,竞争亦不断。

本文作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业发展趋势,欢迎添加交流,互通有无。

相关资讯

扫鼻子找狗子:支付宝上线宠物鼻纹识别,一键报失,全民帮寻

世上没有两片完全相同的树叶,也没有完全相同的两个狗 / 猫鼻子。

蚂蚁金服原副总裁漆远加盟复旦大学,任人工智能院长

又一位 AI 大佬决定投身学界。

蚂蚁集团被独立研究机构列入《2023Q1亚太企业反欺诈市场格局》第一梯队

近日, 国际权威研究机构Forrester发布《 2023年第一季度亚太企业欺诈管理格局报告》(The Enterprise Fraud Management Landscape In Asia Pacific, Q1 2023),蚂蚁集团被列入第一梯队,即近一年收入规模超3000万美金的厂商。本次报告通过地理重点、行业重点和产品类型等维度概述了亚太地区24家反欺诈供应商的能力,并以收入规模为指标划分供应商梯队。《报告》认为,在亚太地区高度的数字化渗透率和经济逆风助推下,经受骗者授权的支付欺诈和政策滥用欺诈等新型欺