近日,在全球瞩目的AAMAS 2024 Computational Economics Competition(计算经济学挑战赛)上,卓世科技人工智能前沿实验室团队“Zhuoshi Technology AI Cutting-edge Laboratory”一举夺得两个核心赛道的冠军和亚军,展现出其在计算经济学和人工智能范畴的强大竞争力。
冠军证书
亚军证书
AAMAS 2024 是第23届国际自主智能体和多智能体系统会议(International Conference on Autonomous Agents and Multiagent Systems),这是智能体技术和多智能体系统范畴内最大和最有影响力的会议之一。它汇集了来自世界各地的研究人员和实践者,共同探讨和分享该范畴内最新的研究成果和发展动态。本次计算经济学挑战赛 (AAMAS 2024 CE competition) 旨在推动 AI for economics 的范畴研究。
AAMAS 2024 CE Competition
本次比赛由中国科学院自动化研究所主办,吸引了来自中科大、南大、人大、爱丁堡、布里斯托、俄勒冈等海内外众多学术和科研机构的队伍。
本次比赛的赛题为智能税收 (Optimal Tax) 问题,比赛设置两个赛道:
赛道一:智能税收-当局 挑战赛—— 模拟当局角色,调控税率和当局支出,最大化GDP和平衡财富分配。
赛道二:智能税收-个人挑战赛—— 模拟个人角色,调整工作时间和投资比例,最大化个人利益。
来自卓世科技的队伍“Zhuoshi Technology AI Cutting-edge Laboratory”首次参赛,分别拿下两赛道冠亚军。卓世科技人工智能前沿实验室团队致力于AI大模型前沿技术的研究,目前已经在Multi-Agent、模型量化压缩、MoE方向取得了重要突破。
难点和挑战:
此次比赛的难点和挑战在于,所面临的对手方略未知,需要训练智能体,能应对不同的对手方略,因此卓世科技设计了一种MARL+进化的训练框架。在该框架中,每类智能体(当局或家庭)维持一个长期方略池和短期方略池,长期方略池中保存历史方略参数(每隔50轮训练保存一次模型),短期方略池中维持最好的20个方略,具体而言,我们通过随机匹配对手,举行大量测试,挑选出top20的方略参数。长期方略池中维持了多种多样的方略,用于训练top20方略,使其具有鲁棒性。
在正赛1中,我们训练完成后,我们从top20的短期方略池中选取平均得分最高的方略作为提交比赛的智能体。在正赛2中,短期方略池中仍然维持top20的方略参数,与阶段1不同,我们从top20中再次举行对抗测试,从中选出top12的方略参数,与阶段1中的方略参数举行集成。我们尝试从这十几个方略中选择一部分举行集成。对于当局,我们选择10个方略,而对于家庭,我们选择12个方略。每个方略输出自己的动作,然后去掉一个最大值,去掉一个最小值,然后对剩下的动作取平均,以此作为最终的方略。主要是为了提高方略的鲁棒性。
领先35%强势夺冠:
卓世团队迎难而上,凭借以下技术方案亮点,在比赛中脱颖而出,以领先第二名35个百分点的成绩强势夺冠!
方略收集架构:选取Actor-Critic框架,Actor使用部分可观测状况,Critic包括全局状况。训练算法:选取MATD3算法,集中式训练和分布式执行。方略集成:挑选top K方略举行集成,提高模型鲁棒性。
方略收集架构上,卓世科技选取经典的Actor-Critic框架,其中Actor仅使用部分可观测的状况,Critic包括所有智能体部分观察和全局状况。为了缓解部分可观测问题,我们将历史4步的状况举行合并,具体而言,我们将每步的特征向量举行非线性变换,之后举行拼接,这类似于时空卷积结构,如图1所示。在训练算法上,我们选取了MATD3,这是一种改进MADDPG的算法,每次状况Q值估计都会输出两个值,并使用最小值作为目标Q值,这有利于缓解状况价值得过估计问题。训练上选取集中式训练和分布式执行,训练完成的Critic收集不再使用,Actor收集根据局部观察举行动作输出。
图 5 Actor和Critic收集结构
在训练完成的top K方略池中,我们挑选出最好的N个模型举行方略集成,以提高模型对位置方略的鲁棒性,如图2所示。
图 6 方略集成
综合以上方略,在赛道二,卓世团队以2845.58分、领先第二名35个百分点的成绩强势问鼎冠军!该得分是综合考虑家庭端工作时长和消费的表现,并与多只参赛队伍PK的最终得出。在赛道一,团队以1个百分点微弱之差夺得亚军!该得分是综合考虑当局端gdp增长率和贫富差距的基尼指数表现。团队在赛道一和赛道二取的成绩,得益于自主研发的分布式训练框架,在短时间内可与多样性的智能体举行对抗,学习足够鲁棒的方略模型, 体现团队在Multi-Agent方向拥有较强的技术储备和实战能力。
卓世科技CEO屠静赛后表示:“我们以卓越的AI技术实力和创新精神,在全球计算经济学范畴舞台上赢得了荣誉,向全世界展现了中国AI力量的崛起。卓世科技将持续引领AI产业化落地,不断创新变革,助力各行各业找到真正的商业应用场景。我们致力于成为行业模型服务的领导者,与合作伙伴共同推进中国产业AI的落地化进程。”