2024智源大会议程公开丨大说话模型

2024年6月14日-15日,第6届北京智源大会将以线下与线上结合的形式召开,线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野,汇聚年度杰出工作研讨者,交流新思想,探讨新思路,引领新前沿。目前已正式开放报名渠道。大说话模型 论坛丨6月14日下午近年来,大说话模型取得了重要的手艺进展,成为了人工智能范围最受社会关注的研讨方向之一,其应用范围逐渐覆盖了信息产业的多个范围。对其底层原理与训练方法的探索也成为了学术界与工业界的共同关注焦点。本次论坛针对大说话模型相关的基础问题展开相关探讨,主要包

2024年6月14日-15日,第6届北京智源大会将以线下与线上结合的形式召开,线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野,汇聚年度杰出工作研讨者,交流新思想,探讨新思路,引领新前沿。目前已正式开放报名渠道。

大说话模型 论坛丨6月14日下午

近年来,大说话模型取得了重要的手艺进展,成为了人工智能范围最受社会关注的研讨方向之一,其应用范围逐渐覆盖了信息产业的多个范围。对其底层原理与训练方法的探索也成为了学术界与工业界的共同关注焦点。本次论坛针对大说话模型相关的基础问题展开相关探讨,主要包括思维链推理本领、本领涌现机理、学问机理与编辑、训练效率优化、分布式训练手艺等,旨在针对这些核心议题给出最前沿的手艺进展介绍。为此,本次论坛邀请了来自学术界与工业界的七位优秀讲者,分别针对各自擅长的研讨议题进行呈报,并且将在呈报后通过圆桌形式对于若干公众所关注的问题进行深入讨论,使得听众们能够对于大模型关键手艺有更为深刻的认识与理解。

论坛议程

2024智源大会议程公开丨大说话模型

论坛主席

2024智源大会议程公开丨大说话模型

赵鑫,中国人民大学老师,智源学者

赵鑫,中国人民大学高瓴人工智能学院老师。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研讨范围为信息检索与自然说话处理,共计宣布论文200余篇,谷歌学术引用1.8万余次,曾主导研发了玉兰大说话模型,组织编写了大说话模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大说话模型》中文书。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。

2024智源大会议程公开丨大说话模型

宋睿华,中国人民大学长聘副老师

宋睿华博士,国家高层次人才特聘老师,现任中国人民大学高瓴人工智能学院长聘副老师。曾任微软亚洲研讨院主管研讨员、微软小冰首席科学家。近期研讨兴趣为多模态理解、创作和交互。宣布学术论文100余篇,申请专利30余项。曾获WWW 2004最好论文提名奖,AIRS 2012最好论文奖和CLWS 2019优秀论文奖,2022年度教育部自然科学一等奖。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。2021-2022年作为学术带头人,发布文澜系列中文多模态对齐大模型,并成功落地快手、OPPO等企业。2023年,参与发布玉兰大说话模型,完成从基础模型到对话模型的自研训练。曾担任SIGIR短文和讲习班主席、ACL范围主席、EMNLP资深范围主席和Information Retrieval Journal主编。

演讲主题及嘉宾介绍(按照发言先后顺序)

1、是否所有Transformer结构都具备思维链推理本领?

呈报简介:国内外有许多研讨工作提出多种Transformer的高效变体,但对于众多模型变体,有许多问题需要回答:这些变体模型是否存在理论缺陷?面临具体实际问题时模型结构应当如何选择?到底哪些变体模型能真正完美地取代Transformer?最近的研讨发现,思维链(Chain-of-Thought)提示(CoT)可以显著提高大型说话模型(LLMs)的性能,特别是在处理涉及数学或推理的复杂任务。尽管经验上取得了巨大的成功,但CoT背后的机制以及它如何发挥LLMs的潜力仍然难以捉摸。是不是所有大模型都具备思维链推理本领?在这个talk中,我们首次尝试在理论上回答这些问题,并展示不同模型的本领上限差异。

2024智源大会议程公开丨大说话模型

贺笛,北京大学助理老师

贺笛,北京大学智能学院助理老师,前微软亚洲研讨院主管研讨员。主要从事机器进修模型、算法与理论方向的研讨工作,已宣布ICML、NeurIPS、ICLR等重要期刊/会议论文50余篇,谷歌引用数超过8000。所设计的模型、算法多次被DeepMind、OpenAI、微软、Meta等国际顶尖研讨机构使用。获得机器进修顶级国际会议ICLR 2023杰出论文奖和ICLR 2024杰出论文奖提名。

2、ChatGLM:理解与探索大模型本领涌现

呈报简介:基础大模型在意图感知、指令跟随、目标规划等方面展现出强大的泛化本领,为智能体的研讨和应用提供了通用模型基座。呈报将分享GLM-4模型智能体本领提升研发过程中的探索,我们发现预训练损失可以比模型大小或计算量更好地预测说话模型的涌现本领,进而合理指导模型训练与本领提升。以GLM-4 All Tools模型为列,其可实现自主理解用户意图,自动规划复杂指令,自由调用网页浏览器、代码解释器以及多模态模型等,以完成复杂任务。

详见 https://github.com/THUDM。

2024智源大会议程公开丨大说话模型

东昱晓,清华大学副老师

东昱晓,清华大学计算机系副老师,学问工程实验室(KEG)成员,曾工作于脸书人工智能和微软总部研讨院。研讨方向为数据挖掘、图机器进修和基础大模型,相关成果应用于十亿级用户社交网络和学问图谱。入选IJCAI Early Career Spotlight,获2017年ACM SIGKDD博士论文奖提名和2022年ACM SIGKDD Rising Star Award。

3、大说话模型学问机理与编辑问题

呈报简介:掌握学问一直是人工智能系统发展的核心追求。在这方面,大说话模型展示了巨大的潜力并在一定程度上掌握和应用了广泛的学问。然而,我们对于大说话模型如何内在地习得、存储学问等方面的理解仍然非常有限,我们也无法及时对大说话模型内部的错误及有害学问进行修正。在本次Talk中,我将基于团队最近的研讨成果,探讨大说话模型的学问机理与编辑问题,并介绍学问回路和学问更新、擦除的新方法。

2024智源大会议程公开丨大说话模型

张宁豫,浙江大学副老师

张宁豫,浙江大学副老师,浙江大学启真优秀青年学者,在高水平国际学术期刊和会议上宣布多余篇论文,6篇入选Paper Digest高影响力论文,1篇被选为Nature子刊Featured Articles。主持国家自然科学基金、计算机学会、人工智能学会多个项目,获浙江省科技进步二等奖,IJCKG最好论文/提名2次,CCKS最好论文奖1次, 担任ACL、EMNLP范围主席、ARR Action Editor、IJCAI 高级程序委员,主持开发大说话模型学问编辑工具EasyEdit (1.5k)。

4、小钢炮MiniCPM是如何炼成的?

呈报简介:MiniCPM系列是全球领先的端侧模型,包括旗舰端侧模型MiniCPM-2.4B和MiniCPM-1.2B,以及全球最强端侧多模态模型MiniCPM-V系列。通过SFT(指令微调)与DPO(对比进修)优化,MiniCPM在各种公开评测集上(如MTBench等)展现出优异性能,甚至超越了Llama2-13B、MPT-30B和Falcon-40B等现有模型。MiniCPM特别支持Int4量化,显著降低存储和计算成本,同时在手机等端侧设备上也能实现准确率损失较小的实时推理。该系列模型具备强大的OCR本领,能够处理高达180万像素的图像,支持中英双语交互,并通过RLHF手艺降低幻觉率,增强多模态互动体验。此外,MiniCPM的开源为行业交流和发展提供了便利,其轻量高性能设计反映了AI原生应用和AI原生硬件的发展趋势。MiniCPM-V系列支持在多种设备上的高效部署,包括安卓和Harmony系统的手机,并且可通过多种方式进行推理和微调。此次呈报将分享这一系列轻量高性能模型的研讨方法与手艺路径,包括其在开放基准测试中的表现以及在不同设备上的高效部署方案。

2024智源大会议程公开丨大说话模型

曾国洋,面壁智能联合创始人兼CTO

曾国洋,面壁智能联合创始人兼CTO。悟道·文源中文预训练模型团队骨干成员。2021年作为联合发起人创建了OpenBMB开源社区,是模型训练加速和推理加速BMTrain、BMInf的主要作者之一,也是 CPM-Ant、CPM-Bee 两期大模型的主要完成人之一。

5、大说话模型预训练的效率优化

呈报简介:由ChatGPT引领的大说话模型是当前人工智能手艺最前沿的研讨方向。基于百亿千亿甚至万亿的自回归无监督说话模型在诸多任务中都达到了惊人的效果。实现大说话模型本领突破的关键方法是所谓的扩展法则(scaling law),即不断的加大预训练模型参数的大小,同时不断提升训练数据量的大小。然而,在真正的预训练过程中,除了本身计算资源的扩展之外,还需要不断提升计算效率的提升,在单位资源时间内对数据进行更高效率的压缩。本呈报将着重介绍当前业界在提升预训练效率方向的若干尝试,包括模型结构的优化、训练方案的优化、数据的优化等。 

2024智源大会议程公开丨大说话模型

王炳宁,百川智能研讨员

王炳宁,百川智能预训练负责人。博士毕业于中国科学院自动化研讨所,主要研讨问答系统和大说话模型。历任搜狗、腾讯高级研讨员,有着丰富大规模生成式模型经验,主导并发布如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据,以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然说话处理会议上以第一作者宣布论文11篇,并获得2021年CIKM best paper runner up。博士论文《机器阅读理解关键手艺研讨》获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会委员。

6、大说话模型训练的分布式计算手艺

呈报简介:深度进修手艺在多个范围取得了突破性进展,但随着模型规模的不断扩大,对硬件资源的需求也日益增加。潞晨科技创造的Colossal-AI深度进修系统,通过集成高效的多维并行系统,异构内存管理系统和推理加速系统,帮助解决大模型大规模训练和推理中的效率和成本问题。Colossal-AI深度进修系统对主流开源模型如ViT, Stable Diffusion, Llama3等提供完善的支持和极致的加速。该系统已在自然说话处理、计算机视觉和生物信息学等范围得到广泛应用,并在ICML、NeurIPS等人工智能范围的顶级学术会议上获得了高度评价和广泛认可。

2024智源大会议程公开丨大说话模型

尤洋,新加坡国立大学校长青年老师,潞晨科技创始人兼董事长

尤洋老师是清华大学硕士,加州伯克利大学博士,新加坡国立大学计算机系的校长青年老师。他曾创造ImageNet、BERT、AlphaFold、ViT训练速度的世界纪录,并被ScienceDaily、The Next Web、i-programmer等几十家媒体广泛报道,相关手艺被广泛应用于谷歌、微软、英特尔、英伟达等科技巨头。他近三年以第一作者身份在NIPS、ICLR、Supercomputing、IPDPS、ICS等国际重要会议或期刊上宣布论文十余篇,总计宣布论文近百篇。他曾以第一作者获国际并行与分布式处理大会(IPDPS)的最好论文、国际并行处理大会(ICPP)的最好论文,AAAI、ACL杰出论文等。他曾获清华大学优秀毕业生,以及当时清华大学计算机系数额最高的西贝尔奖学金。他在2017年获得美国计算机协会(ACM)官网上唯一颁给在读博士生的ACM-IEEE CS George Michael Memorial HPC Fellowship。他获得颁发给伯克利优秀毕业生的Lotfi A. Zadeh Prize。他被UC Berkeley提名为ACM Doctoral Dissertation Award候选人(81名UC Berkeley EECS 2020博士毕业生中选2人)。他曾任职于谷歌、微软、英伟达、英特尔和IBM,在2021年被选入福布斯30岁以下精英榜 (亚洲)并获得IEEE-CS超算杰出新人奖。

7、Large Language Models: Past, Present and Future

2024智源大会议程公开丨大说话模型

Thomas Scialom,Meta研讨科学家,Llama2、3作者

Thomas Scialom,Meta研讨科学家,Llama2、3作者。Thomas是索邦大学博士毕业,专攻自然说话生成。他是世界上一系列最著名的生成式人工智能的幕后推手,包括 Llama 2、Llama3、BLOOM、Toolformer和Galactica,为通用人工智能的发展做出了杰出贡献。

8、圆桌讨论

圆桌讨论嘉宾:

宋睿华丨中国人民大学长聘副老师(主持人)

贺   笛丨北京大学助理老师

东昱晓丨清华大学副老师

张宁豫丨浙江大学副老师

曾国洋丨面壁智能CTO

王炳宁丨百川智能研讨员

尤   洋丨新加坡国立大学校长青年老师,潞晨科技创始人兼董事长

即刻扫码注册,参与大会报名

本届大会采用线下与线上模式融合,报名通道已开启,欢迎扫码免费注册。由于线下席位有限,请尽早完成注册,组委会将根据注册次序审核,并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。

2024智源大会议程公开丨大说话模型

给TA打赏
共{{data.count}}人
人已打赏
应用

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

2024-6-4 15:45:00

应用

2024智源大会议程公开丨生成模型

2024-6-4 15:59:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索