参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

面向全球 AI 开发者的 GTC 2023 将于3月20 – 23日在线上举办，这场被 NVIDIA 创始人兼首席执行官黄仁勋描述为「迄今为止最重要的一次 GTC」，将带来650多场讲演、专家座谈会和特别活动，几乎涵盖了算计领域的所有热门内容，预计将有超过25万人报名参加。本届 GTC 设有专门为中国 AI 从业者举办的特别活动 — China AI Day。活动将于3月22日下午1点开始，邀您一同探讨互联网、数字孪生、元宇宙领域的前沿的 AI 使用。来自阿里巴巴、baidu、快手、腾讯、网易、字节跳动等领先 AI 智

面向全球 AI 开发者的 GTC 2023 将于3月20 – 23日在线上举办，这场被 NVIDIA 创始人兼首席执行官黄仁勋描述为「迄今为止最重要的一次 GTC」，将带来650多场讲演、专家座谈会和特别活动，几乎涵盖了算计领域的所有热门内容，预计将有超过25万人报名参加。

本届 GTC 设有专门为中国 AI 从业者举办的特别活动 — China AI Day。活动将于3月22日下午1点开始，邀您一同探讨互联网、数字孪生、元宇宙领域的前沿的 AI 使用。

来自阿里巴巴、baidu、快手、腾讯、网易、字节跳动等领先 AI 智能算计企业的专家，将与 NVIDIA GPU 算计专家团队带来11个精彩讲演，内容涵盖互联网搜索、推荐、广告业务、数字孪生、短视频，和元宇宙这些热门使用场景。推荐业内关注数据、算法、架构和运维的工程师、开发人员以及AI从业者预约观看！

3月22日1:00 PM 锁定China AI Day

扫描海报二维码，免费注册参会。点击「Add to Schedule」，将心仪的讲演添加至您的日程。

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

以下为11个讲演的详细介绍：

加快算计助力云上业务场景

李曦鹏，NVIDIA开发与手艺部门亚太区总经理

会议代码：[SE52359]

讲演时间：3月22日 1:00 PM – 1:30 PM

加快算计是未来必经之路，极致化性能，并提高能效。NVIDIA AI 平台涵盖了从基础设施、调度、加快库以及加快框架、部署工具和最上层的使用框架。NVIDIA 也提供了从数据预处理、大规模训练、推理优化到大规模部署的端对端软件。加快算计需要使用导向来进行整个环节的优化，是软硬件协同，需要业务、算法、工程师和加快工程师密切合作。

本讲演将以推荐系统的演变为例，来阐述加快算计的旅程。加快算计也正是 China AI day 的主旨所在。非常欢迎并诚挚感谢 China AI Day 的讲演者，分享在数字孪生、元宇宙、短视频、以及搜索、广告、推荐等领域，借助 NVIDIA GPU 和全栈 AI 解决方案，最新鲜的优化加快的精彩成果。

李星澜：一个基于实时智能交互系统打造的 “真实” 数字生命

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

四道，朝夕光年江南工作室AI手艺负责人

会议代码：[SE51461]

讲演时间：3月22日 1:30 PM -2:00 PM

智能 NPC 和数字人已经在娱乐行业和社交媒体平台被广泛使用，包括人工智能驱动的主持人、评论员和网红等。但开发具有高视觉保真度的逼真智能AI通常需要大量时间，而且成本很高，很难扩大规模。

朝夕光年江南工作室提出了一个 GPU 驱动的系统，包括文本到语音模块、音频到全身动画模块、视频分析模块、渲染模块和聊天机器人模块，基于这些模块可以建立一个逼真的实时交互数字人。在 NVIDIA Omniverse 的支持下，可以实时高效地渲染李星澜，而且其中的动画模块将根据后端聊天机器人的输出自动驱动角色模型的运动。动画模块和后台聊天机器人都是基于自定义开发的深度神经网络。使用 NVIDIA Omniverse ACE，能够在两天内完全训练 audio2motion 和 text2speech 模型，并在 5 天内训练超大参数的 Chatbot 神经网络模型，使用了超过 10tb 的训练数据。

本讲演将介绍如何利用 NVIDIA Omniverse 和 NVIDIA GPU，以及如何借助算计机图形学和人工智能功能来建立 Lydia 数字人项目。

飞桨深度进修平台高效支持大规模生产及使用

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

马艳军，baiduAI手艺生态总经理

会议代码：[S52366]

讲演时间：3月22日即可在线观看自选点播

源于baidu业务对人工智能手艺的广泛使用，飞桨深度进修平台结合使用持续创新，研发了业界领先的大规模分布式训练手艺。飞桨先后发布了4D混合并行训练、端到端自适应分布式训练、超大规模图训练引擎等核心手艺，并基于这些手艺支持文心大模型的训练和部署。目前，文心大模型已经覆盖基础大模型、任务大模型、行业大模型的三级体系，飞桨+文心大模型赋能千行百业的智能化升级。本讲演将分享飞桨深度进修平台如何高效支持大规模生产及使用。

机器进修模型中访存密集型算计STITCH融会优化手艺

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

郑桢，阿里巴巴高级手艺专家

会议代码：[SE51289]

讲演时间：3月22日 2:00 PM – 2:30 PM

近年来，访存密集型算计日益成为影响机器进修模型性能的重要因素。由于机器进修模型算计图日趋复杂，传统的机器进修编译器面对复杂的数据依赖关系时很难执行高效的算计融会优化。同时，动态张量形状（dynamic tensor shape）的模型优化需求开始兴起，缺失的张量形状使得访存密集型算计子图的性能优化变得更加困难。

本讲演将讲述阿里巴巴针对机器进修任务中访存密集型算计性能优化的关键手艺：STITCH 融会手艺。该手艺支持将任意类型及任何数量的机器进修访存密集型算子进行融会，最终将大粒度的访存密集型算计子图转化为单个的 GPU 核函数，以减少片外访存、框架调度及 GPU 核函数调用开销。

GPU加快大规模向量索引建立

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

李晨，腾讯高级工程师

会议代码：[SE51475]

讲演时间：3月22日 2:30 PM – 3:00 PM

大规模向量检索引擎在腾讯诸多业务中有所使用，在百亿级召回场景中提供低延迟、高召回率的在线服务。但随着索引规模的增加，向量索引的建立已经成为日常索引的更新瓶颈。离线向量 IVF 索引建立，在引入 GPU 优化之前，索引建立工作依托 Hadoop 平台进行，引入 NVIDIA GPU 改造后索引建立成本降低 60%。索引建立的优化工作主要由两部分组成：1. IVF KMeans 聚类；2. 百亿向量在海量聚类中心上的 FIT 过程。本次讲演将介绍如何基于 GPU 建立大规模向量索引及其优化过程。

多模态超大模型在短视频场景落地使用

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

张胜卓，快手算法引擎专家

韩青长，快手算法引擎工程师

李杰，快手算法引擎工程师

门春雷，快手算法引擎专家

会议代码：[SE52361]

讲演时间：3月22日 3:00 PM – 3:30 PM

以 ChatGPT 为代表的大模型面世，带来了 AI 大模型手艺热潮，研究表明，知识密集任务中越大的模型进修效率越高（相同训练数据量下，模型越大任务效果越好），主流大模型的参数大都超过了千亿 (100B) 规模，同时也给模型的高效训练和推理部署带来严峻挑战。快手围绕提高模型算计效率和可部署开展手艺攻关，沉淀了一套通用的混合并行训练、压缩、推理整体解决方案，并联合业务实现百亿参数 Dense 模型和千亿参数 MOE 大模型落地，取得显著业务收益。本讲演将分享多模态超大模型在短视频场景的落地使用。

PGLBox：baidu基于GPU的超大规模图模型训练框架

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

焦学武，baidu主任架构师、baiduMEG商业模型中台手艺负责人

会议代码：[SE51302]

讲演时间：3月22日 3:30 PM – 4:00 PM

PGLBox 是baidu研发的基于 GPU 的大规模图模型训练框架，支持数百亿节点和边的图模型全 GPU 训练，已在baidu广泛部署。相比业界主流的分布式 CPU 解决方案，PGLBox 具有以下几大优势：1. 超高性能：业界首个分布式 GPU 图进修训练框架，相比分布式 CPU 方案，训练速度提升 27 倍；2. 超大规模：业界首个多级存储图引擎，单机可支持数百亿节点数百亿边的超大图规模；3. 算法丰富：预置丰富的图表示进修算法，支持跨场景异构图建模和复杂图属性建模；4. 灵活易用：用户仅需简单配置，即可一键启动大规模图表示进修训练任务；5. 落地广泛：baidu内部多业务体系广泛落地，为业务带来了显著业务收益。

视频场景中的音频理解推理加快解决方案

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

陈炳州，字节跳动音频理解视频方向引擎负责人

会议代码：[SE51166]

讲演时间：3月22日 4:00 PM – 4:30 PM

音频理解是指通过语音识别、事件检测、语种识别、声纹识别等手艺从音频数据中解析出多维度信息。在视频场景上，比较经典的落地手艺，比如视频字幕生成、视频字幕打轴等等。这些手艺使用极大地提高了人效，也带来生活的便利。伴随短视频和音频类使用的兴起，用户请求量、音频数据正呈几何级别增长，这些都为大规模数据处理，以及高并发低延迟的推理带来诸多挑战。比如机器有限的情况下如何处理更多的音频，多语种的场景中单卡处理单语种模型存在利用率较低的问题。本讲演将基于 NVIDIA 提供的推理 GPU（T4, A10, A30），介绍音频理解如何做推理加快，以及如何广泛使用于抖音等大流量场景。

CUTLASS 极致性能优化探索及在阿里巴巴推荐系统中的使用

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

董纪莹，阿里巴巴高级工程师

会议代码：[SE51305]

讲演时间：3月22日 4:30 PM – 5:00 PM

在大规模推荐系统中，点击率 (Click-Through Rate, CTR) 和转化率 (ConVersion Rate, CVR）预测任务的深度神经网络模型通过由 Embedding 层，Attention 层和 MLP 层组成。然而，在 TensorFlow 上执行时，Attention 层和 MLP 层中数量众多的算子和大量耗时的算计成为了性能瓶颈。

通过 NVIDIA 开源的高性能矩阵乘（general matrix multiplication, GEMM) 使用框架 CUTLASS，能够实现将与 GEMM 相连的算子融会进 GEMM，并且将级联的 GEMM 进一步融会成一个算子。通过这种方式，在理想情况下，可以将整个Attention 模块融会成一个算子。在算计 MLP 时，将纵向相连的 GEMM 融会成 back-to-back GEMM，然后继续将横向相连的 GEMM 融会成 Batch GEMM，从而实现性能提升。这些优化已经在阿里巴巴预测引擎平台上线，很好地提升了预测性能，更好地发挥了硬件算力。

NVIDIA CUDA手艺助力网易瑶台神经隐式曲面建模20倍加快

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

李林橙，网易伏羲视觉算计负责人

会议代码：[SE52360]

讲演时间：3月22日 5:00 PM – 5:30 PM

网易瑶台提供大型的沉浸式会展服务。在与客户的沟通中，我们了解到，客户期望将线下物体生成 3D 模型，导入瑶台，从而降低定制化制作的成本。2020 年以来神经渲染3D建模手艺快速发展，重建精度有了显著的提升，但耗时却限制了实际的使用。网易瑶台充分利用了 NVIDIA 的 tiny-cuda-nn 与 CUDA 渲染手艺，对神经隐式曲面建模进行了20多倍加快，实现了高效、高质量的 3D mesh 重建。本讲演将分享项目过程中的实践经验与心得。

在GPU上使用Video Codec SDK，CV-CUDA和TensorRT加快现代云上视频使用

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

王倬遥，NVIDIA 开发与手艺部工程师

会议代码：[SE51229]

讲演时间：3月22日 5:30 PM – 6:00 PM

人工智能手艺广泛使用于云和 on-prem 数据中心的短视频和直播使用当中，覆盖了超分辨率、直播视频特效、旧视频修复、自动像素化、视频内容理解等。然而，当部署这些使用程序时，传统视频处理管线混合了 CPU 和 GPU 负载，其性能将受到以下因素的限制：1) h2d 和 d2h 内存拷贝；2) CPU 上的前处理和后处理；3) CPU 上的视频编解码；4) 未充分优化的 AI 推理框架。

针对以上限制， NVIDIA 提供了丰富的视频处理相关的 SDK。如何在实践中高效地在云上使用这些工具是搭建基于人工智能的新式视频处理管线的关键。本讲演将介绍如何使用这些 SDK 来解决使用中的低效部分，并建立一个全 GPU 的视频处理管线。

如何预约和注册

想要预约以上精彩内容？扫描海报二维码或点击「阅读原文」，打开China AI Day 专题页面，注册登录后，按照会议代码或标题，找到对应讲演。通过点击「Add to Schedule」或「星星」，将该讲演内容添加至您的日程，大会开始后登录即可在线观看。

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布