技术破局?畅谈元宇宙大浪下的AI技术流实践机遇与挑战

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

本文为「驱动未来的AI技术」系列主题「元宇宙」圆桌环节的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。

技术破局?畅谈元宇宙大浪下的AI技术流实践机遇与挑战

在圆桌环节,安谋科技AIoT事业群联合负责人商德明、影眸科技创始人,上海科技大学MARS实验室学生负责人吴迪、Autodesk AI Lab研究科学家,Daily ArxivRadiostation主持人楚航、华东师范大学副教授,CCF YOCSEF上海AC委员李洋围绕本期的主题探讨三个方面的问题:回顾元宇宙构建的AI技术路径与探索实践、哪些AI技术将有可能对下一代虚拟世界的工业标准形成产生重要影响?还有新一代虚拟世界的未来发展趋势。以下为部分精选 QA,完整内容可通过机器之心机动组视频号回顾了解。

过去的一年里,在为新一代虚拟世界的构建方面进行的探索性工作中,有没有让您觉得比较惊艳或者很有价值的学术工作?为什么?

楚航:关于新一代虚拟世界构建方面的探索性工作,我从计算机视觉和人工智能的领域分享一下。

第一个是 NeRF ,神经辐射场。从学术经验上看,我觉得 NeRF技术的更新迭代非常快,让我觉得十分惊艳。NeRF 从一年前的第一版到改筛版的 NeRF++,再到谷歌的实时渲染SNeRG,以及 ICCV上就看到的PlenOtrees。在最近几个月它还出现了极简版Plenoxels,也达到了实时的渲染效果;前两个礼拜前还看到NVIDIA发布的 NGP ,将训练时间缩减至 5 秒。同时,NeRF 在产业上也有很大的应用。最令我惊艳的是阿里的淘系技术部发表的 ObjectDrawer  也是达到了很逼真的效果。

第二个惊艳到我的是数字人的方向。一个是 MetaHuman 在EPIC 发表的矩阵觉醒( Matrix Awakens) 里也有比较好的应用。另一个是最近在新闻上看到的:加入了Unity 的 Ziva Dynamics 做的数字人。

从学术界令我印象最深刻的是我之前在 Facebook 期间的研究经理Shugao Ma博士主导的Pixel Codec Avatars 研究,对 Codec Avata 技术的精度和实时性达到极大提升。

李洋:楚航博士、吴迪和张星辰老师分享的工作都是都是近些年来学术界高度关注的内容,不管是 NeRF 、还是隐视表达技术和吴迪团队技术,我都为之惊艳。

除了上述内容,我还想提一下现在学术圈关注的感知范围或者重建范围,其实还有一些方向是把 NLP 和 CV 的方向进行结合,虽然这个方向刚起步,还不至于让人“惊艳”,但是我觉得虚拟人、自动交互、ID 型MetaHuman都会是基础的学术研究方向。

 

如何理解web 3.0和元宇宙的关系?自从Transformer之后,似乎很久没有看到特别大的突破了,视觉大模型和多模态的发展并没有预期地那么快。当前AI技术的发展速度对虚拟世界的升级速率的影响有多大?

楚航:关于元宇宙和 web 3.0,我觉得它们之间的关系像是生产力和生产关系之间的关系。元宇宙相当于生产力,而 web 3.0 是生产关系。

我们可以这样去设想这件事情。如果我们逐步地把我们生活的一部分往元宇宙沉浸式体验里迁移,等到我们迁移到一定的程度,花费一定的时间在元宇宙里以后,我们发现元宇宙里面的物资的所属关系好像还是在传统的围墙花园式结构里,这是 web 2.0 的结构,那么明显是与它不适配的。

所以我觉得元宇宙与 web 3.0 之间的关系,同样可以用生产力和生产关系之间的定义来解释:生产利益决定了生产关系,生产关系反作用于生产力。所以我觉得在元宇宙这里也是同样适用的。因为在新一代的元宇宙生产方式,交互方式要求一定要有web 3.0 这样的一个生产关系。同时如果有 web 3.0 作为基础的构建,它会很大的去促进以及解放元宇宙下面的应用场景。

关于第二个问题:在transformer 之后,大模型在多模态突破是有一些,但是并不是非常的迅猛。那么这对于 AI 的发展速度,对虚拟世界的升级有没有带来什么阻碍?我觉得可以分两点来看。

第一点是大模型和多模态的最终的愿景是实现通用人工智能,即AGI。对于元宇宙来说,通用的人工智能不是一个必要条件,没有AGI,我们同样可以去进行沉浸式的元宇宙。有了AGI以后,元宇宙的内容端会极大丰富,所以我觉得它起到了锦上添花的作用,但这并不是一个必要条件。另外,我觉得现在的元宇宙的技术发展还处在一个早期的阶段。即使以现有的AI技术而言,我们的元宇宙也没有把它的最大的潜力发挥出来。

李洋:关于元宇宙和 web 3.0,我十分同意楚航博士的看法。我认为 web 3.0包含在元宇宙里,这两个都是一个非常大的概念。web 3.0 主要是一个 decentalize(去中心化)概念,相当于 crypto(加密货币)使用。对于元宇宙本身,如果你要在虚拟世界中构建出我们的世界,一旦涉及到交易、crypto 或者 decentralized 的概念,元宇宙就必须得包含在web 3.0 里。所以我觉得二者的关系是相辅相成的,或者说二者在最近几年几乎同时出现,并不是巧合,他们当中有非常紧密的联系。我个人认为元宇宙包含 web 3.0,或者说 web 3.0 作为一个基础网络设施来构建出元宇宙。

自从Transformer 之后,视觉大模型和多模态的发展没有那么快。AI 的技术发展最近还是非常快,但是我们不一定要往大模型方向发展。比如每一个人类个体都不能说是大模型,我们并不是像蚂蚁一样有 central 的大脑,然后支配我们在行动。我们其实是分开的。我们每一个人可能都有自己的智能的环节。所以说大模型只是一个研究的路径。我们也在探索学术界、产业界等其他一些路径。

至于当前的 AI 技术发展速度对虚拟世界的升级速率影响有多大?我认为二者也是相辅相成的。二者之间的影响可能不是很大,但也取决于大家对虚拟世界的具体定义。

 

今年,国内外各大科技巨头纷纷推出元宇宙概念的虚拟世界产品与服务,云游戏、AR/VR、区块链、人工智能等一系列技术也都在元宇宙中找到了用武之地。如何看这场元宇宙热潮?

商德明:关于元宇宙热潮,我认为它是人类的梦想和能力交互迭代的过程,现在已经到达了一个新革命时间点。从干万年前的壁画,到后来各种的艺术以及所有人类奇思妙想的领域,我们希望我们的能力得到更大的延展,生命得到更大的延续,思想和梦想能够触及到更广的领域。

在追逐梦想的过程中,人类不断地发展自己的能力,刚开始,有汽车、飞机、各种各样的电器等等,这些发展其实是人类通过科技的不断进步来增强自己的能力进而实现梦想的过程。随着人类前期能力的扩展,新的梦想会更加丰富和发展。元宇宙也是发展进化历程中的一个阶段。

随着数字世界需求的丰富,我们需要更强的沉浸感,在数字世界里进行更多的活动和行为,元宇宙浪潮由此而生。元宇宙是一种实际的需求,它对我们能力也提出更多挑战,尤其在终端的形态方面。可以看到智能手机已经是比较成熟,而且在各方面的功能都已经满足人类对智能手机的需求。而元宇宙更多的是沉浸感体验,对于材质的渲染、光的感受,真实世界的视觉体验,对计算力的要求非常高,而且它是一个无限的扩展过程。在元宇宙延展的过程中,它需要行业机构或者学术研究共同推动,进一步降低功耗,提升算力,优化迭代新产品。虽然现在元宇宙只是一个开端,但是未来元宇宙一定能迎来发展浪潮。我非常期待元宇宙浪潮的到来和未来的发展。

 

今年虚拟数字人创业非常火,除了虚拟数字人的创业公司之外,您比较看好哪个元宇宙技术创业的方向?有没有哪家公司的方向您比较欣赏的?

吴迪:我觉得元宇宙是一个大概念,有一句话非常重要:No one can beand island (任何人都不能成为一座孤岛)。在元宇宙主题下,如果我们缺失了任何一环,都不能很好地达到最终生活的延展和沉浸式体验。

如果没有虚拟世界,数字人会失去它的载体;没有数字人,虚拟世界也会失去它的生命和活力;如果没有区块链等相关技术,那么数字人的身份,包括资产的交易都很难达成;没有 AR 和 VR, 就没有观看设备。所以在元宇宙大前提下,最重要的一点是:元宇宙是一个集所有技术为大成的载体,并不能说更加看好哪个元宇宙的技术方向。

我希望所有元宇宙技术都能在很好的时间节点发挥巨大程度,让我们在未来可以预见的时间内看到元宇宙真正的方向。和我的工作比较相关的话,我可能会看到神经辐射场、神经渲染方向,它们其实是颠覆了一些现有的渲染管线,通过人工智能的生成来取代的现有的 Reconstruction 和 Rendering 过程。通过我们芯片的优化,可以让很多更加真实的场景不要通过光追的方法,而通过生成式的方法让每一个用户体验到在虚拟世界中的更加真实的场景。

我们还比较关注的是区块链的相关技术、web 3.0 相关技术。因为我们说到未来数字人方向很大一部分是和人的身份相关的。那么怎么认证你的身份,怎么认证你生成的资产,怎么在元宇宙中用资产达到跨平台的交互?其实就会运用到非常多关于 web 3.0、区块链的技术。

 

相对AI技术本身,通信与半导体是否影响更大?从构建下一代虚拟世界的角度看,是上层算法,还是底层硬件起到的决定性因素会更大一些?

商德明:对元宇宙应用和AI 技术本身来说,其实算法和硬件就是一体的。只有把算法跟硬件有机、优化地结合,才是二者最终的决胜之道。

从构建下一代虚拟世界的角度看,是上层算法,还是底层硬件起到的决定性因素更大一些?我个人认为目前底层硬件的决定性因素更大,遇到的挑战也更大。因为 AI 技术应用包括神经网络模型运行,算力有很大提升,但是终端芯片的功耗有非常大的挑战。

比如 VR 眼镜,现在的体验时间也只能坚持三个小时左右。而 AR 眼镜,对功耗的要求更高。所以如果能够在有效的算力下,找出设备低功耗的解决方法,对我们来说都是非常大的挑战。当然这些挑战也推动了很多技术的发展,比如存算一体或者是压缩技术等优化迭代。

许多人认为虚拟数字人未来虚拟世界中的核心交互端口,决定当前虚拟数字人能做到什么程度的主要因素是什么?是算法、开发工具还是算力?

吴迪:我们把虚拟数字人分为超写实虚拟数字和卡通化虚拟数字人。对于超写实的虚拟数字人,很早以前,我们会通过“恐怖谷效应”来评价超写实虚拟数字人。

恐怖谷效应指在数字人达到 70% 以前,属于卡通化的角色;在数字人达到 90% 到 95 %的时候让人感觉特别恐怖;在其达到 98% 以上之后,让人对数字人感觉比较好。在好莱坞的电影里已经跨过恐怖谷效应了,但是这是通过大量的人工扫描重建达到的跨越恐怖谷效果,这要求高人力成本、高算力。

而学界上第二次恐怖谷,需要更进一步去扫描人脸数据,通过neural rendering 和 NeRF等方法或者更低的算力去跨越恐怖谷。

所以,决定当前虚拟数字人能达到什么程度,算法开发工具和算力都是比较重要的因素。在此过程中,我们可能会用到渲染工具、实时的 neural rendering 和 NeRF 算法,可能还需要在更好的GPU 上运行。

由此,我们认为决定当前数字人能做到什么程度的第一个因素是人工成本。第二个是算法算力平台和能力。第三个是虚拟人的角色,在元宇宙环境中,并不是所有的环境都需要一个比较写实的虚拟人。而在某些环境下面,可能需要一个卡通角色,也可能需要一个不那么写实的角色。我们则是收集更多高精度人脸数据,通过人工智能数字技术去降低它算法算力开发成本,让虚拟人达到更加写实。

李洋:吴迪讲的非常全面,想要降低恐怖谷,或者达到非常真实的效果,我们现在各方面都比较缺乏,制作成本高昂。未来如果真的想要在元宇宙中以数字人为交互核心,我们不光需要生产工具、开发工具,更多的是需要一整套完整高效的生产流水线,或者生成方法,它可能是 Neural Rendering 、光追、 3D Reconstruction 等非常先进的算法。

 

聚焦于您目前所从事的方向,新一代虚拟世界(元宇宙)在往下一步发展的道路上,目前存在的主要瓶颈是什么?

楚航:从计算机3D视觉来看,我觉得元宇宙下一步的瓶颈是实时要求。新一代元宇宙的强调沉浸感,如果我们沉浸到元宇宙的环境中,出现渲染卡顿、延时问题,这会对用户造来不适感。所以这对算法有了更高的要求。

另一个新的要求是新一代元宇宙硬件,我们需要把它附到一个很小巧轻便的硬件上。所以这对我们的算法和构架就产生了极大挑战。比如商总说的端云结合,或者用 NPU 来进行结合的方式。

商德明:除了芯片以外,元器件设备也是一个很大的挑战。比如现在在隐形眼镜里部署微芯片对眼部追踪技术,其可以进行外部的无线连接,并且进行渲染。这对整个元器件的尺寸、散热等又提出了一个非常高的要求。

另外,应用的结合也是元宇宙在往下一步发展的道路上,存在的主要瓶颈。对于智能手机来说,只有让使用者和消费者拥抱这些应用,把这些应用作为自己日常生活中的一部分,才能激发良性循环发展。元宇宙应用也是如此。当然,在设备上要进一步突破瓶颈,还包括成本。

吴迪:我们认为未来主要的瓶颈有两个,第一个在于元宇宙的交互上,第二个在于它的渲染上。交互主要是实时和真实。我们认为最大的瓶颈在于如何去做一个实时又更加真实的交互系统。在未来元宇宙中,我们不可能让每一个人都能像电影动画制作那样去做表情,因为它更多的是在沉浸环境下做交互,实时体验。

对于元宇宙渲染的瓶颈来说,因为人的皮肤渲染比很多物品的渲染复杂很多,需要考虑光照在人脸的反射情况。这有可能要用到光追算法,需要比较大体量的硬件。像以往电影制作中需要渲染农场可能一小时才能渲染几帧的速度去做渲染,这在未来的元宇宙实时交互体验中是不可接受的。

所以我认为在未来元宇宙尤其是元宇宙的人的体验里,比较重要的是更加真实的表情驱动、人体动作驱动、皮肤材质渲染。

李洋:计算机视觉方面,从感知的角度,比如人脸的表情、三维重建方面,按照现在的方向应该可以走得很远,但是对于语义级的理解做得不是很好。动作是虚拟人在元宇宙交互中非常重要的因素。但计算机目前没有办法理解具体的动作,而只能通过动作捕捉把动作热记录下来。而计算机视觉和语音的结合,在一定程度上带进了语义的信息,包括一些场景图的理解等都是在想办法攻克元宇宙感知上的瓶颈。

 

未来的一年中,在新一代的虚拟世界,或沉浸式互联网逐步发展形成的道路上,目前主要的瓶颈是什么?其中,有可能在近期内就会有较大进展与突破的方向是什么?为什么?

楚航:我觉得在元宇宙虚拟世界沉浸式互联网的主要瓶颈有两点。

第一个是应用瓶颈。从最近元宇宙文章的评论来看,大部分人都在说我们现实世界还没解决,我们搞元宇宙去了,这干这在干什么?作为一个用户,我不能切身地感受到元宇宙到底能为我带来什么价值?如何以肉眼可见的形式让元宇宙创造价值,如何让元宇宙成为所有人受益的应用?这是每一个元宇宙的从业者和研究者都应该去仔细思考的事情。

第二个瓶颈是技术瓶颈。元宇宙是物理世界与虚拟世界的一个接口,即物理世界数字化,数字世界物理化。而软硬件结合,硬件有很大瓶颈。从应用场景来看,会有算法和软件瓶颈。

对于近期内有较大进展与突破的方向这个问题,回到技术的角度,我最看好的方向是神经辐射场 NeRF 进展,其在未来还会继续保持高速发展。NeRF 光场的捕捉和重建实施呈现,是一种元宇宙原生的媒体形式,它像是我们在 VR 、AR 里看视频的全息体验。我们现在还处在比较早期的阶段,但我觉得就像可以看到视频编解码的技术迭代和发展一样,在未来的几年内,我们也会在光场看到同样的趋势。

商德明:我认为构建新一代的虚拟世界的主要挑战来源于应用和设备硬件。不管是Meta,还是其他巨头,虽然他们在内容上有非常多的积累,但是他们都希望元宇宙新的形态或者新技术能够进一步发展,增强其内容的影响力和感染力。所以元宇宙的内容或者应用场景会是推动技术革命的核心动力。

 

吴迪:我觉得这个问题里面用虚拟世界和沉浸式互联网来提问用得非常好。其实这些关键词也代表了元宇宙,它目前正处于刚刚开始起步的阶段。所以,我想说的是元宇宙发展的道路上到处都是瓶颈。

在软件层面上,我们如何去渲染一个真实世界,如何让每个人实时体验是一个瓶颈。

在硬件层面上,我们如何提高渲染速度和交互速度也是一个瓶颈。在系统集成层面上,底层的渲染系统,渲染平台如何和元宇宙接轨?还是一个瓶颈。在生态层面上,一个人到底以什么方式来接入元宇宙?元宇宙到底在生活中是起到一个什么样的作用?是成为生活的替代,还是成为生活的延伸,还是单纯让用户去玩一个游戏?

对于以上瓶颈,我们都是没有办法去做很好的回答。所以我很认同商总讲的一个观点:我们在未来去探索元宇宙未来的时候,只能一步一步往前走,发现它的问题,然后再去克服它的瓶颈。这是我们在未来元元宇宙的征程上面所必须要去做的,也必须要去面对的一件事情。未来可能有较大突破的方向是什么?从自身的技术进度看,我非常认同楚航博士的观点。在未来芯片能和神经网络更好的去适配,采集的数据库优化神经网络方面,神经辐射场( NeRF )包括神经网络渲染上,会得到巨大突破和进展。

李洋:从用户的角度来说,我们其实并不知道元宇宙之后到底是什么样,或者说到处都是瓶颈,最主要的瓶颈就是我们没有一个很有代表性的产品或者形式来告诉大家。

对于投资人、从业者、还是用户来说,只有当元宇宙的形态真正出现了,我们才有可能继续往前走。在技术层面,NeRF 毋庸置疑是非常快的迭代。在应用的角度上,我觉得元宇宙的应用会被传播或者定义。我个人非常看好虚拟人,这是一个比较有雏形的概念。在技术储上,除了Neural Rendering或者NeRF,我们在 Graphics 里也有非常多的技术沉淀,包括光追、皮肤表面散射。一旦我们有具体的元宇宙产品形式推出的话,我相信我们会走到下一个阶段。

 

观众提问:在虚拟世界中 Server Security 方面会有什么全新的挑战吗?

商德明:Security 是元宇宙的核心,Security 在现实生活当中和安全同等重要。不管是 ID ,还是经济上、隐私方面都是关键。从元宇宙构建来说,从云端的架构到与人们息息相关的设备,比如 AIoT 设备,都要保证安全体系。从区块链到数字货币,人的信息保护上,都是一个完整的架构。比如硬件的加密、传输、安全认证,Arm提出的PSA 认证,还有各种各样的安全算法,这些都是 Security 的一部分。随着元宇宙体系架构的不断迭代和完善。只有进一步完善设备安全,规划系统使用场景,才能保证数据交互安全。

 

李洋:对于元宇宙和沉浸式网络来说, Server  Security一定会有新的安全问题。但我觉得更多的是一些新的挑战。比如通过学术的研究让机器识别我们的动作来破译VR 的眼镜的密码、或者通过其他方式导致用户信息泄露。

 

观众提问:虚拟形象应该属于谁,应当是属于平台还是属于个人?比如魔兽世界的角色和装备不属于用户而属于平台。

吴迪:我陈述一下我的个人观点,并不代表未来可能真正往这个方向去发展。我认为未来虚拟形象属于个人,包括他的数字资产。因为在所有的数据传输过程中,不存在真正的图像和个人模型数据交换,比如通过web 3.0 的区块链认证方式,去中心化资产跨平台的交流方法。

未来在元宇宙中有很多平台运行,用户在平台里构建自己的虚拟形象,究竟是属于平台还是属于个人,可能是需要更进一步去探讨的问题。

商德明:人工智能刚出现的时候有很多讨论,包括伦理、法规、规则等。将来元宇宙继续发展的话,它也一定会出现归属问题,比如我们个人是归于我自己,那也可能还归属于家庭,属于一个组织、国家。ID 的归属也要遵从相应的规则,包括元宇宙相关的法规、伦理等等一系列问题。随着整个元宇宙的不断建立,元宇宙相关的法规、伦理问题也会不断迭代和完善。

 

李洋:我觉得将来你的虚拟形象肯定是属于你自己的。虚拟形象作为元宇宙基础或者说decentralize 、web 3.0 的一个基础的属性,在技术层面上可以让它变成你自己的,包括电子合同在技术层面上已经可以实现了,一旦技术层面上可以实现的话,是必然会有公司这么做,那一旦他这么做的话,就会带动所有的人都会这么做,不然其他人就会没有相应的竞争力了。

 

观众提问:空间感的建立只能靠 XR 听觉建立吗?

李洋:我们的空间感一般来说是通过眼睛或者视觉系统来建立,而不是通过听觉。当然听觉是辅助的,比如听声音,判断。但是人类大部分信息 80% 都是通过眼睛来进行获取的。如果一个人戴过 VR 眼镜的话,比如说他站在高楼上,假如环境没有声音,他会感到害怕,有很强的空间感。但是所谓的空间感大部分时候是通过眼睛去建立的。

吴迪:我们说到的音频产生空间感,就是所谓的声场概念。其实在现在的游戏里面已经用到很多的空间音频方式。比如说打枪击游戏,可以听到枪声是从哪里传来的。但如果通过听觉去体验空间感,只有在屏幕上玩游戏才能体验到,大多数情况下,还是需要视觉去体验空间感。但元宇宙或者沉浸式的互联网强调的还是沉浸。不论是眼睛看到的,还是耳朵听到的,其实都是比较沉浸的感觉,比如 VR 眼镜、刚刚商总所说到的隐形眼镜视觉上发生改变的方法。未来的空间感应该建立在视觉、听觉、语言、触觉感官等多个方向。

技术破局?畅谈元宇宙大浪下的AI技术流实践机遇与挑战

相关资讯

元宇宙的前世今生,业内大佬带你一遍过!

本篇文章讲述了元宇宙从业者从(1)元宇宙是什么(2)元宇宙需要的要素以及(3)元宇宙如何步入主流社会的观点,带你清晰地认识元宇宙的当下存在的问题以及未来发展的趋势。

大模型研究获最佳论文,WWW 2024奖项出炉

本次公布的获奖论文中,有多位华人作者。The Web Conference(前身为 International World Wide Web Conference,WWW)会议是万维网领域的顶会,由图灵奖得主 Tim 创办,被中国计算机协会将其认证为 CCF-A 类会议,每年举办一次。目前大会公布了最佳学生论文奖、最佳论文奖以及时间检验奖。最佳论文奖WWW 2024 最佳论文颁给了和大模型相关的研究。标题:Mechanism Design for Large Language Models论文地址::Paul Dü

元宇宙中的这些新物种流派来了

元宇宙有多火,已经无需赘言。似乎不投元宇宙的VC,已经是古典VC,没听过元宇宙,和没听过互联网一样out了。不过,一千个人心中有一千个元宇宙,如何定义它,它又如何从概念落地为应用呢?科幻电影《头号玩家》是最接近元宇宙想象的影视模型,故事虽然偏赛博朋克,但它提及的平行世界和元宇宙的设想不谋而合。Metaverse元宇宙,meta指“超越”,universe指“宇宙”。原始概念来自于1992年的一部美国小说《雪崩》。这部小说描述了一个相对现实世界平行但又超越其上的虚拟世界,即虚拟世界原样复制了现实中所有的一切,同时又有