本文为影眸科技创始人,上海科技大学MARS实验室学生负责人吴迪于「启动现在的AI技术」系列主题,「元宇宙」专场的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。
元宇宙假造数字人的建立与现在身份系统
吴迪的分享主要包括两部分:
建立 – 如何生成自己的数字脚色;
交互 – 如何去和别人在元宇宙中通过表情、举动进行交互。
吴迪表示,在现在的元宇宙体验里,希望用户简单地上传自己的几张照片,然后上传到待生成假造形象的神经网络,就可以生成自己的超高精度的三维假造形象,并且可以接入到分别的元宇宙平台和他人去进行交互。
为达成上述目标,首先要有超高精度的人脸重建技术,影眸科技所使用的是光度立体法。该方法通过分别的光照分布,分别偏正态的光打在物体的表面去获取,通过光打在物体表面反射方向,来抵达物体上细节的展现。该技术最早被用在南加大好莱坞去拍摄一些电影,如《双子杀手》。后来,南加大公司被谷歌收购了。所以Light Stage技术只有谷歌和影眸科技可以搭建。
此外,影眸科技自主研发了世界最高精度的人脸扫描设施Plennoptic stage ,其由很多灯光和高速相机组成,它的灯光在拍摄时会产生分别的变化,通过分别变化的光照打在人脸上的反射信息,可以捕捉到高精度的人脸材质。我们模特通过此设施里扫描时,它的光照也会变化。这是一个主动变化光照的扫描系统,每一帧拍在人身上光照都不一样。同时它可以抵达 1000 赫兹的扫描,所以可以做4D高精度的动静连续扫描。
分享过程中,吴迪还展示了Plennoptic stage设施的宣传片,可以看到该设施可以做连续动静扫描,被拉扯的细节,包括毛孔都被一帧一帧清晰地表现出来。
吴迪表示,通过进一步对Plennoptic stage采撷到的数据进行自动化的重拓扑,然后再把它的图像和它所捕捉到的模型给输入到神经网络里面,就可以做一个基于 AI 的人脸控制和启动。因为Plennoptic stage所有的帧都是以 20 FPS 去连续录制的毛孔细节,所以把贴图模型交给神经网络,神经网络就可以学到如何通过视频去表达出动静的贴图,生成动静细节,抵达非常真实的实时人脸表现。这样,就可以通过单个摄像头让用户来启动他的三维脚色。
吴迪说,可以想象一下,现在,来自两个分别地方在同一个元宇宙的世界里的人,通过 VR 眼镜去得到他们的面部表情和举动,两个人就可以通过自己三维脚色,在同一个空间里面做非常精细的表情或者口型交互,这是真正元宇宙现在应该做到的事情。
对于如何建立元宇宙里的人身建立,吴迪分享了影眸科技所搭建的一套全世界最大的光场采撷系统ChallenCapSystem。ChallenCap System里共有24,000 多个灯光节点,由六种原色组成,均为彩色可控;它以高速度在人身上打出分别的光照,然后去建立出人身上的材质和三维模型。这是全世界唯一的一套抵达 8 米的三维采撷设施。它所有的灯光节点都可控制,现在上面还会装上非常多的相机。就可以抵达一个高精度的三维采撷。通过这样一套设施,用户采撷到人物的模型包括他的一些举动数据之后,后续通过几台手机甚至单个手机就可以去实现对人物进行举动捕捉,包括手指骨头都可以在一个手机的工单上实现。这也是MARS实验室所孵化的另外一个创业项目。
此外,吴迪对元宇宙中人物的身份进行了探讨。吴迪将其分为三类,分别是IP 型数字人、服务型的数字人、ID 型数字人。吴迪说道,元宇宙中非常重要的是人物风格化,这需要采撷到高精度模型,让它适配元宇宙里所有的脚色风格比如说它想去迪士尼风格平台里玩,就可以以自己的形象和结构为基础,把自己变成迪士尼的王子和公主,和他人进行交互。
最后,吴迪表示,元宇宙除了建立、交互,还有衬着环节,这也是MARS实验室包括现在上海科技大学重点研究的方向。
当前影眸科技抵达的效果是依靠所捕捉到高精度三维重打光启动数据库,然后把它添加到网络 SOFGAN 里,通过形态、风格去生成一个人脸。而对于现在如何让终端去运行衬着效果,吴迪分享了影眸科技目前在研发一个称作GGU的处理单元。GGU(GraphicsGeneration Unit)是一个AI图像生成处理单元,把模型的参数和视角输入到网络之后,网络会自动地输出视角下的物品、人、场景。这样的衬着方法我们称作为 NeRF 或者叫 neural rendering 。通过GGU,终端、 AR 眼镜、手机就可以基于 NLP 网络算法实时做 NeRF 和 neural rendering 高清晰度实时衬着。