从碳基性命到硅基性命的剧变正在悄然降临。
即使总是伴随着关于伦理、人性与法律等问题的争论,人类从来没有放弃过挣脱时空限制、实现灵魂永恒的尝试。近几年《上载新生》《万神殿》《爱死机》《西部世界》这些剧作,无不在重温着二十多年前《黑客帝国》和《楚门世界》的内核。
而《流浪地球 2》的上映,更将「数字性命」的讨论推向了高潮。影片中研究员图恒宇在女儿丫丫濒死时用数字性命卡保留了她性命的数据,在超级计算机 550 w 的多次迭代后,数据形态的图丫丫拥有了自我意识,获得了「完整的一生」。
《流浪地球 2》剧照,图恒宇和丫丫
简而言之,影片中的数字性命计划就是将人类的意识上传到智能终端,以数据的形式永久存储,使人类的思想意识得以脱离躯体而独立存在。死亡被重新定义,人类在数字化仿照世界里获得永生。然而完美的脑机接口,成熟的全脑仿真技巧离我们还有多远?
近期新加坡南洋理工,商汤科技,上海 AI 实验室共同推出的一项同名项目「Digital Life Project」,让曾经遥远不及的科幻情节照进了现实。
论文标题:Digital Life Project: Autonomous 3D Characters with Social Intelligence
论文链接:https://arxiv.org/abs/2312.04547
项目主页:https://digital-life-project.com/
文中提出了数字性命计划(Digital Life Project):通过 AI 技巧和举措合成技巧,智能衍生剧情,创造出可以或许在数字环境中仿照交互的自决 3D 虚构脚色。这些脚色不仅能举行对话,还拥有自己的品德,可以或许感知所处的不同社交环境,做出相对应的身材举措来表达情感和反应。同时,超越 2D 虚构沙盘的 3D 场景建设和可以或许交互的举措设计更给人们带来了沉浸式的体验。
由本篇论文中的成果生成的虚构 3D 动画(对话、举措均为生成)
数字性命计划的核心由两部分组成:
1)SocioMind:一个仿照人类思想和判断的数字大脑。它可以或许利用近期发展非常迅猛的大语言模型(例如 ChatGPT),分离基于心理学原理的深思过程,并通过发起对话主题来仿照具有自决性的脚色。
2)MoMat-MoGen:一套用于控制脚色 3D 身材举措的「数字身材」。它分离了举措婚配和举措生成技巧,在数字大脑的驱动下,婚配并生成高精度且丰富的举措,让脚色能根据场景做出合理的反应。
SocioMind(数字大脑)
品德建立 + 记忆和心理学深思 + 自决生成
SocioMind 数字大脑的架构总览
Autonomous Character 最大的特点是具备自决意愿。研究人员提出 SocioMind 数字硅基大脑的概念,利用通用的大五品德理论和大语言模型,来为脚色注入品德和目标。SocioMind 可以或许使脚色自决地发起和参与对话,规划接下来的故事发展。这些故事发展不仅符合原始背景,3D 虚构脚色性格,还针对历史事件举行「深思」。
尽管大语言模型可以仿照单一时间点上的可信人类反应,但要想确保长期一致性,由计算驱动的虚构人的行为需要与其过往经验一致。数字性命计划生成的脚色会检索事件历史(仿照记忆流)举行推理,同时还分离了社会心理学理论,举行更高层次的思想层面的深思,并归纳出更高层次的推论。
数字性命计划打造的 3D 脚色,可以自决推进故事情节
基于脚色的「品德」设定的推论与交互历史共同限制下,创建的 3D 虚构脚色可以或许自决发起对话,做出合理的举措,推动剧情的发展。
举个例子,研究者为展示中的两位 3D 虚构脚色设定了初始背景:
男生和女生初次面对面交谈,坐在餐桌旁。
脚色自动生成了合理的对话和举措:
男生说「我们终于见面了」,并伸出胳膊;女生坐直身子,并回复「很高兴见到你」。
随着剧情发展,他们交流对音乐的热爱,自己的兴趣爱好,一起窝沙发看电影,最终成为了最好的朋友。这整个过程都是自发动态衍生的,不拘泥于实现设置的固定脚本。
MoMat-MoGen(数字身材)
举措婚配 + 举措生成
MoMat-MoGen 数字身材的架构总览
意识驱动行为,系统还需要一个用于控制脚色身材举措的模块。目前学界单人举措生成已经获得了长足的发展,但是双人交互还没有成熟方案,这涉及到双人空间对齐、肢体接触、时序同步等难点。因此,研究者提出 MoMat-MoGen,它分离了两种技巧:举措婚配 (Motion Matching) 和举措生成 (Motion Generation)。
由数字大脑驱动,根据脚色的当前姿态和目标轨迹,MoMat 利用现有的主流技巧从举措数据库中检索高质量的运动片段。最合适的举措被用来婚配脚色的反应以确保脚色举措的自然性和准确性。
在 MoMat 的基础上,MoGen 可以或许用来创建新的举措,来满足复杂剧情和 3D 虚构脚色的需要。它可以或许根据文本输入(如指令或描述)生成多样化的举措,同时又保持脚色之间的互动关系。
相同背景故事,不同关系设定下,虚构脚色举行交互
有了数字身材这套系统,虚构 3D 人物就可以或许在设定的区域内自由活动,脚色与脚色之间可以或许举行带有接触的互动,也可以或许感知到环境,坐在沙发上。
值得注意的是,即使给定相同的背景设定,人为定义脚色间不同的关系,会导致不同的社会行为。例如图中范例,对比「朋友」关系,「情侣」有更多的肢体接触。
真人可以或许与虚构脚色举行交互
现有技巧还可以或许分离 VR 技巧,仿照真人交互。实际举措被捕捉,当作脚色举措输入,数字性命技巧生成的 3D 虚构脚色,可以或许相对应做出反应。
应用场景
这两个系统的分离,就能创造出可以或许举行复杂社交互动的 3D 虚构脚色,应用前景非常广泛。
1. 新媒体内容创作:人人都能成为「大导演」。根据用户写的人物描述和简单剧本,系统可以或许自动调用虚构人,在 3D 场景中创作出符合逻辑长短剧。
2. 3D 虚构陪伴:忙碌重复的工作,乏善可陈的生活,无尽的孤独落寞,愈加匮乏的情感,使得作为人类情感慰藉与陪伴更加可贵。分离 VR 技巧,人们还可以创建自己的的「化身」,真实体验与 AI 脚色对话,交互,获得情绪情感上的满足。
《流浪地球 2》剧照,图恒宇透过电脑屏幕,和有自我意识的丫丫对话
3. 大规模虚构社区:人类玩家可以生成独一无二的游戏中的虚构形象;玩家与 NPC 的交互不再仅仅是预设的举措和对话,NPC 可以或许像人类一样生活、工作、社交,去复刻人类社会的方方面面。
《西部世界》中构建的虚构西部小镇,玩家可以和 npc 交互
目前技巧在拟形、拟态、拟声等智能图像、视频、音频的生成技巧实现上已经非常成功,大型语言模诸如 ChatGPT 也具备了完成包括聊天、写作、答题等常见文字性任务的能力。
该论文探索了数字大脑的可能,使得智能体变得具有灵性,而 3D 场景和有自我意识虚构人的仿照,使得交互更加沉浸和真实。
随着来计算机硬件算力的大幅进步,以及科技的进一步发展,或许正如上世纪八十年代弗诺・文奇(Vernor Vinge)等科幻作家预测的那样,从碳基性命到硅基性命的超人剧变正在悄然降临。