95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

2022 年 9 月接近尾声的一天，Google 发布了文生 3D 技术DreamFusion，利用预训练的 2D 文本到图像扩散模型，提出SDS（score distillation scapling）方法，首次完成开放域文本到 3D的合成。听到这个消息时，宋亚宸非常激动，他在商汤时就很关注 3D 生成技术。 DreamFusion的发布对于整个3D领域是一个大的转折点，意味着 3D内容制作的成本和门槛趋近于零，虽然生成的 3D模型效果很差，但已经是一个大的技术变革。

2022 年 9 月接近尾声的一天，Google 发布了文生 3D 技术DreamFusion，利用预训练的 2D 文本到图像扩散模型，提出SDS（score distillation scapling）方法，首次完成开放域文本到 3D的合成。

听到这个消息时，宋亚宸非常激动，他在商汤时就很关注 3D 生成技术。DreamFusion的发布对于整个3D领域是一个大的转折点，意味着 3D内容制作的成本和门槛趋近于零，虽然生成的 3D模型效果很差，但已经是一个大的技术变革。

几个月后，一家致力于通用3D大模型研发的AI公司VAST成立，创始人正是宋亚宸。

不到两年时间，这家公司已经成长为 3D生成领域的头号玩家，受到多方关注：

一个月前马斯克转载了Tripo 2.0的创作者视频；在有着“AI教母”之称的李飞飞新创办的公司Pre A轮融资BP里，VAST是唯一一家被提到的中国公司；Tripo也入选了A16Z的AIGC产业地图；在国际图形学顶级会议Siggraph上，创始人宋亚宸与英伟达黄仁勋、Sony和Unity高管同台发表主题演讲，是首位在该会议上进行主题演讲的中国创业者；在一年内，VAST创造了 3D大模型赛道的最大融资金额。

95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

以上是Tripo 3D大模型生产模型的一些案例，可以看到Tripo 2.0相比Tripo 1.4生成效果明显提升

而取得这些成绩的公司VAST，背后的创始人宋亚宸是一位生于97 年、首次创业的年轻创业者。翻看他的履历似乎在这波AI创业者中并无特别之处，毕业于约翰霍普金斯，但学的专业跟AI毫无关系，反倒对神学很感兴趣。

他尚未毕业便加入商汤在CEO办公室实习并工作，先后负责战略、AI动画、AI游戏的业务，20 年开始做AI游戏，AI游戏事业部是闫俊杰兼任负责人，负责技术，宋亚宸称他则负责其他杂七杂八的事情，这对他今后的发展是一个大的转折点，因为游戏正好是他的擅长区域，他是一位资深游戏玩家。

21 年以001号身份作为MiniMax早期联创参与创建这家公司，负责MiniMax对外的事务，包括业务生态、数据、算力；22 年底便创办3D大模型公司VAST，获得知名基金绿洲、达晨、春华、英诺、水木等投资。

95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

2023年，宋亚宸在国际图形学顶级会议Siggraph上演讲

这位当前3D大模型领域的明星公司VAST的掌舵者宋亚宸，非常自信、犀利、张扬、侃侃而谈，喜欢谈论信仰，喜欢用“眼里是否有光”来看人，从小在国外长大，但偶像不是马斯克，而是毛泽东。

他认为自己是一个有信仰的人，而这个世界上有信仰的人很少，这种信仰不是指技术信仰，如果一个人相信一个技术能改变世界，这是另外一回事。在小说《源泉》中讲述了一个天才建筑师霍华德·洛克，他坚持自己的原创和风格，拒绝妥协和迎合，他坚信自己会造出最牛的建筑，其他声音他都不在意。宋亚宸认为这是有信仰的人。

同样，宋亚宸坚信未来会出现一个类似于抖音这样的3D内容平台。

成功的事业，团队非常重要，VAST CTO梁鼎，师从戴琼海院士，曾担任商汤通用视觉和语言大模型发起人和垂类语言大模型负责人，首席科学家曹炎培，师从胡事民院士，前腾讯ARC Lab和AI Lab 3D方向专家……据宋亚宸透露，团队70%都是技术人员，大多来自清华本硕博。

当问到一些厉害的人为什么愿意跟随他时，他认为这是一群有信仰的人的相聚。宋亚宸认为自己最擅长的两件事就是：将自己的想法装进别人的脑袋，把别人的钱装进自己的口袋。

95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

宋亚宸

这是奥里森·马登的著作《这一生，为自己而活》的思想，里面说：“世界上最难的事有两件，一是把自己的思想装进别人的脑袋，二是把别人的钱装进自己的口袋。”在这本书中，马登探讨了成功与影响力的本质，指出将个人的理念植入他人思维，并在过程中获得认同，是一种高度成功的表现。

以下是AI科技评论跟宋亚宸的对话。

1 一个神学爱好者加入一家AI公司

AI科技评论：听说您对神学很感兴趣？

宋亚宸：从小就是，回家坐禅，背经文。也对历史很感兴趣，从小收集古币，小时候觉得背道德经、金刚经挺好玩的。我高中是一个教会学校，很喜欢跟大家去辩论。

AI科技评论：所以在约翰霍普金斯念的神学？

宋亚宸：高中很想报神学，30 所学校里20 所报了神学，但是约翰霍普金斯没有神学，最后选择了发展中国家经济和中东政治，在以色列待了一年，学的是希伯来语与阿拉伯语。

AI科技评论：研究神学给您带来什么样的影响？

宋亚宸：让我成为一个有信仰的人。但这种信仰跟宗教无关。我很喜欢《源泉》这本书，里面的主角天才建筑师霍华德·洛克，他坚持自己的原创和风格，拒绝妥协和迎合，虽然周围的人都看不起他，但他坚信自己会造出最牛的建筑，其他声音他都不在意。我很喜欢这样的人，做事很纯粹，我认为这是有信仰的人。AI科技评论：现在AI圈很多人都有信仰吧，例如信仰AGI？宋亚宸：信仰一定是触及到非常本质的东西，例如世界是怎样诞生的，谁创造了这个世界，这个世界上为什么有苦难，人为什么会活着，这些问题才是信仰真正要去解决的问题，如果一个人相信一个技术能改变世界，这是另外一回事，是技术信仰。AI科技评论：您在商汤主要做什么？宋亚宸：我在美国待了八年，还没毕业就加入商汤CEO办公室，2019年开始做AI加动画，那时动画是一个劳动密集型产业，是工厂流水线的形态，并不是我们想象中的创业行业。所以那时AI可以用到动画游戏行业中，将从业者从繁重的工作中解放出来，AI更多用到创意上，但是现实很骨感，AI进步的没那么快，那时做了很多事情，也没有很深入。AI科技评论：19 年主要是CV技术，您主要做哪部分工作呢？宋亚宸：19年那时CV技术已经很成熟了，给AI在动画领域落地提供了一定的基础条件。我主要是把商汤现有的技术包装成解决方案，卖给一些动画公司，但是中国的动画公司比较穷困，跟商汤数亿的单子比起来这不是一个赚钱的生意。当时也觉得toc很有意思，就找了一些供应商合作，做了几个百万粉丝的动画IP。因此商汤内部也正式成立了一个动画团队，专门去制作动画。

20年开始做AI加游戏，这对我今后的成长是一个很大的转折点，因为我很喜欢打游戏、看动画、看番、小说，很爱玩，但我不认为自己是标准的二次元，就跟我喜欢研究神学，但我不信教一样。

那时可以做一些大单子，因为游戏公司本身有钱，很多上市公司对股价很敏感，那时候去做AI就对股价有比较好的提升，所以当时是AI加游戏的好时代，也出了很多AI 跟游戏结合的公司，最重要的是20年下半年原神出来了。

原神出来后，大家都觉得米哈游的成功是因为其技术有壁垒，而不只是画风或者审美的优势，所以大家就开始卷技术，那时AI加游戏就可以卖比较多，赚了不少钱，商汤也是在20年年底成立了AI游戏事业部。从一个人变成了一个事业部。

AI科技评论：您是事业部的负责人？

宋亚宸：AI 游戏事业部是闫俊杰兼任负责人，负责技术，我负责其他杂七杂八的东西。21年从商汤离开，参与创办MiniMax，负责MiniMax对外的事情，业务生态、数据算力这些。

AI科技评论：第一份正式的工作就是在商汤，三年里您从商汤学到了什么？宋亚宸：我一开始做战略，做战略的思维跟我过去在学校的学习很不一样。在学校学习中东政治和宗教理解了如何拥抱世界的复杂性，研究这个世界上非常复杂的东西，例如一个人群，那么描述一个人的tag就有好多个，教育背景，宗教背景，历史、民族、语言……以前就是去学习世界的复杂性，独特性，以及身上不同的tag对一个人的影响。

但是在做战略的时候，其实要反过来，Deductive（演绎的，从一般到个体）、Inductive（归纳的，从个体到一般）这俩是相反的，尽快看清事物的本质，要怎么去做决策。

比如自动驾驶这件事要怎么做，遇到这个问题要怎么看清事物的本质：来画一个坐标轴，有4个象限，y轴上面是高速，下面是慢速，x轴左边是密集人群，右边是无人，就会发现，高速无人就是高速公路，低速无人就是例如AGV（自动导向车），低速人很多就是园区、景区，可以划分出了这样一个图。那么在每一个区域其实都有不同的自动驾驶公司在做，就能把市场进行划分，我要怎么进入到这个市场，战略是什么，就得不停地去看清事物的本质。

AI科技评论：做战略就是要能快速去弄懂一件事情的本质，能快速地总结和抽象。宋亚宸：是的，学到的第二件事就是人在做有趣的和自己喜欢的事情上，本身就是有优势的，在任何地方花的时间将会成为你和别人最深的鸿沟。

例如我从小喜欢打游戏，爸妈不让，就偷着玩，内心玩得很不开心，因为每次玩游戏收到的都是批评和阻碍。而现在已经自洽了，打游戏积累的经验已经成为我的核心竞争力。

比如同是创业者，其他人没打过游戏，我打过游戏，进入游戏行业就顺理成章的，但是对于一个不打游戏的人，是无所适从的，即便他读10篇研报、听20个专家访谈，跟50个制作人交流……也很难把对游戏行业的认知补上，时间就成了最深的鸿沟。去研究一个游戏产品和内容，我也当然更犀利。

人要坦然面对自己不擅长的事情，尽可能多做自己擅长的事情。

AI科技评论：现在做CEO擅长吗？宋亚宸：最初不太擅长。我在商汤早期时很不擅长reading and writing，就去补，很痛苦，觉得太难了，更喜欢通过听和说去交流、去获取知识。后来就跟自己和解了，那我就去做性格擅长的比如销售、项目管理，现在创业这就成为我的核心竞争力，招人、搭建团队、管理、融资、业务。AI科技评论：如何成为核心竞争力呢？宋亚宸：换句话，创业团队非常重要，那么我的核心竞争力就是擅长把自己的想法放到别人脑袋里，让优秀的人为我所用。

2 要做「轻内容强交互」的 3D抖音平台

AI科技评论：离开 MiniMax是为了创业？MiniMax也做过3D人形，后来放弃了，您为什么选择出来继续做 3D？宋亚宸：22 年底谷歌发布了文生3D的技术DreamFusion，这是大的转折点，终于看到3D内容制作的成本和门槛接近零，虽然效果很差，但这是一个大变革。而 MiniMax那时候作为创业公司得聚焦，这也是它的优势，不准备做3D大模型。所以我就有了出来创业的想法。

AI科技评论：在MiniMax也可以继续做 3D啊。

宋亚宸：创业意味着拥有足够多的话语权。

AI科技评论：为什么这么说？宋亚宸：我认为一个人的初心很重要，我不是一个能跟自己别扭着过下去的人。很多人创业的初心是不一样的，例如有些教授创业可能要担心影响评院士；有些高管年纪大了，要做下社会影响力变现；还有人是一群兄弟跟着他没赚到钱，创业带他们赚点钱。

但是对我来说创业其实很简单，就是为了去把一件事情做成，实在不行可以赔钱做，比如说这家公司要是没有钱了，我可以哪怕借钱继续做这个事，实在不行了这家公司倒闭了，又开下一家公司，继续做这个事。做成这件事才是关键，创业只是一个方式。

我本来不想创业，如果MiniMax能让我在那做3D也行。

AI科技评论：离开时正好是ChatGPT出来，为什么没有选择大语言模型，可以融更多钱。

宋亚宸：我不喜欢，我不觉得这东西有什么好玩的。我喜欢游戏，我喜欢动画，我喜欢 3D 的虚拟世界，我相信未来会有 3D 的「抖音」。

AI科技评论：什么时候开始相信 3D有前景？

宋亚宸：一直都相信 3D有很大的前景，但是不知道怎样的路径，不知道怎么做成。之前在商汤还说过要做 3D 的横店、做 3D 迪士尼，为此画过各种各样的PPT，当时还有人说我是别人是先看见再相信，我是先相信再看见，还是拿着望远镜。

所以我是一直想做 3D这件事，但是一直没找到合适的路径，没有找到答案，直到谷歌的那篇论文发布。

AI科技评论：为什么会有一个 3D的「抖音」呢？

宋亚宸：文字、图片、视频、音乐这些信息载体都有自己的内容平台，3D 是唯一一个没有自己的 UGC 内容平台的一个信息载体，每一个内容平台的商业化都是经过无数次验证是赚钱的，例如小红书、抖音、快手、 TikTok 、微博都是通过做内容平台做起来。

AI科技评论：能做多大？

宋亚宸：如果要做一个3D的内容平台，商业化前景很广，很有可能做出来一个千亿美金，甚至万亿美金的公司。

AI科技评论：看起来现在还不能做成一个 3D「抖音」平台，有什么样的前提条件呢？

宋亚宸：会发现所有的内容平台，都发生在大众级别的创作工具出现之后，但大众级别的创作工具出现并不一定意味着新的内容平台出现。

AI科技评论：怎么定义大众级别的创作工具？

宋亚宸：比如说打字法，比如说手机摄像头，它都有三个特征：第一，创作的门槛为零，第二，创作的成本为零，它的 fix cost（固定成本）和 variable cost （可变成本）都几乎等于零，第三，它一定是实时的创作。打个字，这个字就出现了，拍了张照，这个照片就立马出现了。

但是在3D大模型出来之前，这三点都达不到。创作门槛、成本、时间极高。所以说 3D 一直没办法出现它的内容平台。

3D 大模型就具备这三个特征：第一，创作门槛几乎为零，因为只用文字或图片就能生成一个 3D模型，第二，创作的成本几乎为零，单3D模型的推理成本几乎等于零，第三，几乎是实时生成，就只要几秒钟就可以生成一个3D 模型。

AI科技评论：大众级别的创作工具会往什么方向演进？

宋亚宸：不断往提升创作效果演进，比如手机摄像头它刚出来的时候是180P（指像素），后来有360P、720P、1080P、4K，8K，3D模型的生成效果也可以对应到，Tripo1.0 应该有360P，Tripo2.0 应该有 720P，我们认为明年有机会达到 1080P甚至 4K。

AI科技评论：3D生成模型的成本属于低的？跟大语言模型和多模态生成不一样么？

宋亚宸：3D生成时可以跑在一个非常差的卡上，而且生成只要几秒钟，算一下一个 3D模型的生成成本是很低的。

AI科技评论：听起来会有一个3D「抖音」平台的逻辑是通的，但是这个内容平台具体是怎样的呢？

宋亚宸：在消费端VAST想要提供「轻内容的强交互」，例如 1-2 分钟的“游戏”体验，觉得没意思，推荐算法再推给一个新的 1-2 分钟的“游戏”体验，就像抖音的 feed 流。

这个平台上就是一群想要消费重交互轻内容的人，背后是一群ROI算得正的 3D创作者去提供内容。里面还会出现经济体系，例如开始卖游戏资产，卖皮肤，但是我们认为在大家都不花钱的情况下这个平台就可以赚钱了，这是我们长期认为会发生的事情。

AI科技评论：什么是「轻内容的强交互」？

宋亚宸：在消费端，有需求很重要。可以画四个象限，就像无人驾驶一样，x 轴其实非常简单，就是它是重内容还是轻内容？什么叫重内容呢？就是要花 5 个小时、20个小时去玩的东西，比如说黑神话悟空。什么叫轻内容呢？短视频，这很好理解。y轴就是强交互和弱交互，强交互是什么呢？比如说原神。电影就是弱交互，没办法去改变什么，就只能看。

重的两端都有人做了，重内容的强交互是黑神话悟空，就是所谓的游戏。重内容的弱交互是谁？电影。轻内容的弱交互是谁？短视频。而轻内容的强交互是空白的。

AI科技评论：轻内容的强交互，能举个例子吗？

宋亚宸：有一个趋势，我们发现游戏越来越短了，比如去年年中的时候，短时间内出过一个全中国畅销排行榜第一名的游戏，叫做全明星街篮派对，原来打一盘篮球的时间大概是在一个小时不到，现在打一盘篮球时间在 2 分钟。就 11 分，谁拿 11 分谁就赢，11 分什么概念？四个三分球就赢了，而且带各种技能。所以一两分钟玩一盘游戏，这就是所谓的轻内容的强交互。

这跟黑神话是完全不一样的东西了，但是他们又不属于3D内容平台的新范式，因为它还是很重复的，就一分钟两分钟打一盘篮球，如果没有 feed 流推荐新游戏，天天打的话就很无聊。

AI科技评论：所以未来这个平台上 3D的内容都是游戏？

宋亚宸：把所有出现了 3D的娱乐项目都叫做游戏，在全世界有近三千亿美金的市场，未来我们会把现在所有游戏都归在 3D内容的一个子类里，就跟现在的短剧一样只是视频的一小部分。

AI科技评论：3D和其他信息载体的区别？

宋亚宸：文字、图片、视频、声音、音乐各种各样的信息载体，当我们把它作为内容来去呈现的时候，其实都是用 empathy 去体验内容，什么empathy？就是移情。比如你在读金庸的小说的时候，你带入的是张无忌，看吃播的时候，带入的是吃东西的人，会用对方的视角去看世界，是没办法跟这个世界产生实际的交互，是他带着你去跟这个世界进行交互的，所以叫移情。

另外一种消费内容的方式，我们把它叫做agency，就是你是有自主意识的消费者，比如，你在所有的 3D 的内容里面，你其实代入是你自己，哪怕你在玩王者荣耀，你玩后羿不会觉得自己就是后羿，而是自己完成了杀敌、推塔等游戏体验。

玩黑神话悟空的时候，其实也想你带入自己，但是它有一个问题，黑神话悟空是个太硬核的 3A游戏，有点像极致的第九艺术，导致它有点像电影，跟视频比较接近，每次打完一关，给你看段剧情视频，比如说玩黑神话只能按照它的剧情来，自由度比较差。

所以3D其实是一个讲究agency，自由度的东西，自由度越高你的体验越好。最本质的的区别就是这个地方用的empathy，那个地方体验的是agency，但有些东西比较模糊，两者都有，比如说有什么交互电影。

元宇宙这个词等于无限自由度，之前的元宇宙都有一个问题，虽然有很强的自由度，但没有足够多的 3D内容做填充，所以导致它的自由度是伪自由度。

最极致的 3D内容体验，一定来自最极致的 3D内容供给，而 3D 内容供给它一定来自 AI 生成的，肯定不是人工能搞出来的。

3 新的内容平台一定是新玩家做出来的

AI科技评论：Tripo现在能做哪些事情？

宋亚宸：包括静态3D模型的生成、骨骼自动绑定、动作生成、3D风格化，及各种格式的导出和转换，都可以在tripo3d.ai中体验。

AI科技评论：Tripo模型现在发展到什么阶段？

宋亚宸：Tripo1.0类似于Midjourney V2，或者说 Tripo1.3 类似于Midjourney的V3，类似于GPT-3，Tripo2.0 类似于 Midjourney V4、ChatGPT。

AI科技评论：Tripo现在有多少用户？

宋亚宸：社区有接近三四十万专业开发者，主要是海外，国内没怎么做，海外付费能力强，大概有1- 2 万多个中小客户的API调用。

AI科技评论：如何去做用户增长？

宋亚宸：我们不做用户增长，让其自然增长，没花过一分钱买过量。更多的增长是来自于社区，我们培养了一些 KOC、KOL，大家会在社交媒体等平台去展示自己的一些作品和showcase，其实会吸引到很多用户来。然后这些新的创作者加入后，他们又能成为新的KOC、KOL。

AI科技评论：怎样吸引到现在的核心团队成员加入？

宋亚宸：不是因为我有多强，而是一群有信仰的人汇聚到了一起。在AI 大航海时代真正相信One Piece（海贼王中的“大秘宝”，最终的宝藏）的人太少，简单点说就是有信仰的人太少了。即纯粹地相信一件事，并觉得这件事做成会很牛，愿意 all in。真正愿意这么做的人很少。我们就是这样的一群人。

AI科技评论：商业模式是什么？

宋亚宸：现在技术还在往前发展，商业模式还在探索中，不过我们未来一定会专注于ToC，目前也做ToB，Tripo Web工具是我们的一大亮点，它通过会员订阅和API接口为个人和企业提供服务。3D艺术家、游戏建模师、独立开发者等个人用户可以通过订阅获得强大的建模工具。对于企业客户，我们不仅提供API接口，还提供定制化的专业解决方案。

AI科技评论：现在关注收入吗？

宋亚宸：现在更希望去聚集更多的创作者，并在 3D的落地场景里去打的更深，然后去和这些行业去做结合的解决方案，和这些行业去更给他们创造有价值的、完整的、可用的 3D 模型。这是我们最重要的事情。本身市占率有百分之七八十。

AI科技评论：主要的应用场景有哪些？

宋亚宸：主要有四大类的应用场景，第一类是传统的 CG 行业，比如说游戏、动画、影视、虚拟制作，第二大类就传统的工业，工业设计，鞋服、家居首饰、玩具、食品、香薰、蜡烛、灯具、文创等，核心就是做柔性的定制化生产。第三大类就是所谓的新兴行业，就比如说元宇宙，比如说XR、MR，比如说具身智能里面的仿真模拟，比如说数字孪生，再比如说数字人；那第四大类我们把它叫做传统的互联网行业，比如说社交、直播、电商、教育等等。

AI科技评论：如何跟大厂竞争？

宋亚宸：大厂是最穷的，就比如说我们做 3D，大厂的算力、人才、预算、数据在 3D 上面肯定是没有我们多的，预算肯定是没有那么多的，那为什么我们打不过他们？

AI科技评论：比如在大语言模型，刚开始一些创业公司，智谱、百川这拥有先发优势，但是下半场像字节、快手现在都追上来了。

宋亚宸：两个方面来说，没有哪一个新的内容范式的内容平台是过去的大厂做的，抖音、小红书、Snapchat都不是，新的内容平台不是老玩家做出来的，一定是新玩家。

短期来说，创业公司更聚焦，而且创业公司做大语言模型，有点像跟谷歌比搜索，但是3D大模型是另外一回事。

AI科技评论：您有偶像吗？

宋亚宸：毛泽东，当年毛泽东能把那么多优秀的人（各种条件的）集中到井冈山，在那么一个生活条件很差的地方，只是因为这些人真正相信他们在做的事情，就是要解放中国。

AI科技评论：在技术发展史中，每一个新技术都是欧美国家走在前面，特别是像现在的AI大模型，中国可能一直都是 Copy to China，那么在 3D这块，我们领先了，您觉得我们的竞争优势是什么？会不会被赶超？

{{userData.name}}已认证

95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

1

一个神学爱好者加入一家AI公司

2

要做「轻内容强交互」的 3D抖音平台

3

新的内容平台一定是新玩家做出来的

实时音视频领域拓荒者的十年

让机器人拥有人一样「潜意识」，英伟达1.5M小模型就能实现通用控制了

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践