本文为「重塑产业的AI科技」系列主题「ScienceAI」圆桌环节的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。
AI+Science技巧实践与产业利用中的挑战与机遇
在圆桌环节,创新工场的任博冰,华为昇腾的黄之鹏及天壤的苗洪江围绕本期的主题探讨三个方面的题目:AI forScience 的市场需求、AI for Science的技巧路径与探索实践,还有 AI for Science 未来发展标的目的以及挑战。以下为部分精选 QA,完整内容可通过机器之心机动组视频号回顾了解。
昇思在2020年3月正式开源后快速在ScienceAI规模推进,华为对这个市场的具体思考和战略是什么样的呢?
黄之鹏:MindSpore社区作为一个较为新生而且还是国产的开源深度学习框架,我们为什么会把很大一部分的精力放在科学计算与 AI 结合这块?我们认为目前支撑科学研究的三大支柱:理论研究、科学实验、科学计算,如今基本上已经形成了。那再往前走的话,一个 AI深度学习自己框架的突破,需要有更深度的场景去驱动它,同时需要更加有力的需求去驱动它的开发。我们认为科学计算最能为我们提供创新场景,而且它在技巧上要求异常高。方才我的议题里也讲到场景实现的难度异常高。所以我们判断科学计算与AI结合是推动深度学习再往前发展的主要的标的目的之一。同时,我们发现,良多的科研规模,在利用了 AI 的方法之后,确实有了良多突破性的进展。
方才给大家介绍的例子是AlphaFold2, 实在除了分子这块之外,良多之前用传统数值计算无法实现的规模,我们已有一些突破,比如在地球物理良多气象的仿真,包括电磁的仿真、航天制造都是通过深度学习能力的加持实现的。
天壤为何选择从布局生物学入手?
苗洪江:我们之所以选择从布局生物学入手,从大的标的目的来讲,最重要的原因是我们方才已经提到的布局生物学在整个生物学中规模有着异常核心的价值和意义。我们只有快速、准确、大量的剖析蛋白质布局,才能对良多的生物题目进行基于生物学自己或者说物理化学自己的解释。另外,在ScienceAI规模,我们之前在围棋和交通等众多复杂场景处理方案中沉淀了良多的AI算法和能力,我们希望将能力继续扩大来处理Science的题目。但是我们看到在众多的Science题目里,布局生物学或者是说蛋白布局预测实在是众多生物学课题中数据充足、题目定义明确、而且较为适合 AI 的利用场景,而AI会极大的帮助到这一题目的处理。这就是为什么我们做的第一件事情,就是将 AI 的方式利用到布局生物学中,来剖析蛋白质的布局预测。
ScienceAI在科学上的突破用于商业,打开的是巨大的增量市场,可以请您介绍您及团队投了哪些ScienceAI规模的项目吗?有没有遇到过一些团队的技巧让您感到眼前一亮,但是对市场需求思考不足、发展路径推敲不足或者商业逻辑较为超前较难验证的情况?
任博冰:我方才已经基本上介绍了一些我们投的项目,但创新工场的投资思路能够跟良多机构也不一样。我们会看一些发展标的目的较为的公司,如果没有这方面的公司,我们就自己孵化,对于像AlphaForl2这样的重大标的目的,我们会按照产业链去做布局。
我们的孵化和投资,主要围绕新的生产和设想能力带来的一些产业链上能够会遇到的一些题目来展开布局。比如说刚刚老师提到整体实验的高通量,我们投了实验室自动化的机器人、核酸的自动化实验、高通量的未来不流控的公司。围绕蛋白质组学数据不够,我们还投了蛋白质组学的公司,围绕着AlphaFold2带来的能力,创新工场也在投用 AlphaFold2的蛋白质布局设想去做合成生物和医药。材料方面,我们不光设想新的材料,我们还布局材料生产,从实验室到工厂,再到工厂优化生产、材料加工等上下游环节。
但是对于市场思考不足和发展路径推敲不足的情况,我感到大部分科学家早期都会遇到这样的情况,但也不代表不能处理。在早期的时候,我们孵化的投资公司,大部分的题目我们是一起去做讨论和打磨的,一起讨论发展路径、打磨商业逻辑,跟他们一起去做客户调研、行业调研等等。面对以上情况,只要我们保持一个开放的心态,题目是可以处理的。当然我们也不能保证我们的想法一定是正确的,但至少经过深度思考和深度调研,成功率就会高一些。
目前使用AI算法处理布局生物学规模的题目,主要的技巧实践标的目的有哪些?可否请您简单介绍一下当前这些规模进展的情况?
苗洪江:目前来讲,整个布局生物学实在是一个异常大的规模,因为 2020 年AlphaFold2的出现导致大家对蛋白质布局预测关注度变高,但是布局生物学还有良多没有被处理的题目,希望 AI 可以进入,帮助我们来处理的题目。比如RNA布局的剖析、基因突变对蛋白质布局和功能的影响、蛋白质的动力学分析、蛋白质和其他小分子 DNA和RNA包括蛋白质的相互作用以及他们的复合体布局的剖析,都是我们如今正在关注和研究的标的目的。
天壤实在正在研究方才提到的像蛋白质相互作用和蛋白设想的标的目的,另外比如蛋白质的序列突变对于布局和功能的影响标的目的。实在良多人体疾病的发生都是由于我们的基因产生突变,导致蛋白质的序列和布局产生变化。这种布局的变化导致了核心蛋白质功能的缺失或者改变,从而导致了疾病的发生。而 TRFold 建立了快速准确的蛋白质布局预测的框架和理念,我们希望可以借助 AI 算法快速、准确地提取和剖析蛋白质序列和布局中间的关联关系,来帮助我们理解突变蛋白质布局和功能的影响,为将来我们在这个规模的生物机理研究和靶点、药物发现做更好的铺垫。
在AI+科学计算具体的实践过程中都有哪些难题?这些难题在团队的实践过程中是如何被处理的?
苗洪江:和大家分享一个在我们自己 TRFold 的训练过程中遇到的困难。Alphafold2 的训练是用了 128 张 TPU 来进行的。而我们TRFold训练资源只有 8 张3090的训练资源。我们希望在这样的资源下可以支持起一个模型框架,可以达到和它近似的预测水平。在整个过程中,我们就不得不在算法层面和计算层面做良多的优化,包括我方才提到的通过参数共享、精度混用的一些方式,通过介于中层和模型中间的优化,达到同时兼顾准确度和预测效率的提升。
黄之鹏:我们能够更偏底层一些,所以我们看到的基本上是对更基础的软硬件的挑战。如今的用来做拟合的这个模型的规模,趋势也越来越大。有的时候硬件毕竟还是有限的,如今良多人也都在看系数化,通过系数化去进行优化。对于我们来说,我们在开发MindSpore的时候,我们希望MindSpore提供自动并行的能力,除了在传统的框架一般会有数据并行模型并行之外,我们还可以提供更多维度的优化器的并行、流水线的并行等等。
除了通过加速生物及化学物理的科研进展,从而推动新药和新材料的研发之外,我们有能够看到AI技巧对其的推动、变革作用将显著被社会所知的下一个细分规模将是什么?这个规模取得突破所面临的最核心的难题是什么?
黄之鹏:我个人感到,疫情给全球带来的变化需要大家重视起来。如今一些的人不重视疫情对全球的影响,实在是一个划时代的变化。我认为未来的基调实在是一个虚拟互联时代,物理上能够会有更多人因为疫情被隔离。由此,我较为关注生物信息的数字化标的目的。
如今我们看到的这些热点,不管是元宇宙,还是我们今天聊的 AI +科学计算,包括区块链涉及到的加密学、伊朗的太空发射、Neuralink、脑机接口,归根结底来说,我特别喜欢任老师提的可编程的世界的概念。我们在后疫情时代的大设定下,生物信息的数字化我感到会是一个越来越重要的议题,它意味着生物体像元宇宙一样,生物体怎么接入到这个数字世界中,甚至包括着跨距离的虚拟层面的连接。我感到在我们的业务范畴内,实在我较为关注的一个关键词叫就是circuit 。大家可以发现不管是做加密算法,还是我们做神经网络。不管你怎么去设想一个AI 算法的电路,还是一个加密电路。未来我们会看到 circuit 的设想是不是会朝着生物和技巧标的目的发展。方才我们说AI 和科学计算二者是交互影响,circuit 发展能够会朝向一个交互影响共同演进的趋势去发展,它所带来的生物信息的数字化会对各个方面带来技巧的需求,不管是 metaverse所带来的图像渲染或者是数据流通,对网络编码都会带来一些异常新的需求和新的技巧发展。
任博冰:因为 AI 技巧在良多规模都有利用。但是从AI技巧的推动来看,如果还要 AI 起主导地位的话,我感到一部分是在人的认知理解上能够会是一个较为大的机会。当然它也会结合一些 AI 技巧,包括像 CV 和traffic 成分的结合。从训练的角度来讲,如今我感到还异常异常简单,简单到如今在这个人自己几乎都没有办法去把它定义成一个人。但是从 LT 包括 CV 和 graphic 这方面,包括一些其他的硬件规模的进展来看,LT在未来几年能够在复杂推理上会有一些较为大的突破。在对话复杂推理这方面的融合,有能够离对人的情感计算一些理解能够会进入一个新的层次。我们目前看到一些利用已经基本上可以满足较为简单的一些对话了,只是在记忆和推理上面做不好。另外,在 graphic 和 CV 方面如何可以把物理世界和虚拟世界东西做很好的交互。能够未来在原本的基础上通过两到三年或者三到五年我感到会有较为大的突破。这两点加起来,人和机器的交互能够会变成一个异常有意思的世界。
第二个肯定是AI在生物里面突破。实在不光是AI,核心生物学的下游产业实在是包罗万象,其覆盖规模从食品农业到材料工业再到生物等等各个方面,所以它也是一个典型的通过编程可以获得一些新东西的一条路径。
苗洪江:对于产业来说,我个人较为看好的是合成生物学规模,因为合成生物学自己异常符合我们如今对食物、工业材料各个规模的需求。我们已经逐渐看到 AI 技巧在这个规模的利用,但是我们认为利用和产生的效果远远没有达到极限,实在还是会有异常大的空间可以去操作。
在科学方面,我个人感触较为深的是 AI 对于数学规模的影响。在2016 年、2017 年左右。AI 在解数学题目上只有初中水平且经常出错,到去年大家较为熟悉的AI 可以处理了薛定谔题目,Deepmind 还用 AI 的方式来启发数学家解之前我们不能解的数学题目,一直到像 MIT 研发的 AI 算法可以处理近似于大学水平的一些数学难题。我们可以看到在不仅仅是我们之前较为关注的能够更落地的规模,在一些能够较为接近基础学科的规模,实在 AI 也有异常大的利用的潜力和前景。
观众提问:请问设想新的网络布局更难还是设想新药更难?
黄之鹏:从我们的角度来说,能够还是会感到新的网络布局会容易一些。因为如今良多新模型的开发实在更多的是算力资源加上人力投入,它是最终可以处理的一个题目。但是药物这块我确实不太熟悉,感觉新药的设想还是要更复杂一些。
任博冰:实在药的难点主要在科学的不确定性上,因为无论你如何去做仿真模拟,都不太能够去处理人体内的良多不确定因素,包括如今无论是小分子能够的拖把独立的题目,还有大分子有良多这样的不同的构态,所带来的空的特异性上的一些题目。我记得之前有一篇paper 报道中提到好像在过去的 20 年还是 10 年的动态里面,事实上 FDA 自己二期临床的成功率并没有显著的上升,实在在人体有太多的 QA 上的不确定性没有去理解。所以从确定性标的目的看,我感到设想新药会更难一点。
苗洪江:从可控性上来说,我感到实在对于模型的设想和模型的训练还是较为可控的。但是对于新药研发,是完全不可控的一个事情。人体自己或者说生物学细胞自己是一个异常复杂的体系,我们如今对这个体系的了解实在是异常片面而且是不全的,这就导致了我们在制药过程中会发现和遇到各种各样我们之前甚至没有想过的题目。这种不可控的风险实在在整个流程中是最值得关注的,这就是为什么我们希望通过模拟得到更多的数据,来尽量补齐之前知识或者信息的缺失,可以将这个不可控的风险尽量降低,将大家较为关注的新药的研发或者是一些治疗方式的研发,更快速、安全的提出和处理。