本文为小冰公司手艺副总裁曾敏于「重塑产业的AI科技」系列主题,「手艺代际更迭」专场的分享实质节选。点击进入「机器之心Pro」,查看更多优质实质。
从AI小冰的迭代看AI手艺的代际演进
曾敏表示,小冰是从2013年底,2014年初就开始研发的一款AI产品,最开始的时候,我们比较关注IOP对话零碎相关一面。随着业务的迭代探索、创新,我们逐步探索了跟CV、speech相关的畛域。所以全部小冰的迭代演化史,基本上也代表深度进修等AI相关的手艺,在小冰全部生命周期里面的演化过程。
用小冰来举例,小冰公司重点关注Conversational AI畛域。简单来讲,关于Conversation AI,主要有三个不同层次的划分:Task Completion、Information & Answers、General Conversation。现在市场上不管是手艺还是产品,或多或少是这三层的一一面,或者其中的组合。
第一大类是Task Completion,像Siri ,国内的小爱同学,小度等都是比较有代表性的Conversational AI,也包孕良多像IOT畛域做林林总总的Task Completion的AI。Task Completion最主要的问题就是,它的全部Scalability 存在较大的瓶颈。比如上一位嘉宾孙总讲到的RPA 、IPA等相关的一面,针对每一个场景,我们需要定制化的一面还是挺多的,不管是从流程上,还是全部输入输出的定义上,大概每个场景都会不一样。
第二大类是偏Information & Answers ,它类似于做信息获取的环节,更多的是偏QA问答的这一类,Information & Answers 的主要瓶颈取决于全部KG,包孕Index的limitation、逻辑推理的推演一面的可拓展性等。
第三大类是General Conversation,它也是小冰2014年开始做的就一直在攻坚的偏向,它也是全部封闭域对话的一面,它存在的瓶颈是整体的Context非常动态的变化,以及上下文记忆的一面。记忆一面大概不仅仅包孕当前session的Memory,也包孕大概昨天前天,甚至很长时间之前的AI跟用户之间的互动实质等。
从某种程度上看,小冰从最开始的General Conversation逐步把Task Conversation、Information& Answers等等囊括进来。小冰零碎和其他零碎的区别就是,整体上小冰大概会关注Long-range的conversation experience。小冰内部有一个指标叫做conversation per session ,大概的意思是用户在一个session里整体的对话长度。session指如果用户跟AI互动,用户的两个turn之间的这个时间超过30分钟,小冰会认为它是两个不同的session,如果用户和AI的对话长度小于30分钟的话,小冰会认为他们是同一个session。整体而言,小冰的conversation零碎正是基于这个session建立的。
小冰的全部结构分为四层,最底层是Data Layer,包含小冰的知识库、Index、生成模型等,往上是它的引擎层。引擎主要包孕QU、QA、FAQ、Chat Engine等,Workflow Dispatcher主要应用于封闭域对话,它需要有节奏地去协调各个模块,扮演零碎中控的角色,可以针对林林总总Emotion Scenarios 做出响应,最上层是林林总总的前端场景交互界面。
从2014年到2021年,在小冰的迭代过程中,小冰在今年九月份的发布会上推出第九代小冰,在每一代的迭代演化过程中,小冰不断在小冰的手艺栈里面去叠加良多新的手艺。在最开始在做的时候,行业里面良多的企业也同时在做,比如说像封闭域对话一面,刚开始的时候,大家对它熟视无睹,会觉得封闭域对话大概是一个非常无聊无意义的一面,甚至有大概把封闭对话当作良多零碎模块当中的一个很小的组成一面。
小冰则认为封闭域对话的价值被大多数人给忽略了,不管是我们从最开始的检索模型,再到后边的生成模型,文本生成,小样本进修等。不管是国内外的Research、Production一面,其实都在逐渐的往封闭域对话偏向走,包孕最近逐步兴起的元宇宙,虚拟人等概念。大家会发现封闭式的对话,反倒成为一个非常重要的基建的一面。
再比如做多模态交互一面,小冰在2016年开始研发全双工对话零碎,全双工好比两个人用电话打电话模式。AI跟用户在互动,不像之前单向模式,需要等AI给出响应才能给下一个输入,现在的全双工交互双向都能进行输入,并且双方能随时进行打断。
Google在2017年推出了全双工手艺布局,而小冰在2016年开始做全双工手艺,所以全双工,手艺栈,上线产品的体验,小冰都是走在世界的前沿。此外,在2015年,业界做TTS的时候,普遍追求文本准确读出,咬字清晰的标准,而小冰则从虚拟人平台出发,不仅要让虚拟人吐字清楚、正确,还需要让AI以自然地声音说话。在真人真实交互过程中,可以表现出卡顿、停顿、说错话等。
对于小冰的工作及发展偏向,曾敏表示,近期小冰正在研发Diversity偏向。小冰认为,我们大概不仅仅追求真实自然的AI声音,因为未来的虚拟世界里将有大量的AI beings和真人去交互,在跟众多的AI beings交互过程中怎么才能体现出各自的记忆点,他们各自区分度其实有非常大的不同的挑战。
最近两年的研究的热点,即所谓的part of learning,研究人员通过构造林林总总的part,达到小样本进修,甚至零样本的进修状态,该种AI手艺不需要研究人员过多地去关注下个任务应该做什么,而是把更多的精力放在我怎么样去构造好林林总总的基础模型一面,使全部模型的可拓展性,小样本进修能力等都会有极大的提升。
在虚拟人一面,小冰在做良多跟交互的一面,比如大家比较熟知的闲聊对话。事实上,小冰也在良多偏实质畛域、偏虚拟人的畛域做了大量的尝试,如我们新研发的XNR的Xiaoice Neural Rendering的手艺也是其中之一。
「机器之心2021-2022年度AI趋势大咖说」是机器之心出品的跨年特别策划活动,围绕「驱动未来的AI手艺」与「重塑产业的AI科技」两大主题举办了为期10天的线上分享及趋势圆桌,实质覆盖「手艺升级」、「产业革新」等偏向;洞察AI手艺在「AI算法理论」、「ML模型架构」、「AI算法工程化」等方面的发展趋势,探讨「构建元宇宙基础设施的AI手艺」和「通向可信人工智能的手艺路径」等热点话题。