IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

AI 领域有没有好用的科研对象?谢育涛团队打造 AI 对象显著提升 AI 科研效率。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

3 月 23 日,在机器之心 AI 科技年会上,IDEA 钻研院工程总监、AI 平台技巧钻研中心负责人谢育涛发表了主题演讲《工欲善其事必先利其器——AI 创新的对象》。

演讲视频回顾(点击「阅览原文」也可观看):

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

扫码回看

视频地址:https://www.bilibili.com/video/BV1ki4y1k7xe?spm_id_from=333.999.0.0

以下为谢育涛在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:

各人好我是谢育涛,来自粤港澳大湾区数字经济钻研院 (International Digital Economy Academy IDEA),极度感谢机器之心的邀请来参加机器之心 AI 科技年会,我之前都是机器之心的用户,今天作为嘉宾和各人分享极度荣幸。前面几位老师分享了关于 AI 方面的钻研和产业化精彩内容,我借这个机会分享一下我对科研对象的考虑,我分享的题目是《工欲善其事必先利其器——AI 创新的对象》。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

我主要介绍三个方面的内容:第一部分是我们生逢 AI 大期间,这是一个极度精彩的期间;第二部分是工欲善其事,在这一部分我将分享一些我们在科研对象方面的探索,愿望能对各位有一些扶助;第三部分介绍我们在 AI 科研领域关于创新方面的一些考虑。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

AI 期间

人工智能(AI)这个概念可追溯到 1956 年,在这 60 多年的时间里 AI 经历很多坎坷。我们今天已经完全生活在人工智能期间,例如手机里的人脸识别、指纹识别等都是 AI;在疫情期间,有些人隔离在家不麻烦出去,外卖 APP 为你推荐喜欢的菜单,这背后也是 AI;下单之后骑手怎么分配,路径怎么优化,路况怎么预测等,这背后都有人工智能的影子,目的就是让用户快速吃到想吃的食物。AI 为我们的生活提供了极度大的便利,可以说是无处不在。前面几位老师也分享了当前的人工智能技巧已经进入全方位商业化阶段,并且对各种传统行业、各个参与方都产生了不同程度的影响,改变了各个行业的生态。

在中国数字经济这四个字已经第五次出现在《政府工作报告》,这是极度重要的一个话题。在我看来数字化分为两个部分:一个信息化、一个智能化。浅层的数字化就是信息化,深层的数字化就是智能化。

信息化在中国已经相当成熟,比如麻烦快捷的手机支付,而在海外其他国家都没有相关麻烦的对象,这一点中国已经走在世界前列。

智能化可以说现在正逢其时,AI 在整个国民经济发展包括工业、金融业等起了很大的作用,假如没有 AI 技巧,数字经济只是一个信息化的技巧,它只有蛮力没有智商,而这个发展是很受限制的。如果数字经济中没有智能化的需求,那么产业潜力也无法得到挖掘,对于 AI 技巧而言,各位钻研职员、专家学者也只能永远停留在象牙塔里,技巧不能落地。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

科研引领的 AI 创新

所以我们所处的 AI 期间是一个充满了机会的期间,AI 技巧的进步就是这个期间的原动力。AI 技巧的进步在很大程度上是由科研职员推动的,举例来说,在计算机视觉领域,我们从网站 paperswithcode 了解到,在 ImageNet1K 图像分类任务上,它的 Leaderboard 英雄榜从 2011 年开始每年、甚至每个月都被刷新,几乎每一次的重大突破都基于钻研职员发明了新的算法,训练了新的模型,有了更多的数据,得到更好的结果。我们从早期的 SIFT,到 AlexNet,到后来的 ResNet 等等,这些模型都采用不同的数据、不同的算法,如下图所示,图中每一个点都是优秀论文在试图冲击新的高点,无论是大学、钻研机构、还是各大公司,钻研职员从不同的角度不断地进行钻研,提升整个 AI 的能力。在整个 AI 领域伟大的创新都来源于全球范围高水平的 AI 钻研。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

那么中国在 AI 钻研方面如何?根据钻研机构发布的数据来看,中国在人工智能领域论文的全球占比文(下图左)从 1997 年的 4.26%,增长到 2017 年的 27.68%,遥遥领先于其他国家。同时中国的高被引论文数量在 2013 年超越美国成为世界第一。此外我们从清华大学 AMiner 团队发布的 AI 2000 学者榜单中可以得出(下图右),在人工智能 20 个子领域入榜学者所在国家分布(人次),从分布来看基本上还是美国、中国竞争激烈,除了多媒体和物联网子领域中国稍微领先一点,美国在很多领域领先中国。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

总体来说,中国的 AI 科研现状,论文数是第一,优秀的 AI 学者量是第二,科研人才总量第二,杰出人才占比比较低。根据 2017 年的数据来看,中国的人工智能人才大概是 18000 多人,占世界总量的 8.9%,仅次于美国 13.9%,位居第二;在企业人才投入方面是高强度人才投入量,基本上集中在美国企业,中国只有一家公司华为进入了全球前 20。

第三个数字是高 H 因子,它用来评价科研职员的学术影响力,这是一个极度重要的指标,这份报告统计了前 10% 的高 H 指数学者,中国杰出人才 977 人,大约不到美国的五分之一,这个差距是比较大的。我们现在在 H 指数方面大概世界排名第 6,杰出人才比例较低。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

工欲善其事必先利其器

我们不禁要考虑,如何提高科研职员的钻研水平?各人有不同的解决方案,我要讲的是工欲善其事必先利其器,做科研最好有一些好用的科研对象,但现实情况是我们没有特别好用的对象,科研职员日常使用的对象相当缺乏,例如读论文、写论文、发表论文、评审论文、管理文件、开会等等都缺乏相应的对象。读论文时,大部分钻研者采用比较原始的方法:打印论文,用笔在上面做笔记;写论文也是如此,虽然我们有一些论文编辑对象,但不是很理想;发表论文、评审论文、管理文件、开学术会议等也没有好用的对象。以上种种都是科研职员每天都会遇到的,可是今天的对象是缺失的。

第二个缺乏交流平台「独学而无友,则孤陋而寡闻」,如果我们读论文时没有可以交流的人,是极度痛苦的事情,例如我们读论文时经常会遇到课题,这些课题或是公式、或是推论等,一般来讲我们没有可以随时咨询的人。在互联网如此发达的今天却很难找到一个专注于学术的社区。如果有这样一个社区可供各人提问、讨论,且专注于学术内容,对很多钻研者来说是极度好的事情,可是今天这样的学术社区是缺乏的。

第三个学术成果传播不畅,现在已经有很多搜索引擎,各人用的比较多的如百度学术、知网等系统,这些基本上满足了我们找论文的需求。但课题是论文太多,不知道该读什么论文,从哪里开始读起,比如说今年 CVPR 2022 收录了 2067 篇论文,这个数字是极度庞大的,想象一下怎么可能把这些论文都读完,甚至找出哪些论文需要阅览都是很困难的事情。出版商也没有特别好的对象让读者更好地获取知识,更麻烦传播的知识。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

打造论文社区:ReadPaper 论文阅览平台

做科研需要对象,可是对象是缺失的。我在这里介绍一下我们做的一些简单尝试,去年我们尝试打造一个论文阅览社区。我们做这个社区主要解决三个课题:

第一个学术交流是刚需:各人需要交流而且能够进行深度交流,但是学术社区缺失。作为读者你愿望读到好的论文,有课题能有人回答;作为论文作者,你愿望文章被更多人阅览,愿望读者对你的文章提出建议;机构愿望能够发现钻研方向,课题是不是在正确的方向设立。但是国内外都缺乏一个活跃的学术社区。

第二个论文本身是难读的,全球每年都发表数以百万计的论文,然而多数论文并不好读,尤其是对于母语非英文的钻研职员来说难度更大。

第三个社区对学术钻研的影响力不足,学术社区的缺失导致社区对学术钻研的影响力不足。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

我们打造了一个专业的学术讨论社区 (网址:readpaper.com),该社区在去年 11 月份正式发布,其具备四个大方面的内容:论文搜索、在线笔记、文件管理、学术讨论。

第一个是论文搜索,我们后端收集了大约 2 亿篇学术论文的元数据,各人可以用自然语言的方式进行搜索,这样你在找论文、速读论文的时候,能够精准直达,而且用户可以快速浏览相关资料。

第二个精读论文,用户可以进入 PDF 文件进行详细的阅览,也可以进行在线笔记,沉浸式阅览体验,实现边读边记。

第三个文件整理,这也是很多学者、钻研职员普遍遇到的课题,太多的文件怎么样有条理地进行跟踪、整理、归类,怎样将文件放到一起便于长期的跟踪,甚至还可以跟各人分享,整理论文也是我们社区愿望能够为各人提供的。

第四个群读论文,也许是导师分派的一个学习小组,也许是网上一群互不认识的人由于相同的论文自发的组织到一起,他们相互之间评论讨论、共同进步。

我们从读论文开始打造一个学术讨论社区,这是我们想做的一件事情。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

下面我将简单讲解一下部分功能,第一个是沉浸式阅览体验,当我们打开 PDF 阅览论文的时候,就进入了我们的论文超级阅览器。我们会用一些自然语言处理技巧剖析 PDF 本身目录剖析就是你文件的目录呈现给读者便于跳转。援用剖析则是对文中援用文件索引的剖析。我们读论文时经常会遇到援用文件如(23)、(36),之前我们将论文打印到纸上进行阅览,遇到如(23)援用我们会翻到后面看该援用的具体内容,然后再回到之前阅览的地方,这样做极度不麻烦。我们有了援用剖析这项功能,PDF 剖析好了以后,在阅览时当你点击(23)屏幕上会弹出一个框,框中显示这篇文章作者是谁,标题是什么,文章发布时间等,甚至还可以显示这篇文章的摘要,这样一来你就可以停留在正在阅览的地方,并专注阅览,这个功能对于打印在纸上进行阅览的体验是无法比拟的,因为你没有办法援用论文的摘要信息。我们对于援用文件列表的剖析也会展示在超级浏览器里面,你还可以对援用列表排序,而打印下来的论文我们不知道哪一篇是高援用的论文,但是我们的阅览器可以帮你解决这个课题。

图表剖析也是,比如有时候打印的论文图在第 8 页,相关的注解文字在第 10 页,点击剖析的图标可以把图固定在屏幕上,图文对照阅览,极度麻烦。

第三个划词翻译,目前绝大多数论文是英文的,对中国学生、学者来讲还是有障碍的,划词翻译即读者划定单词即可翻译成中文,麻烦阅览。

文字截图可以做笔记、可以做摘要,还可以做全文检索,能够让读者更快、更好地读论文。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

ReadPaper 论文十问

接下来展示经典十问,我们 IDEA 创院理事长沈向洋博士说过「You are how you read」。我们可以这样理解,阅览的过程就是作者编码的内容如何能够被读者顺利解码,信息被读者解码的过程就是阅览的过程,因此解码过程就是形成自己认知模型的过程,所以「You are how you read」你怎么读就定义了认知模型。沈向洋博士根据多年在钻研界、工业界的经验,总结了经典十问扶助各人读论文,如何通过回答这些课题真正的理解论文,带着课题去阅览论文可以扶助读者有方向性的解码作者思想。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

这个功能已经集成在 readpaper.com 里,比如下图展示的这篇论文已经有人回答了十问,回答课题的人花了大量时间去读懂论文,然后进行分享。读者通过看这十个课题的回答,就能够快速了解一篇论文信息,假如你一天要读 50 篇 CVPR 的论文,这十问应该有很大的扶助。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

我只是简单介绍了一下我们在论文阅览对象方面的一个简单尝试,我们愿望为每一篇文章打造一个社区,因为我们相信每一篇文章都很优秀,文章中都有创意想法,它值得拥有一个社区,我们要为文章打造一个社区,让天下没有难读的论文,让各人读论文更麻烦。

因为时间的原因,还有很多功能我没有讲解,比如论文的搜索、管理、讨论,各人可以自己尝试使用,此外我们发布了 PC 客户端,ipad 客户端即将发布,该系统已经有相当多的用户,社区正在形成,我们认为在学生和论文之间我们做的这一点点事情可以扶助读者更好地读论文,更好地学习前人的知识,而且对于即将毕业的学生来说,怎么样收集信息做报告,扶助自己写论文,都能提供扶助。目前来看用户还是比较喜欢我们的对象。工欲善其事必先利其器。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

重新考虑学术生态

我们在 AI 期间如何从科研大国到杰出人才大国?我愿望有更多的利器助力科研人才。我也在考虑整个学术生态是不是有一些我们可以做的事情,在各个环节是不是可以提供更好的对象,这样的对象对于每一个人都有扶助。我们将来做学术一定会跟整个生态打交道,这个生态的核心就是一个社区,这里面有学生、老师、作者、读者,论文是传递知识的一个桥梁,这样的社区和生态的其他部分有着千丝万缕的联系,钻研职员在科研机构里面在做钻研课题,科研机构有上课、读论文、写论文,钻研职员还要发表论文、投稿,各种评审对象都有待完善,参加学术会议更是一个复杂的过程,从组织学术会议到跟进、开会、交流,每一 个细节的优化都可以扶助钻研职员提升交流的效率,还有从出版商那里如何更加有效获得高质量的文章,在保护版权的前提下让知识更快的传播,这也是值得我们去考虑的课题。钻研职员成果商业化落地也是很重要的事情,比如说企业里面员工自己能力的提升,科研技巧如何从核心社区转化到商业化,人才的招聘等等都是我们可以优化的事情,这中间的每一步都需要一个好的对象来助力科研职员,来提升我们的钻研水平,改善整个科研学术的生态系统。

IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

AI 期间科研打头阵,为数字经济的产业智能化不断创造新的增长空间,我想,工欲善其事,必先利其器,我们有必要重新考虑整个学术生态,我也愿望我们能够打造更多的对象助力科研的发展。

给TA打赏
共{{data.count}}人
人已打赏
AI

2021图灵奖揭晓:高本能盘算先驱、超算TOP500榜单创始人之一Jack Dongarra获奖

2022-3-31 11:47:00

AI

谈话模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型

2022-4-3 21:42:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索