本科毕业加入谷歌,还写了「思维链」开山之作,这位OpenAI新秀正为本科生答疑解惑

本科毕业就加入谷歌,还以一作身份写出了「思维链」的开山之作,现在在 OpenAI 参与打造 ChatGPT,Jason Wei 从他的视角为年轻 AI 研究者提供了一些建议。

如果你仔细研究过「chain of thought(CoT)」这个概念,那么你大概听过 Jason Wei 这个名字。

图片

他是思维链概念开山之作 ——「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」的第一作者,本科毕业就加入了谷歌。在那里,他推广了思维链提示概念,共同领导了指令调优的早期工作,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。

图片

Jason Wei 等作者对思维链的定义是一系列的中间推理步骤,目的是为了提高大型语言模型进行复杂推理的能力(通过将一个较为复杂的推理问题分步拆解,一步步获得最终答案)。Jason Wei 等人的论文是第一篇发现当使用链式思维进行提示时,存在一个相变现象,表明大型模型在很大程度上优于较小的模型,这进一步导致了涌现能力的发现(引自《复杂推理:大语言模型的北极星能力》)。目前,思维链提示已经在大模型领域得到广泛易用。

2023 年初,他选择加入 OpenAI,与其他技术人员一起构建 ChatGPT。

凭借这些硬核的学术成果,Jason Wei 的被引量已经接近 8000。

图片

作为一位年轻的学术新星,Jason Wei 最近收到了很多问题。这些问题大部分来自本科生,代表了他们对早期学术生涯的一些困惑。在一个 google 文档中,Jason Wei 回答了其中一些。本文摘取了其中几个问题,希望对抱有同样困惑的同学有所帮助。

图片

问:你在 AI 领域的旅程是如何开始的?

答:虽然你是通过我 2022 年的工作认识我的,但我从 2017 年开始就一直在从事 AI 领域的工作。

在达特茅斯学院读本科时,我最初想成为华尔街的银行家,这是我父母那一代的美国梦(也是我家乡大多数朋友的选择)。但是我在大一的时候(2017 年)很难找到金融实习机会,所以最后,我通过我妈妈的朋友结识了一家 AI 创业公司,然后和这家公司展开了合作。

那个夏天,我通过阅读 Michael Neilson 的《神经网络与深度学习》第一次接触了 AI。我了解了反向传播算法,从任何类型的输入和输出数据中学习任意映射的想法吸引了我。我至今还记得,我对这个领域的热情比我在学校学过的其他任何学科都要高出一个数量级。

2010 年代末流行发论文,所以我也在大学期间试图这么做。我走了一条普通的路,参加了一门机器学习课程,并请求教这门课的教授指导我进行研究。我在医学图像分析的深度学习领域工作了两年。我的研究成果还不错,但也并非惊艳。达特茅斯学院没有充满活力的 AI 环境,很难找到志同道合的社区。所以我真的很感激那里真正对 AI 感兴趣的少数几个人,其中 Sam Greydanus 是我仰慕的人。

毕业临近时,我同时申请了博士学位和软件工程师职位。我有一篇被一家重要学术会议接受的优秀论文,以为我会被所有的博士学位项目录取。结果,几乎所有学校都拒绝了我,除了南加州大学(USC)。大三的暑假,我在 Blend 和 DoorDash 实习,但我不是一个出色的软件工程师,对软件也没有那么大的热情。

我差点就去南加州大学攻读博士学位,但后来我改变了主意,因为我获得了 Google AI Residency 项目的邀请,这是一个为没有 AI 博士学位的人提供谷歌研究机会的项目,为期 18 个月。这个 AI 项目可能是我职业生涯迄今为止最大的跳板。我可能是凭借我写的关于自然语言处理中数据增强的一篇相对受欢迎的论文被录取的。那篇论文的影响对我来说是个惊喜 —— 我天真地将我在医学图像分析中使用的一种直觉应用到了自然语言处理中,没想到它会变得如此受欢迎。

因此,在 2020 年毕业后,我在谷歌工作了两年多,从事大型语言模型研究。谷歌是一个进行研究的绝佳场所,许多著名的研究人员通过在谷歌的工作树立了自己的声誉。这个 AI 项目特别有效,因为表现优秀的研究人员有机会继续留在谷歌工作,大多数人都会为了能够成为永久员工而努力。

我的故事至少包含两个教训,虽然都有些老生常谈,但我还是想说一下:

第一,很多我当时认为是失败的事情实际上对我来说是好事。如果我当初在金融或软件工程实习方面更加成功,可能就错过了我现在喜欢的 AI 职业生涯。 

第二,运气起到了很大的作用,但我也创造了很多机会来获得好运。例如,我在撰写一篇被广泛引用的自然语言处理论文方面并没有绝对的优势,但通过写一篇关于它的博客,使用通俗易懂的语言,并在线上提供代码,我为这篇论文赢得了受欢迎的机会。

问:我应该选择哪个研究方向?

答:显然,这个问题没有一个标准答案。

我个人认为,选择一个你喜欢的研究方向很重要,因为从长远来看,你会在这方面做得更好。如果你不知道自己喜欢什么样的研究,可以广泛阅读几周,或者询问他人他们对哪些方向感兴趣,然后选择一个开始进行研究。

有时候,你可能需要在你想要从事的研究方向和其他因素之间做出权衡。例如,你可能有机会与一位优秀的教授合作,但研究方向可能并非你首选的主题。我认为,如果你能从中学到很多东西,或者它能帮助你实现自己的目标,这样做是可以接受的。但重要的是要记住你做事情的原因,并且对自己的意愿保持透明。

有一个研究方向,我会一概推荐给人们考虑,那就是「对齐」(alignment)。我认为「对齐」是一个很好的方向,有几个原因支持这个看法:

将智能 AI 与人类价值观对齐显然非常重要。

对齐是一个相对新兴的领域,因此早期从事对齐研究的人将有更大的机会产生影响。

对齐可能涉及多个学科,与伦理学等其他领域有关,这可能会吸引一些人。

对齐研究人员的供应少于需求,所以找到工作可能会更容易。

有一些人不从事对齐研究可能是因为这不是传统的研究方向,缺乏很好的基准,不太容易入门。而且,对齐的目标并未得到所有人的一致认同。但我不认为这些原因会成为障碍;我发现从事对齐研究的人非常乐于和那些对对齐感兴趣的人交流。

问:你大部分需要进行有效研究的知识是从哪里学来的?如果有有趣的想法,是花更多时间学习,还是直接开始研究?

答:在研究中,有三种学习来源:

阅读资料:其他研究论文、博客文章、推特等。

其他人告诉你:你的导师给你反馈,审稿人审查你的论文。

你尝试做一些事情:你进行一项实验,它有可能成功,也有可能失败,你要深入挖掘原因。

在开始阶段,阅读资料是很有益的,因为进行第二和第三种学习会有更高的成本(涉及到他人的时间和你自己进行实验所需的时间)。然而,你很快就希望尽早开始第二和第三种学习。原因是,当你处于能力的边界时,学习发生得最快,而且由于(2)和(3)是为你个性化定制的,它们将更快地加速你的学习过程。

问:你认为进行研究最重要的特质是什么?

答:我认为研究,就像其他大多数技能一样,可以通过实践来学习(参见:https://www.jasonwei.net/blog/practicing-ai-research)。我们当中很少有人能达到陶哲轩那种天赋水平。但我相信大多数人都有能力成为高水平的研究人员。因此,对于这个问题,我的简短回答可能是「毅力」,因为毅力能够促进实践。

在研究中被严重低估的一个技能是从反馈中学习。你会惊讶于人们对反馈的忽视程度 —— 我发现大多数向我寻求建议的人并不听取意见。我尝试非常认真地对待别人给出的反馈,如果他们是行业的佼佼者更是如此。反馈就像是一个梯度,它告诉你成为更好的研究人员应该往哪个方向前进。当我有导师时,我每周都会向他们询问我可以做得更好的地方,然后努力去做。在研究中,我们很幸运有着快速的反馈循环文化;并不是每个领域都是如此。

需要注意的是,我们也要懂得在何时忽略反馈。你的导师或老板在提供反馈时可能并不总是处于适宜的精神状态,而且他们对你的问题可能没有像你那样深入思考。但你仍然应该仔细考虑他们说的话。

另一个被低估的技能是愿意做一些基础性的工作,特别是查看数据。2019 年,我训练了一种用于肺癌分类的神经网络,我对大部分数据进行了初步标注,然后请病理学家审查我的分类。这花费了我 40 多个小时,最后我能够像临床病理学家一样对某种类型的肺癌进行分类。虽然花费了很多时间,但我从进行数据标注中获得的直觉在此后的三篇论文中都得到了应用,所以这是值得的。

研究中最后一个被低估的技能是成为一个良好的沟通者。良好的沟通使你更值得信赖,值得合作。例如,我有三个小忌讳,其他人可能也有:

很多人喜欢说「我明天把这个活儿干完」,然后事实上要等到几周后才完成。我尽量避免说这样的话,除非确实很重要,而且我确实能在明天之前完成(不只是开始做)。我希望在他人需要完成一项重要任务时,他们能相信我的承诺。

在项目的初期会议中,人们常常表现出很大的兴趣参与,但后来却不愿意付出与他们表达的兴趣成比例的时间。同样,我希望我的兴趣对他人有所提示,所以我尽量说一些类似于「我不能保证会参与这个项目,但是 <X> 的想法对我来说真的很有趣」的话。

人们经常会说「<X > 不起作用」,却没有提供足够的细节。我试图把陈述改成「在使用公式 F、模型 M 和数据集 D 时,<X > 没有起作用」,这样可以减少对方猜测我所说的具体内容的心力消耗。

问:有效的想法(至少在你从事的领域)是否更倾向于在数学上有更深的内涵,还是更具广泛的创造力?如果数学深度很重要,在本科阶段如何达到这种理解水平?是培养良好的数学直觉更重要,还是值得花时间深入研究这些数学主题?

答:很难说学更多数学知识是不好的,但我有点个人想法:在深度学习的历史中,有两个简单的因素经得起时间的考验,并且几乎总是有效的:更大的模型和更多的数据。这两者都不涉及深奥的数学基础,甚至不算特别具有创造性。

因此,我不建议在数学上过于深入,原因有几点:

目前在这个领域存在着很多机会和未开发的想法,这意味着时间的机会成本很高。因此,投入时间在数学上的相对价值较低。

即使你想花更多时间来培养长期技能,我认为有些能力比擅长数学更有优势。以下是一些建议:

当今的人工智能领域在很大程度上与精通工程和发展良好的软件工程技能有关。

当前的瓶颈之一是 GPU,了解硬件以及如何高效使用 GPU 可能比学习数学更具回报。

努力成为一名优秀的沟通者,会让你更容易与人共事,帮助你更清晰地思考,更有条理。

鉴于大多数想法并非源于数学动机(虽然也有一些),在寻找工程解决方案时,过度依赖数学知识可能会使你产生错误的偏见(就像精通语言学并不能帮助你建立大型语言模型一样)。

目前,这个问答帖还在更新,Jason Wei 也在陆续贡献自己的答案,大家可以有选择性地借鉴,或者提出自己的新问题。

完整文档参见以下链接:https://docs.google.com/document/d/1QREmdzLwJ0CR3kdFeenJbBowT1IFFREd46y10tW6pog/edit

相关资讯

思维链提出者Jason Wei:关于大模型的6个直觉

大模型究竟从下一个词预测任务中学到了什么呢?还记得 Jason Wei 吗?这位思维链的提出者还曾共同领导了指令调优的早期工作,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 参与 ChatGPT 的开发工作。机器之心曾经报道过他为年轻 AI 研究者提供的一些建议。近日,他以客座讲师的身份为斯坦福的 CS 330 深度多任务学习与元学习课程讲了一堂课,分享了他对大型语言模型的一些直观认识。目前斯坦福尚未公布其演讲视频,但他本人已经在自己的博客上总结了其中的主要内

CoT提出者Jason Wei:大模型评估基准的「七宗罪」

Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。在大模型时代,我们该如何评估 LLM 性能?现阶段,研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准,不断有 LLM 在其上刷新得分。但这些评估基准真的完美吗?思维链提出者 Jason Wei 在一篇博客中进行了深入的研究。Jason Wei 首先列举了几种成

Just keep scaling!思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式

关注 AI 领域的人对 Jason Wei 这个名字一定不陌生。 他是 OpenAI 的一位资深研究科学家,也常在 OpenAI 的发布活动中露脸。 更重要的是,他是思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者。