14周硕士级学习,德克萨斯大学奥斯汀分校简明NLP课程视频全公开

小伙伴们,来学习吧。

近日,德克萨斯大学奥斯汀分校(UT Austin)的 CS388《自然语言处理》简明课程放出了全部视频,一共有 98 个视频。

14周硕士级学习,德克萨斯大学奥斯汀分校简明NLP课程视频全公开

视频地址:https://www.youtube.com/playlist?list=PLofp2YXfp7TZZ5c7HEChs0_wfEfewLDs7

这是一系列线上硕士课程,涵盖机器学习和 NLP 基础知识、模型(BERT、BART、T5、GPT-3 等)以及指令调优、思维链、语言与视觉等大型语言模型(LLM)相关的热点主题。

该系列课程分为以下 14 周来学习,我们一一来看。

第一周:课程简介和线性分类。具体内容包括线性二元分类、情感分析与基本特征提取、学习基础与梯度下降、感知机、逻辑回归、情感分析、优化基础等。

第二周:多类与神经分类。具体内容包括多类分类、多类感知机与逻辑回归、多类分类示例、分类公平性、神经网络及可视化、前馈神经网络与反向传播、神经网络实现、神经网络训练与优化。

第三周:词嵌入。具体内容包括跳幅、词嵌入方法、词嵌入偏差、应用嵌入与深度平均网络。

第四周:语言建模与自注意力。具体内容包括 N-Gram 语言建模及平滑、语言建模评估、自然语言模型、循环神经网络(RNN)及缺陷、注意力与自注意力、多头自注意力、位置编码。

第五周:Transformer 与解码。具体内容包括 Transformer 架构、Transformer 语言建模、Transformer 扩展、束搜索。

第六周:预训练与序列到序列(seq2seq)语言建模。具体内容包括 BERT 掩码语言建模、BERT 模型与应用、seq2seq 模型、BART、T5、词块与字节对编码。

第七 - 八周:结构化预测:词性与句法分析。具体内容包括词性标注、序列标注以及利用分类器标注、隐马尔可夫模型(HMM)、HMM 参数估计与维特比算法、词性标注 HMM、成分句法分析、随机上下文无关文法、CKY 算法、精炼语法、依赖以及基于转换的依存句法分析。

第九周:现代大型语言模型(LLM)。具体内容包括 GPT-3、零样本提示、少样本提示、上下文内学习(ICL)与感应头(induction head)、指令调优、基于人类反馈的强化学习(RLHF)、LLM 的事实性。

第十周:解释。具体内容包括 NLP 可解释性、局部解释、模型探针、文本解释、思维链(CoT)及扩展与分析。

第十一周:问答与对话系统。具体内容包括阅读理解入门、设置与基线、开放域问答、多跳问答、对话与聊天机器人、任务导向型对话、神经聊天机器人。

第十二周:机器翻译与摘要。具体内容包括机器翻译入门、框架与评估、词对齐与 IBM 模型、基于短语的机器翻译、神经机器翻译与预训练机器翻译、摘要入门、抽取式摘要、预训练摘要及事实性。

第十三 - 十四周:多语言、语言基础与道德问题。具体内容包括跨语言标注与解析、跨语言预训练、语言与视觉、道德偏差、自动标注的风险、不道德使用与前进的道路。

最后介绍一下课程主讲人 Greg Durrett,他是 UT Austin 计算机科学助理教授。

他的研究主要集中在 NLP 领域,其团队致力于改进获取和推理文本知识的技术。最近 GPT-4 等大型语言模型(LLM)极大推进了前沿研究,因此团队观察这些 AI 系统成功与失败的地方,以及如何进一步增强它们的能力,特别是通过构建那些将 LLM 用作原语的模块化 NLP 系统。

14周硕士级学习,德克萨斯大学奥斯汀分校简明NLP课程视频全公开

个人主页:https://www.cs.utexas.edu/~gdurrett/

课程主页:https://www.cs.utexas.edu/~gdurrett/courses/online-course/materials.html

相关资讯

改变传统,吴恩达开源了一个机器翻译智能体项目

吴恩达:拜托了大家,一起让翻译智能体变得更好。前段时间,随着 GPT-4o、Sora 的陆续问世,多模态模型在生成式方面取得的成绩无可否认,而人工智能的下一个革命性突破将从何处涌现,引起了大量学者和相关人士的关注。人工智能著名学者、斯坦福大学教授吴恩达一直非常推崇智能体。此前他曾在个人博客着重指出「AI 智能体工作流将会在今年推动人工智能取得长足进步」,AI 智能体的未来潜力愈加被看好,吸睛无数。近日,吴恩达延续他之前的脚步,开源了一个 AI 智能体机器翻译项目。项目链接: AI 智能体机器翻译对改进传统神经机器翻

DataWorks数据建模 - 一揽子数据模型管理解决方案

作者:DataWorks产品经理 刘天鸢在当下的商业环境中,正确的数据治理策略对于数据增值是非常重要的。据统计,企业的数据一直都在以每年50%的速度增长,因此企业数据治理与整合的难度就不断加大了。DataWorks一直以来都致力于成为用户更方便、更快捷地进行数据开发与数据治理的好帮手。此次发布的数据建模,是对已有数据治理领域能力的补齐,为用户带来了在数据开发前,实施事前治理的能力。一、为什么要数据建模引用《大数据之路:阿里巴巴大数据实践》中的内容:“如果把数据看作图书馆里的书,我们希望它们在书架上分门别类地放置;如

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 MusicGen,并且非商业用途免费使用。