李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头,这是人工智能和计算机视觉令人难以置信的十年!」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n,又一次开课了。总共 600 多位学生报名,第一堂课的现场座无虚席:从 2015 年到如今,CS231n 已经走到九个年头,也成为了一代计算机视觉专业学生心中的「必修课」:虽然课程代码不变,但可以猜到,2024 年的课程相比 2021 年版本的课程有不少新增内容,这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头,这是人工智能和计算机视觉令人难以置信的十年!」

知名 AI 科学家李飞飞的计算机视觉「神课」CS231n,又一次开课了。

图片

总共 600 多位学生报名,第一堂课的现场座无虚席:

图片

从 2015 年到如今,CS231n 已经走到九个年头,也成为了一代计算机视觉专业学生心中的「必修课」:

图片

虽然课程代码不变,但可以猜到,2024 年的课程相比 2021 年版本的课程有不少新增内容,这还要归因于视觉生成技术三年来的巨大飞跃。

在今年初的国际消费类电子产品展览会(CES)对话中,李飞飞还给出了对今年计算机视觉领域发展的预测:

「从计算机视觉和所谓的以像素为中心的 AI 领域来说,我确实认为我们正处于非常激动人心的技术进步的边缘。我们一直在关注生成式 AI,我们一直在研究扩散模型,有人可能听说过高斯泼溅(Gaussian Splatting)或这方面的内容。我认为目前的技术浪潮中,有许多成果几乎就要实现突破了。我不确定它是否会像一年多以前的大型语言模型那样成熟,但我越来越多地看到这一点。我对此非常兴奋。」

2024 年的 CS231n 仍由李飞飞主讲:

图片

课程主页:https://cs231n.stanford.edu/

参与本年度 CS231n 的另一位讲师是来自斯坦福医学院的教员 Ehsan Adeli,他与斯坦福人工智能实验室(SAIL)、斯坦福大学人工智能研究所 (Stanford HAI) 均有合作:

图片

课程简介如下:

计算机视觉在我们的社会中已无处不在,在搜索、图像理解、应用程序、制图、医疗、无人机和自动驾驶汽车中都有应用。其中许多应用的核心是视觉识别任务,如图像分类、定位和检测。神经网络(又称深度学习)方法的最新发展大大提高了这些最先进的视觉识别系统的性能。本课程深入探讨深度学习架构的细节,重点是学习这些任务的端到端模型,尤其是图像分类。在为期 10 周的课程中,学生将学习实现和训练自己的神经网络,并详细了解计算机视觉领域的前沿研究。此外,期末作业将让他们有机会在自己选择的真实世界视觉问题上训练和应用数百万参数的网络。通过多个实践作业和期末课程项目,学生将掌握设置深度学习任务的工具集,以及训练和微调深度神经网络的实用工程技巧。

据介绍,2024 CS231n 课程的每个讲座视频都会发布在 Canvas 上。坏消息是,这些视频资料只有在斯坦福大学就读的学生才能获得。

CS231n 课程的迭代,可以说是见证了计算机视觉技术十年来的演进,曾带领许多人完成对这一领域理论的入门。

图片

即使是几年前的 CS231n 课程录像,至今也有很多人在学习、怀念:

图片

图片

众所周知,斯坦福大学的 CS 课程覆盖范围很广。与此同时,斯坦福的另外一个热门课程「CS25:Transformers United V4」的更新,也引起了大家的高度关注:

图片

课程主页:https://web.stanford.edu/class/cs25/

自 2017 年推出以来,Transformer 彻底改变了自然语言处理 (NLP) 领域。现在,Transformer 在深度学习中被广泛使用,无论是计算机视觉 (CV)、强化学习 (RL)、生成对抗网络 (GAN)、语音甚至是生物学。除此之外,Transformer 还能够创建强大的语言模型(如 GPT-3),并在 AlphaFold2 中发挥了重要作用,该算法解决了蛋白质折叠问题。

这就是斯坦福 CS 25 课程诞生的背景。这门课邀请过不同领域 Transformer 研究的前沿人士进行客座讲座,比如 AI 教父 Geoff Hinton 就曾做过讲座,还有 OpenAI 的研究科学家 Mark Chen,主要介绍基于 Transformers 的 GPT-3、Codex;Google Brain 的科学家 Lucas Beyer,主要介绍 Transformer 在视觉领域的应用;Meta FAIR 科学家 Aditya Grover,主要介绍 RL 中的 Transformer 以及计算引擎等。

此前,CS25 会在 Youtube 平台同步课程视频,已经累积了百万播放量。但这一次,CS25 决定把影响力再提升一下:

第一,CS25 会向所有人开放,任何人都可以通过 Zoom 接入直播参与课程。 

第二,CS25 每次都会邀请 Transformer 研究前沿的专家分享最新突破 —— 从 GPT 和 Gemini 等 LLM 架构到生成艺术(例如 DALL-E 和 Sora)、生物学和神经科学应用、机器人、复杂游戏的创意用例。

目前已经确定的嘉宾有:OpenAI 的 Jason Wei / Hyung Won Chung、Edward Hu,艾伦人工智能研究所 (AI2) 的 Nathan Lambert,Mistral AI / 剑桥大学的 Albert Jiang 和来自中国公司智谱 AI 的丁铭博士。

图片

第三,参加这门课程的学生唯一的作业是每周参加讲座。

值得注意的是,在 CS25 课程中,除了基于自然语言处理(NLP)的演讲内容之外,也覆盖了视觉 Transformer 的相关内容。

在这个生成式 AI 技术不断更新的时代,如果你也想「紧跟时代潮流」,不妨收藏、学习一番?

相关资讯

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述。

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo

机器人策略学习的Game Changer?伯克利提出Body Transformer

过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。我们知道,物理智能体在执行动作的校正和稳定时,往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应回路位于脊髓神经回路层面,它们专门负责单个执行器的响应。起校正作用的局部执行是高效运动的主要因素,这对机器人来说也尤为重