DenseNet共一作者刘壮官宣新去向,将任普林斯顿大学助理教授

「还离这世界上最棒的地儿不远。」最新消息,DenseNet 作者之一刘壮将于 2025 年 9 月加盟普林斯顿大学,担任计算机科学系助理教授一职。刘壮主导了 DenseNet 和 ConvNeXt 的开发,这两款模型如今已成为深度学习和计算机视觉领域最主流的神经网络架构之一。

「还离这世界上最棒的地儿不远。」

最新消息,DenseNet 作者之一刘壮将于 2025 年 9 月加盟普林斯顿大学,担任计算机科学系助理教授一职。

图片

刘壮主导了 DenseNet 和 ConvNeXt 的开发,这两款模型如今已成为深度学习和计算机视觉领域最主流的神经网络架构之一。

在正式踏入学术界之前,刘壮还会在 Meta AI Fair 继续担任研究科学家。因为普林斯顿大学离纽约不远的,刘壮在官宣新去向后,还晒了张地图:「我离这世界上最棒的地儿不远。」

图片

田渊栋等各路大佬第一时间齐刷刷地送上了祝福:

图片

在 AI 技术骨干纷纷离职单飞,投入 AI 创业大军的时候,拥抱学术界的选择似乎并不多见。

大三就提出了 DenseNet

2013 年,刘壮以安徽省理科高考第一名的成绩,考进了清华大学计算机科学实验班(姚班)。大三期间,在康奈尔大学访学的刘壮与黄高合作了 DenseNet,这篇论文后来成为了 CVPR 2017 的最佳论文。

图片

在 CVPR 还没「通货膨胀」的时代,突破了传统深度网络的单向直链结构的 DenseNet 在 CV 圈掀起了一阵热潮。

图片

  • 论文链接:https://arxiv.org/pdf/1608.06993

DenseNet 通过将前面所有层与后面的层进行密集连接,实现了特征重用,不仅缓解了随着网络深度增加产生的梯度消失现象,也能让网络以更少的参数和计算量实现更优的性能。

图片

                           DenseNet网络结构

在学术界,DenseNet 被图灵奖得主 Yann LeCun 与 VGG、GoogleNet、ResNet 并列为当代四种主流深度网络。至今,DenseNet 的论文引用量超过 4.8 万次,成为了教科书上的范本。

2017 年,从清华毕业后,刘壮前往加州大学伯克利分校深造博士学位,拜入 Trevor Darrell 教授门下,和贾扬清成为了同门师兄弟。读博期间,刘壮笔耕不辍,入选顶会的论文源源不断,其中不少还获选 Spotlight。

图片

博士毕业后,刘壮进入 Meta AI Research 工作。在此之前,他曾在康奈尔大学、英特尔实验室、Adobe Research 和 FAIR 担任访问研究员 / 实习生。

在 Meta 实习期间,刘壮和谢赛宁合作,发表了 ConvNeXt,这是一篇「make CNN great again」的代表性工作。

图片

  • 论文链接:https://arxiv.org/pdf/2201.03545

自从 ViT 提出,视觉识别开启了「咆哮的 20 年代」,基于 Transformer 的模型在计算机视觉的各个领域开始全面超越 CNN。然而,这种混合方法的有效性在很大程度上仍归功于 Transformer 的内在优势,而不是卷积固有的归纳偏置。

那么,纯 ConvNet 的极限在哪里?能否设计一个纯 CNN 模型,让它实现和基于 Transformer 的视觉模型同样的效果呢?

刘壮及其研究团队参考了 Swin Transformer,基于标准 ResNet,升级出了 ConvNeXt。无论在图像分类还是检测分割任务上,ConvNeXt 均超过了 Swin Transformer,同时还能保持标准 ConvNet 的简单性和有效性。

入职 Meta 后,刘壮似乎更加高产,对数据集以及(多模态)大型语言模型也产生了研究兴趣。

图片

近期,他和何恺明关于数据集偏差的研究也引发了广泛关注。

图片

  • 论文链接:https://arxiv.org/abs/2403.08632

论文的结论指出:虽然业界为构建更多样化、更全面的数据集付出了诸多努力,但神经网络似乎越来越善于「过拟合」到特定的数据集上,也就是说,AI 更加擅长用一种「模板答案」来套不同的数据集中的题目了。

正如刘壮在主页所说:「我的研究经常挑战现有的观念(例如,架构、数据集、剪枝、训练)」。未来在学术界,刘壮将会在哪些方向上发出新挑战,让我们拭目以待。

参考链接:

https://x.com/liuzhuang1234/status/1847019331122876928

https://liuzhuang13.github.io/

相关资讯

普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估

自 ChatGPT 等大型语言模型推出以来,为了提升模型效果,各种指令微调方法陆续被提出。本文中,普林斯顿博士生、陈丹琦学生高天宇汇总了指令微调领域的进展,包括数据、算法和评估等。图源:(LLM)很强大,但要想真正帮助我们处理各种日常和工作任务,指令微调就必不可少了。近日,普林斯顿大学博士生高天宇在自己的博客上总结了指令微调研究方向的近期进展并介绍了其团队的一项近期研究成果。具有十亿级参数且使用万亿级 token 训练的大型语言模型(LLM)非常强大,直接就能用于解决大量不同的任务。但是,要用于真实世界应用以及作为

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

不到 24 小时,Star 量突破 1400。最近,有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳,不过这款工具出自走闭源路线的创业公司,现在只有一小部分获得了内测名额的人才能使用。本周二,来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员,不到一天就获得了上千的 GitHub Star 量。SWE

Nat. Mach. Intell.|设计超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

图来自网络编辑 | ScienceAI普林斯顿王梦迪团队迎来了一项具有划时代意义的突破,该团队开发了世界首个解码mRNA非翻译区域序列的大模型,用于准确预测从mRNA到蛋白质的转录功能,及设计新序列用于mRNA疫苗。该研究论文的题目是「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」,已被《Nature Machine Intelligence》接收。这篇论文意味着大语言模型可以用于