Andrej Karpathy

被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

几个小时前,著名 AI 研究者、OpenAI 创始成员之一 Andrej Karpathy 发布了一篇备受关注的长推文,其中分享了注意力机制背后一些或许少有人知的故事。 其中最值得注意的一个故事是真正首次提出注意力机制的论文其实是 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 的《Neural Machine Translation by Jointly Learning to Align and Translate》,这比《Attention is All you Need》还早 3 年,但很显然,这篇论文并没有收获后者那般的关注。                             Karpathy 长推文的不完整截图实际上,这个故事来自 Dzmitry Bahdanau 发给 Karpathy 的一封邮件。

Andrej Karpathy:神奇大模型不存在的,只是对人类标注的拙劣模仿

大模型回答人类的对话内容,究竟有多少「智能」成分在里面? 本周五,知名 AI 领域学者,OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 发表观点:「人们对『向人工智能询问某件事』的解释过于夸张」,引发网友热议。 Karpathy 称:人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。

Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习

耽误业界好多年? 「这是有史以来最大、最令人困惑的研究生涯错误,」Andrej Karpathy 感叹道。 上个周末,OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监、AI 领域的大神 Andrej Karpathy 一直在后悔。

OpenAI创始成员Andrej Karpathy:这才是技术之美

技术应该是大脑的插件,而不是计算机病毒。技术应该是什么样子?我们知道乔布斯有「为改变混乱繁杂而生的现代简约主义」的设计理念。所以苹果提供的科技产品都是简洁的。可斯人已逝,如今我们身边的科技产品似乎又进入了复杂与不实用的怪圈之中。近日,知名 AI 领域学者 Andrej Karpathy 发表了自己对于产品哲学的看法,引发了人们的讨论。                           Andrej Karpathy:我爱计算器。Andrej Karpathy 博士毕业于斯坦福大学,师从李飞飞,是 OpenAI 的

Andrej Karpathy:自动驾驶已经实现AGI,汽车其实就是机器人

自己称赞自己千句,不如别人称赞你一句。 例如马斯克在播客、推特上经常自称特斯拉的自动驾驶和机器人“天下第一”,但这样的话看多了,难免也有些审美疲劳。 不过,前几天,Andrej Karpathy在No Priors播客中现身,透露了特斯拉在Optimus人形机器人和自动驾驶领域的一些鲜为人知的进展。

Andrej Karpathy最新激进观点:Transformer将超越人脑

还说 AI 可能会与人类融合……前些天,OpenAI 前首席科学家 Ilya Sutskever 创立的新公司获得 10 亿美元投资的新闻刷遍了各大新闻头条,而 OpenAI 的另一位早期成员和著名 AI 研究者 Andrej Karpathy 则正在「AI 教育」赛道耕耘,其创立的 Eureka Labs 公司正在积极打造其第一款产品。近日,播客节目 No Priors 发布了对这位著名 AI 研究者的专访视频。                              来自:No PriorsAndrej Ka

大神Karpathy:我给大模型「SQL注入」攻击,简直不要太轻松

大模型的安全性,可以说是「有很大进步空间」。AI 大牛 Andrej Karpathy 又来科普知识了,这次的主题是「利用特殊 token 对 LLM 进行类 SQL 注入的攻击」。所谓 SQL 注入攻击,它是一种网络攻击技术。攻击者通过将恶意的 SQL 语句插入到应用程序的输入字段中,诱使后台数据库执行这些恶意的 SQL 语句。此类攻击通常利用应用程序对用户输入的处理不当,比如没有正确地对输入进行过滤或转义,导致攻击者能够访问、修改甚至删除数据库中的数据。 由于人们的安全意识逐渐升高,目前对于大多数软件产品来说,

全网祝贺!Andrej Karpathy官宣创业:是自己热爱的AI+教育

Karpathy:以前在特斯拉、OpenAI都是「副业」,现在做的才是「正职」。刚刚,Andrej Karpathy在X平台宣布了自己的下一站去向:创办一家名为 Eureka Labs 的人工智能 教育公司。很高兴与大家分享,我正在创办一家名为 Eureka Labs 的人工智能 教育公司。公告如下:我们是 Eureka Labs,我们正在打造一所AI原生的新型学校。我们如何才能获得学习新知识的理想体验?例如,在物理学方面,我们可以想象与费曼(Feynman)一起学习高质量的课程材料,费曼会在每一步都为你提供指导。

五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活

论老黄卖铲子的技术含量。2019 年 2 月,OpenAI 发布了 GPT-2,因为在文本生成上的优异表现,以及对于预训练 Transformer 架构的充分运用,被认为是如今大预言模型的「始祖」。五年后的今天,训练 GPT-2 这样 15 亿参数的大模型,只需要花费 672 美元,在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。本周四,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新

Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。最近,AI 大牛 Andrej Karpathy 推荐了一项名为 FineWeb-Edu 的工作。这项工作将原始 15 万亿个 FineWeb token,经 Llama 3 70B 评判,过滤为 1.3 万亿个高质量(教科级)token。事实证明,LLM 从教育内容中学习会更好更快。部分原因是普通的互联网爬

12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场

没想到,自 2012 年 AlexNet 开启的深度学习革命已经过去了 12 年。而如今,我们也进入了大模型的时代。近日,知名 AI 研究科学家 Andrej Karpathy 的一条帖子,让参与这波深度学习变革的许多大佬们陷入了回忆杀。从图灵奖得主 Yann LeCun 到 GAN 之父 Ian Goodfellow,纷纷忆往昔。到目前为止,该帖子已经有 63 万 的浏览量。在帖子中,Karpathy 提到:有一个有趣的事实是,很多人可能听说过 2012 年 ImageNet/AlexNet 的时刻,以及它开

纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了

「Real men program in C.」众所周知,大语言模型还在快速发展,应该有很多可以优化的地方。我用纯 C 语言来写,是不是能优化一大截?也许很多人开过这样的脑洞,现在有大佬实现了。今天凌晨,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。GitHub 链接:,立即引发了机器学习社区的热烈讨论,项目的 Star 量不到七个小时就冲上了 2000。有网友表示,

突发!AI大牛Andrej Karpathy离开OpenAI

Andrej Karpathy 又离职了!刚刚,AI大牛Andrej Karpathy官宣了一条重要消息:他昨天已经从OpenAI离职,不过这中间没有什么戏剧性冲突,他只是想去尝试一下自己的个人项目。Karpathy在官宣离职的推文中写道,「是的,我昨天离开了OpenAI。首先,没发生什么特别的事情,这不是由于任何特定事件、问题或者争议导致的(但请继续提供阴谋论,因为它们确实很有趣 :))。实际上,在过去的大约一年时间里,在OpenAI的经历真的很棒——团队非常强大,人们非常棒,路线图也非常令人兴奋,我认为我们都有
  • 1