AI资讯列表 - AI在线

当人形机器人开始走进车厂

作者丨赖文昕编辑丨陈彩娴8月21日，汇集了近170家国内外机器人企业的世界机器人大会（WRC 2024）在北京如期而至。大会现场上，最受欢迎的主角们便是27款特点鲜明的人形机器人。回顾悄然过半的具身智能元年，不难发现，人形机器人在工业场景落地正成为一种行业趋势。

黑神话手办炒到6000，AI自己做一个可行？

图：B站up主黑板Black这两天不是在玩黑神话就是在刷黑神话的视频，而本人一直以来的怨念就是没抢到典藏版。这个怨念在刷到典藏版手办的开箱视频后达到了极致，而当我试图某鱼圆梦的时候，打开一看，好家伙6000？？

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

热衷于开课并与网友分享新技术使用心得的 AI 大牛 Karpathy，也有被质疑「为推销某个产品而在言论中夹带私货」的一天。这是怎么一回事呢？昨天，Karpathy 分享了自己结合使用 AI 代码编辑器与大模型的心得体验，并发出了由衷的感叹：编程领域变化太快了。Karpathy 在编码时正在尝试使用 VS Code Cursor 加上 Claude Sonnet 3.5 的组合，而没有使用 GitHub Copilot。他表示这种做法能够带来纯粹的双赢（net win）。Cursor 是一款 AI 代码编码器，允许

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

本文引入了 Transfusion，这是一种可以在离散和连续数据上训练多模态模型的方法。一般来说，多模态生成模型需要能够感知、处理和生成离散元素（如文本或代码）和连续元素（如图像、音频和视频数据）。在离散模态领域，以预测下一个词为目标的语言模型占据主导地位，而在生成连续模态方面，扩散模型及其泛化形式则是当前最先进技术。研究者一直试图将语言模型与扩散模型结合，一种方法是直接扩展语言模型，使其能够利用扩散模型作为一个工具，或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理，然后在离散的

三个程序员奋战三天重写推理堆栈，Grok-2 mini直接提速两倍，马斯克亲发贺电

一直在用 Grok-2 的用户可能察觉到，这两天，它好像变快了：上周，xAI 发布了 Grok-2 聊天机器人，并在 X 平台上以每月 8 美元的价格提供服务。用户的感觉也不是错觉，Grok-2 的两个版本 Grok-2 和 Grok-2 mini（后者功能更弱但速度更快），确实都提高了分析信息和输出回复的速度。xAI 的开发人员 Igor Babuschkin 发布了一条动态，揭示了这次提速背后的原因：正如这条动态所说，他和 xAI 的另外两名开发人员 Lianmin Zheng 和 Saeed Maleki 奋

ECCV 2024 | 引入DiT的原生3D通用框架，适用任意神经场、秒级生成

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文一作兰宇时为南洋理工大学（NTU）博士生，导师为 Chen Change Loy。本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。在 ECC

李沐重返母校上海交大，从LLM聊到个人生涯，这里是演讲全文

昨天，李沐回到了母校上海交大，做了一场关于 LLM 和个人生涯的分享。本文是AI在线梳理的李沐演讲内容（根据 B 站用户@考拉klkl上传的视频整理，感谢这位同学的录制，视频链接见文后。）图源：上海交通大学特聘教授俞勇朋友圈。Hi！大家好，说我是计算机杰出校友有点不敢当。很多年没有回来，这次回国想见一见本科导师。我的 AI 启蒙导师李老师说，来都来了，要不做个报告吧。本来我想讲一些

从拨号上网到创立估值55亿美元独角兽，Transformer作者万字访谈聊AI趋势

除了扩大模型规模，AI 公司还有其他路可以走吗？只靠模型 API 赚不到钱了怎么办？Aidan Gomez 在访谈中谈到了目前困扰 AI 公司的诸多难题。在 Transformer 的七位作者中，艾丹・戈麦斯（Aidan Gomez）是非常有辨识度的一个（下图左三），他浓密的发量和颇有艺术家气质的发型总是能让人一眼就认出他。同时，他也是较早离开谷歌去创业的一个。2019 年，戈麦斯与 Nick Frosst 和 Ivan Zhang 联合创办了生成式 AI 初创公司 Cohere，主攻面向企业端的 AI 服务。仅创

视频生成要有自己的系统！尤洋团队历时半年开源VideoSys

视频时代需要自己的基础设施。VideoSys 的目标是使视频生成对于每个人而言都简便、迅速且成本低廉。自今年起，OpenAI 的 Sora 和其他基于 DiT 的视频生成模型在 AI 领域掀起了又一波浪潮。但由于起步较晚，视频生成领域的很多基础设施都还有待完善。今年 2 月份，新加坡国立大学尤洋团队开源的一个名为 OpenDiT 的项目为训练和部署 DiT 模型打开了新思路。这是一个易于使用、快速且内存高效的系统，专门用于提高 DiT 应用程序的训练和推理效率，包括文本到视频生成和文本到图像生成。项目上线后非常受欢

上交大新型SRAM存内计算架构「COMPASS」，开启类脑计算新时代

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]团队信息：这一工作由上海交大先进计算机体系结构实验室蒋力教授和刘方鑫助理教授所在课题组（IMPACT）完成，同时也获得了上海期智研究院的支持。第一作者是博士生汪宗武。会议介绍MICRO 全

ECCV 2024 | 机器遗忘之后，扩散模型真正安全了吗？

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌，贾景晗，两人均为OPTML实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine

国内首家人工智能标准化研究机构，北京人工智能标准化研究院揭牌成立

感谢AI在线从“北京亦庄”公众号获悉，在 8 月 25（昨）日的 2024 世界机器人大会人工智能赋能未来产业与组织发展论坛上，国内首家人工智能标准化研究机构 —— 北京人工智能标准化研究院揭牌成立，落地北京经济技术开发区。据介绍，北京人工智能标准化研究院将围绕人工智能前沿关键技术、行业场景应用、风险防范治理等领域开展全链条标准化研究。聚焦基础支撑和关键技术，开展包括算力、算法、数据等方面的标准研究；聚焦人工智能技术发展带来的潜在社会治理风险、伦理、准入等内容开展标准研究，确保人工智能安全、可靠、可控；聚焦标杆应用

前微软图形学大佬童欣被曝投身 AGI 创业团队，B站前直播老大也加入

童姥下天山之后，新动向已确定。前微软全球研究合伙人、图形学大佬童欣被曝已加盟 AGI 创业团队，担任首席研究员。一个月前，他刚刚结束微软亚洲研究院 25 年的研究生涯，如今剑指 AGI 开启全新旅程。而他所加盟公司 Anuttacon，前B站副总裁直播老大王宇阳也在，担任用户生态总裁。目前童姥谷歌学术上已经显示 Anuttacon Research Manager。这就来看看他加入的是家什么公司？童欣加盟 Anuttacon：用 AGI 突破互动娱乐的界限Anuttacon，一个新成立不久的 AGI 创业公司。在新

海报一键生成+自带文字排版，AI 神器 Ideogram 2.0 终于来了！

大家好，我是花生~ AI 绘画发展至今，我们已经可以直接通过文本生成以假乱真的高清图像、风格各异的精美插图，只需经过简单的后期处理和文字版式设计，就可以将其制作成一张海报，有效提升了设计师的工作效率。但如果我说现在我们可以直接通过文本生成海报，还是那种带版式设计、可以直接用的海报，你相信吗？如果不相信也没关系，我们直接看图。下面是 2 张直接通过文本生成的海报，可以看到它们并不是简单地在画面中生成几个单词，而是真的有在 “排版设计”，并且字体的风格样式和主题也是契合的，感觉一个初级设计师做出来的效果也差不多就是

《大都会》预告片风波：虚假影评人引言系 AI 生成

近期备受瞩目的科幻电影《大都会》（Megalopolis）因其预告片中的虚假影评人引言而引发争议。经调查证实，这些虚假引言是由人工智能（AI）生成的。该预告片在发布数小时后被撤下。据《Deadline》报道，负责该片预告片宣传材料的负责人 Eddie Egan 已被撤职。经调查确认，这些引言并非 Egan 或片方狮门影业有意伪造，而是 AI 生成的结果。这些虚假引述内容声称是影评人对导演弗朗西斯・福特・科波拉过往作品的批评，例如将《教父》评价为“松散、自恋的电影”，将《现代启示录》称为“一部史诗级的垃圾”。然而，真

集成 Photoshop 功能的强大节点！ComfyUI layer style节点保姆级教程（四）

前言：学习 ComfyUI 是一场持久战，而 ComfyUI layer style 是一组专为图片设计制作且集成了 Photoshop 功能的强大节点。该节点几乎将 PhotoShop 的全部功能迁移到 ComfyUI，诸如提供仿照 Adobe Photoshop 的图层样式、提供调整颜色功能（亮度、饱和度、对比度等）、提供 Mask 辅助工具、提供图层合成工具和工作流相关的辅助节点、提供图像效果滤镜等。旨在集中工作平台，使我们可以在 ComfyUI 中实现 PhotoShop 的一些基础功能。一、安装方式方

Midjourney 地位不稳？AI 绘图又一黑马出现，附 4 款产品一手实测

AI 圈，再次开卷图像生成。一连串进展扎堆：8 月 21 日，Ideogram 正式推出 2.0 版本，声称文本渲染能力更强。没错，就是那个成立于去年 8 月，由谷歌 AI 绘画 4 大牛集体离职创业的项目，曾获得过一众 AI 大佬投资。此番 Ideogram 还公开叫板 Flux，官方自信表示其人类评估明显优于 Flux Pro。要知道，Flux 由 Stable Diffusion 原班人马打造，最近正在因生成以假乱真的 TED 演讲“照片”而走红各大网络。除此之外，一周前，谷歌正式放出了 Imagen 3，在

亚马逊 CEO 安迪・贾西：AI 助手 Amazon Q 可节省约 4500 个开发人员一年工作量

亚马逊 CEO 安迪・贾西昨天在其领英主页发帖称，将亚马逊的生成式 AI 开发助手“Amazon Q”集成到内部系统后，利用新的代码转换功能，Amazon Q 将应用程序升级到 Java 17 的平均时间从开发人员的 50 天左右缩短到了几个小时，估计节省了约 4500 个开发人员一年的工作量。对于软件开发团队来说，最乏味（但却最关键）的任务之一就是更新基础软件。这不是新功能的工作，也不会让人感觉到你在推动体验向前发展。Amazon Q 是我们的 GenAI 软件开发助手，它正试图为这些繁重的工作带来些许曙光。据A