AI资讯列表 - AI在线

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。如果你经常读 AI 大模型方向的论文，Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家，Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献，包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。根据 Yi Tay 个人资料统计，在谷歌大脑工作的 3 年多的时间里，他总共参与撰写了大约 45 篇论文，是其中 16 篇的一作。一作论文包括 UL2、U-PaL

谷歌工程师2018年内部信曝光，5年前就有人拉响AI警报了

看起来，虽然行动慢了一些，谷歌搜索的地位暂时还无人可以撼动。2023 年 2 月，谷歌 CEO 桑达尔・皮查伊（Sundar・Pichai）对内发布了一份「红色代码」预警，要求谷歌旗下用户超 10 亿的产品尽快接入生成式 AI，以对抗来势汹汹的 ChatGPT。这一举动给人一种谷歌「慌了」的感觉，因为 ChatGPT 的到来已经威胁到了谷歌核心的搜索业务：如果大家都习惯用 ChatGPT 这类 AI 对话引擎直接得到答案，谁还会去谷歌搜索呢？谁还会去谷歌投广告呢？乍看起来，这一切都发生地非常突然，谷歌应对起来也很被

性能提升、成本降低，这是分布式强化学习算法最新研究进展

深度强化学习（Deep Reinforcement Learning，DRL）是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效（data inefficiency）问题，受到分布式机器学习技术的启发，分布式深度强化学习 (distributed deep reinforcement learning，DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为，分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化学习是一个综合的研究子领域，需

华为盘古大模型变「小」，1.5B也很能打

ChatGPT 等系列模型横空出世，以其强大的性能引起了全球的关注，有望改变人与计算机之间的交互方式，应用到千行百业。然而这些大型模型的实际需要极高的内存和计算资源，限制了它们在各种场景中的应用。例如，具有 175B 参数的 GPT-3 在使用 FP32 数据类型存储时需要大约 700GB 内存。尽管 7B 参数模型相对更高效，但其资源需求仍然难以直接部署在手机等边缘设备上。此外，尽管许多研究已经成功地打造出多个效果很好的大语言模型，但他们往往采用相似的训练策略。一方面，大量工作集中在收集和清理数据上，较少强调研究

LLM是世界模型的新证据？ChatGPT能理解WiFi等物理信号，并猜出你的位置

大语言模型是否是世界模型？大语言模型除了在数字世界完成如写作或翻译等任务，它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢？最近来自香港科技大学（HKUST）、南洋理工大学（NTU）与加利福尼亚大学洛杉矶分校（UCLA）的研究者们提供了新的思路：他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile 2024。论文标题：Penetrative AI: Making LLMs Comprehend the Physical Worl

从框架到经典方法，全面了解分布式深度强化学习DDRL

本文在回顾分布式深度强化学习 DDRL 基本框架的基础上，重点介绍了 IMPALA 框架系列方法。AlphaGo 是一个在人机博弈中赢得众多职业围棋手的 agent 机器人。随着 AlphaGo 的突破，深度强化学习（Deep Reinforcement Learning，DRL）成为一种公认的解决连续决策问题的有效技术。人们开发了大量算法来解决介于 DRL 与现实世界应用之间的挑战性问题，如探索与开发困境、数据低效、多 agent 合作与竞争等。在所有这些挑战中，由于 DRL 的试错学习机制需要大量交互数据，数据

华为查询建议新范式MMQS入选WWW 2024，解锁基于人类反馈的多模态查询建议

在信息时代，搜索引擎成为人们检索信息不可或缺的工具。然而传统的基于关键词的搜索方法要求用户准确表达搜索需求，因此有一定挑战。为了改善用户体验，查询建议系统崭露头角。这些系统通过分析用户当前的查询输入，生成相关的建议，减轻用户的搜索负担。文本查询建议（TQS）和视觉查询建议（VQS）是两种已经深入研究的查询建议系统。TQS 根据用户当前的查询生成一系列关键词，辅助用户更清晰地表达搜索意图。而 VQS 通过将视觉示例与建议一起呈现，提高了用户理解上下文的能力。然而这些系统的局限在于主要依赖用户的文本输入，而图像中蕴含丰

7万亿美元：OpenAI超大芯片计划曝光，要重塑全球半导体行业

通用人工智能要迎来大结局了？OpenAI 的 CEO 山姆・奥特曼（Sam Altman）引领了近期生成式 AI 的大发展。最近，他又有了一个宏伟目标：重塑全球半导体行业。据《华尔街日报》近日报道，奥特曼正在推动一个旨在提高全球芯片制造能力的项目，并在与包括阿联酋政府在内的不同投资者进行谈判。一位消息人士称，奥特曼可能要为这一计划筹集 5 万亿至 7 万亿美元。OpenAI 发言人表示：「OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论，这对于人工智能和相关行业至关重要。鉴于国家优

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

效果更稳定，实现更简单。大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而，奖励模型的关键要素可能会产生一些不良影响。来自卡内基梅隆大学（CMU）和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化（Self-Play Preference Op

ICLR 2024 | 单图三维重建数字虚拟人，浙大&字节提出Real3D-Portrait算法

近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中，看到了 AIGC 让单张照片开口说话的能力？尽管已经能够拥有清晰的画质和准确的口型，但现有的单图驱动虚拟人似乎还差了一点：呈现的结果中说话人往往采用和原图中说话人接近的头部姿态，无法像真人一样在画面中自由地运动。这是因为目前采用的技术无法对图片中说话人在 3D 世界中进行建模，因此在大姿态驱动的情况下会出现效果急剧下降的问题。单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这

谷歌Gemini Ultra 大会员：每月19.99美元

谷歌大模型的新篇章翻开一页 —— 这还只是 Ultra 的 1.0 版。时代变了。北京时间 2 月 8 日晚，随着桑达尔・皮查伊（Sundar Pichai）的一声宣布，谷歌大模型体系全面进入了 Gemini 时代，并带来最新的 Gemini Ultra 模型。距离 Bard 推出还不到一年，谷歌的所有生成式 AI 服务这次实现了改头换面。原来的 Bard 网站已经改为 Gemini： 12 月 Gemini 系列的发布时，谷歌已经预告过能力最强的 Gemini Ultra 大模型。当时推出的 Gemini Pro

基于广义 Onsager 原理的 AI 平台，构建自定义热力学

编辑 | 绿萝基于先前积累的数据和已知物理原理的自动化科学发现，是人工智能最令人兴奋的应用之一，这种自动化的假设创建和验证可以帮助科学家研究复杂的现象，而传统的物理直觉可能会失败。近日，来自新加坡国立大学、新加坡科技研究局（A*STAR）、南洋理工大学和中国科学院的研究团队，开发了一个基于广义 Onsager 原理的人工智能平台：S-OnsagerNet，可以直接从对任意随机耗散系统的微观轨迹的观察中学习其宏观动力学描述。该方法同时构建了简化的热力学坐标，并解释这些坐标上的动力学。研究人员通过理论研究和实验验证长聚

进我的收藏夹吃灰吧：大模型加速超全指南来了

2023 年，大型语言模型（LLM）以其强大的生成、理解、推理等能力而持续受到高度关注。然而，训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近，一位名为 Theia Vogel 的博主整理撰写了一篇长文博客，对加速 LLM 推理的方法进行了全面的总结，对各种方法展开了详细的介绍，值得 LLM 研究人员收藏查阅。以下是博客原文内容。之前，我使用经典的自回归采样器手动制作了一个 transformer，大致如下：这种推理方法很优雅，是 LL

ICLR 2024 | 首个零阶优化深度学习框架，MSU联合LLNL提出DeepZero

本文是一篇关于提高零阶优化的扩展性的研究，代码已开源，论文已被 ICLR 2024 接收。今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室（Lawrence Livermore National Laboratory）的一篇关于零阶优化深度学习框架的文章 “DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training”，本文被 ICLR 2024 接收，代码已开源。论文地址

制药新工具、有望规避免疫反应，多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下，蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳，例如腺病毒和腺相关病毒的衣壳蛋白，它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器（ProteinVAE），它可以生成合成病毒载体血清型，而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率，并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

MIT、IBM 团队巧妙的 AI 方法来解决「蛮力」数学问题

编辑 | X自牛顿时代以来，自然的基本定律——光学、声学、工程学、电子学，最终都归结为一组重要的、广泛的方程。现在，研究人员找到了一种新方法，可以使用受大脑启发的神经网络来比以前更有效地求解这些方程，在科学和工程领域有许多潜在的应用。相关研究以《Physics-enhanced deep surrogates for partial differential equations》为题，发布在《Nature Machine Intelligence》上。论文链接：，偏微分方程有助于对涉及多种变化率的复杂物理系统进行建

如何用AI工具快速制作红包封面？教程来了！

红包封面制作简易教程来啦！更多教程：微信红包封面开发平台： WHEE-AI 绘画工具： RUNWAY-AI 视频工具：美图抠图-抠图工具：熊猫压缩-图片压缩工具：

13页PPT融到1亿后，1X的这批机器人可能要醒了......

机器之能报道编辑：吴昕如果这批 EVE（轮足）机器人大军即将醒来，你会作何感想？上个月刚官宣 B 轮 1 亿美元融资后，OpenAI 领投的挪威机器人公司 1X 又放出消息，明天要有令人兴奋的事情发生。公司 AI 部门负责人、机器人科学家 Eric Jang 今天公开表示，明天将发布有关 AI 和自主性方面的更新。至于具体内容，他卖了个关子，只给了一些提示——线索就在过去一年多他们分享的视频里，与数据引擎的规模化有关。看似神秘，答案并非无迹可寻。上个月 1 亿美元 B 轮融资完成后，1 月 19 日，1X 创始人&