AI资讯列表 - AI在线

LLM是世界模型的新证据？ChatGPT能理解WiFi等物理信号，并猜出你的位置

大语言模型是否是世界模型？大语言模型除了在数字世界完成如写作或翻译等任务，它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢？最近来自香港科技大学（HKUST）、南洋理工大学（NTU）与加利福尼亚大学洛杉矶分校（UCLA）的研究者们提供了新的思路：他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile 2024。论文标题：Penetrative AI: Making LLMs Comprehend the Physical Worl

从框架到经典方法，全面了解分布式深度强化学习DDRL

本文在回顾分布式深度强化学习 DDRL 基本框架的基础上，重点介绍了 IMPALA 框架系列方法。AlphaGo 是一个在人机博弈中赢得众多职业围棋手的 agent 机器人。随着 AlphaGo 的突破，深度强化学习（Deep Reinforcement Learning，DRL）成为一种公认的解决连续决策问题的有效技术。人们开发了大量算法来解决介于 DRL 与现实世界应用之间的挑战性问题，如探索与开发困境、数据低效、多 agent 合作与竞争等。在所有这些挑战中，由于 DRL 的试错学习机制需要大量交互数据，数据

华为查询建议新范式MMQS入选WWW 2024，解锁基于人类反馈的多模态查询建议

在信息时代，搜索引擎成为人们检索信息不可或缺的工具。然而传统的基于关键词的搜索方法要求用户准确表达搜索需求，因此有一定挑战。为了改善用户体验，查询建议系统崭露头角。这些系统通过分析用户当前的查询输入，生成相关的建议，减轻用户的搜索负担。文本查询建议（TQS）和视觉查询建议（VQS）是两种已经深入研究的查询建议系统。TQS 根据用户当前的查询生成一系列关键词，辅助用户更清晰地表达搜索意图。而 VQS 通过将视觉示例与建议一起呈现，提高了用户理解上下文的能力。然而这些系统的局限在于主要依赖用户的文本输入，而图像中蕴含丰

7万亿美元：OpenAI超大芯片计划曝光，要重塑全球半导体行业

通用人工智能要迎来大结局了？OpenAI 的 CEO 山姆・奥特曼（Sam Altman）引领了近期生成式 AI 的大发展。最近，他又有了一个宏伟目标：重塑全球半导体行业。据《华尔街日报》近日报道，奥特曼正在推动一个旨在提高全球芯片制造能力的项目，并在与包括阿联酋政府在内的不同投资者进行谈判。一位消息人士称，奥特曼可能要为这一计划筹集 5 万亿至 7 万亿美元。OpenAI 发言人表示：「OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论，这对于人工智能和相关行业至关重要。鉴于国家优

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

效果更稳定，实现更简单。大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而，奖励模型的关键要素可能会产生一些不良影响。来自卡内基梅隆大学（CMU）和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化（Self-Play Preference Op

ICLR 2024 | 单图三维重建数字虚拟人，浙大&字节提出Real3D-Portrait算法

近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中，看到了 AIGC 让单张照片开口说话的能力？尽管已经能够拥有清晰的画质和准确的口型，但现有的单图驱动虚拟人似乎还差了一点：呈现的结果中说话人往往采用和原图中说话人接近的头部姿态，无法像真人一样在画面中自由地运动。这是因为目前采用的技术无法对图片中说话人在 3D 世界中进行建模，因此在大姿态驱动的情况下会出现效果急剧下降的问题。单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这

谷歌Gemini Ultra 大会员：每月19.99美元

谷歌大模型的新篇章翻开一页 —— 这还只是 Ultra 的 1.0 版。时代变了。北京时间 2 月 8 日晚，随着桑达尔・皮查伊（Sundar Pichai）的一声宣布，谷歌大模型体系全面进入了 Gemini 时代，并带来最新的 Gemini Ultra 模型。距离 Bard 推出还不到一年，谷歌的所有生成式 AI 服务这次实现了改头换面。原来的 Bard 网站已经改为 Gemini： 12 月 Gemini 系列的发布时，谷歌已经预告过能力最强的 Gemini Ultra 大模型。当时推出的 Gemini Pro

基于广义 Onsager 原理的 AI 平台，构建自定义热力学

编辑 | 绿萝基于先前积累的数据和已知物理原理的自动化科学发现，是人工智能最令人兴奋的应用之一，这种自动化的假设创建和验证可以帮助科学家研究复杂的现象，而传统的物理直觉可能会失败。近日，来自新加坡国立大学、新加坡科技研究局（A*STAR）、南洋理工大学和中国科学院的研究团队，开发了一个基于广义 Onsager 原理的人工智能平台：S-OnsagerNet，可以直接从对任意随机耗散系统的微观轨迹的观察中学习其宏观动力学描述。该方法同时构建了简化的热力学坐标，并解释这些坐标上的动力学。研究人员通过理论研究和实验验证长聚

进我的收藏夹吃灰吧：大模型加速超全指南来了

2023 年，大型语言模型（LLM）以其强大的生成、理解、推理等能力而持续受到高度关注。然而，训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近，一位名为 Theia Vogel 的博主整理撰写了一篇长文博客，对加速 LLM 推理的方法进行了全面的总结，对各种方法展开了详细的介绍，值得 LLM 研究人员收藏查阅。以下是博客原文内容。之前，我使用经典的自回归采样器手动制作了一个 transformer，大致如下：这种推理方法很优雅，是 LL

ICLR 2024 | 首个零阶优化深度学习框架，MSU联合LLNL提出DeepZero

本文是一篇关于提高零阶优化的扩展性的研究，代码已开源，论文已被 ICLR 2024 接收。今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室（Lawrence Livermore National Laboratory）的一篇关于零阶优化深度学习框架的文章 “DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training”，本文被 ICLR 2024 接收，代码已开源。论文地址

制药新工具、有望规避免疫反应，多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下，蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳，例如腺病毒和腺相关病毒的衣壳蛋白，它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器（ProteinVAE），它可以生成合成病毒载体血清型，而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率，并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

MIT、IBM 团队巧妙的 AI 方法来解决「蛮力」数学问题

编辑 | X自牛顿时代以来，自然的基本定律——光学、声学、工程学、电子学，最终都归结为一组重要的、广泛的方程。现在，研究人员找到了一种新方法，可以使用受大脑启发的神经网络来比以前更有效地求解这些方程，在科学和工程领域有许多潜在的应用。相关研究以《Physics-enhanced deep surrogates for partial differential equations》为题，发布在《Nature Machine Intelligence》上。论文链接：，偏微分方程有助于对涉及多种变化率的复杂物理系统进行建

如何用AI工具快速制作红包封面？教程来了！

红包封面制作简易教程来啦！更多教程：微信红包封面开发平台： WHEE-AI 绘画工具： RUNWAY-AI 视频工具：美图抠图-抠图工具：熊猫压缩-图片压缩工具：

13页PPT融到1亿后，1X的这批机器人可能要醒了......

机器之能报道编辑：吴昕如果这批 EVE（轮足）机器人大军即将醒来，你会作何感想？上个月刚官宣 B 轮 1 亿美元融资后，OpenAI 领投的挪威机器人公司 1X 又放出消息，明天要有令人兴奋的事情发生。公司 AI 部门负责人、机器人科学家 Eric Jang 今天公开表示，明天将发布有关 AI 和自主性方面的更新。至于具体内容，他卖了个关子，只给了一些提示——线索就在过去一年多他们分享的视频里，与数据引擎的规模化有关。看似神秘，答案并非无迹可寻。上个月 1 亿美元 B 轮融资完成后，1 月 19 日，1X 创始人&

斯坦福最强家务机器人ALOHA 2来了，成本不到20万，联手谷歌DeepMind，完全开源

可以想象，不断进化的双臂机器人未来将最大程度地「解放」人的双手。2023 年，斯坦福大学等机构推出了一个用于双机械手远程操作的低成本开源硬件系统 ALOHA，它可以远程操作并完成组装链条、托举乒乓球等复杂、丰富的任务。今年 1 月，谷歌 DeepMind 与斯坦福又联合推出了 Mobile ALOHA，同样可以进行远程操作并模仿双手操作，通过移动底座在大的空间范围内实现远程操作。这样一来，备菜、翻炒、出锅，洗衣、逗猫、浇花它是样样精通，名副其实的家务机器人火出了圈。今天，谷歌 DeepMind 联合斯坦福推出了 A

系统Prompt长达1700个token，ChatGPT变「懒」的原因找到了？

ChatGPT：我不是不会，就是不想干活。现阶段，ChatGPT 已经成为很多人的得力助手，写文档、编代码、生成图片…… 但看似无所不能的 ChatGPT，也有其懒惰的一面。不知大家是否还记得去年年底 GPT-4 开始变「懒」的事实，比如对于用户提出的要求，ChatGPT 的响应会变得非常缓慢且敷衍，甚至还会单方面中断对话；又比如用户要求 ChatGPT 编写一段代码，它会建议用户自己去写。当时，OpenAI 给出的解释是模型行为是不可预测的，他们也在研究如何修复。一种看似无解的问题，现在另一种解释似乎正在被广大网

开源大模型正在重塑企业AI应用，16个案例看看它们如何落地

企业运作新引擎：开源大模型。各种性能优异的大模型横空出世，开源大型语言模型在企业界的应用也逐渐引起广泛关注。不过，这也使新的问题浮出水面，企业应该怎样有效地部署和应用这些模型来发挥它们最大的价值呢？图灵奖得主 Yann LeCun 在 X 上向大家分享了一篇 VentureBeat 的文章。其探讨了开源 LLM 在商业环境中的潜力、挑战以及它们在不同行业中的实际应用案例。原文链接：和其他专家认为，开源 LLM 可能会对企业中的生成式人工智能产生更强大的影响。这种影响力可能超过了像 OpenAI 的 ChatGPT

大语言模型的可信之路：TrustLLM全面揭秘

TrustLLM 是一个统一的框架，用于对 LLM 的可信度进行全面分析，包括现有工作的全面综述、可信 LLM 的不同维度的原则、一个新的测试基准，以及对主流 LLM 的全面可信度评估。大型语言模型（LLMs）在 NLP 方面的卓越能力已引起广泛关注，影响了我们生活各个方面的应用。LLMs 的出色能力归因于多个因素，例如使用来自 Web 的大规模原始文本作为训练数据，使用具有大量参数的 transformer 架构设计，以及先进的模型训练方案等。然而，LLMs 的兴起也引入了关于它们可信度的担忧。与传统语言模型不