AI资讯列表 - AI在线

ICLR 2024 | 单图三维重建数字虚拟人，浙大&字节提出Real3D-Portrait算法

近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中，看到了 AIGC 让单张照片开口说话的能力？尽管已经能够拥有清晰的画质和准确的口型，但现有的单图驱动虚拟人似乎还差了一点：呈现的结果中说话人往往采用和原图中说话人接近的头部姿态，无法像真人一样在画面中自由地运动。这是因为目前采用的技术无法对图片中说话人在 3D 世界中进行建模，因此在大姿态驱动的情况下会出现效果急剧下降的问题。单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这

谷歌Gemini Ultra 大会员：每月19.99美元

谷歌大模型的新篇章翻开一页 —— 这还只是 Ultra 的 1.0 版。时代变了。北京时间 2 月 8 日晚，随着桑达尔・皮查伊（Sundar Pichai）的一声宣布，谷歌大模型体系全面进入了 Gemini 时代，并带来最新的 Gemini Ultra 模型。距离 Bard 推出还不到一年，谷歌的所有生成式 AI 服务这次实现了改头换面。原来的 Bard 网站已经改为 Gemini： 12 月 Gemini 系列的发布时，谷歌已经预告过能力最强的 Gemini Ultra 大模型。当时推出的 Gemini Pro

基于广义 Onsager 原理的 AI 平台，构建自定义热力学

编辑 | 绿萝基于先前积累的数据和已知物理原理的自动化科学发现，是人工智能最令人兴奋的应用之一，这种自动化的假设创建和验证可以帮助科学家研究复杂的现象，而传统的物理直觉可能会失败。近日，来自新加坡国立大学、新加坡科技研究局（A*STAR）、南洋理工大学和中国科学院的研究团队，开发了一个基于广义 Onsager 原理的人工智能平台：S-OnsagerNet，可以直接从对任意随机耗散系统的微观轨迹的观察中学习其宏观动力学描述。该方法同时构建了简化的热力学坐标，并解释这些坐标上的动力学。研究人员通过理论研究和实验验证长聚

进我的收藏夹吃灰吧：大模型加速超全指南来了

2023 年，大型语言模型（LLM）以其强大的生成、理解、推理等能力而持续受到高度关注。然而，训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近，一位名为 Theia Vogel 的博主整理撰写了一篇长文博客，对加速 LLM 推理的方法进行了全面的总结，对各种方法展开了详细的介绍，值得 LLM 研究人员收藏查阅。以下是博客原文内容。之前，我使用经典的自回归采样器手动制作了一个 transformer，大致如下：这种推理方法很优雅，是 LL

ICLR 2024 | 首个零阶优化深度学习框架，MSU联合LLNL提出DeepZero

本文是一篇关于提高零阶优化的扩展性的研究，代码已开源，论文已被 ICLR 2024 接收。今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室（Lawrence Livermore National Laboratory）的一篇关于零阶优化深度学习框架的文章 “DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training”，本文被 ICLR 2024 接收，代码已开源。论文地址

制药新工具、有望规避免疫反应，多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下，蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳，例如腺病毒和腺相关病毒的衣壳蛋白，它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器（ProteinVAE），它可以生成合成病毒载体血清型，而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率，并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

MIT、IBM 团队巧妙的 AI 方法来解决「蛮力」数学问题

编辑 | X自牛顿时代以来，自然的基本定律——光学、声学、工程学、电子学，最终都归结为一组重要的、广泛的方程。现在，研究人员找到了一种新方法，可以使用受大脑启发的神经网络来比以前更有效地求解这些方程，在科学和工程领域有许多潜在的应用。相关研究以《Physics-enhanced deep surrogates for partial differential equations》为题，发布在《Nature Machine Intelligence》上。论文链接：，偏微分方程有助于对涉及多种变化率的复杂物理系统进行建

如何用AI工具快速制作红包封面？教程来了！

红包封面制作简易教程来啦！更多教程：微信红包封面开发平台： WHEE-AI 绘画工具： RUNWAY-AI 视频工具：美图抠图-抠图工具：熊猫压缩-图片压缩工具：

13页PPT融到1亿后，1X的这批机器人可能要醒了......

机器之能报道编辑：吴昕如果这批 EVE（轮足）机器人大军即将醒来，你会作何感想？上个月刚官宣 B 轮 1 亿美元融资后，OpenAI 领投的挪威机器人公司 1X 又放出消息，明天要有令人兴奋的事情发生。公司 AI 部门负责人、机器人科学家 Eric Jang 今天公开表示，明天将发布有关 AI 和自主性方面的更新。至于具体内容，他卖了个关子，只给了一些提示——线索就在过去一年多他们分享的视频里，与数据引擎的规模化有关。看似神秘，答案并非无迹可寻。上个月 1 亿美元 B 轮融资完成后，1 月 19 日，1X 创始人&

斯坦福最强家务机器人ALOHA 2来了，成本不到20万，联手谷歌DeepMind，完全开源

可以想象，不断进化的双臂机器人未来将最大程度地「解放」人的双手。2023 年，斯坦福大学等机构推出了一个用于双机械手远程操作的低成本开源硬件系统 ALOHA，它可以远程操作并完成组装链条、托举乒乓球等复杂、丰富的任务。今年 1 月，谷歌 DeepMind 与斯坦福又联合推出了 Mobile ALOHA，同样可以进行远程操作并模仿双手操作，通过移动底座在大的空间范围内实现远程操作。这样一来，备菜、翻炒、出锅，洗衣、逗猫、浇花它是样样精通，名副其实的家务机器人火出了圈。今天，谷歌 DeepMind 联合斯坦福推出了 A

系统Prompt长达1700个token，ChatGPT变「懒」的原因找到了？

ChatGPT：我不是不会，就是不想干活。现阶段，ChatGPT 已经成为很多人的得力助手，写文档、编代码、生成图片…… 但看似无所不能的 ChatGPT，也有其懒惰的一面。不知大家是否还记得去年年底 GPT-4 开始变「懒」的事实，比如对于用户提出的要求，ChatGPT 的响应会变得非常缓慢且敷衍，甚至还会单方面中断对话；又比如用户要求 ChatGPT 编写一段代码，它会建议用户自己去写。当时，OpenAI 给出的解释是模型行为是不可预测的，他们也在研究如何修复。一种看似无解的问题，现在另一种解释似乎正在被广大网

开源大模型正在重塑企业AI应用，16个案例看看它们如何落地

企业运作新引擎：开源大模型。各种性能优异的大模型横空出世，开源大型语言模型在企业界的应用也逐渐引起广泛关注。不过，这也使新的问题浮出水面，企业应该怎样有效地部署和应用这些模型来发挥它们最大的价值呢？图灵奖得主 Yann LeCun 在 X 上向大家分享了一篇 VentureBeat 的文章。其探讨了开源 LLM 在商业环境中的潜力、挑战以及它们在不同行业中的实际应用案例。原文链接：和其他专家认为，开源 LLM 可能会对企业中的生成式人工智能产生更强大的影响。这种影响力可能超过了像 OpenAI 的 ChatGPT

大语言模型的可信之路：TrustLLM全面揭秘

TrustLLM 是一个统一的框架，用于对 LLM 的可信度进行全面分析，包括现有工作的全面综述、可信 LLM 的不同维度的原则、一个新的测试基准，以及对主流 LLM 的全面可信度评估。大型语言模型（LLMs）在 NLP 方面的卓越能力已引起广泛关注，影响了我们生活各个方面的应用。LLMs 的出色能力归因于多个因素，例如使用来自 Web 的大规模原始文本作为训练数据，使用具有大量参数的 transformer 架构设计，以及先进的模型训练方案等。然而，LLMs 的兴起也引入了关于它们可信度的担忧。与传统语言模型不

黄仁勋：从此之后，请叫我黄院士

I am AI.北京时间 2 月 7 日凌晨，美国国家工程院（National Academy of Engineering, NAE）公布了今年的新增院士名单。院长约翰・L・安德森（John L. Anderson) 表示，美国国家工程院本次已选出 114 名新院士和 21 名国际院士，这使得美国会员总数达到 2310 名，国际会员数量达到 332 名。值得关注的是，在新院士名单中，英伟达创始人、CEO 黄仁勋赫然在列。当前，全球科技公司和机构正在加速建立 AI 基础设施，不断推高对于英伟达芯片的需求。而黄仁勋的

无需RLHF显著提升GPT-4/Llama2性能，北大团队提出Aligner对齐新范式

对齐新范式：修正未对齐的答案比生成对齐的回答更容易。背景大语言模型（LLMs）虽展现出了强大的能力，但也可能产生不可预测和有害的输出，例如冒犯性回应、虚假信息和泄露隐私数据，给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐，是一个紧迫的挑战。尽管基于人类反馈的强化学习（RLHF）提供了一种解决方案，但它面临复杂的训练架构、对参数的高敏感性，以及奖励模型在不同数据集上的不稳定性等多重挑战。这些因素导致 RLHF 技术实现难、奏效难、复现难。为了克服这些挑战，北京大学团队提出了一种新的高效对齐范式 ——

斯坦福和OpenAI提出meta-prompting，最强零样本prompting技术诞生了

在我们的工作群里，经常会有一位管理者来协调每个人的工作并汇总工作成果。近日，斯坦福大学的 Mirac Suzgun 和 OpenAI 的 Adam Tauman Kalai 提出了一种新的 prompting 方法：meta-prompting。类似于工作群，这种方法也是使用一个居中协调的指挥员（元模型）来协调使用不同用途的 AI 和其它工具。最新一代语言模型（尤其是 GPT-4、PaLM 和 LLaMa）已经成功拓展了自然语言处理和生成的边界。这些大规模模型可以解决许多不同任务，从写莎士比亚风格的十四行诗到总结复

抛弃编码器-解码器架构，用扩散模型做边缘检测效果更好，国防科大提出DiffusionEdge

现有的深度边缘检测网络通常基于包含了上下采样模块的编码器 - 解码器架构，以更好的提取多层次的特征，但这也限制了网络输出既准又细的边缘检测结果。针对这一问题，一篇 AAAI 2024 上的论文给出了新的解决方案。论文题目：DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection作者：叶云帆（国防科技大学），徐凯（国防科技大学），黄雨行（国防科技大学），易任娇（国防科技大学），蔡志平（国防科技大学）论文链接: : iGRAPE Lab

吉他摇滚、电子音乐都能搞定，Meta开源音频生成新模型MAGNeT，非自回归7倍提速

MAGNeT 有望改变我们体验音乐的方式。在文本生成音频（或音乐）这个 AIGC 赛道，Meta 最近又有了新研究成果，而且开源了。前几日，在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT，一种在掩码生成序列建模方法，可以直接在多个音频 tokens 流上直接运行。与以往工作最大的不同是，MAGNeT 是由单阶段、非自回归 transform