资讯列表

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

硬件要求越来越低,生成速度越来越快。Stability AI 作为文本到图像的「元老」,不仅在引领该领域的潮流方向,也在模型质量上一次次进行新的突破,这次是性价比的突破。就在前几天,Stability AI 又有新动作了:Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新,它引入了一个三阶段方法,为质量、灵活性、微调和效率设定了新的基准,重点是进一步消除硬件障碍。此外,Stability AI 发布了训练和推理代码,允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推

陪跑又快又稳,机器人跑步搭子来了

这个机器人名叫Cassie,曾经创下百米跑世界纪录。最近,加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法,让它掌握了急转弯等技能,还能对抗各种干扰。                                                                              【关注机器之心视频号,第一时间看到有趣的 AI 内容】 关于双足机器人运动的研究已经进行了几十年,但仍然没有一个能够对各种运动技能进行稳健控制的通用框架。挑战来自于双足机器人欠驱动动态的复杂性以及与每种

大模型时代还不理解自注意力?这篇文章教你从头写代码实现

自注意力是 LLM 的一大核心组件。对大模型及相关应用开发者来说,理解自注意力非常重要。近日,Ahead of AI 杂志运营者、机器学习和 AI 研究者 Sebastian Raschka 发布了一篇文章,介绍并用代码从头实现了 LLM 中的自注意力、多头注意力、交叉注意力和因果注意力。太长不看版这篇文章将介绍 Transformer 架构以及 GPT-4 和 Llama 等大型语言模型(LLM)中使用的自注意力机制。自注意力等相关机制是 LLM 的核心组件,因此如果想要理解 LLM,就需要理解它们。不仅如此,这

手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)

本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接,用于实现模型的整个过程,是一本不可多得的实战教科书。内容简介在混合专家模型 Mixtral 发布后,混合专家模型(MoE)越来越受到人们的关注。在稀疏化的混合专

以自监督方式去除荧光图像中的噪声,清华团队开发了空间冗余去噪Transformer方法

编辑 | 萝卜皮具有高信噪比的荧光成像已成为生物现象精确可视化和分析的基础。然而,不可避免的噪声对成像灵敏度提出了巨大的挑战。清华大学的研究团队提供了空间冗余去噪 Transformer(SRDTrans),以自监督的方式去除荧光图像中的噪声。该团队提出了基于空间冗余的采样策略来提取相邻的正交训练对,消除了对高成像速度的依赖。然后,他们设计了一种轻量级时空 Transformer 架构,以较低的计算成本捕获远程依赖性和高分辨率特征。SRDTrans 可以恢复高频信息,而不会产生过度平滑的结构和扭曲的荧光痕迹。并且,

突发!AI大牛Andrej Karpathy离开OpenAI

Andrej Karpathy 又离职了!刚刚,AI大牛Andrej Karpathy官宣了一条重要消息:他昨天已经从OpenAI离职,不过这中间没有什么戏剧性冲突,他只是想去尝试一下自己的个人项目。Karpathy在官宣离职的推文中写道,「是的,我昨天离开了OpenAI。首先,没发生什么特别的事情,这不是由于任何特定事件、问题或者争议导致的(但请继续提供阴谋论,因为它们确实很有趣 :))。实际上,在过去的大约一年时间里,在OpenAI的经历真的很棒——团队非常强大,人们非常棒,路线图也非常令人兴奋,我认为我们都有

英伟达官宣AI聊天机器人,本地RTX显卡运行,这是要挑战OpenAI?

OpenAI 进军芯片领域,英伟达自己造聊天机器人,这是 Sam vs Jensen 的时代?下载地址: AI 淘金热里,英伟达经常被称为那个「卖铲子的人」,而且卖的是难以替代的铲子。依靠这个角色,英伟达市值已经超越亚马逊,成美股第四大公司,离谷歌市值仅一步之遥。但值得注意的是,英伟达本身也在这波 AI 浪潮里淘金。刚刚,他们发布了一个对话机器人 ——「Chat with RTX」,面向 GeForce RTX 30 系列和 40 系列显卡用户(至少有 8GB VRAM)。有人开玩笑说,Sam Altman 进军芯

OpenAI赋予ChatGPT记忆功能,由你掌控

ChatGPT 新功能上线,有了记忆能力。很快你就能告诉 ChatGPT 忘记一些事情,或者在以后的对话中要求它记住特定的事情。今天,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。比如你住在郊区,更喜欢开车而不是乘坐公共交通,你可以简单地告诉 ChatGPT 这个事实(例如「记住我住在郊区,大部分时间开车」)。随着使用频率的增加,ChatGPT 对记忆功能将逐渐优化,

三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5

该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。如果你经常读 AI 大模型方向的论文,Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家,Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献,包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。根据 Yi Tay 个人资料统计,在谷歌大脑工作的 3 年多的时间里,他总共参与撰写了大约 45 篇论文,是其中 16 篇的一作。一作论文包括 UL2、U-PaL

谷歌工程师2018年内部信曝光,5年前就有人拉响AI警报了

看起来,虽然行动慢了一些,谷歌搜索的地位暂时还无人可以撼动。2023 年 2 月,谷歌 CEO 桑达尔・皮查伊(Sundar・Pichai)对内发布了一份「红色代码」预警,要求谷歌旗下用户超 10 亿的产品尽快接入生成式 AI,以对抗来势汹汹的 ChatGPT。这一举动给人一种谷歌「慌了」的感觉,因为 ChatGPT 的到来已经威胁到了谷歌核心的搜索业务:如果大家都习惯用 ChatGPT 这类 AI 对话引擎直接得到答案,谁还会去谷歌搜索呢?谁还会去谷歌投广告呢?乍看起来,这一切都发生地非常突然,谷歌应对起来也很被

性能提升、成本降低,这是分布式强化学习算法最新研究进展

深度强化学习(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器学习技术的启发,分布式深度强化学习 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为,分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化学习是一个综合的研究子领域,需

华为盘古大模型变「小」,1.5B也很能打

ChatGPT 等系列模型横空出世,以其强大的性能引起了全球的关注,有望改变人与计算机之间的交互方式,应用到千行百业。然而这些大型模型的实际需要极高的内存和计算资源,限制了它们在各种场景中的应用。例如,具有 175B 参数的 GPT-3 在使用 FP32 数据类型存储时需要大约 700GB 内存。尽管 7B 参数模型相对更高效,但其资源需求仍然难以直接部署在手机等边缘设备上。此外,尽管许多研究已经成功地打造出多个效果很好的大语言模型,但他们往往采用相似的训练策略。一方面,大量工作集中在收集和清理数据上,较少强调研究

LLM是世界模型的新证据?ChatGPT能理解WiFi等物理信号,并猜出你的位置

大语言模型是否是世界模型?大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢?最近来自香港科技大学(HKUST)、南洋理工大学(NTU)与加利福尼亚大学洛杉矶分校(UCLA)的研究者们提供了新的思路:他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile 2024。论文标题:Penetrative AI: Making LLMs Comprehend the Physical Worl

从框架到经典方法,全面了解分布式深度强化学习DDRL

本文在回顾分布式深度强化学习 DDRL 基本框架的基础上,重点介绍了 IMPALA 框架系列方法。AlphaGo 是一个在人机博弈中赢得众多职业围棋手的 agent 机器人。随着 AlphaGo 的突破,深度强化学习(Deep Reinforcement Learning,DRL)成为一种公认的解决连续决策问题的有效技术。人们开发了大量算法来解决介于 DRL 与现实世界应用之间的挑战性问题,如探索与开发困境、数据低效、多 agent 合作与竞争等。在所有这些挑战中,由于 DRL 的试错学习机制需要大量交互数据,数据

华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议

在信息时代,搜索引擎成为人们检索信息不可或缺的工具。然而传统的基于关键词的搜索方法要求用户准确表达搜索需求,因此有一定挑战。为了改善用户体验,查询建议系统崭露头角。这些系统通过分析用户当前的查询输入,生成相关的建议,减轻用户的搜索负担。文本查询建议(TQS)和视觉查询建议(VQS)是两种已经深入研究的查询建议系统。TQS 根据用户当前的查询生成一系列关键词,辅助用户更清晰地表达搜索意图。而 VQS 通过将视觉示例与建议一起呈现,提高了用户理解上下文的能力。然而这些系统的局限在于主要依赖用户的文本输入,而图像中蕴含丰

7万亿美元:OpenAI超大芯片计划曝光,要重塑全球半导体行业

通用人工智能要迎来大结局了?OpenAI 的 CEO 山姆・奥特曼(Sam Altman)引领了近期生成式 AI 的大发展。最近,他又有了一个宏伟目标:重塑全球半导体行业。据《华尔街日报》近日报道,奥特曼正在推动一个旨在提高全球芯片制造能力的项目,并在与包括阿联酋政府在内的不同投资者进行谈判。一位消息人士称,奥特曼可能要为这一计划筹集 5 万亿至 7 万亿美元。OpenAI 发言人表示:「OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论,这对于人工智能和相关行业至关重要。鉴于国家优

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

效果更稳定,实现更简单。大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一些不良影响。来自卡内基梅隆大学(CMU)和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化(Self-Play Preference Op

ICLR 2024 | 单图三维重建数字虚拟人,浙大&字节提出Real3D-Portrait算法

近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中,看到了 AIGC 让单张照片开口说话的能力?尽管已经能够拥有清晰的画质和准确的口型,但现有的单图驱动虚拟人似乎还差了一点:呈现的结果中说话人往往采用和原图中说话人接近的头部姿态,无法像真人一样在画面中自由地运动。这是因为目前采用的技术无法对图片中说话人在 3D 世界中进行建模,因此在大姿态驱动的情况下会出现效果急剧下降的问题。单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这