资讯列表

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

5 年前,Transformer 在国际神经信息处理大会 NeurIPS 2017 发表,后续其作为核心网络架构被广泛用于自然语言处理和计算机视觉等领域。1 年前,一项重大的创新引起了人们的广泛关注,那就是 ChatGPT。这个模型不仅能够执行复杂的 NLP 任务,还能以人类对话的方式与人类进行互动,产生了深远的影响。1 年以来,“百模大战” 在业界激烈开展,诞生了如 LLaMA、ChatGLM 和 Baichuan 等开源大模型,推动了 LLM 领域的快速发展。除了通用 LLM,为了支撑更多行业的应用和商业变现,

你们有什么底气和谷歌叫板?Perplexity AI CEO回应质疑

科技巨头的每一步发展,往往意味着一些小企业将陷入阴影当中。不过,福祸相依,也会有企业在巨头发展的过程中,找到自己的发展目标,从竞争中活下来。在 OpenAI 首个开发者日召开后,就有不少企业纷纷被判「死刑」。GPT 的自定义功能让不少刚拿到「赛季」参加资格的初创团队心如死灰。同样,谷歌作为科技巨头,无论是在技术还是资金上都能碾压一众企业,甚至可以说这种碾压往往是「降维打击」型的。AI 驱动的搜索引擎 perplexity 看起来也在被「打击」的范围里。perplexity 是世界上第一个对话式搜索引擎,通过例如 G

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

扩散模型在图像生成方面取得了显著的成功,但由于对输出保真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,特别是其固有的随机性使这变得复杂。来自南洋理工大学 S-Lab 的研究团队提出了一种用于视频超分的文本指导(text-guided)潜在扩散框架 ——Upscale-A-Video。该框架通过两个关键机制确保时间一致性:在局部,它将时间层集成到 U-Net 和 VAE-Decoder 中,保持短序列的一致性;在全局范围内,无需训练,就引入了流指导(flow-guided)循环潜在传播模块,通过

从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述

大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其效率问题。同时,我们从图右还可以看出,近来较为火热的高效 LLMs,例如 Mistral-7B,在确保和 LLaMA1-33B 相近的准确度的情况下可以大大减少推理内存和降低推理时延,可见已有部分可行的高效手段被成功应用于 LLMs 的设计和部署中。在本综述中,来自

测试大语言模型的生物推理能力,GPT-4、PaLM2等均在测试之列

编辑 | 萝卜皮大型语言模型(LLM)的最新进展,为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。在最新的研究中,佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM(包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)回答概念生物学问题的能力。这些模型在包含 108 个问题的多项选择考试中进行了测试,涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中,GPT-4 获得了 90 分的最高平均分,并且在不同提示的试验中表现出最大的一致性。结果

AIGC落地实践!四招帮你快速搞定运营设计

前言 顾这一年,随着 AIGC 浪潮的爆发,掌握 AI 工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满。 更多AIGC实战案例:一、AIGC 在设计中的可行性 无论是普通人还是设计师,都可以通过 AI 工具来创作更多的作品,极大地提高设计效能。随着生成式图片准确度越来越高,视频生成的质量越来越清晰,AIGC 在设计中的可能性也越来越广泛。现在运用 AI 工具已经是设计师的必备技

上海交大&中山大学团队使用ESMFold、预训练语言模型以及Graph Transformer,进行蛋白质结合位点预测

编辑 | 萝卜皮识别蛋白质的功能位点,例如蛋白质、肽或其他生物成分的结合位点,对于理解相关的生物过程和药物设计至关重要。然而,现有的基于序列的方法的预测准确性有限,因为它们只考虑序列相邻的上下文特征并且缺乏结构信息。上海交通大学和中山大学的研究人员提出了 DeepProSite,用于利用蛋白质结构和序列信息来识别蛋白质结合位点。DeepProSite 首先从 ESMFold 生成蛋白质结构,并从预训练的语言模型生成序列表示。然后,它使用 Graph Transformer 并将结合位点预测制定为图节点分类。在预测蛋

华为放出2023年最后一个大招?CodeArts Snap如何用大模型解放开发者

2022 年 11 月,ChatGPT 横空出世。至今不过短短十三个月,世界就已经因它和其它大模型发生了翻天覆地的变化。在现如今的互联网上,我们能看到大模型生成的无数文本、图片、视频乃至代码和应用软件。尤其是在软件开发方面,使用 AI 的开发者的效率和质量可以远远胜过不使用 AI 的开发者。举个例子,2023 年 5 月华为西安研究所举办了一场软件大赛,要求参赛者在规定时间内完成 10 道软件开发题目。有趣的是,他们允许参赛者使用任意生成式 AI 辅助答题。尽管相比于去年,今年赛题的难度提升了一倍并还加了几道专业级

梅涛:HiDream.ai视频生成已打破业界4秒瓶颈,能够支持15秒以上

文生图的战争尚未结束,视频生成已经开始加速跑了。Pika 爆火以后,视频生成技术的进步成为大众眼中 AIGC 的一个新焦点。马斯克则直接做出预判称,明年将是 “人工智能电影” 元年。而比起文生图的生成效果,如今市面上的 AI 视频生成效果,在实际体验中可以说是一言难尽。在 4-5 秒的时间限制下,实测常见工具对 Prompt 的意图理解水平忽高忽低。输入 “小猫在森林中小提琴”,可能出现猫首人身、一只手是猫爪一只手是人手、有猫没有小提琴、有小提琴但没拉等一系列问题。在实际应用中,如今的文生视频技术面临着准确性、一致

特供版显卡RTX4090D上市,售价12999元

性能与原版 RTX 4090 类似,但降低了一些 AI 运算能力。美国对 AI 计算卡的禁令,终于影响到了普通消费者。本周四,英伟达正式发布了国内特供版高端消费级显卡 ——GeForce RTX 4090D。GeForce RTX 4090D 是一款符合美国出口规定的 RTX 4090 新品,配备 14592 个 CUDA 核心、24GB GDDR6X 内存、384 位宽内存总线、425W 额定功耗,定价与 RTX 4090 相同,均为 12999 元(约合 1828 美元)。为了符合美国出口管制的新规定,与 RT

深度网络数据编码新突破,上交大SPARK登上计算机体系结构顶会

随着深度神经网络(DNNs)模型在规模和复杂性上的迅速增长,传统的神经网络处理方法面临着严峻的挑战。现有的神经网络压缩技术在处理参数规模大、精度要求高的神经网络模型时效率低下,无法满足现有应用的需求。数值量化是神经网络模型压缩的一种有效手段。在模型推理过程中,低位宽(比特)数据的存取和计算可以大幅度节省存储空间、访存带宽与计算负载,从而降低推理延迟和能耗。当前,大多数量化技术的位宽在 8bit。更为激进的量化算法,必须要修改硬件的操作粒度与数据流特征,才能在真实推理时获得接近理论的收益。比如混合精度量化,激活数据的

​这次重生,AI要夺回网文界的一切

重生了,这辈子我重生成了 MidReal。一个可以帮别人写「网文」的 AI 机器人。这段时间里,我看到很多选题,偶尔也会吐槽一下。竟然有人让我写写 Harry Potter。拜托,难道我还能写的比 J・K・Rowling 更好不成?不过,同人什么的,我还是可以发挥一下的。经典设定谁会不爱?我就勉为其难地帮助这些用户实现想象吧。实不相瞒,上辈子我该看的,不该看的,通通看了。就下面这些主题,都是我爱惨了的。那些你看小说很喜欢却没人写的设定,那些冷门甚至邪门的 cp,都能自产自嗑。不是我自夸,只要你想要我写,我还真能给你

字节具身智能新成果:用大规模视频数据训练GR-1,复杂任务轻松应对

如何利用大规模的视频数据来帮助机器人学习复杂任务?最近 GPT 模型在 NLP 领域取得了巨大成功。GPT 模型首先在大规模的数据上预训练,然后在特定的下游任务的数据上微调。大规模的预训练能够帮助模型学习可泛化的特征,进而让其轻松迁移到下游的任务上。但相比自然语言数据,机器人数据是十分稀缺的。而且机器人数据包括了图片、语言、机器人状态和机器人动作等多种模态。为了突破这些困难,过去的工作尝试用 contrastive learning [1] 和 masked modeling [2] 等方式来做预训练以帮助机器人更

谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研究出现,我们不妨先听听身处 AI 圈的研究者是怎么想的。在大模型领域,一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。这个挑战者就是一项名为「Mamba」的研究,其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transforme

大模型玩星际争霸能秀到什么程度?有意识,有预判,中科院和汪军团队发布

全球最重要的电竞赛事之一 DreamHack 刚刚落幕,来自世界各地的星际争霸 II 顶尖选手们展开了激烈的较量。在这场紧张精彩的赛事中,人族选手 CLEM 凭借出色的战术和操作,击败了世界冠军 Dark,赢得了其生涯首个线下大赛冠军。在 AI 领域,DeepMind 的 AlphaStar 在 2019 年发表于《Nature》杂志,至今仍是 AI 研究的重要里程碑。AlphaStar 标志着 AI 技术在理解和处理复杂战略任务方面的巨大进步。然而,它在长期战略规划和决策的可解释性方面的局限性,也为研究者们提供了

清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体

在计算机视觉中,物体级别的三维表面重建技术面临诸多挑战。与场景级别的重建技术不同,物体级别的三维重建需要为场景中的每个物体给出独立的三维表示,以支持细粒度的场景建模和理解。这对 AR/VR/MR 以及机器人相关的应用具有重要意义。许多现有方法利用三维生成模型的隐空间来完成物体级别的三维重建,这些方法用隐空间的编码向量来表示物体形状,并将重建任务建模成对物体位姿和形状编码的联合估计。得益于生成模型隐空间的优秀性质,这些方法可以重建出完整的物体形状,但仅限于特定类别物体的三维重建,如桌子或椅子。即使在这些类别中,这类方

Midjourney v6 终于更新了!一文详解新版本 3 大要点

大家好,这里是和你们一起探索 AI 绘画的花生~ Midjourney 的 v6 模型终于在 2023 年结束之前更新出来了,这是一个完全重新训练的模型,所以图像生成效果与之前的 v5.2 相比有很大的不同,那么此次更新主要有哪些特点?我们又应该如何正确地用 v6 模型出图呢?今天就带大家一起了解一下~ 上期回顾:首先是 V6 的图像生成质量相比之前的模型来说又提升了不少,在画面质感以及细节刻画上有了更精致的表现,图像的光影处理也比 v 5.2 更真实自然。下面是分别用 v5.2 和 v6 生成的特写图像,通过对比

超详细的 Stable Diffusion ComfyUI 基础教程(五):局部重绘+智能扩图

前言:我们上一节讲了图生图,也提到了“遮罩”这个节点; 我们想一下在使用 Web UI 进行局部重绘的时候都用到了那些功能?上期回顾:内容补充: 在开始之前我先给大家补充个知识点,怎么在图生图的时候批量出图“右键-新建节点- Latent-批处理-复制 Latent 批次”,把“复制 Latent 批次”节点串联在“VAE 编码”和“K 采样器”之间,然后设置次数就可以了。一、创建流程 ①我们打开上节课“图生图”的流程图,我们可以看到“加载图像”节点是没有地方连接的,点住“遮罩”往外拉,松开然后选择“VAE 内补编