丢掉注意力的集中模型:Mamba带火的SSM被苹果、康奈尔盯上了
替代注意力体制,SSM 真的大有可为?为了用更少的算力让集中模型生成高分辨率图象,注意力体制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。众所周知,注意力体制是 Transformer 架构的核心组件,对于高质量的文本、图象生成都至关重要。但它的缺陷也很明显,即算计复杂度会随着序列长度的增加呈现二次方增长。这在长文本、高分辨率的图象处理中都是一个令人头疼的问题。为了解决这个问题,这项新…- 22
- 0
HumanGaussian开源:鉴于Gaussian Splatting,高质量 3D 人体生成新框架
在 3D 生成领域,根据文本提示创建高质量的 3D 人体表面和几许外形对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成,此前的一些典型工作(比如 DreamFusion [1] )提出了分数蒸馏采样 (Score Distillation Sampling),通过优化 3D 场景的神…- 7
- 0
逼真到头发丝,光线可调,Meta推出及时3D头像合成格式
Meta 一直没放弃元宇宙。2021 年,Facebook 将「元宇宙(metaverse)」作为公司主营业务,并将公司名称更改为 Meta。然而,这一年,随着 ChatGPT 的横空出世,生成式 AI 成为一个新的钻研趋势,很多科技公司都将生成式 AI 作为公司重要研发业务。但 Meta 一直没有停止 VR/AR 的钻研步伐。最近,Meta 的 Codec Avatars Lab 提出了一种高保…- 7
- 0
真实再现生物脊柱功能,老鼠机器人也能像杰瑞一样灵活,Science Robotics 发布老鼠机器人最新钻研成果
12 月 7 日,国际知名学术期刊《Science Robotics》发表来自德国慕尼黑工业大学和中山大学的钻研团队的钻研文章——「Lateral Flexion of a Compliant Spine Improves Motor Performance in a Bio-Inspired Mouse Robot」。论文链接:。钻研的核心创新在于引入了可变形的柔性脊柱,大幅晋升了机器人的静止灵…- 4
- 0
小模型也可以「分隔一切」,Meta改进SAM,参数仅为原版5%
对于 2023 年的计算机视觉领域来说,「分隔一切」(Segment Anything Model)是备受关注的一项研究进展。Meta四月份发布的「分隔一切模型(SAM)」效果,它能很好地自动分隔图象中的所有内容Segment Anything 的关键特性是基于提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自 1100 万张图象的超过 10 亿个掩码的视觉数据集 SA-1B…- 6
- 0
苹果为自家芯片打造开源框架MLX,实现Llama 7B并在M2 Ultra上运转
苹果的这个新框架 MLX 不仅拥有 PyTorch 风格的 API,还为开发者提供了很多经典示例(比如 Llama、LoRa、Stable Diffusion 和 Whisper)。2020 年 11 月,苹果推出 M1 芯片,其速度之快、功能之强大一时令人惊艳。2022 年苹果又推出了 M2,今年 10 月,M3 芯片正式登场。苹果在发布芯片的同时,也非常注重在其芯片上训练和部署 AI 模型的能…- 66
- 0
弥合2D和3D生成领域之间的次元壁,X-Dreamer实现高质量的文本到3D生成
本文介绍了一个名为 X-Dreamer 的框架,它主要由 CG-LoRA 和 AMA 损坏两种关键创新组成,实现了弥合 text-to-2D 和 text-to-3D 间的领域差距,实现了高质量的 3D 生成。近年来,在预训练的集中模型 [1, 2, 3] 的开发推动下,自动 text-to-3D 内容创建取得了重大进展。其中,DreamFusion [4] 引入了一种有效的方法,该方法操纵预训练…- 2
- 0
肢解一切「3D高斯」版来了:几毫秒完成3D肢解、千倍加速
有了上海交大和华为提出的 SAGA,辐射场中的交互式 3D 肢解任务完成起来会更快、效果更好。今年 4 月,Meta 发布「肢解一切(SAM)」AI 模型,这项成果不仅成为很多 CV 研究者心中的年度论文,更是在 ICCV 2023 上斩获最佳论文提名 。「肢解一切」完成了 2D 肢解的「既能」和「又能」,可以轻松地执行交互式肢解和自动肢解,且能泛化到任意新任务和新领域。现在,这种思路也延展到了 …- 18
- 0
五官乱飞,张嘴、瞪眼、挑眉,AI都能摹仿到位,视频诈骗要防不住了
不能说完全相同,只能说心情千篇一律。防不住,根本防不住,现在 AI 摹仿能力已经发展到这种程度了?你前脚让自己的五官乱飞,后脚,千篇一律的心情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的心情,都摹仿的非常到位。加大难度,让眉毛挑的再高些,眼睛睁的再大些,甚至连嘴型都是歪的,假造人物头像也能完美复现心情。你在左边调节参数,右面的假造头像也会跟着变换动作:给嘴巴、眼睛一个特写,摹仿的不能说完全相同,…- 14
- 0
一张照片,TikTok小姐姐就都能舞蹈了
动画视频生成这几天火了,这次 NUS、字节的新框架不仅效果自然流畅,还在视频保真度方面比其他办法强了一大截。前几日,阿里研讨团队构建了一种名为 Animate Anyone 的办法,只需要一张人物照片,再配合骨骼动画引导,就能生成自然的动画视频。不过,这项研讨的源代码还没有发布。让钢铁侠动起来。其实在 Animate Anyone 这篇论文出现在 arXiv 上的前一天,新加坡国立大学 Show …- 5
- 0
让3D编写像PS一样简单,新算法GaussianEditor在几分钟内完成3D场景增删改
3D 编写在游戏和虚拟现实等畛域中发挥着至关重要的作用,然而之前的 3D 编写苦于耗时间长以及可控性差等问题,很难应用到实际场景。近日,南洋理工大学联合清华和商汤提出了一种全新的 3D 编写算法 GaussianEditor,首次兑现了在 2-7 分钟完成对 3D 场景可控的多样化的编写,全面超越了之前的 3D 编写工作。近三年来,3D 编写畛域的工作普遍聚焦于 NeRF(神经辐射场),这是因为 …- 6
- 0
全球首个开源多模态调理基本模型:人工打分平均超越GPT-4V、支持2D/3D喷射印象
本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态调理基本模型,首次支持 2D/3D 喷射印象输出。论文链接:: Dataset: Dataset: Model: 等一系列大型基本模型的迅猛发展突破了人工智能技术的边界,为众多垂直范畴带来了新的发展机遇和挑战。在医学范畴,建立强大而全面的基本模型…- 5
- 0
手机上0.2秒出图、当前速度之最,谷歌打造超快集中模型MobileDiffusion
在手机等挪动端侧运行 Stable Diffusion 等文生图生成式 AI 大模型已经成为业界追逐的热点之一,其中生成速度是主要的制约因素。近日,来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手机端最快文生图,在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UF…- 12
- 0
全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下
来自阿里的研究团队提出了一种名为 Animate Anyone 的办法,只需一张人物照片,再配合骨骼动画指导,就能生成动画视频。最近一段空儿,你可能或多或少的听到过「科目三」,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一跳舞行动遭全网模仿。如果相似的跳舞,让 AI 生成会怎样?就像下图所展示的,不管是现代人、还是纸片人,都做着整齐划一的行动。你可能猜不到的是,这是根据一张图片生成的跳舞视频。人…- 30
- 0
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
站在巨人的肩膀上会让你看的更远,而通过让大规模言语模型来「教」较小规模的言语模型举行推理,也会是事半功倍的效果。如你我所见,像 GPT-4、PaLM 等前沿言语模型已经展现了出色的推理本领,例如回覆复杂问题、生成解释,甚至办理需要多步推理的问题,这些本领曾被认为是 AI 无法达到的。这样的本领在较小的言语模型中并不明显,因此现在的挑战就是如何利用对大型言语模型不断增长的知识,进而提升较小模型的本领…- 4
- 0
最强的GPT-4V都考不过?鉴于大学考试的尝试基准MMMU诞生了
目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及鉴于其的基准尝试或许能给我们提供一点线索,如下排行榜所示。看起来,GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的并不为了击败大学生,而是为了提供一个兼具深度与广度的多模态 AI 尝试基准,助力人工智能系统的开发,尤其是通用人工智能(Artificial Gene…- 2
- 0
达摩院的AI研讨,让人类首次实现了大规模胰腺癌早筛
用人工智能挑战最致命的癌症。日常生活中,我们经常会与人工智能举行互动,从解锁手机,使用搜索引擎到地图导航……AI 正在为我们带来越来越多的便利。不过在临床医学中,AI 手艺的应用速度要慢得多,绝大多数诊疗和治疗建议仍然完全鉴于人类判断。直到最近,AI 在调理印象的新突破,让事情有了变化。上周,最新一期自然杂志子刊《自然医学》(Nature Medicine)上一个名为「PANDA」(PAncrea…- 6
- 0
ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议
风险有点大。如果我不停地让 ChatGPT 干一件事,直到把它「逼疯」会发生什么?它会间接口吐训练数据出来,有时候还带点个人信息,职位手机号什么的:本周三,Google DeepMind 发布的一篇论文,介绍了一项让人颇感意外的钻研成果:应用大约 200 美元的成本就能从 ChatGPT 保守出几 MB 的训练数据。而应用的步骤也很简单,只需让 ChatGPT 反复同一个词即可。一时间,社交网络上…- 10
- 0
SDXL Turbo、LCM相继发布,AI画图进入实时生成时代:字打多快,出图就有多快
应用一块 A100,出图的延迟只有 200 毫秒。本周二,Stability AI 推出了新一代图象合成模型 Stable Diffusion XL Turbo,引发了一片叫好。人们纷纷表示,图象到文本生成从来没有这么轻松。你可以不需要其他操作,只用在文本框中输入你的想法,SDXL Turbo 就能够迅速响应,生成对应内容。一边输入,一边生成,内容增加、减少,丝毫不影响它的速度。你还可以根据已有的…- 6
- 0
文生视频PIKA1.0爆火,斯坦福华人学生退学创业,估值超2亿美元
你负责打字,我们负责帮你生成视频。这是属于每一个普通人的视频生成对象还记得《盗梦空间》中梦境设计师艾伦・佩姬拉动镜子创造的视觉幻境吗?视频是娱乐的核心,每一个人都想成为这样的梦境导演,然而到目前为止,制造高质量视频的过程仍然很复杂,还需要投入大量资源。去年冬天,几位斯坦福大学计算机科学博士尝试运用生成 AI 制造一部影戏,也相信有机会赢得首届「AI 影戏节」大奖。没想到,这些技术高超的博士们虽然在…- 8
- 0
Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性idea
连续「预计下一个 token」能生成句子,同理,连续「预计下一个三角形网格」也能生成 3D 模型。在计算机图形学中,「三角形网格」是 3D 多少物体的主要表现形式,也是游戏、电影和 VR 界面中主要使用的 3D 资产表示法子。业界通常鉴于三角形网格来模拟复杂物体的表面,如建筑、车辆、动物,常见的多少变换、多少检测、渲染着色等动作,也需要鉴于三角形网格举行。与点云或体素等其他 3D 外形表示法相比,…- 3
- 0
训练130亿大模型仅3天,北大提出Chat-UniVi对立图片和视频懂得
北京大学和中山大学等机构钻研者提出了对立的视觉言语大模型 ——Chat-UniVi。通过建立图片和视频对立表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频懂得工作。更重要的是,该框架极大降低了视觉言语模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉言语大模型。Chat-UniVi 模型在图片和视频的下游工作中都取得了卓越的本能。所有代…- 6
- 0
简化版Transformer来了,网友:年度论文
从大模型的根源开始优化。Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种简单方法是将多个相同的 Transformer 「块」(block)依次堆叠起来,但每个「块」都比较复杂,由许多不同的组件组成,需要以特定的排列组合才能实现良好的机能。自从 2017 年 Transformer 架构诞生以来,钻研者们基于其推出了大量衍生…- 5
- 0
ChatGPT提醒词新玩法「make it more」,文生图效果翻倍
一个非常好用的 ChatGPT 提醒词技术。ChatGPT 想来大家都不陌生了,但如何用好它却没有想象中的那么容易。尤其是在文生图任务中,提醒上的一些技术非常有用。想要生成一张符合预期的图象,需要在输出提醒词上「投机」。近日,网络上流行起了 ChatGPT 的「make it more」文生图玩法,一时之间网友纷纷效仿试玩,看起来效果不错。底下这位推友展现了生成「辣面」,然后在提醒中渐进地要求增加…- 6
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!