工程

丢掉注意力的集中模型：Mamba带火的SSM被苹果、康奈尔盯上了
替代注意力体制，SSM 真的大有可为？为了用更少的算力让集中模型生成高分辨率图象，注意力体制可以不要，这是康奈尔大学和苹果的一项最新研究所给出的结论。众所周知，注意力体制是 Transformer 架构的核心组件，对于高质量的文本、图象生成都至关重要。但它的缺陷也很明显，即算计复杂度会随着序列长度的增加呈现二次方增长。这在长文本、高分辨率的图象处理中都是一个令人头疼的问题。为了解决这个问题，这项新…
工程
- 22
- 0
机器之心23年12月11日
HumanGaussian开源：鉴于Gaussian Splatting，高质量 3D 人体生成新框架
在 3D 生成领域，根据文本提示创建高质量的 3D 人体表面和几许外形对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程，如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成，此前的一些典型工作（比如 DreamFusion [1] ）提出了分数蒸馏采样 (Score Distillation Sampling)，通过优化 3D 场景的神…
工程
- 7
- 0
机器之心23年12月11日
逼真到头发丝，光线可调，Meta推出及时3D头像合成格式
Meta 一直没放弃元宇宙。2021 年，Facebook 将「元宇宙（metaverse）」作为公司主营业务，并将公司名称更改为 Meta。然而，这一年，随着 ChatGPT 的横空出世，生成式 AI 成为一个新的钻研趋势，很多科技公司都将生成式 AI 作为公司重要研发业务。但 Meta 一直没有停止 VR/AR 的钻研步伐。最近，Meta 的 Codec Avatars Lab 提出了一种高保…
工程
- 7
- 0
机器之心23年12月11日
真实再现生物脊柱功能，老鼠机器人也能像杰瑞一样灵活，Science Robotics 发布老鼠机器人最新钻研成果
12 月 7 日，国际知名学术期刊《Science Robotics》发表来自德国慕尼黑工业大学和中山大学的钻研团队的钻研文章——「Lateral Flexion of a Compliant Spine Improves Motor Performance in a Bio-Inspired Mouse Robot」。论文链接：。钻研的核心创新在于引入了可变形的柔性脊柱，大幅晋升了机器人的静止灵…
工程
- 4
- 0
李亚洲23年12月8日
小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%
对于 2023 年的计算机视觉领域来说，「分隔一切」（Segment Anything Model）是备受关注的一项研究进展。Meta四月份发布的「分隔一切模型（SAM）」效果，它能很好地自动分隔图象中的所有内容Segment Anything 的关键特性是基于提示的视觉 Transformer（ViT）模型，该模型是在一个包含来自 1100 万张图象的超过 10 亿个掩码的视觉数据集 SA-1B…
工程
- 6
- 0
机器之心23年12月7日
苹果为自家芯片打造开源框架MLX，实现Llama 7B并在M2 Ultra上运转
苹果的这个新框架 MLX 不仅拥有 PyTorch 风格的 API，还为开发者提供了很多经典示例（比如 Llama、LoRa、Stable Diffusion 和 Whisper）。2020 年 11 月，苹果推出 M1 芯片，其速度之快、功能之强大一时令人惊艳。2022 年苹果又推出了 M2，今年 10 月，M3 芯片正式登场。苹果在发布芯片的同时，也非常注重在其芯片上训练和部署 AI 模型的能…
工程
- 66
- 0
机器之心23年12月7日
弥合2D和3D生成领域之间的次元壁，X-Dreamer实现高质量的文本到3D生成
本文介绍了一个名为 X-Dreamer 的框架，它主要由 CG-LoRA 和 AMA 损坏两种关键创新组成，实现了弥合 text-to-2D 和 text-to-3D 间的领域差距，实现了高质量的 3D 生成。近年来，在预训练的集中模型 [1, 2, 3] 的开发推动下，自动 text-to-3D 内容创建取得了重大进展。其中，DreamFusion [4] 引入了一种有效的方法，该方法操纵预训练…
工程
- 2
- 0
机器之心23年12月7日
肢解一切「3D高斯」版来了：几毫秒完成3D肢解、千倍加速
有了上海交大和华为提出的 SAGA，辐射场中的交互式 3D 肢解任务完成起来会更快、效果更好。今年 4 月，Meta 发布「肢解一切（SAM）」AI 模型，这项成果不仅成为很多 CV 研究者心中的年度论文，更是在 ICCV 2023 上斩获最佳论文提名。「肢解一切」完成了 2D 肢解的「既能」和「又能」，可以轻松地执行交互式肢解和自动肢解，且能泛化到任意新任务和新领域。现在，这种思路也延展到了 …
工程
- 18
- 0
机器之心23年12月6日
五官乱飞，张嘴、瞪眼、挑眉，AI都能摹仿到位，视频诈骗要防不住了
不能说完全相同，只能说心情千篇一律。防不住，根本防不住，现在 AI 摹仿能力已经发展到这种程度了？你前脚让自己的五官乱飞，后脚，千篇一律的心情就被复现出来，瞪眼、挑眉、嘟嘴，不管多么夸张的心情，都摹仿的非常到位。加大难度，让眉毛挑的再高些，眼睛睁的再大些，甚至连嘴型都是歪的，假造人物头像也能完美复现心情。你在左边调节参数，右面的假造头像也会跟着变换动作：给嘴巴、眼睛一个特写，摹仿的不能说完全相同，…
工程
- 14
- 0
机器之心23年12月6日
一张照片，TikTok小姐姐就都能舞蹈了
动画视频生成这几天火了，这次 NUS、字节的新框架不仅效果自然流畅，还在视频保真度方面比其他办法强了一大截。前几日，阿里研讨团队构建了一种名为 Animate Anyone 的办法，只需要一张人物照片，再配合骨骼动画引导，就能生成自然的动画视频。不过，这项研讨的源代码还没有发布。让钢铁侠动起来。其实在 Animate Anyone 这篇论文出现在 arXiv 上的前一天，新加坡国立大学 Show …
工程
- 5
- 0
机器之心23年12月5日
让3D编写像PS一样简单，新算法GaussianEditor在几分钟内完成3D场景增删改
3D 编写在游戏和虚拟现实等畛域中发挥着至关重要的作用，然而之前的 3D 编写苦于耗时间长以及可控性差等问题，很难应用到实际场景。近日，南洋理工大学联合清华和商汤提出了一种全新的 3D 编写算法 GaussianEditor，首次兑现了在 2-7 分钟完成对 3D 场景可控的多样化的编写，全面超越了之前的 3D 编写工作。近三年来，3D 编写畛域的工作普遍聚焦于 NeRF（神经辐射场），这是因为 …
工程
- 6
- 0
机器之心23年12月5日
全球首个开源多模态调理基本模型：人工打分平均超越GPT-4V、支持2D/3D喷射印象
本文中，上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM)，开源 14B 多模态调理基本模型，首次支持 2D/3D 喷射印象输出。论文链接：： Dataset: Dataset: Model: 等一系列大型基本模型的迅猛发展突破了人工智能技术的边界，为众多垂直范畴带来了新的发展机遇和挑战。在医学范畴，建立强大而全面的基本模型…
工程
- 5
- 0
机器之心23年12月4日
手机上0.2秒出图、当前速度之最，谷歌打造超快集中模型MobileDiffusion
在手机等挪动端侧运行 Stable Diffusion 等文生图生成式 AI 大模型已经成为业界追逐的热点之一，其中生成速度是主要的制约因素。近日，来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」，提出了手机端最快文生图，在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UF…
工程
- 12
- 0
机器之心23年12月4日
全网都在模仿的「科目三」，梅西、钢铁侠、二次元小姐姐马上拿下
来自阿里的研究团队提出了一种名为 Animate Anyone 的办法，只需一张人物照片，再配合骨骼动画指导，就能生成动画视频。最近一段空儿，你可能或多或少的听到过「科目三」，摇花手、半崴不崴的脚，配合着节奏鲜明的音乐，这一跳舞行动遭全网模仿。如果相似的跳舞，让 AI 生成会怎样？就像下图所展示的，不管是现代人、还是纸片人，都做着整齐划一的行动。你可能猜不到的是，这是根据一张图片生成的跳舞视频。人…
工程
- 30
- 0
机器之心23年12月4日
微软教小模型推理进阶版：Orca 2性能媲美10倍参数模型，已开源
站在巨人的肩膀上会让你看的更远，而通过让大规模言语模型来「教」较小规模的言语模型举行推理，也会是事半功倍的效果。如你我所见，像 GPT-4、PaLM 等前沿言语模型已经展现了出色的推理本领，例如回覆复杂问题、生成解释，甚至办理需要多步推理的问题，这些本领曾被认为是 AI 无法达到的。这样的本领在较小的言语模型中并不明显，因此现在的挑战就是如何利用对大型言语模型不断增长的知识，进而提升较小模型的本领…
工程
- 4
- 0
机器之心23年12月4日
最强的GPT-4V都考不过？鉴于大学考试的尝试基准MMMU诞生了
目前最好的大型多模态模型 GPT-4V 与大学生谁更强？我们还不知道，但近日一个新的基准数据集 MMMU 以及鉴于其的基准尝试或许能给我们提供一点线索，如下排行榜所示。看起来，GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的并不为了击败大学生，而是为了提供一个兼具深度与广度的多模态 AI 尝试基准，助力人工智能系统的开发，尤其是通用人工智能（Artificial Gene…
工程
- 2
- 0
机器之心23年12月1日
达摩院的AI研讨，让人类首次实现了大规模胰腺癌早筛
用人工智能挑战最致命的癌症。日常生活中，我们经常会与人工智能举行互动，从解锁手机，使用搜索引擎到地图导航……AI 正在为我们带来越来越多的便利。不过在临床医学中，AI 手艺的应用速度要慢得多，绝大多数诊疗和治疗建议仍然完全鉴于人类判断。直到最近，AI 在调理印象的新突破，让事情有了变化。上周，最新一期自然杂志子刊《自然医学》（Nature Medicine）上一个名为「PANDA」（PAncrea…
工程
- 6
- 0
机器之心23年11月30日
ChatGPT狂吐训练数据，还带个人信息：DeepMind发现大bug引争议
风险有点大。如果我不停地让 ChatGPT 干一件事，直到把它「逼疯」会发生什么？它会间接口吐训练数据出来，有时候还带点个人信息，职位手机号什么的：本周三，Google DeepMind 发布的一篇论文，介绍了一项让人颇感意外的钻研成果：应用大约 200 美元的成本就能从 ChatGPT 保守出几 MB 的训练数据。而应用的步骤也很简单，只需让 ChatGPT 反复同一个词即可。一时间，社交网络上…
工程
- 10
- 0
机器之心23年11月30日
SDXL Turbo、LCM相继发布，AI画图进入实时生成时代：字打多快，出图就有多快
应用一块 A100，出图的延迟只有 200 毫秒。本周二，Stability AI 推出了新一代图象合成模型 Stable Diffusion XL Turbo，引发了一片叫好。人们纷纷表示，图象到文本生成从来没有这么轻松。你可以不需要其他操作，只用在文本框中输入你的想法，SDXL Turbo 就能够迅速响应，生成对应内容。一边输入，一边生成，内容增加、减少，丝毫不影响它的速度。你还可以根据已有的…
工程
- 6
- 0
机器之心23年11月30日
文生视频PIKA1.0爆火，斯坦福华人学生退学创业，估值超2亿美元
你负责打字，我们负责帮你生成视频。这是属于每一个普通人的视频生成对象还记得《盗梦空间》中梦境设计师艾伦・佩姬拉动镜子创造的视觉幻境吗？视频是娱乐的核心，每一个人都想成为这样的梦境导演，然而到目前为止，制造高质量视频的过程仍然很复杂，还需要投入大量资源。去年冬天，几位斯坦福大学计算机科学博士尝试运用生成 AI 制造一部影戏，也相信有机会赢得首届「AI 影戏节」大奖。没想到，这些技术高超的博士们虽然在…
工程
- 8
- 0
机器之能23年11月29日
Transformer变革3D建模，MeshGPT生成效果惊动专业建模师，网友：革命性idea
连续「预计下一个 token」能生成句子，同理，连续「预计下一个三角形网格」也能生成 3D 模型。在计算机图形学中，「三角形网格」是 3D 多少物体的主要表现形式，也是游戏、电影和 VR 界面中主要使用的 3D 资产表示法子。业界通常鉴于三角形网格来模拟复杂物体的表面，如建筑、车辆、动物，常见的多少变换、多少检测、渲染着色等动作，也需要鉴于三角形网格举行。与点云或体素等其他 3D 外形表示法相比，…
工程
- 3
- 0
机器之心23年11月29日
训练130亿大模型仅3天，北大提出Chat-UniVi对立图片和视频懂得
北京大学和中山大学等机构钻研者提出了对立的视觉言语大模型 ——Chat-UniVi。通过建立图片和视频对立表征，该框架使得一个 LLM 能够在图片和视频的混合数据下训练，并同时完成图片和视频懂得工作。更重要的是，该框架极大降低了视觉言语模型训练和推理的开销，使得在三天以内即可训练出具有 130 亿参数的通用视觉言语大模型。Chat-UniVi 模型在图片和视频的下游工作中都取得了卓越的本能。所有代…
工程
- 6
- 0
机器之心23年11月29日
简化版Transformer来了，网友：年度论文
从大模型的根源开始优化。Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种简单方法是将多个相同的 Transformer 「块」（block）依次堆叠起来，但每个「块」都比较复杂，由许多不同的组件组成，需要以特定的排列组合才能实现良好的机能。自从 2017 年 Transformer 架构诞生以来，钻研者们基于其推出了大量衍生…
工程
- 5
- 0
机器之心23年11月28日
ChatGPT提醒词新玩法「make it more」，文生图效果翻倍
一个非常好用的 ChatGPT 提醒词技术。ChatGPT 想来大家都不陌生了，但如何用好它却没有想象中的那么容易。尤其是在文生图任务中，提醒上的一些技术非常有用。想要生成一张符合预期的图象，需要在输出提醒词上「投机」。近日，网络上流行起了 ChatGPT 的「make it more」文生图玩法，一时之间网友纷纷效仿试玩，看起来效果不错。底下这位推友展现了生成「辣面」，然后在提醒中渐进地要求增加…
工程
- 6
- 0
机器之心23年11月28日