资讯列表

五官乱飞,张嘴、瞪眼、挑眉,AI都能模仿到位,视频诈骗要防不住了

不能说完全相同,只能说表情一模一样。防不住,根本防不住,现在 AI 模仿能力已经发展到这种程度了?你前脚让自己的五官乱飞,后脚,一模一样的表情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的表情,都模仿的非常到位。加大难度,让眉毛挑的再高些,眼睛睁的再大些,甚至连嘴型都是歪的,虚拟人物头像也能完美复现表情。你在左边调节参数,右面的虚拟头像也会跟着变换动作:给嘴巴、眼睛一个特写,模仿的不能说完全相同,只能说表情一模一样(最右边)。这项研究来自慕尼黑工业大学等机构,他们提出了 GaussianAvatars,这种方法可用

NeurIPS 2023 | 模仿人类举一反三,数据集扩增新范式GIF框架来了

在这篇 NeurIPS 2023 论文中,来自新加坡国立大学和字节跳动的学者们受人类联想学习的启发,提出了数据集扩增的新范式,有效地提升了深度模型在小数据场景下的性能和泛化能力,极大地降低了人工收集和标注数据的时间和成本。代码已开源。论文链接::,深度神经网络的性能很大程度上依赖于训练数据的数量和质量,这使得深度学习难以广泛地应用在小数据任务上。例如,在医疗等领域的小数据应用场景中,人力收集和标注大规模的数据集往往费时费力。为了解决这一数据稀缺问题并最小化数据收集成本,该论文探索了一个数据集扩增新范式,旨在自动生成

可直接比较潜在新药的性能,杜克大学团队开发新的药物AI模型

编辑 | 白菜叶目前的分子机器学习模型往往将单个分子作为输入,来预测其生物、化学或物理特性。然而,此类算法需要大型数据集,并且尚未针对预测分子之间的性质差异进行优化,限制了它们从较小数据集学习的能力,也限制了直接比较两个分子预期性质的能力。杜克大学(Duke University)的研究人员开发了 DeepDelta,这是一种成对深度学习方法,可以同时处理两个分子,并学习从小数据集中预测两个分子之间的属性差异。在 10 个 ADMET 基准任务中,DeepDelta 方法显著优于两种已建立的分子机器学习算法:定向消

从“源头”保护数据安全:腾讯安全推出大模型隐私保护脱敏技术

大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。近日,腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。HaS为业内首个支持信息还原的自由文本脱敏技术,通过对用户上传给大模型的prompt(提示词)进行隐私信息脱敏,并在大模型返回计算结果后进行恢复,该方案兼顾了隐私安全和计算资源消耗:脱

美图公司发布视觉大模型4.0,提供专业设计与视频生成能力

12月5-6日,主题为“未来AI设计”的美图创造力大会(Meitu Creativity Conference,简称MCC)在厦门举行。本届大会由美图公司与站酷联合举办,聚焦于设计师生态和AI设计趋势。大会现场发布《2023年度AI设计实践报告》,同时,美图公司发布自研AI视觉大模型MiracleVision(奇想智能)4.0版本,主打AI设计与AI视频。美图与站酷达成深度战略合作,共同发起“新锐AI设计师”计划在美图公司创始人、董事长兼首席执行官吴欣鸿看来,AI正引领设计行业进入新的境界。“未来的AI设计就是设计

某「新化合物」90年前就有了?伦敦大学学院教授对DeepMind参与的「A-Lab」提出质疑

编辑 | 紫罗上周,Google DeepMind 和加州大学伯克利分校的一组研究人员在《Nature》杂志上发表了一篇备受期待的论文,提出了一个「自主实验室」——A-Lab,旨在利用 AI 和机器人技术加速新材料的发现和合成。被称为「自动驾驶实验室」的 A-Lab 展示了一个雄心勃勃的愿景,即当配备计算建模、机器学习、自动化和自然语言处理方面的最新技术时,人工智能驱动的系统可以在科学研究中实现什么目标。A-Lab 如何工作。(来源:UC Berkeley/Nature)然而,在发表后的几天内,人们开始对论文中提出

图灵奖得主LeCun:为什么未来几年AI更可能变得像狗一样聪明,而不是人类?

机器之能报道编辑:SiaAI 正在超越人类。上周,英伟达 CEO 黄仁勋本在《纽约时报》年度 DealBook 峰会上宣称。如果将通用人工智能 ( AGI ) 定义为能够以与人类智能「相当有竞争力」的方式完成测试的计算机,那么,「在未来五年内,我们将会看到这样的 AI 。」话音落下不久,Meta 首席人工智能科学家、深度学习先驱、图灵奖得主 LeCun 就在公开场合反驳了黄仁勋的说法。在上周纪念 Meta 基础人工智能研究团队( FAIR )成立 10 周年的活动中,LeCun 重申了他对 AI 在不久将来达到先进

五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈

屹立不倒的 Transformer 迎来了一个强劲竞争者。在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域,Transformer 架构不能这么形容,因为它几乎撑起了「整个江山」。自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的缺陷是:Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长

快速入局生成式AI,企业为什么选择携手亚马逊云科技?

在 2023 年上半年,AI 圈内有一个热议观点:「所有产品都值得用大模型重做一次。」这个设想,曾引发了人们无限的想象。最早的时候,我们以为「重做」可以依靠生成式 AI 助手,实际上这仅仅是大模型技术对现有数字化场景的一种补充,让以往一部分繁琐、重复的工作变得相对高效、简单,还未能触及深层。后来我们发现,用大模型「重做一遍」,除了意味着创新性的用户体验,还应该彻底变革当前的生产范式和生活范式。但是,如果想让所有行业、所有应用、所有服务都被革新,正确的路径是怎样的呢?在近日接受外媒 SiliconANGLE 采访时,

一张照片,TikTok小姐姐就都能跳舞了

动画视频生成这几天火了,这次 NUS、字节的新框架不仅效果自然流畅,还在视频保真度方面比其他方法强了一大截。前几日,阿里研究团队构建了一种名为 Animate Anyone 的方法,只需要一张人物照片,再配合骨骼动画引导,就能生成自然的动画视频。不过,这项研究的源代码还没有发布。让钢铁侠动起来。其实在 Animate Anyone 这篇论文出现在 arXiv 上的前一天,新加坡国立大学 Show 实验室和字节联合做了一项类似的研究。他们提出了一个基于扩散的框架 MagicAnimate,旨在增强时间一致性、忠实地保

不到1000行代码,PyTorch团队让Llama 7B提速10倍

PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很多开源项目如 llama.cpp、vLLM 、 MLC-LLM 等,为了取得更好的效果,都在进行不停的优化。作为机器学习社区中最受欢迎框架之一的 PyTorch,自然也是抓住了这一新的机遇,不断优化。为此让大家更好的了解这些创新,PyTorch 团队专门设置了系列博客,重点介绍如何使用纯原生 PyTorch 加速生成式 AI 模型。代码地址:,PyTorch 团队展示了仅使用纯原生

让3D编辑像PS一样简单,新算法GaussianEditor在几分钟内完成3D场景增删改

3D 编辑在游戏和虚拟现实等领域中发挥着至关重要的作用,然而之前的 3D 编辑苦于耗时间长以及可控性差等问题,很难应用到实际场景。近日,南洋理工大学联合清华和商汤提出了一种全新的 3D 编辑算法 GaussianEditor,首次实现了在 2-7 分钟完成对 3D 场景可控的多样化的编辑,全面超越了之前的 3D 编辑工作。近三年来,3D 编辑领域的工作普遍聚焦于 NeRF(神经辐射场),这是因为 NeRF 不仅能高保真地完成 3D 场景建模,而且其隐式特性极大地提高了可扩展性,相较点云、网格等传统方法有着显著的优势

让AI出图速度提高10倍!用 SDXL Turbo 实现快速出图!

大家好,这里是和你们一起探索 AI 绘画的花生~ 前段时间 Stabilty AI 官方发布了一个开源模型 SDXL Turbo,它和我们之前讲过的 LCM 一样,只需 1-4 步就能完成图像生成,同时图像质量依旧保持的不错。如果将 SDXL Turbo 部署到本地, 我们就可以免费在自己电脑上实现 AI 图像实时生成 今天就为大家推荐几种在本地部署使用 SDXL Turbo 模型的方法,包括 Stable Diffusion WebUI、ComfyUI 和 Fooocus,经测试可以将图像的生成速度提升 6-10

R-CNN作者Ross Girshick离职,何恺明、谢赛宁回归学界,Meta CV走出了多少大神

Yann LeCun 表示:「人才离开 FAIR 是我们的损失,但自己仍为他们感到高兴」。FAIR 又一位大佬级研究科学家「出走了」,这次是 R-CNN 作者 Ross Girshick。近日,Meta 首席科学家 Yann LeCun 发推宣布,Ross Girshick 将离开 FAIR,加入艾伦人工智能研究所(AI2)。此前离职的还有 ResNeXt 一作谢赛宁(加入纽约大学任助理教授)、Georgia Gkioxari(加入 Caltech 任助理教授)等。图源: Ross Girshick 的个人主页,证

通用视觉推理显现,UC伯克利炼出单一纯CV大模型,三位资深学者参与

仅靠视觉(像素)模型能走多远?UC 伯克利、约翰霍普金斯大学的新论文探讨了这一问题,并展示了大型视觉模型(LVM)在多种 CV 任务上的应用潜力。最近一段时间以来,GPT 和 LLaMA 等大型语言模型 (LLM) 已经风靡全球。 另一个关注度同样很高的问题是,如果想要构建大型视觉模型 (LVM) ,我们需要的是什么? LLaVA 等视觉语言模型所提供的思路很有趣,也值得探索,但根据动物界的规律,我们已经知道视觉能力和语言能力二者并不相关。比如许多实验都表明,非人类灵长类动物的视觉世界与人类的视觉世界非常相似,尽管

不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了

这是作者 Sebastian Raschka 经过数百次实验得出的经验,值得一读。增加数据量和模型的参数量是公认的提升神经网络性能最直接的方法。目前主流的大模型的参数量已扩展至千亿级别,「大模型」越来越大的趋势还将愈演愈烈。这种趋势带来了多方面的算力挑战。想要微调参数量达千亿级别的大语言模型,不仅训练时间长,还需占用大量高性能的内存资源。为了让大模型微调的成本「打下来」,微软的研究人员开发了低秩自适应(LoRA)技术。LoRA 的精妙之处在于,它相当于在原有大模型的基础上增加了一个可拆卸的插件,模型主体保持不变。L

NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA

类别级 6D 物体位姿估计是一个基础且重要的问题,在机器人、虚拟现实和增强现实等领域应用广泛。本文中,来自北京大学的研究者提出了一种类别级 6D 物体位姿估计新范式,取得了新的 SOTA 结果,论文已被机器学习领域顶会 NeurIPS 2023 接收。6D 物体位姿估计作为计算机视觉领域的一个重要任务,在机器人、虚拟现实和增强现实等领域有众多应用。尽管实例级别的物体位姿估计已经取得了显著进展,但它需要事先了解物体的特性,因此无法轻松适用于新的物体,这限制了其实际应用。为了解决这一问题,近年来,越来越多的研究工作集中

全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。论文链接:: Dataset:   Dataset:   Model: 等一系列大型基础模型的迅猛发展突破了人工智能技术的边界,为众多垂直领域带来了新的发展机遇和挑战。在医学领域,构建强大而全面的基础模型,可以为临床医疗任务提供更为智能、高效的解决方案,为医护人员和患者创造更为优质的医疗体验,开启医学领域技术创新的新篇章。然而,