资讯列表
当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩
看看这个 AI 生成的女团 MV 效果如何。如果你手机里有一些修图软件,你可能用过里面的「AI 绘画」功能,它通常会提供一些把照片转换为不同风格的选项,比如动漫风格、写真风格。但如今,视频也可以这么做了:这些动图来自 X 平台(原推特)网友 @CoffeeVectors 生成的一段视频。他把韩国女团 BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 输入了一个 AI 工具,很快就得到了动漫版的 MV。完整效果是这样的:这个视频是借助一个名叫 ComfyUI 的工具来完成的。ComfyUI 是一个
当数据成为「生产资料」,三篇论文总结如何用水印技术保护AI训练数据版权
1、引言 -- 为什么要在 AI 训练数据中添加水印?深度神经网络(DNN)以其高效率和高效益被广泛应用于许多关键任务应用和设备中。高质量的已发布(如开源或商业)数据集是 DNNs 技术发展的关键因素之一。研究人员和开发人员利用这些数据集验证其模型的有效性,进而加快 DNN 的开发。这些已发布数据集非常有价值,但收集数据的过程通常耗时且非常昂贵。在这样的应用背景下,在 AI 训练数据中添加水印,对于保护数据集免遭未经授权的使用以及保护数据创作者的版权具有重大的意义,值得深入研究和探讨。目前,已有的一些数据保护技术,
让天下没有难做的开发和运维,DevOps终于有了专属大模型,蚂蚁和北大联合发布
大语言模型在各类 NLP 下游任务上都取得了显著进展,各种垂直领域大模型更是如雨后春笋般层出不穷。然而在 DevOps 领域,却迟迟没有相关大模型问世。为填补这方面的空白,蚂蚁集团联合北京大学发布了面向中文 DevOps 领域的首个开源大语言模型,即 DevOps-Model 。该大模型旨在帮助开发人员在软件开发和运维的整个生命周期中提高效率,最终目标是实现在 DevOps 流程中面临任何问题时,都可以通过向 DevOps-Model 提问来获取解决方案!当前已经开源了 7B 和 14B 两种规格的 Base 和
Nature | 通过序列聚类和 AlphaFold2 预测多种构象
编辑 | XAlphaFold2 (AF2) 通过准确预测蛋白质的单一结构彻底改变了结构生物学。然而,蛋白质的生物学功能通常取决于多种构象亚状态,而致病的点突变往往会导致这些亚状态内的种群变化。来自布兰迪斯大学和霍华德·休斯医学研究所(Brandeis University and Howard Hughes Medical Institute)、哈佛大学和剑桥大学的研究团队,研究证明通过序列相似性对多序列比对 (MSA) 进行聚类,使 AF2 能够以高置信度对已知变形蛋白(metamorphic protein)
230页长文,涵盖5大科学领域,微软团队使用GPT-4探索LLM对科学发现的影响
编辑 | 紫罗前不久,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统优化技术实现科学发现。11 月 13 日,微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响:使用 GPT-4 的初步研究》(「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」)的文章。文章篇幅长达 230 页。论文链接:,自然
WPS AI开启公测,将面向全体用户陆续开放体验
11 月 16 日,金山办公宣布旗下具备大语言模型能力的人工智能办公应用 WPS AI 开启公测,AI 功能面向全体用户陆续开放体验。即日起,用户可以前往 WPS AI 官网 (ai.wps.cn) 申请权益,并下载最新版 WPS PC 客户端限时体验文字 / 智能文档、表格 / 智能表格、PPT 演示组件的 AI 能力。另外,安卓、iOS 和 Mac 端的 AI 功能也将于 11 月底陆续开放。WPS AI 自今年 4 月 18 日首次对外亮相以来,持续优化了产品体验。5 月 16 日,WPS AI 对外展示了类
超详细!Stable Diffusion 卡通IP调整姿势保姆级教程
已有 IP 如下所示图左,希望将改成类似图右的姿势,该怎么用Stable Diffusion 实现呢,完整教程来了!
往期教程:首先经过测试 SD 的 Controlnet Openpose 无法识别卡通形象的骨骼,因此需要我们用 Openpose editer 手动添加骨骼图,大致得到以下骨骼图,点击按钮发送到 Controlnet,为了方便后续使用,可以将骨骼图下载下来备用;接下来的思路:首先需要在 SD 中跑出和图 1 形象,这样后续才可以在 SD 中做控制和重绘等工作,并让形象按新骨骼换姿势
得到相似度高的
实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万
生成式模型进入「实时」时代?文生图、图生图已经不是什么新鲜事。但在使用这些工具的过程中,我们发现它们通常运行缓慢,导致我们要等一段时间才能拿到生成结果。但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到实时的连续生图。 图源: 的全称是 Latent Consistency Models(潜在一致性模型),由清华大学交叉信息研究院的研究者们构建。在这个模型发布之前,Stable Diffusion 等潜在扩散模型(LDM)由于迭代采样过程计算量大
比ChatGPT早发两周,被喷下线的Galactica成了LeCun最大的意难平
今天我们提到大型语言模型(LLM),第一个想到的就是 OpenAI 的 ChatGPT。一年来,ChatGPT 因其强大的性能,广泛的应用前景而爆火出圈。但谈到大型语言模型,ChatGPT 并不是第一个。一年前,也就是 OpenAI 发布 ChatGPT 的前两周,Meta 发布了一个名为 Galactica 的试用版模型。作为一个大型语言模型,Galactica 是在大量的论文、参考资料、知识库和许多其他来源的科学语料库上进行训练的,包括超过 4800 万篇论文、教科书和讲义、数百万种化合物和蛋白质知识、科学网站
S-LoRA:一个GPU运行数千大模型成为可能
一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训练和服务成本会变得非常高昂。低秩适配(LowRank Adaptation,LoRA)是一种参数效率高的微调方法,通常用于将 base 模型适配到多种任务中,从而产生了大量从一个 base 模型衍生出来的 LoRA 适配程序。这种模式为服务过程中的批量推理提供了大量机会。LoRA 的研究表明了一点,只对适配器权重进行微调,就能获得与全权重微调相当的性能。虽然这种方法可以实现单个适配器
微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《试过 GPT-4V 后,微软写了个 166 页的测评报告,业内人士:高级用户必读》。近日,微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起,打造出了更强大的 MM-Vid,其不仅具备其它 LMM 的基本能力,还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介,可以通过文本、视觉和音
Agent4Rec来了!大模型智能体构成推荐系统模拟器,模拟真实用户交互行为
一直以来,推荐系统领域面临模型线上线下效果差距大的痛点问题,昂贵的线上 A/B 测试成本使得广大研究人员望而却步,也造成学术界的推荐系统研究与工业界的实际应用间的巨大割裂。随着大语言模型展现出类人的逻辑推理和理解能力,基于大语言模型的智能体(Agent)能否模拟真实用户的交互行为,从而构建一个可靠的虚拟推荐 A/B 测试场景,以帮助推荐研究的应用落地,是一个急迫、重要且极具经济价值的问题。为了回答这个问题,来自新加坡国立大学 NExT 实验室团队构建了 Agent4Rec,一个由 1000 名 agents 构
幻觉率直降40%,中国电信千亿参数「星辰大模型」炸场,业界首提缓解多轮幻觉解决方案
经历了 2023 年「百模大战」的洗礼,不管是国内还是海外,不管是开源还是闭源,各家大模型都从追赶和超越中获得了实质的进步。在语言、语音、视觉领域,大模型已经获得了强大的生成能力,不仅能在几秒钟之内生成非常合理的内容,甚至可以媲美拥有多年技能和知识储备的专家。这些进展似乎为「大模型超越人类智能」的说法提供了令人信服的证据,也具象化了大模型规模化落地的前景。按照目前的进展情况,2024 年很可能会成为大模型部署元年。但同样需要注意的是,大模型在技术上仍然存在一些关键缺陷,这或许会导致应用之路并不一定如想象中顺利。业界
最强AI芯片英伟达H200深夜发布,Llama2-70B推理提速90%,2024年二季度发货
芯片巨头英伟达,又打出一张王牌。英伟达在 2023 年全球超算大会(SC2023)上发布了目前世界上最强的 AI 芯片 H200。这款新的 GPU 基于 H100 进行了升级,内存带宽提高了 1.4 倍,内存容量提高了 1.8 倍,提高了处理生成式 AI 任务的能力。该公司高性能计算和超大规模数据中心业务副总裁 Ian Buck 表示:「英伟达在硬件和软件上的创新正在缔造新型 AI 超算。」英伟达在官方博客中表示:NVIDIA H200 Tensor Core GPU 具有改变游戏规则的性能和内存功能,可增强生成式
被OpenAI带火的Agent如何解放人力?清华等发布ProAgent
近日,来自清华大学的研究人员联合面壁智能、中国人民大学、MIT、CMU 等机构共同发布了新一代流程自动化范式 “智能体流程自动化” Agentic Process Automation(APA),结合大模型智能体帮助人类进行工作流构建,并让智能体自主处理工作流中涉及复杂决策与动态处理的环节,进一步提升自动化的程度,提高效率,将人类从繁重的劳动中解放出来。项目地址::,自动化是人类技术发展的主要动力,帮助人类从复杂、危险、繁琐的劳动环境中解放出来。自早期农业时代的水车灌溉,到工业时代的蒸汽机,人类一直在不断寻求更加先
可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT
编辑 | 萝卜皮几个世纪以来,研究人员一直在寻找连接不同领域知识的方法。随着人工智能的出现,我们现在可以探索跨领域(例如,力学-生物学)或不同领域(例如,失效力学-艺术)的关系。为了实现这一目标,麻省理工学院(MIT)原子与分子力学实验室 (Laboratory for Atomistic and Molecular Mechanics,LAMM)的研究人员使用了经过微调的大型语言模型 (LLM),来获取多尺度材料失效的知识子集。该方法包括使用通用 LLM 从原始来源中提取问答对,然后进行 LLM 微调。由此产生的
大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%
排行榜一出,高下立见。人工智能发展进步神速,但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。幻觉一直是大模型的致命缺陷。由于数据集庞杂,其中难免会有过时、错误的信息,导致输出质量面临着严峻的考验。过多重复的信息还会使大模型形成偏见,这也是幻觉的一种。但是幻觉并非无解命题。开发过程中对数据集慎重使用、严格过滤,构建高质量数据集,以及优化模型结构、训练方式都能在一定程度上缓解幻觉问题。流行的大模型有那么多,它们对于幻觉的缓解效果如何?这里有个排行榜明确地对比了
三秒4张图!让 Stable Diffusion 出图速度暴增的新一代生成模型LCM
大家好,这里是和你们一起探索 AI 的花生~
最近一种新的图像生成形式逐渐兴起,即生成的图像会随输入的文字或笔画动作迅速变化,这让图像生成有了更多灵活探索和准确控制的空间。这种「实时反馈」的感觉源于模型能在几秒钟内,根据输入生成新的内容,而之所以能有这么快的生成速度,依靠的就是 LCM 这项新技术。视频内容来源: :
一、LCM 简介
LCM 项目主页:
Github 主页:
LCM 全称 Latent Consistency Models(潜在一致性模型),是清华大学交叉信息科学研究院研发的一款生成模型。它