AI资讯列表 - AI在线

何恺明谢赛宁团队步步解构扩散模型，最后竟成经典去噪自编码器

去噪扩散模型（DDM）是当前图像生成技术的一大主流方法。近日，Xinlei Chen、Zhuang Liu、谢赛宁与何恺明四人团队对 DDM 进行了解构研究 —— 通过层层剥离其组件，DDM 的生成能力不断下降，但其表征学习能力却能得到一定的维持。这表明 DDM 的某些组件可能对表征学习作用不大。对于当前计算机视觉等领域的生成模型，去噪是一种核心方法。这类方法常被称为去噪扩散模型（DDM）—— 它们会学习一个去噪自动编码器（DAE），其能通过一个扩散过程移除多个层级的噪声。这些方法实现了出色的图像生成质量，尤其适

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

融合多个异构大语言模型，中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大语言模型的成功，各家大厂和初创公司都纷纷创建自己的大语言模型。但从头训练新的大语言模型所需要的成本十分高昂，且新旧模型之间可能存在能力的冗余。近日，中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM，用于「融合多个异构大模型」。不同于以往的模型集成和权重合并，前者需要在推理时同时部署多个大语言模型，后者需要合并模型具备相同的结果，FuseLLM 能够从多个异构大语言模型中外化知识，将各自的知识

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

AI 生成 3D 模型最难的一关，终于被搞定了。无需任何训练数据，只需对着模型描述一句话，如「一个做作业的香蕉人」：或是「一只戴着 VR 眼镜的猫」：就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此，还能对已有的 3D 模型进行精细化贴图。这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新方法，它能够从复杂的文本描述中，直接生成富有想象力的高质量 3D 模型。目前，这项研究成果已被人工智能顶级会议 ICLR 2024 收录，代码也已经开源。对这项研究感兴趣的小伙伴，可以戳下方项目主

15岁开公司，22岁再创业公司估值超20亿美金，Cohere CEO自述开挂人生

机器之能报道编辑：SiaAidan Gomez 是明星生成式 AI 创业公司 Cohere 的联合创始人兼 CEO，曾入选 2023 年《时代》杂志 100/AI AI 领域最具影响力人物名单。前段时间，这家位于加拿大多伦多的创业公司完成 C 轮融资，支持者包括英伟达、Salesforce、甲骨文等，估值超 21 亿美元。公司天使轮投资人包括李飞飞、Geoffrey Hinton、Pieter Abbeel 等大腕儿。作为 OpenAI 最大竞争对手之一，与非常注重 2C 部署的 ChatGPT 不同，Cohere

AI全链路营销公司「奥创光年」完成1500万美元A+轮融资，美图、凯辉联合领投

今日，AI全链路营销公司「奥创光年」（Mogic Ai）对外宣布，已获得1500万美元A 轮融资。本轮融资由美图公司、凯辉基金联合领投、彬复资本、万物创投跟投，其中凯辉基金为奥创光年A轮领投基金，万物创投曾参与奥创光年天使轮投资，本轮继续追加投资。这是奥创光年于2023年8月首次披露其A轮千万级美元融资后，仅在半年内再度公布的新一轮融资，本轮融资由华兴资本担任独家财务顾问。奥创光年是一家AI Native营销公司，团队现已推出SaGa视频内容生成模型及Mogic Content AI Studio（CAS）全链路营

手把手教程！用AI快速做挂件+动态的微信红包封面！

春节马上就要到了，一年一度的微信红包封面大战又要开始了。微信公众号奖了我一万多个红包封面，所以这次我打算挑战一下做个最复杂的红包封面，也就是挂件动态，并且借由这个测试下现在 AIGC 的能力边界。更详细的红包教程 7 款AIGC 工具教程：本次测试用到的工具有：图像生成：WHEE 视频生成：Runway 图像编辑：Photoshop sketch 视频剪辑：剪映图像压缩：iloveimg官方文件与帮助文档：、封面图生成 1. 目标拆解带挂件的红包封面→需要 png 格式→需要抠图→好扣的图→扁平风扁

Runway 王炸更新！5个笔刷让人人都能成为神笔马良

前言上周 Runway 再次升级 Gen-2「运动笔刷」更名为「多头运动笔刷」（Multi Motion Brush），这次可以说是 AI 视频可控性的王炸进化！5 个笔刷，可以对视频局部调整，人人秒变神笔马良。目前所有用户都可以免费使用，额度 100 秒，每使用一次消耗 4 秒。接下来让我们一起来试一试吧。更多AI视频干货：一、使用体验目前，Runway 可以在官网上或者下载手机 APP 使用。 1. 登录网址打开官网：进入 Runwayml 主页，点击图片上的粉色「Start with imag

全方位盘点！7个常用的数字人 AI 设计神器

数字人 IP 设计是一项复杂而富有挑战性的任务，需要借助各种工具来实现。在这个领域，有许多优秀的工具可供选择，它们可以帮助我们创建出逼真、生动的数字人。本文将介绍一些常用的数字人制作工具，包括 MJ SD、虚幻引擎、Blender/C4D/MAYA、SadTalker、微软 Azure、PIKA 和 runway。这些工具在数字人设计的不同方面都有着独特的优势，我们将逐一探讨它们的功能和特点。通过了解这些工具，你将能够更好地掌握数字人设计的技术，实现你的创意想象。更多数字人干货：一、形象生成工具 1. MJ SD

让IP替品牌讲好故事！夸克x变形金刚联名设计过程复盘

当下越来越多的品牌加入跨界 IP 营销队伍，可以看到如国潮、潮流服饰、二次元、影视等的联名，其底层逻辑还是品牌在寻找一种流量变现。对于夸克，我们认为与其说教式的结合或博眼球式的曝光，不如换个角度，找到两者的契合点。把品牌的理念、能量寄托到 IP 上，由场景角色的化身为你讲好品牌故事，可能更容易让人记住。在不久前的期末备考期，夸克跟变形金刚电影的联名中，我们实践了这种思路。而说到这次跨界营销中的亮点，夸克与变形金刚电影的联名手办作为一种新的营销策略，为品牌带来了更多的曝光和关注度。更多IP设计干货：一、定位生

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 Gemini 成为了业界第一个原生的多模态大模型，它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。很明显，新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80

Mamba论文为什么没被ICLR接收？AI社区沸腾了

基于 Mamba 的创新正不断涌现，但原论文却被 ICLR 放到了「待定区」。2023 年，Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」，它是一种选择性状态空间模型（ selective state space model），在语言建模方面可以媲美甚至击败 Transformer。而且，它可以随上下文长度的增加实现线性扩展，其性能在实际数据中可提高到百万 token 长度序列，并实现 5 倍的推理吞吐量提升。在发布之后的一个多月里，Mamba 逐渐展现出自己的影

OpenAI官方下场修复GPT-4变懒，上新多个模型、还大降价

今天，OpenAI 一口气宣布了 5 个新模型，包括两个文本嵌入模型、升级的 GPT-4 Turbo 预览版和 GPT-3.5 Turbo、一个审核模型。不知大家是否还记得，去年年底 GPT-4 开始变「懒」的事实。比如在高峰时段使用 GPT-4 或 ChatGPT API 时，响应会变得非常缓慢且敷衍，有时它会拒绝回答用户提出的问题，甚至还会单方面中断对话。这种情况对于码农来说，更是深有体会，有人抱怨道「让 ChatGPT 扩展一些代码，它竟然让我自己去写。」原本想借助 ChatGPT 帮助自己编写代码，现在好

大模型推理成本排行榜来了：贾扬清公司效率领跑

风投烧完之后，哪些大模型创业公司会开始盈利？「大模型的 API 是个亏本买卖吗？」随着大语言模型技术的逐渐实用化，越来越多的科技公司提出了大模型 API 供开发者们使用。但前有 OpenAI「每天烧掉 70 万美元」，我们也有理由怀疑以大模型为基础的业务到底能不能持续。本周四，AI 创业公司 Martian 为我们仔细盘算了一下。排行榜链接： LLM Inference Provider Leaderboard 是一个开源的大模型 API 推理产品排行榜。对于每个供应商的 Mixtral-8x7B 和 Llama-

大模型×文本水印：清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述

本文介绍首个大模型时代下的文本水印综述，由清华、港中文、港科广、UIC、北邮联合发布，全面阐述了大模型时代下文本水印技术的算法类别与设计、评估角度与指标、实际应用场景，同时深入探讨了相关研究当前面临的挑战以及未来发展的方向，探索文本水印领域的前沿趋势。论文：A Survey of Text Watermarking in the Era of Large Language Models论文链接：：文本水印新纪元文本水印是一种信息隐藏技术，起源可以追溯到上个世纪 90 年代。它通过将机密信息（水印）嵌入文本中，实现了

Controlnet 最新动态！6款超好用的新模型解析（附下载）

大家好我是花生~ 之前为大家系统介绍过 Stable Diffusion WebUI 中 Controlnet 插件的安装使用方法，也系统梳理过各个模型的用法。现在 Controlnet 又有了一些新的模型和功能，今天正好为大家梳理一下。相关模型文件都在文末的云盘链接内，有需要的小伙伴记得下载~ Controlnet 相关推荐：一、Animal_openpose Animal_openpose 是一个专门提取狗、鹿、马、豹等四足动物姿势骨架的模型，也可以用来引导人马等奇幻形象的生成。使用时需要： ① 下载 rtmp

岩芯数智推出非Attention机制大模型，支持离线端侧部署

1月24日，上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称，Yan模型使用了全新自研的“Yan架构”代替Transformer架构，相较于Transformer，Yan架构的记忆能力提升3倍、速度提升7倍的同时，实现推理吞吐量的5倍提升。岩芯数智CEO刘凡平认为，以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中小型企业望而却步。其内部架构的复杂性，让决策过程难以解释；长序列处理困难和无法控制的幻觉问题也限制了大

美国家AI研究资源试点项目上线，NASA、英伟达、OpenAI等捐赠关键基础资源

机器之能报道编辑：吴昕为确保美国在 AI 技术领域的领先地位，拜登政府曾在几个月前发布 AI 行政命令。该行政命令指出，将通过国家人工智能研究资源试点（ National AI Research Resource，NAIRR ）促进美国各地的 AI 研究。今天，美国国家科学基金会（ NSF ）正式启动这个庞大的试点项目，让更多美国研究人员和学校（而不仅仅是财力雄厚的科技公司或精英大学及其研究人员）获得计算资源。试点项目的官网显示NSF 联合了 10 个联邦机构以及多家私营企业、非盈利组织等机构组成联盟，为有抱负的

小米新一代Kaldi团队论文解读：新型自动语音识别 (ASR) 模型Zipformer诞生之路｜ICLR 2024 Oral

近日，小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic speech recognition》被 ICLR 2024 接收为 Oral (Top 1.2%)。论文链接：： Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队，专注于开源语音基础引擎研发，从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路，旨在提