资讯列表

Midjourney 又变强了!一文详解新功能 Style Reference

大家好我是花生~ 没错今天依旧是 Midjourney 的相关内容, 因为它又推出了一个非常重要的新功能—— Style Reference (风格参考),可以学习一张图像的风格并生成相似新图像。 新功能的用法是怎样的?与 Image Prompt 垫图又有什么区别呢?一起来看看吧~ 上期回顾:一、 Style Reference 使用介绍 如果说 Style Tuner 让我们能探索出更多独特的新风格,那么 Style Reference 就让复制某种特定风格变得更加容易,作用类似于 SD 里的 controln

重磅发布!大淘宝设计部 2023 年度AI设计实践报告出炉

22 年中,绘制头像还在用 3D 进行建模,到了年末,就已经用 AI 直接生成了。 22 年末,面对 AI 工具设想能不能在我们业务中进行尝试,到了 23 年中,AI 工具已经覆盖我们团队所承接的所有营销场景业务。 23 年初,团队同学讲到 AI 工具的应用时觉得这是一个专业亮点,到了 23 年末,AI 工具已成为我们团队设计师的基础能力。 这一切,都变的太快。 这一年,也积累了些心得。 首先 AI 工具带来降本增效,让我们的创意效果快速产生,设计方案有效达成。 其次增效不仅仅增的是效率,还有设计效果。设计自由度极

大的要来了:谷歌Bard被曝将更名为Gemini,Ultra 1.0更强但收费、安卓App也会来

也许,谷歌此举是为了提前应对 OpenAI 可能于今年推出的 GPT-4.5 或 GPT-5。终于,谷歌去年 12 月承诺的 Gemini Ultra 要与大家见面了吗?今天,推特网友爆出的谷歌 Bard「大料」引发了社媒广泛热议。这位爆料者提供了一张谷歌 Bard 的更新日志截图,显示接下来几天会迎来一次非常重大的调整。谷歌 Bard 预计将从以下两个方面进行调整:一是 Bard 将正式更名为 Gemini,并亮相 Gemini Ultra 1.0 模型;二是 Gemini 安卓应用程序也将到来。对于这份日志更新

不分割成token,直接从字节中高效学习,Mamba原来还能这样用

给出一句「Hello, world!」你要怎么把它喂给 AI 模型?目前常见的方法是利用某种算法将它分为若干 token,比如 ["Hello", ",", "world", "!"]。模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。但这种方法依赖于有效的 token 分割算法,而且可能无法很好地处理新词、专有名词或非标准用法。因此,不少研究者也在尝试另一种方法:直接让模型从字节中学习。在 Mamba 问世之后,这条路似乎有希望了。在定义语言模型时,通常会使用一种基

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用,使得在计算成本相对不变的条件下,模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。MoE 设计的初衷,是使模型的学习更加 “术业有专攻”,其有效性已得到业界肯定。然而现有 MoE

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字,但是大多数情况下内容的创意程度和文风都经不起深究。尤其是在创作领域,大模型常见的 “GPT 文风” 更是让利用大模型进行创意写作看起来简单,实际却困难重重。近日,波形智能的大模型团队发布了一款专精 AI 写作的专业大模型 Weaver。通过写作领域专业预训练和一套创新性的数据生成和 Alignment 算法,Weaver 在写作领域的各种

看房、打碟、开特斯拉车门、吸尘攒金币:刚刚,第一批把Vision Pro抱回家的人已经开玩了

在全新的 App Store 中,Vision Pro 已经有超过 600 种第三方应用程序体验可供用户探索,包括 OpenAI 的 ChatGPT。切洋葱不用怕辣眼睛、吃油条不用怕弄脏键盘、吸尘不用怕无聊…… 谁能想到,一下子解决这么多问题的居然是苹果 Vision Pro。在刚刚过去的一天,第一批用户已经从苹果零售店拿到了自己的 Vision Pro,第一个拿着它走出来的人甚至享受了明星般的待遇。这一天,苹果 CEO 库克也亲自到场,为取货的人打开大门。有人说,买家现在的心态就像这样:  因为选错提货方式还没拿

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。可见,嵌入在 NLP 领域是非常重要的。不过,OpenAI 的嵌入模型并不是免费给大家使用的,比如 text-embedding-3-small

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil

像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

除了分数,打出分数背后的理由对于大模型对齐更具价值。现有的大模型对齐方法包括基于示例的监督微调(SFT)和基于分数反馈的强化学习(RLHF)。然而,分数只能反应当前回复的好坏程度,并不能明确指出模型的不足之处。相较之下,我们人类通常是从语言反馈中学习并调整自己的行为模式。就像审稿意见不仅仅是一个分数,还包括许多接受或者拒绝的理由。那么,大语言模型能否也像人类一样利用语言反馈来改善自身呢?最近,香港中文大学和腾讯 AI Lab 的研究者们提出了一项名为对比式非似然训练(Contrastive Unlikelihood

独家 | 月之暗面正在进行两亿美元融资,投前估值高达 15 亿美元

作者丨郭   思编辑丨陈彩娴AI 科技评论独家获悉,月之暗面近日正在进行 2 亿美元融资,本轮投资由蚂蚁和阿里集团共同投资,投前估值预计 15 亿美元。 据了解,月之暗面团队成员人数在100人至200人之间。 团队创始人杨植麟是一个90后,本科毕业于清华大学计算机科学与技术系,博士就读于全美自然语言处理排名第一的卡内基梅隆大学语言技术研究所(LTI),师从苹果AI研究负责人Ruslan Salakhutdinov、谷歌首席科学家William Cohen。

如何借助AI让用户体验更智能?来看手机天猫的实战案例!

AI 当前如火如荼,正以惊人的速度改变着我们的生活和工作方式。我们淘宝设计团队也在探索如何借助 AI 的能力,打破谈及 AI 即聊天对话的思维惯性,构建更高效、实用、符合电商场景的体验范式,来帮助用户解决全链路购物场景问题,重塑用户的购物体验。 更多天猫设计案例:手猫 AI 购物助手 一、回归需求本身 谈到 AI 智能工具,大家对 Chat GPT 这类沉浸式聊天对话式 AI 产品一定不陌生。 但对电商平台来说,用户场景更为复杂,用户常常在搜索和查看商品间反复横跳,在商品详情页庞杂的信息中翻找,在多个商品间纠结不知

扎克伯格分红7亿刀,Meta股价大涨14%,开源大计成了​?

Meta 正在走出阴霾。伴随着 Meta 的股价周四盘后上涨近 14%,升至历史新高,这家公司宣布了有史以来的首次股息派发。最近一次财报电话会议公布内容显示,Meta 公布的 2023 全年营收为 1349 亿美元,较 2022 年增长 16%;净利润为 391 亿美元,同比增长 69%。其中,第四季度营收为 401 亿美元,超出预期的 391.8 亿美元,同比增长 25%。从 3 月份开始,Meta 将按季度向 A 类和 B 类普通股派发现金股息 50 美分。根据彭博社汇编的数据,首席执行官扎克伯格持有约 3.5

比肩GPT-4,商汤日日新大幅升级4.0,多模态能力领先一步

大模型的未来时刻,已经来了?速度太快了。商汤一下子把多模态大模型的发展进度条,快进到了落地阶段。商汤的大模型体系「日日新 SenseNova」今天刚刚发布了 4.0 版,不论语言能力还是文生图能力都有全面升级,还自带低门槛的落地工具。新一代 SenseNova 不仅在大语言模型、文生图模型等方面进行了重大升级,部分垂直领域能力超越 GPT-4,还发布了全新多模态大模型,并面向数据分析、医疗等场景提供了全新版本,让大模型通用能力适配到了更多领域。API 申请网址:,商汤还推出了日日新・商量大语言模型 Function

年龄两岁,教龄一年半:婴儿AI训练师登上Science

只用 61 个小时的数据:人们终于证明了,利用当代 AI 工具,实现「真正的语言学习」是可行的。在公开采访中,图灵奖得主 Yann LeCun 多次提到,现在的 AI 模型和人类婴儿相比,学习效率实在是太低了。那么,如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西,它能学到什么?最近,Science 杂志上的一篇论文进行了初步尝试。研究发现,即使数据有限,AI 模型也能从 10 到 100 个例子中学到单词 - 视觉所指对象之间的映射,而且能够零样本地泛化到新的视觉数据集,并实现多模态对齐。这说明,利用当今的人

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费巨量的计算资源和数据,因而预训练模型的参数也正成为各大机构重点保护的核心竞争力和资产。然而,不同于传统的软件知识产权保护可以通过比对源代码来确认是否存在代码盗用,对预训练模型参数盗用的判断存在以下两方面的新问题:1) 预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。2) 更重要的是,预训练模型的输出和参数都会随着 SFT、RLHF、continue pretraining 等下游处理步骤而变化。这使得无

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

千元机也能本地运行。在大模型不断向着大体量方向前进的同时,最近一段时间,人们在优化和部署方面也取得了成果。2 月 1 日,面壁智能联合清华 NLP 实验室在北京正式发布了旗舰端侧大模型「面壁 MiniCPM」。新一代大模型被称为「性能小钢炮」,直接拥抱终端部署,同时也具有同量级最强的多模态能力。面壁智能本次提出的 MiniCPM 2B 参数量仅有 20 亿,使用 1T token 的精选数据训练。这是一个参数量上与 2018 年 BERT 同级的模型,面壁智能在其之上实现了极致的性能优化与成本控制,让该模型可以「越

代谢数据集上四项指标达94%~98%,西南交大团队开发多尺度图神经网络框架,助力药物研发

作者 | 刘悦睿编辑 | 红菜苔药物研发过程中,了解分子与代谢路径之间的关系,对于合成新分子和优化药物代谢机制至关重要。西南交通大学杨燕/江永全团队开发了一种新型的多尺度图神经网络框架MSGNN,来将化合物与代谢路径联系起来。它包括特征编码器、子图编码器和全局特征处理器三部分,分别学习了原子特征、子结构特征和额外的全局分子特征,这三个尺度的特征可赋予模型更全面的信息。该框架在 KEGG 代谢路径数据集上的表现优于现有方法,Accuracy、Precision、Recall、F1分别达到98.17%、94.18%、9