5000字爆肝测评!五月 AI 资讯及实用测评合集

前言 想不想了解近期 AI 圈又发生了哪些劲爆大事件?赶紧来看这篇文章 get 第一手 AIGC 资讯和深度测评——没错,我们的AIGC 30天测评又和大家见面了。 如今各类 AIGC 工具平台百花齐放,我们的测评致力于持续追踪最新的 AI 技术进展,将 AI 圈内发生的重大事件与工具进行深度实测并汇总成文,定期发布带给同学们,希望可以帮助大家快速了解最新的 AIGC 趋势,并可以及时地将这些 AI 工具结合到工作、学习与生活中,运用 AIGC 将自己的生活变得更加丰富多彩! 此前,我们已经发布了第一期测评,如有需

5000字爆肝测评!五月 AI 资讯及实用测评合集

前言

想不想了解近期 AI 圈又发生了哪些劲爆大事件?赶紧来看这篇文章 get 第一手 AIGC 资讯和深度测评——没错,我们的AIGC 30天测评又和大家见面了。

如今各类 AIGC 工具平台百花齐放,我们的测评致力于持续追踪最新的 AI 技术进展,将 AI 圈内发生的重大事件与工具进行深度实测并汇总成文,定期发布带给同学们,希望可以帮助大家快速了解最新的 AIGC 趋势,并可以及时地将这些 AI 工具结合到工作、学习与生活中,运用 AIGC 将自己的生活变得更加丰富多彩!

此前,我们已经发布了第一期测评,如有需要各位同学可以点击回顾。

另外与此前不同的是,本月我们对测评内容的筛选流程进行了升级。在持续大范围监控 AIGC 大模型与工具平台的上新/更新之外,我们还开始对不同 AI 工具的相似功能进行横向对比测试,例如我们同时对 Remini 和 Midjourney 这两个 AI 工具进行黏土风格图像生成的测试,并最终总结出了成功经验分享给大家,希望可以帮助大家先人一步地拓展相关的 AI 能力边界,所以这篇文章大家一定要看到最后哦。

接下来,就让我们来看看近期 AIGC 的最新进展吧!

第一章:近期 AI 圈大事件汇总

我们先来快速浏览一下近期 AI 圈发生的重要事件。每月的 AI 圈事件划分为国内和国外,依次做整理陈述。为了保证内容的条理性,方便大家阅读,我们用表格的形式呈现。顺序为采集时随机排列,排名不分先后。

第 1 节:国内篇

5000字爆肝测评!五月 AI 资讯及实用测评合集

第 2 节:国外篇

5000字爆肝测评!五月 AI 资讯及实用测评合集

第二章:近期重点 AI 产品实测

第 1 节:Remini

1)介绍概览

Remini 的黏土风格滤镜在今年的五一“重塑”了世界,相信各位同学都被它狂刷屏了吧?接下来,我们来看看 Remini 黏土滤镜的功能实测,同时也为大家奉上可替代 Remini 的黏土风图片制作方法,更方便设计师使用!

5000字爆肝测评!五月 AI 资讯及实用测评合集

2)产品实测

5000字爆肝测评!五月 AI 资讯及实用测评合集

Remini 的使用体验是比较简单和快速的。下载 app 打开后,Remini 会提供为期一周的免费试用(Remini 会在试用期截止后开始自动收取最低 4.99 美元/周的订阅费用,所以如果不想继续付费使用的话,大家一定要记得在后台取消订阅喔),之后在操作界面上选择第一位的粘土风格,再上传自己的图片素材,等待十几秒即可获得转换为可爱呆萌的黏土风格图像了!

以上就是基础的黏土风图像制作的过程,不过作为专业的设计师,相信大家不会只满足于此,所以接下来,我们为大家尝试了黏土风进一步的探索——利用AI图片生视频的软件制作黏土动画。

目前市场上 AI 视频生成软件的选择是比较丰富的,例如 Runway、Pika、VEED 等,在得到转换为黏土风格的图片后,我们可以将图片导入 AI 视频软件直接生成对应的视频。在这里我们就先以 Runway 为例,为大家演示一下黏土风图像转视频的效果:

我们可以看到动起来的黏土风动画的整体效果还是不错的,这样动态的呈现方式拓展了黏土风的使用场景,不论是面对设计师、运营从业者、自媒体博主等专业人群的工作需求,抑或用户只是想为自己的照片增添独特的魅力,这样将原始图像转换为黏土风格再转换为动画的链路都能满足。在此我们为大家抛砖引玉,各位同学可以基于此发散灵感,做更深入的探索。

那么回到 Remini 的效果测评,通过多次实测,我们发现适用于 Remini 黏土滤镜的图像特点:

① 除了已被大量验证的真人图片,Remini 对手绘插画也可进行 3D 化的黏土滤镜转换;

5000字爆肝测评!五月 AI 资讯及实用测评合集

② 尽量选择中近景,画面色彩越丰富越好,更有趣味性和动画感;

5000字爆肝测评!五月 AI 资讯及实用测评合集

③ 先把照片转变成卡通风格,然后再用黏土滤镜会更好看。

5000字爆肝测评!五月 AI 资讯及实用测评合集

与此同时,在使用中我们也发现 Remini 黏土滤镜也不免存在 AI 生图技术的一些共有缺点:

①  对图像内容的识别与判断精准度有欠缺,无法处理好图片中的文字信息;

② 会修改原图内容;

③ 由于黏土滤镜具有的手工感和粗糙感等特点,一些非常精致的细节无法做到 100%还原;

④ 同一张图片素材每次只能生成一张对应的粘土风格图片,如果不满意只能退回到第一步重新开始。

5000字爆肝测评!五月 AI 资讯及实用测评合集

3)产品评价

总结来看,Remini 的黏土滤镜使用门槛低,并且它的 AI 生成的黏土风格效果非常逼真和生动,所以对于日常个人使用还是很适合的。其次,尽管每款滤镜都会有它或长或短的生命周期,但是我们在测评过程中发现,在短短的一周的时间里,Remini 从黏土风滤镜已经拓展到了其它风格的滤镜,甚至研发出了新的多重滤镜搭配玩法——这个可能才是一个产品可以生存下去的基础,用爆款做引子,引发用户对产品的连锁体验和传播。

不过,如果期待在这个风口上把 Remini 的黏土风格直接使用在设计工作中,因为其自成一派的手工感和“丑萌粗笨”风格导致物料可能需要人工后期调整,且 Remini 不支持对生成图像进行修改或批量生成,这些缺点不适用于对画面元素精准度要求高及执行效率要求较高的项目。看到这里,同学们可能感到有点心灰意冷,但是我们探索出了解决之道,大家请看下方详解↓

4)设计师必看!复刻黏土风格教程

尽管黏土风刮得强劲,但 Remini 仅提供 7 天的免费试用期,试用期结束了就需要开通 4.99 美元/周的会员才能使用,并不便宜;而且很多非苹果用户的同学们根本用不上。所以,我们贴心地为大家准备了 Remini 的可替代方案——用Midjourney(以下简称MJ)也可以复刻出黏土风格图像!

5000字爆肝测评!五月 AI 资讯及实用测评合集

我们的方法是用「垫图+画面描述+风格关键词」这一公式来获得原图对应的黏土风格图像。首先,先在 MJ 上传原始图片素材并拷贝它的链接,输入“/imagine"后粘贴图像链接地址,在后面描述画面内容"a girl with brown long hair is talking to a cow on the grassland",再加上"clay animation style, 3D, vibrant color"这一组风格关键词,并将 iw 值设定在 1.5 左右,即可获得黏土风格的图像。

5000字爆肝测评!五月 AI 资讯及实用测评合集

第 2 节. Heygen

数字人的热度最近没那么火热了,但是依然有一些新的工具带着更好的效果涌现,同时一些老牌的 AI 数字人工具也在不断的提升自己生成质量,探索新的功能,今天就来讲一下数字人领域的尖子生-Heygen。

1)介绍概览

5000字爆肝测评!五月 AI 资讯及实用测评合集

2)产品实测

接下来,我们来依次看一下 Heygen 都有哪些功能——

3)基础功能

① 先来看一下 Heygen 的基础功能,不需要购买 PRO 服务,也就是有积分就可以使用的功能:图片生成克隆人。只需要上传一张图片,输入一段文字,接着可以选择对应的语言及声音风格,就能快速的生成一段真人说话的视频。

这个功能整体生成的速度是很快的,最终的效果方面英文效果,要比中文的好一些;但能够实现用图片生成克隆人类似功能的市面上竞品也很多,Heygen 在这方面没有明显的优势,其中 D-ID,科大讯飞,都提供相似的功能,阿里的 EMO 和微软最新的 VASA-1 的效果要更自然。

② 第二个要说的功能是视频转换语言,上传一段讲话的视频,设置需要转成的语言,就能快速生成一段嘴型准确的翻译后的语言视频。这也是之前霉霉说中文的视频,所使用的功能。

视频来源 x @AliceFerdi15857

这个功能转换的效果是非常自然的,几乎很难看出来是 AI 生成的。又因为这个功能不需要开通付费套餐,所以特别受欢迎。这样的功能适合快速在不同的平台上分发不同语言受众的视频。

4)高级功能

① 首先要提到的高级功能就是 Heygen 主要的视频生成的克隆人,上传一段 3-5 分钟的人物的视频,就能够准确的复制外表,肢体语言、手势动作和说话的声音。生成不同的语言和文字内容的视频,也支持自己上传音频。生成后的视频效果可以说是业内顶尖的。

最厉害的是 Heygen 也是所有克隆人产品中,少有的能够识别全身的肢体动作,克隆走路动作,生成一边走一边说的克隆人。真正的方便了内容制作者,不需要每次都录制内容,只需要文字稿就能完成每期的视频内容创作。

当视频在手机上无法加载,可前往PC查看。

视频来源:网络

② 下面要讲的一个高级功能是生成讲解视频,上传一段 2-3 分钟的视频,就能够定义企业专属的人物形象,能够配合需要讲解的内容,在软件中移动演讲者的位置,输入对应的文字内容,即可生成人物讲解视频。

视频来源官网案例

这个功能适合做产品介绍。公司培训视频。新闻播报等需要讲解的视频内容。

这个功能一些数字人的竞品也有,并且见到已经有很多落地的,有商品介绍视频、景区介绍视频 、新闻播报。

③ 最后要提到的这个功能就是高级功能-实时互动数字人

上传一段视频生成克隆数字人,或者使用之前生成的克隆人,加上大语言模型,就可以让数字人和观众对话,实时渲染语音回答。支撑选择知识库,来让数字人更好的回答细分领域的问题。(视频录屏有些卡顿)

功能实测

其实这个功能的简版已经有很多落地实践了,已经有了很多数字人的直播间,比如美团上很多团购的直播间,会使用数字人来直播,只是还没看到能够和观众的问题互动的功能。

第 3 节:通义听悟 & 360AI 浏览器

这一节的选题是富媒体转文字的 AI 工具,其中通义听悟主打声音转文字(STT),360AI 浏览器主打视频转文字(VTT)。

① 介绍概览_通义听悟

5000字爆肝测评!五月 AI 资讯及实用测评合集

网址: https://tingwu.aliyun.com/home

② 产品实测_通义听悟

在声音转文字的赛道,我们见过太多“实时会议记录”和“音频解析文字”的产品和工具,甚至早年的科大讯飞录音笔就能干上面这两件事,此处我们选择通义听悟作为被测对象是看中了它的“播客链接转写”功能——我们假想这样一个场景,当研究一个新课题时,除了快速在网络上搜集文字素材外,一些深度解读的播客内容也是我们的素材来源。换做以前,我们只能耐着性子去听播客里具体讲了些什么;但是有了通义听悟后,我们可以直接录入目标播客的节目链接,功能入口见下图。

5000字爆肝测评!五月 AI 资讯及实用测评合集

一般情况下会成功解析(如果由于版权问题无法解析,那就只能翻录再手动导入了),时长 1 小时的播客内容,大概只需要 3-5 分钟就能完成解析。通义听悟对于能成功解析的播客资源,会有以下好处:

直接跳过翻录过程,大大缩减转写时间 可以快速定位录音位置,方便核实文字内容 AI 总结归纳,方便快速了解全貌(如关键词、摘要、章节速览、发言总结、问答回顾) 其他 AI 工具的应用,如下图的 AI 改写功能,几乎可以做到“一键改写”

5000字爆肝测评!五月 AI 资讯及实用测评合集

③ 产品评价_通义听悟

对于播客转文字这一需求而言,通义听悟简直就是为此而生的。无论是快速采集播客里优质内容素材,还是自己快速了解播客内容,都是目前最好用的 AI 利器,过程丝滑且不花钱,感兴趣或者有此类诉求的同学们不妨尝试一下。

④ 介绍概览_360AI 浏览器

5000字爆肝测评!五月 AI 资讯及实用测评合集

下载地址: https://browser.360.cn/ai/?src=se

⑤ 产品实测_360AI 浏览器

类比通义听悟的播客链接解析,360AI 浏览器可以直接转写在线视频。现阶段 360AI 浏览器只有 PC 端的安装包,苹果用户无缘体验。

下载安装后,用 360AI 浏览器打开你想要转写的视频网页,点击浏览器右上角的 AI 按钮,即可得到如下的页面。

简介 tab_浏览器会基于视频内容分析,AI 生成简介和视频结构的脑图 重点 tab_浏览器会生成类似于整个视频的时间轴信息 字幕 tab_VTT 功能,方便用户提取优质视频的观点和文本内容 问答 tab_用户可以问一些视频相关的问题,AI 浏览器会全网搜索并做出回答

5000字爆肝测评!五月 AI 资讯及实用测评合集

⑥ 产品评价_360AI 浏览器

类比通义听悟,360AI 浏览器对于“视频转写文字”的诉求是完全胜任的,但是没有通义听悟那么多 AI 相关的功能,比如“AI 改写”、“区分发言人”等功能,不过也可以理解。通义听悟基于阿里云等技术积累,早就开始着手 AI 产品的打造;而 360AI 浏览器 3 月 1 日才刚发布了第一个版本。在 AI 浪潮席卷而来的当下,360AI 浏览器会预见性的越做越好,让我们期待它的进一步更新迭代。

结语

最后带大家画一下重点——

Remini 的黏土滤镜为大家提供了无门槛地 AI 使用体验,同时 Remini 也在积极拓展更多风格的 AI 滤镜,也很具有趣味性,大家可以多多尝试。为了更好的将黏土风格应用在工作中,我们为各位设计及运营从业者提供了一套用 Midjourney 生成黏土风格图片的解决方案,各位同学可以与自己的工作内容结合一下; Heygen 近期更新的 AI 视频功能还是很强大的,涵盖了人物换脸、文字转口播视频、创建虚拟主播及 AI 克隆人等,其中一大亮点就是 Heygen 5.0 不再局限于生成人物脸部近景及别的视频,还可以捕捉完整的四肢动作,并生成包含人物全身的 AI 视频; 通义听悟与 360AI 浏览器将文本及视频转文字功能已经研发地相当成熟,尤其是嵌入 AI 技术后,可以实现内容总结、生成思维导图、改写润色等原本需要耗费较长时间的工作,帮助相关从业者提升效率,将精力更多地投入到创意生产中去。

相关资讯

阿里出品!用一篇文章帮你了解AI数字人行业

人工智能(AI)技术的进步不仅改变了我们生活的方方面面,还在各行各业中展现出了巨大的潜力。AI 数字人,作为人工智能技术的一个重要分支,正在逐渐成为众多行业关注的焦点。这些虚拟的数字角色不仅具有逼真的外观和行为,还能够以超乎想象的方式与人类交互,从而提供全新的服务体验和业务机会。本文整理了 AI 数字人相关的基础概念、趋势报告、热点案例、AI 数字人平台和开源项目,以及作为设计师我们能用这些 AI 能力产出哪些有意思的工作。 :一、AI 数字人基础概念 1. 什么是 AI 数字人? "数字人"是指利用先进的计算机图

EchoMimic V2:AI 数字人的新里程碑!首次实现身体动作口型全同步!

EchoMimic V2是阿里达摩院开源的一款基于音频驱动的肖像动画生成工具。 这一工具不仅能让虚拟形象开口说话,实现口型同步,还能在音频驱动下添加头部和身体动作,将数字形象的表现力提升到一个全新的高度。 如果你对AI数字人、AI配音、AI动画等制作感兴趣,那么EchoMimic V2绝对是一个不容错过的工具!

AI短视频神器Gen-2开放测试!靠打字做短视频的时代来了?

大家好,这里是和你们一起探索 AI 的花生。 前几天知名 AI 视频处理平台 Runway 宣布开放测试旗下的 GEN-2,一款可以直接根据文本生成视频的工具,我们先看看官方放出的 2 个演示:视频来源:推特@runwayml :Gen-2 Now Available | Runway - YouTube 了解 Runway:看到视频时真的被小小的震撼了一下,因为画面的稳定度和流畅度都超乎想象。虽然目前用 AI 生成视频的方法并不少,比如之前为大家介绍的 D-ID,是通过图像来生成数字人视频;还有利用 Stable