前言
想不想了解近期 AI 圈又发生了哪些劲爆大事件?赶紧来看这篇文章 get 第一手 AIGC 资讯和深度测评——没错,我们的AIGC 30天测评又和大伙儿见面了。
如今各类 AIGC 东西平台百花齐放,我们的测评致力于持续追踪最新的 AI 技术进展,将 AI 圈内发生的重大事件与东西进行深度实测并汇总成文,定期发布带给同砚们,希望可以帮助大伙儿赶快了解最新的 AIGC 趋势,并可以及时地将这些 AI 东西结合到工作、学习与生活中,运用 AIGC 将自己的生活变得更加丰富多彩!
此前,我们已经发布了第一期测评,如有必要各位同砚可以点击回顾。
另外与此前不同的是,本月我们对测评实质的筛选流程进行了升级。在持续大范围监控 AIGC 大模型与东西平台的上新/更新之外,我们还开始对不同 AI 东西的相似功用进行横向对比测试,例如我们同时对 Remini 和 Midjourney 这两个 AI 东西进行粘土作风图象生成的测试,并最终总结出了成功经验分享给大伙儿,希望可以帮助大伙儿先人一步地拓展相关的 AI 能力边界,所以这篇文章大伙儿一定要看到最后哦。
接下来,就让我们来看看近期 AIGC 的最新进展吧!
第一章:近期 AI 圈大事件汇总
我们先来赶快浏览一下近期 AI 圈发生的重要事件。每月的 AI 圈事件划分为国内和国外,依次做整理陈述。为了保证实质的条理性,方便大伙儿阅读,我们用表格的形式呈现。顺序为采集时随机排列,排名不分先后。
第 1 节:国内篇
第 2 节:国外篇
第二章:近期重点 AI 产物实测
第 1 节:Remini
1)介绍概览
Remini 的粘土作风滤镜在今年的五一“重塑”了世界,相信各位同砚都被它狂刷屏了吧?接下来,我们来看看 Remini 粘土滤镜的功用实测,同时也为大伙儿奉上可替代 Remini 的粘土风图片制作方法,更方便设计师运用!
2)产物实测
Remini 的运用体验是比较简单和赶快的。下载 app 打开后,Remini 会提供为期一周的免费试用(Remini 会在试用期截止后开始自动收取最低 4.99 美元/周的订阅费用,所以如果不想继续付费运用的话,大伙儿一定要记得在后台取消订阅喔),之后在操作界面上选择第一位的粘土作风,再上传自己的图片素材,等待十几秒即可获得转换为可爱呆萌的粘土作风图象了!
以上就是基础的粘土风图象制作的过程,不过作为专业的设计师,相信大伙儿不会只满足于此,所以接下来,我们为大伙儿尝试了粘土风进一步的探索——利用AI图片生视频的软件制作粘土动画。
目前市场上 AI 视频生成软件的选择是比较丰富的,例如 Runway、Pika、VEED 等,在得到转换为粘土作风的图片后,我们可以将图片导入 AI 视频软件直接生成对应的视频。在这里我们就先以 Runway 为例,为大伙儿演示一下粘土风图象转视频的后果:
我们可以看到动起来的粘土风动画的整体后果还是不错的,这样动态的呈现方式拓展了粘土风的运用场景,不论是面对设计师、运营从业者、自媒体博主等专业人群的工作需求,抑或用户只是想为自己的照片增添独特的魅力,这样将原始图象转换为粘土作风再转换为动画的链路都能满足。在此我们为大伙儿抛砖引玉,各位同砚可以基于此发散灵感,做更深入的探索。
那么回到 Remini 的后果测评,通过多次实测,我们发现适用于 Remini 粘土滤镜的图象特点:
① 除了已被大量验证的真人图片,Remini 对手绘插画也可进行 3D 化的粘土滤镜转换;
② 尽量选择中近景,画面色彩越丰富越好,更有趣味性和动画感;
③ 先把照片转变成卡通作风,然后再用粘土滤镜会更好看。
与此同时,在运用中我们也发现 Remini 粘土滤镜也不免存在 AI 生图技术的一些共有缺点:
① 对图象实质的识别与判断精准度有欠缺,无法处理好图片中的笔墨信息;
② 会修改原图实质;
③ 由于粘土滤镜具有的手工感和粗糙感等特点,一些非常精致的细节无法做到 100%还原;
④ 同一张图片素材每次只能生成一张对应的粘土作风图片,如果不满意只能退回到第一步重新开始。
3)产物评价
总结来看,Remini 的粘土滤镜运用门槛低,并且它的 AI 生成的粘土作风后果非常逼真和生动,所以对于日常个人运用还是很适合的。其次,尽管每款滤镜都会有它或长或短的生命周期,但是我们在测评过程中发现,在短短的一周的时间里,Remini 从粘土风滤镜已经拓展到了其它作风的滤镜,甚至研发出了新的多重滤镜搭配玩法——这个可能才是一个产物可以生存下去的基础,用爆款做引子,引发用户对产物的连锁体验和传播。
不过,如果期待在这个风口上把 Remini 的粘土作风直接运用在设计工作中,因为其自成一派的手工感和“丑萌粗笨”作风导致物料可能必要人工后期调整,且 Remini 不支持对生成图象进行修改或批量生成,这些缺点不适用于对画面元素精准度要求高及执行效率要求较高的项目。看到这里,同砚们可能感到有点心灰意冷,但是我们探索出了解决之道,大伙儿请看下方详解↓
4)设计师必看!复刻粘土作风教程
尽管粘土风刮得强劲,但 Remini 仅提供 7 天的免费试用期,试用期结束了就必要开通 4.99 美元/周的会员才能运用,并不便宜;而且很多非苹果用户的同砚们根本用不上。所以,我们贴心地为大伙儿准备了 Remini 的可替代方案——用Midjourney(以下简称MJ)也可以复刻出粘土作风图象!
我们的方法是用「垫图+画面描述+作风关键词」这一公式来获得原图对应的粘土作风图象。首先,先在 MJ 上传原始图片素材并拷贝它的链接,输入“/imagine”后粘贴图象链接地址,在后面描述画面实质”a girl with brown long hair is talking to a cow on the grassland”,再加上”clay animation style, 3D, vibrant color”这一组作风关键词,并将 iw 值设定在 1.5 左右,即可获得粘土作风的图象。
第 2 节. Heygen
数字人的热度最近没那么火热了,但是依然有一些新的东西带着更好的后果涌现,同时一些老牌的 AI 数字人东西也在不断的提升自己生成质量,探索新的功用,今天就来讲一下数字人领域的尖子生-Heygen。
1)介绍概览
2)产物实测
接下来,我们来依次看一下 Heygen 都有哪些功用——
3)基础功用
① 先来看一下 Heygen 的基础功用,不必要购买 PRO 服务,也就是有积分就可以运用的功用:图片生成克隆人。只必要上传一张图片,输入一段笔墨,接着可以选择对应的说话及声音作风,就能赶快的生成一段真人说话的视频。
这个功用整体生成的速度是很快的,最终的后果方面英文后果,要比中文的好一些;但能够实现用图片生成克隆人类似功用的市面上竞品也很多,Heygen 在这方面没有明显的优势,其中 D-ID,科大讯飞,都提供相似的功用,阿里的 EMO 和微软最新的 VASA-1 的后果要更自然。
② 第二个要说的功用是视频转换说话,上传一段讲话的视频,设置必要转成的说话,就能赶快生成一段嘴型准确的翻译后的说话视频。这也是之前霉霉说中文的视频,所运用的功用。
视频来源 x @AliceFerdi15857
这个功用转换的后果是非常自然的,几乎很难看出来是 AI 生成的。又因为这个功用不必要开通付费套餐,所以特别受欢迎。这样的功用适合赶快在不同的平台上分发不同说话受众的视频。
4)高级功用
① 首先要提到的高级功用就是 Heygen 主要的视频生成的克隆人,上传一段 3-5 分钟的人物的视频,就能够准确的复制外表,肢体说话、手势动作和说话的声音。生成不同的说话和笔墨实质的视频,也支持自己上传音频。生成后的视频后果可以说是业内顶尖的。
最厉害的是 Heygen 也是所有克隆人产物中,少有的能够识别全身的肢体动作,克隆走路动作,生成一边走一边说的克隆人。真正的方便了实质制作者,不必要每次都录制实质,只必要笔墨稿就能完成每期的视频实质创作。
当视频在手机上无法加载,可前往PC查看。
视频来源:网络
② 下面要讲的一个高级功用是生成讲解视频,上传一段 2-3 分钟的视频,就能够定义企业专属的人物形象,能够配合必要讲解的实质,在软件中移动演讲者的位置,输入对应的笔墨实质,即可生成人物讲解视频。
视频来源官网案例
这个功用适合做产物介绍。公司培训视频。新闻播报等必要讲解的视频实质。
这个功用一些数字人的竞品也有,并且见到已经有很多落地的,有商品介绍视频、景区介绍视频 、新闻播报。
③ 最后要提到的这个功用就是高级功用-实时互动数字人
上传一段视频生成克隆数字人,或者运用之前生成的克隆人,加上大说话模型,就可以让数字人和观众对话,实时渲染语音回答。支撑选择知识库,来让数字人更好的回答细分领域的问题。(视频录屏有些卡顿)
功用实测
其实这个功用的简版已经有很多落地实践了,已经有了很多数字人的直播间,比如美团上很多团购的直播间,会运用数字人来直播,只是还没看到能够和观众的问题互动的功用。
第 3 节:通义听悟 & 360AI 浏览器
这一节的选题是富媒体转笔墨的 AI 东西,其中通义听悟主打声音转笔墨(STT),360AI 浏览器主打视频转笔墨(VTT)。
① 介绍概览_通义听悟
网址: https://tingwu.aliyun.com/home
② 产物实测_通义听悟
在声音转笔墨的赛道,我们见过太多“实时会议记录”和“音频剖析笔墨”的产物和东西,甚至早年的科大讯飞录音笔就能干上面这两件事,此处我们选择通义听悟作为被测对象是看中了它的“播客链接转写”功用——我们假想这样一个场景,当研究一个新课题时,除了赶快在网络上搜集笔墨素材外,一些深度解读的播客实质也是我们的素材来源。换做以前,我们只能耐着性子去听播客里具体讲了些什么;但是有了通义听悟后,我们可以直接录入目标播客的节目链接,功用入口见下图。
一般情况下会成功剖析(如果由于版权问题无法剖析,那就只能翻录再手动导入了),时长 1 小时的播客实质,大概只必要 3-5 分钟就能完成剖析。通义听悟对于能成功剖析的播客资源,会有以下好处:
直接跳过翻录过程,大大缩减转写时间
可以赶快定位录音位置,方便核实笔墨实质
AI 总结归纳,方便赶快了解全貌(如关键词、摘要、章节速览、发言总结、问答回顾)
其他 AI 东西的应用,如下图的 AI 改写功用,几乎可以做到“一键改写”
③ 产物评价_通义听悟
对于播客转笔墨这一需求而言,通义听悟简直就是为此而生的。无论是赶快采集播客里优质实质素材,还是自己赶快了解播客实质,都是目前最好用的 AI 利器,过程丝滑且不花钱,感兴趣或者有此类诉求的同砚们不妨尝试一下。
④ 介绍概览_360AI 浏览器
下载地址: https://browser.360.cn/ai/?src=se
⑤ 产物实测_360AI 浏览器
类比通义听悟的播客链接剖析,360AI 浏览器可以直接转写在线视频。现阶段 360AI 浏览器只有 PC 端的安装包,苹果用户无缘体验。
下载安装后,用 360AI 浏览器打开你想要转写的视频网页,点击浏览器右上角的 AI 按钮,即可得到如下的页面。
简介 tab_浏览器会基于视频实质分析,AI 生成简介和视频结构的脑图
重点 tab_浏览器会生成类似于整个视频的时间轴信息
字幕 tab_VTT 功用,方便用户提取优质视频的观点和文本实质
问答 tab_用户可以问一些视频相关的问题,AI 浏览器会全网搜索并做出回答
⑥ 产物评价_360AI 浏览器
类比通义听悟,360AI 浏览器对于“视频转写笔墨”的诉求是完全胜任的,但是没有通义听悟那么多 AI 相关的功用,比如“AI 改写”、“区分发言人”等功用,不过也可以理解。通义听悟基于阿里云等技术积累,早就开始着手 AI 产物的打造;而 360AI 浏览器 3 月 1 日才刚发布了第一个版本。在 AI 浪潮席卷而来的当下,360AI 浏览器会预见性的越做越好,让我们期待它的进一步更新迭代。
结语
最后带大伙儿画一下重点——
Remini 的粘土滤镜为大伙儿提供了无门槛地 AI 运用体验,同时 Remini 也在积极拓展更多作风的 AI 滤镜,也很具有趣味性,大伙儿可以多多尝试。为了更好的将粘土作风应用在工作中,我们为各位设计及运营从业者提供了一套用 Midjourney 生成粘土作风图片的解决方案,各位同砚可以与自己的工作实质结合一下;
Heygen 近期更新的 AI 视频功用还是很强大的,涵盖了人物换脸、笔墨转口播视频、创建虚拟主播及 AI 克隆人等,其中一大亮点就是 Heygen 5.0 不再局限于生成人物脸部近景及别的视频,还可以捕捉完整的四肢动作,并生成包含人物全身的 AI 视频;
通义听悟与 360AI 浏览器将文本及视频转笔墨功用已经研发地相当成熟,尤其是嵌入 AI 技术后,可以实现实质总结、生成思维导图、改写润色等原本必要耗费较长时间的工作,帮助相关从业者提升效率,将精力更多地投入到创意生产中去。