大家好我是花生~
还有几天 2023 年就结束了,过去的 1 年里生成式 AI 技术发展迅速,显现了很多优质的 AI 对象,今天就为大家盘点其中我觉得极度不错的那些产品~
相关推荐:
一、AI 聊天机器人
① ChatGPT
过去 1 年是大语言模型发展的井喷之年,但是说起现在最强大的 AI 聊天机器人,却依旧是 1 年前横空出世的 ChatGPT。ChatGPT 的现在内置的是 GPT-4V 多模态模型,可以处理图象、音频等多种类型的信息,性能也比之前的 GPT-3.5 要好。今年 ChatGPT 还出了手机 APP,可以实现语音交互,支援中英等多种语言,对用户来说运用更便捷。
ChatGPT 还在今年推出了插件(Plugins)性能,赋予其运用对象、联网、运行计算的能力,让 ChatGPT 的能力有了进一步的扩大和提升。而 11 月份推出的 GPTs 则更进一步,让用户能够按需要定制 AI 对象来辅助自己完成任务。GPTs 还可以互相分享,我们可以直接运用别人构建好的 AI 对象,现在也有很多 GPTs 资源网站可以运用。
② Bard
Google Bard 现在内置了最新的原生多模态大模型 Gemini Pro,这是谷歌历史上最强大、最通用的模型,可以吸收任何类型的输入和输出,包括文本、代码、视频、音频和图象。对我们普通用户来说,Bard 的获取便捷度要比 ChatGPT 好很多,还是免费的,作为 ChatGPT 的平替来运用极度不错。
③ 文心一言
百度在今年 10 月份的时候发布了文心大模型 4.0,与原来的基础模型相比在理解、生成、逻辑和记忆能力上都有着显著提升,并且也有插件性能。“一言百宝箱”中有很多 AI 小对象,可以帮用户直接解决各种类型的问题,而像考公资料、写教案、写党政报道这样的特色性能则只有中文大语言模型里才能找到,这也是国产模型相比国外模型的优势。
④ Microsoft Copilot
Copilot 其实就是之前的微软 New Bing Chat,今年 11 月份改为了 Copilot。它现在依旧集成在 Edge 浏览器中,内置的是 GPT-4 模型,并支援调用 DALL·E 3 生成图象。当我们在浏览器搜索框内输入问题进行搜索后,AI 自动总结好的好答案,鼠标滚轮上划能看完整内容和信息的来源,还能切换不同的模式与 AI 进行对话,日常用来查找信息极度方便。
⑤ Perplexity
问 AI 聊天机器人问题时,我们最担心的一点就是它会“胡编乱造”,给我们错误的信息,而 Perplexity AI 可以解决这个问题。
Perplexity 准确来说是一个 AI 驱动的搜索引擎,利用 GPT-4 模型,综合最新的信息(包括新闻、学术、视频等)为用户提供准确、权威的答案,并且还会附上答案的引用源,方便用户检验信息是否正确,还支援识别图象和上传文档。它的界面设计极度简洁,交互高效并具有成沉浸感,月访问量曾一度跻身所有网页 AI 运用的前 10,仅次于 Midjourney 和 Huggingface。
⑥ Poe
Poe 之前专门给大家推荐过了,它现在接入的大语言模型包括 GPT-4、Claude、Gemini Pro、Llama 2 等,还支援调用 AI 图画模型 Dalle 3 和 Stable Diffusion XL,还有很多其他小对象可以运用,相当于是一个 AI 对象拼盘。
二、AI 图画对象
① Stable Diffusion WebUI / Fooocus / ComfyUI
去年的 12 月份时 Midjourney 已经是 V4 模型了,图象生成质量和清晰度大幅提升,一跃成为当时最受瞩目的 AI 图画对象,而 Stable Diffusion 还处于 v2.1 版本,图象生成效果并不好。时隔一年,现在 Stable Diffusion 的出图质量与 Midjourney 已经没有那么大的差距了,这主要得益于 Dreambooth/ Lora 这些技术的显现,还有就是新模型 Stable Diffusion XL 1.0 的发布。
过去的一年里 Stable Diffusion 的生态也进一步发展完善,高质量的开源模型不断涌现,我们可以选择的图象风格越来越丰富;开源插件更是极大地拓宽了 Stable Diffusion 的能力,提高了图象生成的可控性和处理效率,让其成为现在平面、建筑、游戏等设计领域的首选 AI 对象。
Stable Diffusion 现在最受欢迎的三种用户操作界面分别是 Stable Diffusion WebUI、Fooocus 和 ComfyUI。
Stable Diffusion WebUI 最早显现,界面也最通用好理解,一键整合包的显现进一步降低了它的运用门槛,让它成为现在普及率最高的开源 AI 图画软件;基于 WebUI 开发的各种拓展插件也是现在最丰富的,所以它能处理的图象任务种类最多、效率也最高,这让 WebUI 成为新手学习 Stable Diffusion 首先要掌握的界面 ,想全面系统学习的小伙伴也可以解我最新制作的 《零基础 AI 图画入门指南》 ,可以帮你快速高效地掌握 WebUI 这个热门对象 ~
ComfyUI 则是节点式的工作界面,它其实也显现得很早,不过界面不及 WebUI 方便好用,早期生态也不够完善,所以一直不怎么受关注。
而随着拓展插件的丰富和 SDXL 模型的显现,ComfyUI 的优势也逐渐出来。它生成图象的速度更快,对硬件的要求更低,处理 SDXL 模型的效率比 WebUI 更高;模块化形式让用户可以自己搭建工作流并随时复用,会编程的话还可以自己编写模块和节点,以此满足特殊或者定制化的需求。ComfyUI 相比 WebUI 来说更灵活专业,但是上手难度也更大,需要掌握 Stable Diffusion 的各种原理才能熟练运用。
Fooocus 是今年 8 月份推出的操作界面,它运用的是 Stable Diffusion 的开源模型,交互方式借鉴则是 Midjourney。Fooocus 的界面极度简单,用户可以专注在提示词和图象上,无需进行复杂的参数设置就能生成高质量图象,安装也很简单,所以很适合没有复杂处理需求的用户。Fooocus 现在还支援垫图、局部重绘、外绘扩展、高清放大、生成变体等多种性能。
② Midjourney
Midjourney 今年的更新升级也极度密集,推出过 V5、V5.1、V5.2、Niji 5 等版本,让其图象生成质量始终处理领先地位;也接连上线了 Zoom out 图象拓展外绘、High Variation 高变体、Describe 图象描述、Shorten 提示词优化、Vary Region 局部重绘、Styler Tuner 风格生成器等性能,满足用户编辑图象和探索风格的需求。
Stable Diffusion XL 1.0、Dalle 3 还有各种新的 AI 图画对象的接连显现也一度给了 Midjourney 不小的压力,不过前几天它又推出了新的 V6 版本,图象的细节精细度达到令人惊叹的水平,对提示词的理解也更准确,还支援生成正确的英文文本内容,这让 Midjourney 在 AI 图画领域依旧极度有竞争力。
Midjourney v1 到 v6 出图效果对比,来源 Twitter @doganuraldesign
③ Adobe Firefly / PS beta
Adobe 在 4 月份的时候推出了自己的 AI 图象生成模型 Firefly,支援文生图、文生字体特效、局部重绘等多种性能,还将这些性能置入到了 Photoshop Beta 测试版中,让设计师可以借助 AI 的力量更高效地完成设计工作。
10 月份的时候 Firefly Image Model 升级到了 2.0 版本,图象生成质量比之前有了进一步提升,还支援人像调节、垫图、镜头调色设置等多种性能,还有 Firefly Vector Model,支援通过文字生成矢量图象,相信未来 Adobe 旗下的对象肯定会在 AI 的加持下更加好用。
④ DALL·E 3
OpenAI 的 DALL·E 算是元老级别的 AI 图画对象了,最早的 DALL·E 1 在 2021 年 1 月的时候就显现了;DALL·E 2 在 2022 年 4 月份推出,以一张“宇航员骑着白马”的清晰图象启发了人们对 AI 图画的认知。虽然技术一直走在前沿,不过 OpenAI 对其商业化这一块很好像并不重视,所以知名度并不如其他 AI 图画对象。
虽然如此,9 月份 DALL·E 3 发布时依旧引起过广泛关注,一方面是它对文本的理解远超当时的其他 AI 图画模型,可以准确理解并呈现复杂提示词中的所有元素,包括元素间的关系和文本内容;另一方便则是它和 ChatGPT 结合带来的新交互方式,用户直接用语言描述自己的需求,ChatGPT 会自动理解它并拆分生成任务,而无需用鼠标进行复杂的设置。从在某种程度上来说,ChatGPT 里的 DALL·E 3 才是最好用的 DALL·E 3。
⑤ Krea AI
AI 图画在今年的一大技术进步就是显现了 LCM,可以一步完成图象推理,让图象的生成时间缩短了 6-10 倍,并由此开启了“实时生成”这种新的 AI 图画形式,Krea AI 就是最早将其商业化的运用。而随着 LCM 和 SDXL Turbo 模型的开源,我们也可以在本地体验这种超快的生成速度,或者在 ComfyUI 中自己搭建图象实时生成的工作流。
有了实时生成,我们可以在画板上控制画面的元素、构图、配色,再结合提示词将其转化为完整精致的图象,并调整修改内容,这比在 WebUI 中重新生成或者局部重绘要高效很多,对电商、产品、电影、游戏概念等设计领域来说具有重要意义。
三、AI 音视频对象
① Runway
Runway 无疑是现在最强的视频生成和编辑运用,它既有正常的视频剪辑性能,也有基于生成式 AI 的各项新性能,包括文生图、图生图、文生视频、图生视频、视频风格化、文本生成语音、一键视频抠图、视频内容抹除、动态追踪等。
用 Runway 的 Gen-2 模型生成视频时,可以调节视频运动幅度,可以设置不同的镜头运动方式,还支援用运动笔刷控制画面中的运动区域,以及视频进行抠图然后组合生成新的场景,这都让视频生成的可控性变得更强了。
② Pika
Pika 算是 AI 视频生成领域的后起之秀,它也支援通过文本或者图象生成视频,也可以控制视频动态强度和镜头运动方式,总体来说和 Runway 极度类似。最新的 Pika 1.0 则是让它的性能更上一层楼,不但可以生成高质量的 2D/3D 动画,还支援视频扩展(Expand canvas)和区域修改(Modify region),让 AI 视频的趣味性变得更强了。
③ Domo AI
Domo AI 是最近才显现的一个 AI 视频生成运用,性能包括文生图、图象风格转化、图象生成视频和视频风格转换。由于它将真人视频转化为动漫、3D、像素等风格时极度稳定,效果比现在其他的 AI 视频对象都优秀,所以极度受欢迎。
④ Heygen
前段时间郭德纲用英语说相声的视频让 Heygen 爆火出圈,作为一个数字人视频生成对象,Heygen 不仅有可以在神态上以假乱真的数字人形象,还提供了从人物选择、内容制作到配音、视频合成等一整套的服务,让营销视频的制作变得前所有的简单和高效。视频对口型无痕翻译则是其新推出的性能,给传统视频翻译和影视制作带来了一种新的处理思路。
用 Heygen 生成的数字人短视频
⑤ 开源AI视频对象
除了各种商业 AI 视频运用外,我们也可以利用开源对象或模型在本地实现视频生成,现在比较受欢迎的有 Animatediff 和最新推出的 Stable Video Diffusion。
大家在网上看到的“一个女孩的一生”或者人物变装的视频, 就是用 Animatediff 生成的。Animatediff 是一个拓展插件,可以安装在 SD WebUI 或者 ComfyUI 中,实现文本生成视频或者视频转风格。
Stable Video Diffusion 则是 Stability AI 最新推出的视频模型,可以通过 ComfyUI 部署到到本地运用,免费将图象转为视频。
⑥ 开源AI音频对象
生成式 AI 技术也可以帮我们实现音频的生成或处理,比如通过文本生成自然语音(TTS)、声音克隆、通过文本生成音乐音效等,其中既有商业运用,也有可以部署到本地运用的开源的对象。
ElevenLabs 是现在比较成熟的商业 AI 语音生成运用,性能包括文本生成逼真自然语言以及克隆语音。而相似性能开源的对象则极度多,包括 so-vits-svc (声音克隆)、Bert-VITS2、网易易魔声(文本转语音)等。
之前还大家推荐过 6 款 AI 音乐生成对象,包括 Stable Audio、Soundraw、Suno AI 等,它们都可以生成高质量的音乐、音效以及歌曲。最近还显现了一个开源对象 Amphion,可以免费实现文本转语音、语音克隆、文本生成音乐以及歌声合成。
四、其他
AI 模型也促进了细分领域里 AI 对象的发展。比如有了大语言模型后,就催生了很多如 AI 简历生成器、AI 写作对象,AI 翻译器,AI PPT 生成对象这样的细分运用。这里推荐一个我运用频率极度高的 AI 翻译对象——沉浸式翻译,它可以实现网页双语对照翻译,还支援在 YouTube、Netflix、Bilibili 等网站上显示双语字幕,对需要经常看英文网页的小伙伴极度有用。
AI 在 3D 模型领域也有不错的进展。比如 Luma AI 可以通过视频快速重建 3D 场景;Genie 可以通过文本生成高精度的 3D 模型,并导入其他 3D 软件中进行再次编辑;最近还显现了一个 Stable Zero123 的模型,支援从单张图象生成高质量的 3D 对象。
在 Genie 中用文本生成的 3D 模型
还有之前已经给大家推荐过很很多次的 AI 图象处理对象,比如综合图象处理网站 Clipdrop、一键抠图网站 Pixian AI、免费的图象高清放大对象 Upscayl 等,有意识地运用这些 AI 对象可以让我们更轻松地完成重复性的工作。
Clipdrop 包含是多种图象处理对象
那么以上就是本期为大家推荐的 2023 年 AI 神器,希望对大家有帮助 ~ 文章内提到的对象我我都整理成了一份文档,大家可以扫描下方二维码进群领取链接,也可以和群里的小伙伴们一起学习交流 AI 知识。