年度盘点！2023年不容错过的30款AI神器，你用过多少？

大家好我是花生~ 还有几天 2023 年就结束了，过去的 1 年里生成式 AI 技术发展迅速，显现了很多优质的 AI 对象，今天就为大家盘点其中我觉得极度不错的那些产品~ 相关推荐：一、AI 聊天机器人 ① ChatGPT 过去 1 年是大语言模型发展的井喷之年，但是说起现在最强大的 AI 聊天机器人，却依旧是 1 年前横空出世的 ChatGPT。ChatGPT 的现在内置的是 GPT-4V 多模态模型，可以处理图象、音频等多种类型的信息，性能也比之前的 GPT-3.5 要好。今年 ChatGPT 还出了手机 AP

大家好我是花生~

还有几天 2023 年就结束了，过去的 1 年里生成式 AI 技术发展迅速，显现了很多优质的 AI 对象，今天就为大家盘点其中我觉得极度不错的那些产品~

一、AI 聊天机器人

① ChatGPT

过去 1 年是大语言模型发展的井喷之年，但是说起现在最强大的 AI 聊天机器人，却依旧是 1 年前横空出世的 ChatGPT。ChatGPT 的现在内置的是 GPT-4V 多模态模型，可以处理图象、音频等多种类型的信息，性能也比之前的 GPT-3.5 要好。今年 ChatGPT 还出了手机 APP，可以实现语音交互，支援中英等多种语言，对用户来说运用更便捷。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

ChatGPT 还在今年推出了插件（Plugins）性能，赋予其运用对象、联网、运行计算的能力，让 ChatGPT 的能力有了进一步的扩大和提升。而 11 月份推出的 GPTs 则更进一步，让用户能够按需要定制 AI 对象来辅助自己完成任务。GPTs 还可以互相分享，我们可以直接运用别人构建好的 AI 对象，现在也有很多 GPTs 资源网站可以运用。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

② Bard

Google Bard 现在内置了最新的原生多模态大模型 Gemini Pro，这是谷歌历史上最强大、最通用的模型，可以吸收任何类型的输入和输出，包括文本、代码、视频、音频和图象。对我们普通用户来说，Bard 的获取便捷度要比 ChatGPT 好很多，还是免费的，作为 ChatGPT 的平替来运用极度不错。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

③ 文心一言

百度在今年 10 月份的时候发布了文心大模型 4.0，与原来的基础模型相比在理解、生成、逻辑和记忆能力上都有着显著提升，并且也有插件性能。“一言百宝箱”中有很多 AI 小对象，可以帮用户直接解决各种类型的问题，而像考公资料、写教案、写党政报道这样的特色性能则只有中文大语言模型里才能找到，这也是国产模型相比国外模型的优势。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

④ Microsoft Copilot

Copilot 其实就是之前的微软 New Bing Chat，今年 11 月份改为了 Copilot。它现在依旧集成在 Edge 浏览器中，内置的是 GPT-4 模型，并支援调用 DALL·E 3 生成图象。当我们在浏览器搜索框内输入问题进行搜索后，AI 自动总结好的好答案，鼠标滚轮上划能看完整内容和信息的来源，还能切换不同的模式与 AI 进行对话，日常用来查找信息极度方便。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

⑤ Perplexity

问 AI 聊天机器人问题时，我们最担心的一点就是它会“胡编乱造”，给我们错误的信息，而 Perplexity AI 可以解决这个问题。

Perplexity 准确来说是一个 AI 驱动的搜索引擎，利用 GPT-4 模型，综合最新的信息（包括新闻、学术、视频等）为用户提供准确、权威的答案，并且还会附上答案的引用源，方便用户检验信息是否正确，还支援识别图象和上传文档。它的界面设计极度简洁，交互高效并具有成沉浸感，月访问量曾一度跻身所有网页 AI 运用的前 10，仅次于 Midjourney 和 Huggingface。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

⑥ Poe

Poe 之前专门给大家推荐过了，它现在接入的大语言模型包括 GPT-4、Claude、Gemini Pro、Llama 2 等，还支援调用 AI 图画模型 Dalle 3 和 Stable Diffusion XL，还有很多其他小对象可以运用，相当于是一个 AI 对象拼盘。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

二、AI 图画对象

① Stable Diffusion WebUI / Fooocus / ComfyUI

去年的 12 月份时 Midjourney 已经是 V4 模型了，图象生成质量和清晰度大幅提升，一跃成为当时最受瞩目的 AI 图画对象，而 Stable Diffusion 还处于 v2.1 版本，图象生成效果并不好。时隔一年，现在 Stable Diffusion 的出图质量与 Midjourney 已经没有那么大的差距了，这主要得益于 Dreambooth/ Lora 这些技术的显现，还有就是新模型 Stable Diffusion XL 1.0 的发布。

过去的一年里 Stable Diffusion 的生态也进一步发展完善，高质量的开源模型不断涌现，我们可以选择的图象风格越来越丰富；开源插件更是极大地拓宽了 Stable Diffusion 的能力，提高了图象生成的可控性和处理效率，让其成为现在平面、建筑、游戏等设计领域的首选 AI 对象。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

Stable Diffusion 现在最受欢迎的三种用户操作界面分别是 Stable Diffusion WebUI、Fooocus 和 ComfyUI。

Stable Diffusion WebUI 最早显现，界面也最通用好理解，一键整合包的显现进一步降低了它的运用门槛，让它成为现在普及率最高的开源 AI 图画软件；基于 WebUI 开发的各种拓展插件也是现在最丰富的，所以它能处理的图象任务种类最多、效率也最高，这让 WebUI 成为新手学习 Stable Diffusion 首先要掌握的界面，想全面系统学习的小伙伴也可以解我最新制作的《零基础 AI 图画入门指南》，可以帮你快速高效地掌握 WebUI 这个热门对象 ~

年度盘点！2023年不容错过的30款AI神器，你用过多少？

ComfyUI 则是节点式的工作界面，它其实也显现得很早，不过界面不及 WebUI 方便好用，早期生态也不够完善，所以一直不怎么受关注。

而随着拓展插件的丰富和 SDXL 模型的显现，ComfyUI 的优势也逐渐出来。它生成图象的速度更快，对硬件的要求更低，处理 SDXL 模型的效率比 WebUI 更高；模块化形式让用户可以自己搭建工作流并随时复用，会编程的话还可以自己编写模块和节点，以此满足特殊或者定制化的需求。ComfyUI 相比 WebUI 来说更灵活专业，但是上手难度也更大，需要掌握 Stable Diffusion 的各种原理才能熟练运用。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

Fooocus 是今年 8 月份推出的操作界面，它运用的是 Stable Diffusion 的开源模型，交互方式借鉴则是 Midjourney。Fooocus 的界面极度简单，用户可以专注在提示词和图象上，无需进行复杂的参数设置就能生成高质量图象，安装也很简单，所以很适合没有复杂处理需求的用户。Fooocus 现在还支援垫图、局部重绘、外绘扩展、高清放大、生成变体等多种性能。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

② Midjourney

Midjourney 今年的更新升级也极度密集，推出过 V5、V5.1、V5.2、Niji 5 等版本，让其图象生成质量始终处理领先地位；也接连上线了 Zoom out 图象拓展外绘、High Variation 高变体、Describe 图象描述、Shorten 提示词优化、Vary Region 局部重绘、Styler Tuner 风格生成器等性能，满足用户编辑图象和探索风格的需求。

Stable Diffusion XL 1.0、Dalle 3 还有各种新的 AI 图画对象的接连显现也一度给了 Midjourney 不小的压力，不过前几天它又推出了新的 V6 版本，图象的细节精细度达到令人惊叹的水平，对提示词的理解也更准确，还支援生成正确的英文文本内容，这让 Midjourney 在 AI 图画领域依旧极度有竞争力。

Midjourney v1 到 v6 出图效果对比，来源 Twitter @doganuraldesign

③ Adobe Firefly / PS beta

Adobe 在 4 月份的时候推出了自己的 AI 图象生成模型 Firefly，支援文生图、文生字体特效、局部重绘等多种性能，还将这些性能置入到了 Photoshop Beta 测试版中，让设计师可以借助 AI 的力量更高效地完成设计工作。

10 月份的时候 Firefly Image Model 升级到了 2.0 版本，图象生成质量比之前有了进一步提升，还支援人像调节、垫图、镜头调色设置等多种性能，还有 Firefly Vector Model，支援通过文字生成矢量图象，相信未来 Adobe 旗下的对象肯定会在 AI 的加持下更加好用。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

④ DALL·E 3

OpenAI 的 DALL·E 算是元老级别的 AI 图画对象了，最早的 DALL·E 1 在 2021 年 1 月的时候就显现了；DALL·E 2 在 2022 年 4 月份推出，以一张“宇航员骑着白马”的清晰图象启发了人们对 AI 图画的认知。虽然技术一直走在前沿，不过 OpenAI 对其商业化这一块很好像并不重视，所以知名度并不如其他 AI 图画对象。

虽然如此，9 月份 DALL·E 3 发布时依旧引起过广泛关注，一方面是它对文本的理解远超当时的其他 AI 图画模型，可以准确理解并呈现复杂提示词中的所有元素，包括元素间的关系和文本内容；另一方便则是它和 ChatGPT 结合带来的新交互方式，用户直接用语言描述自己的需求，ChatGPT 会自动理解它并拆分生成任务，而无需用鼠标进行复杂的设置。从在某种程度上来说，ChatGPT 里的 DALL·E 3 才是最好用的 DALL·E 3。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

⑤ Krea AI

AI 图画在今年的一大技术进步就是显现了 LCM，可以一步完成图象推理，让图象的生成时间缩短了 6-10 倍，并由此开启了“实时生成”这种新的 AI 图画形式，Krea AI 就是最早将其商业化的运用。而随着 LCM 和 SDXL Turbo 模型的开源，我们也可以在本地体验这种超快的生成速度，或者在 ComfyUI 中自己搭建图象实时生成的工作流。

有了实时生成，我们可以在画板上控制画面的元素、构图、配色，再结合提示词将其转化为完整精致的图象，并调整修改内容，这比在 WebUI 中重新生成或者局部重绘要高效很多，对电商、产品、电影、游戏概念等设计领域来说具有重要意义。

三、AI 音视频对象

① Runway

Runway 无疑是现在最强的视频生成和编辑运用，它既有正常的视频剪辑性能，也有基于生成式 AI 的各项新性能，包括文生图、图生图、文生视频、图生视频、视频风格化、文本生成语音、一键视频抠图、视频内容抹除、动态追踪等。

用 Runway 的 Gen-2 模型生成视频时，可以调节视频运动幅度，可以设置不同的镜头运动方式，还支援用运动笔刷控制画面中的运动区域，以及视频进行抠图然后组合生成新的场景，这都让视频生成的可控性变得更强了。

② Pika

Pika 算是 AI 视频生成领域的后起之秀，它也支援通过文本或者图象生成视频，也可以控制视频动态强度和镜头运动方式，总体来说和 Runway 极度类似。最新的 Pika 1.0 则是让它的性能更上一层楼，不但可以生成高质量的 2D/3D 动画，还支援视频扩展（Expand canvas）和区域修改（Modify region），让 AI 视频的趣味性变得更强了。

③ Domo AI

Domo AI 是最近才显现的一个 AI 视频生成运用，性能包括文生图、图象风格转化、图象生成视频和视频风格转换。由于它将真人视频转化为动漫、3D、像素等风格时极度稳定，效果比现在其他的 AI 视频对象都优秀，所以极度受欢迎。

④ Heygen

前段时间郭德纲用英语说相声的视频让 Heygen 爆火出圈，作为一个数字人视频生成对象，Heygen 不仅有可以在神态上以假乱真的数字人形象，还提供了从人物选择、内容制作到配音、视频合成等一整套的服务，让营销视频的制作变得前所有的简单和高效。视频对口型无痕翻译则是其新推出的性能，给传统视频翻译和影视制作带来了一种新的处理思路。

用 Heygen 生成的数字人短视频

⑤ 开源AI视频对象

除了各种商业 AI 视频运用外，我们也可以利用开源对象或模型在本地实现视频生成，现在比较受欢迎的有 Animatediff 和最新推出的 Stable Video Diffusion。

大家在网上看到的“一个女孩的一生”或者人物变装的视频，就是用 Animatediff 生成的。Animatediff 是一个拓展插件，可以安装在 SD WebUI 或者 ComfyUI 中，实现文本生成视频或者视频转风格。

Stable Video Diffusion 则是 Stability AI 最新推出的视频模型，可以通过 ComfyUI 部署到到本地运用，免费将图象转为视频。

⑥ 开源AI音频对象

生成式 AI 技术也可以帮我们实现音频的生成或处理，比如通过文本生成自然语音（TTS）、声音克隆、通过文本生成音乐音效等，其中既有商业运用，也有可以部署到本地运用的开源的对象。

ElevenLabs 是现在比较成熟的商业 AI 语音生成运用，性能包括文本生成逼真自然语言以及克隆语音。而相似性能开源的对象则极度多，包括 so-vits-svc （声音克隆）、Bert-VITS2、网易易魔声（文本转语音）等。

年度盘点！2023年不容错过的30款AI神器，你用过多少？

之前还大家推荐过 6 款 AI 音乐生成对象，包括 Stable Audio、Soundraw、Suno AI 等，它们都可以生成高质量的音乐、音效以及歌曲。最近还显现了一个开源对象 Amphion，可以免费实现文本转语音、语音克隆、文本生成音乐以及歌声合成。

四、其他

AI 模型也促进了细分领域里 AI 对象的发展。比如有了大语言模型后，就催生了很多如 AI 简历生成器、AI 写作对象，AI 翻译器，AI PPT 生成对象这样的细分运用。这里推荐一个我运用频率极度高的 AI 翻译对象——沉浸式翻译，它可以实现网页双语对照翻译，还支援在 YouTube、Netflix、Bilibili 等网站上显示双语字幕，对需要经常看英文网页的小伙伴极度有用。

年度盘点！2023年不容错过的30款AI神器，你用过多少？