引言
在这个信息爆炸的时代,AI 工具正以飞快的速度涌入我们的工作和生活。许多人期待这些工具能够显著提升我们的工作效率。然而,单一的 AI 工具所能带来的提升效果往往有限。实际上,真正能够帮助我们提升效率的是一个集成了多个 AI 工具协作的 AI 工作流。一个有效的工作流不仅能够简化操作,还能最大化利用 AI 的能力,实现真正的效率提升。
例如,在公司的素材池的扩充过程中,从素材生成到审核,再到入库,多个节点有没有可能将这些节点合并,用 AI 多节点甚至一站式解决?又例如,当老板让你总结会议纪要,并将其会议纪要整理成思维导图,有没有什么办法可以快速搞定?
一、为什么要设计 AI 工作流
在 AI 应用中,解决问题的核心不在于单一的工具或模型,而在于设计一个适合 AI 的工作流。以下是设计 AI 工作流时需要考虑的几个因素:
简化复杂任务:通过设计工作流,可以将复杂任务拆解为更易管理的子任务,从而提高任务的可操作性和成功率。例如,通过将文档处理分为文本提取、分析、处理和输出四个步骤,可以更好地管理每个步骤的质量。
提高效率:工作流可以自动化重复性任务,从而节省时间和人力。例如,通过自动化数据清洗和预处理,可以将数据分析师的时间解放出来,专注于更具价值的分析工作。
增强灵活性:设计工作流可以使系统更加灵活,能够适应不同的需求变化。例如,通过模块化设计,可以根据需要灵活调整或替换某些步骤。
确保一致性和可靠性:工作流可以标准化操作流程,确保每次执行的结果一致,从而提高系统的可靠性。例如,通过标准化的文本处理流程,可以确保不同来源的文本处理结果一致。
案例:素材扩充入库工作流
在设计团队中,素材管理是一个重要的环节。以下是一个素材扩充入库的 AI 工作流:
第一步:素材 GC:使用 sd、mj 等生图工具生成图片素材。
第二步:素材审核:使用 GPTs 对素材进行筛选,去除低质量或重复素材。
第三步:素材自动打标:使用 GPTs 对素材进行自动打标,生成标签和信息填充。
第四步:素材入库:将处理好的素材批量入库。
第二步:素材审核
第三步:素材自动打标
一个完整的 AI 工作流,每个节点都有 AI 赋能提效,自动化+批量化的能力可以极大地节省时间成本。
二、一个 GPTs 多步骤 vs 多个 GPTs
在探讨 GPT 的使用时,一个有趣的话题是在项目中用单个 GPTs 多步骤完成任务,还是使用多个 GPTs 协同来完成任务?哪种形式更高效,让我们来深入了解这两种方法的优缺点:
一个 GPTs 多步骤
优点:
资源节约:一个 GPT 可以在一个上下文中完成多个步骤,最大化节约计算资源和时间。
操作简便:无需切换多个模型和接口,只需一次调用即可完成所有任务。
适用范围广:适用于各种需要连续处理的场景,如翻译、总结等。
缺点:
灵活性低:中间结果不能轻易修改,限制了人工干预的可能性。
上下文限制:处理复杂任务时,可能会因为上下文长度限制而影响结果质量。
模型要求高:对模型的理解和执行能力要求较高,需要强大的模型支持。
多个 GPTs
优点:
灵活性高:可以对每个步骤的中间结果进行处理和调整,增加人工干预的灵活性。
专注性强:每个 GPT 专注于完成一个特定任务,提示词编写和调试更为简单。
模型组合:可以混合使用不同模型,根据任务需要选择最合适的模型,提高整体效率和效果。
缺点:
资源消耗大:需要多次调用不同的 GPT 模型,增加计算资源和时间成本。
复杂度高:需要额外的代码和逻辑处理各个 GPT 之间的交互,增加系统复杂性。
适用性有限:在某些应用场景下,可能无法直接使用多个 GPT,需要额外的集成和协调工作。
以吴恩达老师的翻译 Agent 作为案例,多个 GPTs,整个过程不是在一个 Prompt 中完成,而是有三个 GPTs 分别完成直译、反思和意译,每个 GPTs 都有独立的 Prompt。
为了方便大家理解,我以“Never put off till tomorrow what you can do today.“为投喂需求,做个清晰的感知:
以下是一个 GPTs 完成多步骤翻译的示例:
输入
请按照直译、反思和意译的步骤,翻译下面这句话:
Never put off till tomorrow what you can do today.
输出
直译:今天能做的事,永远不要拖到明天。
反思:这句话在中文中传达了不要拖延的意思,但表达稍显冗长。
意译:今日事今日毕。
以下是使用多个 GPTs 分别完成直译、反思和意译的示例:
直译 GPTs
请翻译这句话:
Never put off till tomorrow what you can do today.
输出
今天能做的事,永远不要拖到明天。
反思 GPTs
<SOURCE_TEXT> Never put off till tomorrow what you can do today. </SOURCE_TEXT> <TRANSLATION> 今天能做的事,永远不要拖到明天。 </TRANSLATION> 请检查上面的翻译,反思其中存在的问题,输出仅包含问题列表。
输出
翻译表达了原文的意思,但显得冗长。
直译的结果在中文中不够简洁。
需要更简洁有力的表达方式。
意译 GPTs
<SOURCE_TEXT> Never put off till tomorrow what you can do today. </SOURCE_TEXT> <TRANSLATION> 今天能做的事,永远不要拖到明天。 </TRANSLATION> <EXPERT_SUGGESTIONS> 1. 翻译表达了原文的意思,但显得冗长。 2. 直译的结果在中文中不够简洁。 3. 需要更简洁有力的表达方式。 </EXPERT_SUGGESTIONS> 请根据直译和反思的结果,重新意译,并输出最终翻译结果,不包含任何其他信息。
输出
今日事今日毕。
通过对这两种翻译工作流的分析,可以看出,使用多个 GPT 方法时,每一步的输出都可以进行检查和调整,灵活性更高,允许人工干预以提高翻译质量,但需要额外的交互,增加了操作复杂度。而单一 GPT 多步骤方法在效率和资源消耗上更具优势,适用于快速且资源受限的环境,但灵活性较低,难以中途修改输出。最终,选择哪种方法应基于具体应用需求、资源可用性以及对翻译质量和灵活性的要求。
两种方式没有哪个更好用,要看实际的应用场景。
上面只是一些示例的讲解,可能有些同学没有很强的体感。我分享一个我一直在用的工作流吧,是针对会议对焦、评审时的纪要整理或者是项目改动排期时经常用的工作流。
三、案例分享
因为我是属于那种开会说的全都懂,散会内容全都忘的选手,老板让我去整理会议记录,属实是难为我了。
因此会议录音是我每次开会必备,而后我下去反复再听录音,整理出牵扯到我需要改动的点。但是有时候开倍速吧,重要的点又容易错过;不开倍速吧,有的会议前端长篇大论、设计侃侃而谈,非常浪费时间。因此我想着为什么不能让 GPT 帮我整合梳理出会议的内容,于是炼制了 GPTs:会议纪要助手。而后配合一些其他的 AI 工具网站创建会议整理工作流:
录音转文本-投喂 GPTs
第一步:将开会录音从音频转为文字
第二步:进行会议纪要总结
第三步:转变成思维导图
第一步:转文本
这一步很多工具网站都能做到。我在体验多个工具后,还是推荐用讯飞听见。这里就不给它打广告了哈,可以自行体验。当然也可以用飞书妙记、通义听悟等平替工具,效果都还不错。
如果你已经有了录屏或者录音,那就直接上传音视频就行。包括在手机上进行快捷操作,直接发送到手机端软件进行转换。这里我就拿最近的热议话题:萝卜快跑。我在某音上下载了一个博主的解说视频,直接上传。
上传并提交转写
转写结果
讯飞转写的精准度还是非常高的,哪怕是一些生僻冷门的词汇,它也会根据上下语境判断并精准转写。你也可以点击右下角的「需要人工校准?」做二次调整,会去掉人说话时的语气后缀,特别是在一些会议或者直播中,自然是需要把这些语气词去掉,精练化。读起来也会比较通顺。
下载文本.txt
我觉得电脑端可以直接全选复制会更加方便,手机端的话可以下载 TXT 发送到 GPT 上。
全选复制
第二步:会议纪要总结
复制后打开 GPT,@我们的会议纪要助手(GPTs),考虑到有部分同学目前没有渠道购买 GPT,我还去智谱清言上部署了一个类似的小助手,可以体验下。
直接投喂给 GPT
格式转化
当确认内容无误后,让 GPT 以 Workdown 格式输出,这一步偶尔还会出错,在 Prompt 中需要明确输出规则,最终输出以 Workdown 格式、css 窗口进行输出。
第三步:转变成思维导图
神器推荐:Markmap ☆☆☆
Markmap 预览
直接把输出的 Workdown 格式的内容粘贴在左边,右边会实时出思维导图的预览。
工具推荐:妙办 ☆☆☆☆
妙办预览
AI 对话的形式辅助思维导图的产图,我们也可以将我们的 Workdown 格式内容发送给它,大概等待 20s 左右,在画布中就会产出思维导图,并且可以利用工具调整思维导图中的内容、样式。
一段录音/视频 变成最后的思维导图,中间的每个节点都是 AI 赋能,网不卡的情况下,几分钟就可以得到你想要的结果。