摘要:在人工智能蓬勃发展的当下,智能体的应用越来越广泛,而搭建合理的工作流则是开发智能体的核心环节。今天,咱们就以生成图文这个超有趣的案例,来深入探讨搭建智能体和工作流之间那些紧密的联系。
-
智能体是什么
-
搭建智能体的关键步骤
-
案例说明
01
—
智能体是什么?
基于大模型的智能体,简单来说,就是以大规模预训练模型为基础构建的智能体。大模型在经过海量数据训练后,具备强大的语言理解、生成和知识储备能力。智能体借助大模型的这些能力,能更高效地感知环境、处理信息并做出决策。比如在智能客服场景中,基于大模型的智能体可以理解用户用各种表述方式提出的问题,像 “我手机话费怎么突然没了” 和 “我的手机为啥欠费了”,它都能精准理解,并给出专业解答。
关键特性
强大的语义理解能力:大模型拥有庞大的参数和丰富的训练数据,能理解自然语言中复杂的语义关系。在处理多义词、隐喻、口语化表达时表现出色。例如 “苹果从树上掉下来” 和 “我想买个苹果手机”,基于大模型的智能体可以轻松区分两个 “苹果” 的不同含义。
灵活的任务适应性:可以快速适应多种不同类型的任务。在文本创作方面,它既能写新闻报道,又能创作小说、诗歌;在信息检索中,能根据用户模糊的需求找到精准的答案。
持续学习与进化潜力:随着新数据的不断注入,大模型可以持续优化,基于它的智能体也能不断进化。例如,大模型学习到新的行业知识后,相关的智能体就能为用户提供更前沿、更准确的行业信息。
02
—
搭建智能体的关键步骤
一、前期准备:了解业务需求与智能体目标
在着手搭建工作流和开发智能体之前,搞清楚业务需求和智能体要达成的目标是重中之重。就拿生成图文来说,我们得先明确,是要为电商商品生成宣传图文,还是为自媒体文章配图,亦或是为游戏场景创作美术素材呢?不同的应用场景,对图文的风格、内容和质量要求都大不一样。
如果是电商商品宣传,可能需要突出商品特点、优势,图片要高清、真实,文字描述简洁有力、直击痛点;要是自媒体文章配图,就得根据文章主题、风格来创作,或幽默风趣,或严谨专业;而游戏场景美术素材,则更注重创意、视觉效果和与游戏整体风格的契合度。只有精准把握这些需求,才能为后续搭建工作流指明方向,让智能体 “有的放矢”。
二、工作流搭建:图文生成的 “生产线”
明确需求后,就该搭建工作流啦,这就好比为图文生成打造一条高效的 “生产线”。
(一)任务拆解与思维链构建
把生成图文这个复杂任务拆解成一个个具体、可操作的小步骤,构建清晰的思维链。第一步是文本内容生成。根据不同的应用场景,智能体要理解并生成合适的文字描述。比如为一款手机生成宣传文案,就要包含手机的型号、性能参数、特色功能,像高像素摄像头、快速充电技术等,还要用吸引人的话术突出卖点。
接着是图像生成环节。依据前面生成的文本内容,智能体要 “构思” 出与之匹配的图像。这就需要智能体理解文本中的关键信息,比如手机的外观设计、颜色、形状等,然后通过图像生成算法,创作出符合要求的图片。可能是手机的正面、背面特写,也可能是手机在不同场景下的使用图。
最后是图文融合,将生成的文本和图像进行合理排版、搭配,让它们相得益彰。这一步要考虑文字的字体、颜色、大小,以及在图片中的位置,确保图文整体协调、美观,能够清晰传达信息。
(二)Few-shot 学习助力智能体 “举一反三”
在每个步骤中,我们可以运用 Few-shot 学习的方法,给智能体提供少量示例,帮助它快速学习任务执行方式。比如在文本内容生成阶段,给智能体展示一些优秀的手机宣传文案示例,让它学习如何突出产品优势、运用恰当的语言风格。智能体通过分析这些示例,就能更好地理解任务要求,生成更符合预期的文本。
在图像生成环节,也可以给智能体展示一些与手机相关的优质图片,让它明白不同元素在图像中的呈现方式,像手机在画面中的构图、光影效果等。这样,智能体就能借鉴这些示例,生成更出色的图像。
三、智能体在工作流中的角色:高效执行的 “工匠”
工作流搭建好了,智能体在其中就像一位技艺精湛的 “工匠”,按照设定的流程高效执行任务。
在文本内容生成阶段,智能体依据前期学习到的知识和示例,对输入的任务信息进行分析、理解。它会从大量的语言数据中提取相关信息,运用自然语言处理技术,生成具有逻辑性、吸引力的文本内容。就像一个经验丰富的文案策划师,能够精准把握产品特点,写出打动人心的文案。
进入图像生成阶段,智能体根据文本内容,利用深度学习算法和图像生成模型,将文字描述转化为可视化的图像。它会在庞大的图像数据库中寻找灵感,结合算法生成的图像元素,创作出独一无二的图片。这就好比一位优秀的设计师,根据客户需求设计出令人满意的作品。
最后在图文融合阶段,智能体又化身为一位专业的排版师,运用排版知识和美学原理,将文本和图像进行完美搭配。它会不断调整文字和图像的位置、大小、颜色等参数,直到呈现出最佳的视觉效果。
四、优化与调整:让工作流和智能体 “更上一层楼”
搭建好工作流并让智能体开始工作后,并不意味着万事大吉,还需要不断优化和调整。
通过对生成的图文进行质量评估,收集用户反馈,我们可以发现工作流和智能体存在的问题。比如,生成的文本可能存在表述不准确、逻辑不清晰的情况;图像可能与文本匹配度不高,或者视觉效果不佳;图文融合后的整体布局可能不够美观、协调。
针对这些问题,我们可以对工作流进行优化。如果文本质量有问题,就调整文本生成环节的参数、增加训练数据,让智能体更好地理解任务要求;要是图像生成效果不理想,就改进图像生成模型、调整算法参数,提高图像的质量和与文本的匹配度;对于图文融合的问题,就优化排版算法,增加更多的排版模板和样式,提升整体的视觉效果。
同时,也要对智能体进行持续训练和优化。给它提供更多高质量的示例数据,让它学习到更多的知识和技能;调整智能体的模型结构,提高其处理复杂任务的能力;优化智能体的算法,使其在执行任务时更加高效、准确。

03
—
案例说明
今天我们以一个营销的图文生成助手来说明,这个营销的图文生成助手是扣子的官网模版,大家可以自行打开看看。

我把它复制到我的大数据智能助手中,进入到这个智能体后,我们看到它核心的部分就是工作流,也就是一个智能体的核心就是它的工作流。


我们可以看到这个工作流有两个核心的入参,写作的主题,要求,核心管理,和字数要求。
我们来详细看看这个工作流的内部:

看到这个工作流,我们可以看到它这里有几个关键的步骤
1、根据用户的输入,去互联网搜索相关的内容,这里有两个搜索插件,一个必应的搜索插件,一个是search的搜索插件,这两个插件可以在扣子的商店中可以看到,是将用户输入的内容去两个浏览器上搜索相关的内容返回。


2、调用大模型的能力,将用户输入的内容配合提示词发给大模型,输出封面的文案。具体可以看看它的提示词内容:

## 人设
你是自媒体图文内容创作助手。在撰写一篇自媒体文案前,你会收到如下输入:写作主题、写作字数(非必填)、关于写作主题的一些背景信息。
## 技能
– 撰写高话题度、高传播性、高分享欲的自媒体爆款文章。
– 撰写能够勾起用户好奇心,让用户忍不住开始阅读的钩子型文章。
– 撰写环环相扣、能够持续吸引用户完成阅读、长时间停留的有料文章。
– 善于分析目标平台的用户受众,结合用户特性,撰写适合受众群体的针对性文案。
– 擅长高水平的中文表达,表达流畅自然、用词恰当高级。
– 撰写情感充沛,能够深深引起读者的共鸣的文章。
– 你习惯以第一人称“我”的口吻创作内容,以自己的个人视角引发用户共鸣。
– 你撰写的文章言之有物,会结合背景信息输出细节丰富的内容。
– 你输出的内容营销味很弱,让人感觉你就是在不经意地输出一些自己生活中的个人观点。
## 规则
1. 你撰写的文案总是先以一个钩子开始,能够一开始就引发用户的阅读欲。这个钩子可以是一个问题,可以是一个有争议性的话题。
2. 你撰写的文案中经常会充满各种能够引起读者强烈共鸣的话题、各种高度话题性的关键词。
3. 你撰写的文案具备高度的互动引导,总是能够让用户忍不住留下评论、点赞并转发。
4. 在文案末尾,抽取出 4-5 个 seo 关键词,以#标签形式放在文章最后。
5. 你每次撰写文案前会先生成 5 个可能的备选标题,这些标题通常是问句或反问形式,让人有强烈的阅读欲。
5. 使用 markdown 格式输出文案。
7. 严格遵循写作字数要求。
## 本次创作背景信息
1. 写作主题:{{subject}}
2. 写作字数: {{length}}
3. 关于写作主题的一些背景信息:{{context}}
*注意:你不需要用到背景信息中的全部内容,只需要利用好能够服务写作主题的内容。首先思考哪部分内容对于写作主题是有帮助的,再输出文案*
## 输出格式:
## 标题
1. 标题 1
2. 标题 2
3. 标题 3
4. 标题 4
5. 标题 5
## 正文
(正文内容)
## 标签
***# 标签 1、# 标签 2、# 标签 3、# 标签 4、# 标签 5***
这里调用的豆包的大模型,同时我们可以看看大模型的提示词,需要满足,角色、技能、规则、输出结果、格式等要求。
3、第三步,它这里分成两个分支,一个输出文案内容,一个是输出三张图片和一个封面,上面第一个大模型是输出文案内容。如下图所示:

第二个分支,它这里是基于文案生成文生图的提示词

4、将文生图产生的提示词直接发送给文生图的插件,产生文生图的prompt,

最后一个我们看看这个组件是生成封面文案的组件,调用豆包的大模型。

5、调用4个组件,输出3个配图和一个封面插图。输出图案就是把第四部的promt给到标准的文生图的插件产生图案。我们点开这个工作流看看。

所以这里就是标准的图像生成的插件包装的工作流。而最后一个调用一个工作流产生图文的封面图。入参是5个,我们看看它这个详细的工作流。

图像生成的promt


这个就是使用画板插件生成一个封面。
所以总结下它这个工作流:
1、根据用户的输入,去进行互联网上搜索内容,产生内容的promt 发送给豆包产生内容
2、基于互联网生成的内容,生成文生图的promt,基于promt 发送给文生图的插件生成三张插图。
3、基文生图的promt,封面的文案,并将文案和文生图的封面的promt发送给大模型生成封面。
这么看是不是像一个人把任务分成不同的任务步骤,然后通过提示词告诉大模型工作,这样一个过程叫做工作流。
最后我们来看一下调试的结果:
这个视频,我们可以看到输入一个简单的主题和字数要求,它输入了内容,三个插图和一个封面图,非常适合小红书的营销文案助手。
通过这个详细案例,给大家说明了智能体和工作流的关系,以及一个常规的智能助手完成一个任务的详细工作流,本文是用扣子的模版来说明,扣子是一个大模型开发应用的可视化开发工具,如果是一些通用的常规的功能,可以在扣子平台上进行使用,当然一些特性话的功能,还是需要自己手动搭建agent和RAG来完成。
欢迎加入【AIGC交流群】社群,长按以下二维码加入专业微信群.系统学习请加入知识星球,扫描下图二维码加入。
发现AI领域的创业IDEA,探索ProductHunt的AI创意潮流
用GenAI重新定义BI,Databricks推出AI/BI数据智能平台
从NL2SQL到Data Agent:AI数据分析的演化和实例
拆解多基于LangGraph的多Agent项目设计和技术细节超越文本检索:Graph RAG如何变革LLM内容生成