AIGC架构面试八股文

First Post:

Last Update:

AIGC环境生态:

应用 APPLICATIONS AI
模型 MODELS IS A
基础设施 INFRASTRUCTURE FIVE
芯片 CHIPS LAYER
能源 ENERGY CAKE

从0到1设计一个Agent智能体:

明确核心问题→拆解核心能力→做分层架构→打磨设计细节→快速MVP验证效果→根据数据持续迭代优化

1.熟悉具体公司业务流程,根据业务确定核心问题,锁定具体清晰的场景。如自动处理客服工单,按需生成周报,聚焦问题,明确设计主体

2.拆解Agent要具备的核心能力,按感知、决策、执行、闭环来思考。感知是用户输入,确定是纯文本还是多模态的能力,决策是任务规划,选React模式还是规划式,执行是确定可调用的工具和API,如能不能调用搜索数据库生成文件。

3.分层的架构设计,最底层是大模型作为核心大脑,然后就是工具层,封装后让Agemt能和外部交互。

再往上就是记忆层,短期记忆存上下文,长期记忆用向量数据库存知识。

最上层就是编排层,把控整个任务流程,

分层的架构设计好处是让各层职责清晰,后续迭代调整更加方便。

4.考虑关键的设计细节,比如决策逻辑简单的任务用Flow就可以,需要灵活应变地设计React循环,能根据反馈调整策略。

工具设计要标准化,每个工具入参、出参的描述都要清晰,让模型能够正确调用。做好容错机制,针对调用失败,决策错误的情况,设置重试机制和人工接入点

5.做MVP最小可用版本验证,先搭建简单版本,用真实数据跑通,重点关注任务完成率,平均轮次,工具调用准确率,用户满意度等核心指标,根据数据反馈持续迭代。比如调整工具设计,优化提示词,增加逻辑判断。

6.做好上线的闭环和持续优化。上线后持续收集数据,分析失败案例,整理用户反馈,再针对性优化,比如微调模型,调整提示词,扩充工具集

写代码三个步骤:

1.和cloud ops讨论需求(其他中端模型也行)

2.让Cloud ops写设计文档的文案(其他中端模型也行)

3.让Cloudx去执行(或者cc)

一。多Agent系列

1.单Agent or 多Agent?
基于Anthropic核心原则:“简单优先”,默认从单agent架构开始,如果引入复杂性能够显著”提高效果“时,才考虑。

当Agent遇到无法解决的瓶颈时,就升级为复杂的多Agent

如何判断?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1.上下文的容量瓶颈

例子:一个上下文窗口,遇到几十个网页分析



2.单一路径依赖带来的高失败风险

例子:有其中一个任务失败时,如遇到API失效等,就会任务流卡死



3.效率瓶颈

例子:要求时效性的任务,就直接上多Agent

验证是否真的适合多Agent

1
2
3
4
5
6
7
8
9
10
11
12


1.技术可行性

例如:任务能否被拆分成多个独立可并行的子任务。如分析市场分析报告可以,如写代码就不行,因为是强依赖上下文,同时修改一个复杂的代码库不冲突



2.商业价值

多Agent任务是普通聊天的15倍价格

如果不行,就优化单agent或者寻找其他方案

2.搭建高效Agent:

代理式系统Agentc systems→工作流

                                                →智能体

差异:决策权在哪里,流程是否固定

技术选项:

第三层(高级):智能体
应用开放性、无法预测步骤 的任务
第二层(中级):工作流
流程固定、追求高质量和可靠性
第一层(基础):优化单个LLM调用
优先尝试!通姑婆RAG和Few-shot解决

何时使用或不使用框架:

复杂场景时,需要嗑底层细节,极致的模型优化,产品性能时,就能不使用框架尽量不使用框架

3.Workflows工作流选择

1.Prompt Chaining 基于Prompt的穿行流水线

1
2
3
4
5
6
7
8
定义:独立节点:串行工作流、显式流:处理前不输出,避免黑盒操作

适用情形:任务可以拆分子任务,步骤固定且稳定。不关重要的场景节点用便宜的模型,重要决策的场景节点才用贵的

牺牲:调用次数与延迟、 收益:准确率与稳定性高



2.Routing 精准分类分发 、如退款纠纷,退款需要高准确度与多重校验,寒暄需要速度与廉价

1
2
3
4
5
6
7
8
9
10


核心定义:在任务真正开始之前,对输入进行分类,并将其引导到不同处理器路径的系统结构

核心价值:关注点分离:避免为了优化A而伤害b的结构性冲突,让每一条路径只为负责问题而极致优化

使用前提:输入可以被清晰、可靠地分类,不同类别的处理逻辑存在本质区别,合并路径会产生明显的“目标冲突”

实现方法:LLM判定:利用大模型语义理解,传统模型:专用的分类模型或算法,规则系统:基于关键词或业务逻辑判定

3.Sectionning 并行协作/聚合

1
2
3
4
5
6
7
8
9
10
11
12
13
14
定义与价值:是吧一个大任务拆成多个彼此独立的子任务,并行执行,最后进行结果回报

价值:用并行换效率



适用前提:独立性:子任务间无中间结果依赖,固定性:子任务类型固定(区别于multiagent的子任务动态规划),可以拆分成多个子任务

核心决策点:效率优先vs成本优先(不用)

效率优先:延迟敏感如:安全护栏并行

(不用)成本优先:吞吐瓶颈:自动化测评,通过并发对冲海量数据

4.Voting(投票机制)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18


核心定义:对同一个判断任务进行多次独立运行,通过程序化规则聚合结果

目的:提高整体置信度与系统鲁棒性

结构直觉:承认波动:非确定性是LLM的客观属性

                   拒绝博彩:不把安全性建立在单次输出上

                    并行定位:这是可靠性并型,而非效型

核心决策点:“如果判断错了,业务能否承受代价”

不可容错:如代码安全审查,一次报警即刻拦截

可容错:内容审核,通过阈值权衡假阳性和假阴性

5.Orchestrator-workers 动态编排调度

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
核心定义:动态并行:在运行中根据输入动态拆解子任务

                    任务规划:orchestrator 决定接下来做什么,worker负责执行

                    目标:解决无法提前预设固定步骤的效率挑战



对比:Sectioning

Sectioning 子任务是提前固定好的步骤

Orchestrator拆分是动态根据执行进展实事派发任务



什么时候用该模式?

广度优先:覆盖大量对象或信息源

超长上下文:整体信息量已超过单一Prompt承载上限

可拆分独立子任务:子任务需在执行中不断发现,调整和补充

6.Eval-Opt 循环评价优化

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
核心定义:单点打磨:围绕同一结果反复修改而非横向选优

                    标准驱动:根据明确标注提供反馈

                    闭环迭代:直到满足标准或达到停止条件



核心前提:掌握改进权

1.标准极其明确:是否清楚滴知道什么是好

2.改进方向清晰是否能支出哪里不好,并知道怎么改



与voting对比:

voting :不知道答案,选多个里最好的投票(逻辑:多版本的横向对比,场景:没有唯一正确答案,而且单次判断不稳定,目标:见底单次判断失误带来的系统性风险)

Eval-opt:讲一个答案向质量上限迭代(逻辑:单点迭代+反馈驱动迭代,场景:对语气、准确性、风格有明确指标,目标:一个答案向质量上限迭代)

** 核心决策逻辑维度:质量(准确率与容错率)、成本(模型选择与调用量)、速度(响应时间与吞吐量)**

3.多智能体A2A

1.传统脚本(硬编码路劲)→2.单智能体(动态转向)→3.多智能体(Agent并行协作)

1
2
3
4
5
6
核心定义:Agent在循环自主使用工具的LLM

                    Multi-Agent:通过分工突破个体极限的协作系统

上下文工程终极策略:隔离lsolation

1.核心架构(Architecture)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
指挥官-工人模式

2.核心优势:并行化:同时处理多任务,效率up

                    隔离性:独立上下文窗口,降低噪音

                    压缩:提炼洞见,而非堆砌数据

3.适用场景:

广度优先:需要同时探索多个方向。如调研

任务可并行:子任务间无强依赖。如50家公司财报



效果验证:Token缩放定律

实战数据:标普500董事成员查询

单体:失败

多提:90.2%准确率



物理原理:推理时计算80%性能差异源于Token使用量,需要堆智力

能力边界:

成本与局限:15倍代价

维度 说明
成本(cost) Token消耗约为普通对话的15倍,仅仅适合高价值任务
使用(Pro) 重阅读:研究,分析。
特点独立可并行
不适用(Con) 重写入:复杂编程。特点:高耦合,强依赖

4.高级架构概览(High-level Architecture)

citations Lead agent(主智能体)
用户请求传进来主智能体,主智能体分发后最终生成报告
Memory
Search
subagent
Search
sybagent
Search
subagent
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1.用户请求传进来主智能体,指挥官接单

2.指挥官开始思考和规划

3.指挥官根据规划向下方派出多个工人

4.各工人把结果返回指挥官,进行汇总与初稿

5.添加引用来源并且生成最终报告输出回用户



主Agent分发原理:

深度思考(Think&Plan):插接需求,列出维度:1.硬件2.算法3.市场



确定人设(Define Personas):决定生成3个工人,并分别定义其topic



工具调用(Tool Call):发起Function Call



现场实例化(Instantiation):后台启动新Session System Prompt



范式对比:静态RAGvs动态智能体

维度 传统RAG 多智能体
机制(Mechanism) 静态检索(static Retrieval)一次抓取 动态搜索(Dynamic Search)(多步迭代)
行为(Behavior) 图书馆管理员(搬书) 资深研究员(适应与修正)
可信度(Trust) 隐式信任(容易幻觉) 显式审计Citation Agent(独立验证层)

5.多Agent提示词工程

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


1.管理层原则:心智与授权(要做到“可控”,“高效”,“可靠”)

1.像智能体一样思考:行动:简历模拟器,观察失败步骤

                                    避免黑盒操作



2.教会指挥官权限:四要素:目标+格式+工具+边界



3.匹配力度(Scale effort)规则:简单任务(1agent),普通任务(5agent),复杂任务(10 agent)

.在prompt中嵌入明确的缩放规则。

根据任务复杂度匹配投入力度,避免简单任务过度投入,复杂任务投入不足问题



4.工具设计至关重要

    1.工具描述= 用户手册

    2.必须提供显式启发法:“优先使用专用工具”

    3.糟糕的描述=错误的路径

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48


5.让智能体自我进化

试用工具→报错→重写文档

Result:任务耗时减少40%

如何帮助智能体自我进化?

“测试所以可用工具,思考工具的描述有没有存在缺陷,观察报错原因、分析失败模式,是否能补充,自动生成新的工具描述来避免未来的错误”





6.先宽后窄策略(Start Wide)

策略:先搜宽泛概念→再聚焦细节(drill down)

起步:1.短、宽泛的查询词,再进行评估,2.看看信息是否足够,3.最终逐步收窄范围、进入细节





7.引导思维过程(Thinking)

工具:Extended Thinking作为草稿纸

循环:Search → Interleacved Thinking →Next Act

            工具结果→思考评估→ 再搜索(循环进行)

让模型输出可见思考轨迹,帮助主Agent规划查询步骤,决定用哪些工具,判断查询复杂度,明确子智能体角色,子智能体使用交错石思维



8.并行工具调用(parallel)



速度来源:宏观并行(多Agent)+微观并行(每个字Agent内部同时使用多个工具)

Impact:研究时间缩短90%



6.Lead Agent提示词

1.核心人设(Persona):

1
2
3
4
5
6
7
8
9
10
11
12
13
14


核心能力:战略(Strategy)、规划(planing)、委派(Delegation)

定位:像课题组长一样思考“怎么解题最高效”?你是专业研究负责人,专注于高层研究战略、规划、高效派委subagent以及报告撰写



核心目标:

定义:领导一个流程(lead a process)

交付:产出卓越的研究报告(Produce 按excellentresearch report)

2.研究过程:四步思考循环

1
2
3
4
5
6
7
8
9
10


1.评估Assessment →2.分类Query Type→3.计划Plan→4.执行Execution



2.多方案:需要探索至少三种不同的应答方法,最终选择最优方案(思维发散)

避免了模型即使错了也要走到黑的毛病

一.评估与分解(Assessment)

1
2
3
4
5
6
7
8
9
10
11
12
13
14


深度解构(Breakdown)

实体与关系(concepts&Emtotoes):谁是主角?有什么关联?

数据锚点(Facts&Data):需要哪些具体数字

约束条件(Constraints):时间、上下文

What matters most?用户最在意是什么

Desired format?是一份详细报告、实体列表、还是视觉分析?

二.查询类别判定(Query Type)

1.深度优先
depath-first
特征:多视角(Multiple Perspectives、深挖单一话题)
策略:平行Agent探索不同观点/方法论
2.广度优先
Breadth-furst
特征:独立子问题(Distinct Sub-questions)、“Ging wide”
策略:平行Agent分头抓取数据包,再汇报
3.直截了当
Straightforward
特征:聚焦、定义明确、单次调查即可
策略:单一Sub-agent高效执行

三.基于分类的计划制定

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24


For Depth-first

定义3--5个具体的方法论或者视角,列出具体的专家观点或者证据源,Synthesis Plan:规划如何融合不同的观点。



For Breadth-furst

枚举所有子任务

划定清晰的边界(Crisp Boundaries)以防重叠

按重要顺序排序



对每一步都自我评价:

这一步能并行吗?

这一步真的有必要吗?

四.执行

1
2
3
4
5
6
7
8
有条不紊的动态闭环

动态监控:持续监控进度,跟进智能体的结果“更新搜索计划”

贝叶斯推理:更新先验指示表知识,方向错了立刻掉头,发现线索立刻追中。

时间管理: 若时间不够停止部署,立刻开始撰写报告(避免超时)

3.兵力部署:Sub-agent数量法则

More Subagents = More overhead

简单任务 1个(即使简单任务也要派一个,确保隔离)
标准任务 2-3个(多视角验证)
高复杂度 5-10个(海量信息收集,超过20个需要重构)

4.委派指令:部署与分配

1
2
3
4
5
6
工具落地:必须调用run_blocking_subagent+ 清晰Prompt

时效性:马上部署,优先跑“”阻塞任务“。

空窗期:“Use time effciently”等待分析已经有结果

5.任务分配原则:

1
2
3
4
5
6
7
8
深度优先:按顺序部署(验证假设→补充视角)

广度优先:按重要性排序(核心实事→边缘细节)

直接查询:单个综合子智能体

Ruler:避免重叠(No overlap) &即使简单也要委派

4.3为Sub-agent提供明确指引

1
2
3
4
5
6
7
8
9
10
11
12
13
14


Sub-agent Prompt 必须包含:

1.核心目标(Objective):最好每个Agent只专注一个核心目标

2.输出格式(Format):列表?报告?还是特定答案?

3.背景上下文(Context):让下属知道为什么要做这个。

4.工具与范围(Tool &Scope):指定用什么工具,划定边界

5.推荐/黑名单信源(Sources):“Use SEC EDGAR,avoid news aggregators”

4.4综合协调职责(Synthesis Responsibility)

1
2
3
4
5
6
7
8
9
10
11
12


Lead Agent:

    Negative Constraints :不要自己做初级搜索(除非非常简单)、不要为了琐碎任务开Sub-Agent



    Positive Responsibility:Coordinate:协调、同步,Synthesize:整合不同来源的信息,Fill Gaps:发现缺漏根据需要增派人手



5.答案格式(Answer Formatting)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18


交付三部曲:

1.Review:重新审查所有事实清单

2.Reflect:深度反思-“这些事实真的能充分回答用户的问题吗?”

3.Output:只有确认无误后,才生成Markdown格式的最终答案



特殊禁令:

不要在报告里加md引用,因为后面会有专门的Citation Agent来处理。



6.进阶:如何使用内部工具?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22


链接Slack,Jira,Drive等企业数据

探索模式(Read-only First)

在委派之前,自己先用read-only tools(如“slack_search”)试探一下

目的:了解数据结构,确认信息是否存在,以便写出更好的指令



专用Sub-Agent模式

对于特定数据源,创建Specialized Sub-agents。

Example:“Asana Subagent”,“Slack Subagent”

明确指示他们仅用特定工具,避免公网干扰



7.并行工具调用

1
2
3
4
5
6
7
8
9
10


串行(Sequentia):Call A→Wait→CallB

并行(Parallel):Call A+CallB+CallC

标准:启动阶段默认并行运行3个子智能体(获取足够信息面)



8.核心规则(7 Guidelines)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17


1.沟通:极高信息密度。用最少字说清楚

2.事实审查:日期、数字、量化数据。Lead Agent必须定期回顾核心事实

3.冲突解决:新近度(Recency)&一致性。不同来源信息打架时
4.审慎思考:对新奇信息“Thinkcarefully”

5.及时止损:边际收益递减→Stop

6.边界:Lead必须亲自写报告



7.安全红线:严禁研究仇恨/暴力内容?

AIGC往后发展个人预期:

2026Q1-2月:

养虾热潮,聚集大量用户关注者

2026Q2-3月:

极简部署与运行形成生态化

社区与虾粉互动生态

本地化插件生态

2026Q2-5月

沉淀优质资产,打造中国开发的SKills生态圈与杀手级应用

打造中国Skills本地生态

Killer Apps杀手级落地

如Coze的工作流被Skills代替

大模型评估&红队测试:Promptfoo

交付安全可靠的人工智能应用,被openAI收购并入功能

AIAgent架构

Skills决定上限

skills架构

QQ_1774177466778

1.skill.md:必须的(Required,核心大脑)教用户如何使用

2.references:参考内容、知识库

3.scripts:脚本工具箱

4.templates:模板输出库

5.LICENSE.txt

e2e51ebd-df5e-40f4-972d-1de1d1f44fd1

为什么Skill比工作流强:

1.降低模型幻觉

2.复用性强,移植性强

3.自由度,边界,可以更好做复杂的工作流

  1. OpenClaw 蓝皮书 / Claude Skill 构建指南

链接 说明
Claude构建技能(skill)官方完全指南 – OpenClawLog 最全的官方指南
OpenClaw Skills 官方文档 官方文档
Skill Creator 实战指南 英文版实战指南

  1. 国内 Skill 构建指南(WorkBuddy / Claude Code 中文生态)

链接 说明
GitHub - skill-creator-cn 中文版 中文版 Skill Creator,带完整中文提示
WorkBuddy Skills 完全上手指南 国内作者的上手教程
Skill Hub 中国 - Skill-creator 教程 中文 Skill 社区
WorkBuddy 自定义技能拓展实践 腾讯云社区

OpenClaw架构

UI/命令符

多Agent(外层封装)

本地推理引擎如:

  • (Ollama/LM Studio)

Agent智能体

                ↓(包含模块)模块流程:

1,感知模块接收用户输入(如“生成行业报告” )

                ↓

2.Agent大脑模型(决策模块LLM):

  • **Qwen3-Coder (7B/14B)**:目前开源界最适合处理代码和逻辑指令的模型之一。

  • DeepSeek-R1-Distill-Llama-8B:推理能力强,适合处理复杂任务拆解。

  • **Llama-3.2 (8B)**:综合性能均衡,响应速度快。

下载命令示例(以 Ollama 为例):

ollama pull qwen2.5-coder:7b

                ↓

3.调用工具模块执行(搜索引擎+数据分析工具)

        调用工具模块属于Skills,本质是Tools的流程化封装

        底层执行通过 Function Calling 和 MCP 协议实现

                ↓

4.记忆模块记录中间结果

                 ↓

  1. 最终输出报告

文档著者:GT / github:morniakr.git.io