产品架构

Agentic AI Native 智能客服系统 — 外卖行业全场景覆盖

设计理念总结

安全优先

Guardrails 双重防护 + 完备度检查减少幻觉，安全是不可协商的底线

智能分层

RAG + 三层记忆 + 图谱 + 动态编排，不同复杂度的问题走不同路径

持续进化

Reflection反馈注入定向修正 + 错题本跨会话错误免疫 + 知识沉淀闭环 + AI Native 设计，系统自动积累经验、不犯重复错误

Agentic Pipeline (动态编排)

Input Guard → Router → RAG + 语义记忆 + 图谱 + 错题本检索 → 完备度检查 → Pipeline决策 → Domain Agent (ReAct: 推理→工具调用→回复) → Reflection(反馈注入修正 + 错题本写入) → Output Guard → 输出/转人工 → Copilot

用户消息输入 (C端消费者 / 外卖骑手 / 入驻商家)

Input Guard (CRO标准化服务)

PII脱敏 · Prompt注入检测 · 恶意意图拦截

拦截 → 安全提示

通过 ↓

RAG 知识检索

1. Query → Embedding

2. Vector Search Top-5

3. Re-Ranking Top-3

4. Context Injection

语义记忆检索

1. 语义匹配(关键词重叠)

2. 衰减分加权(半衰期7天)

3. 冲突检测(矛盾消解)

4. 访问频率提升

实体关系图谱

1. User↔Order↔Merchant↔Rider

2. BFS关联遍历(depth=2)

3. 关系权重推理

4. 跨端上下文补全

NEW

错题本检索

1. 关键词+意图+严重度匹配

2. 历史教训 Top-3 召回

3. (错误模式, 修正方案)对

4. 注入Domain Agent上下文

并行检索 + 错题本

错题本不是独立 Agent — 检索结果作为动态上下文层注入 Domain Agent Prompt

信息完备度检查

评估用户输入是否满足当前意图的必需信息

完备 → 继续不足 → 追问

Pipeline 动态编排串联 Agent 执行流程，管理重试与降级策略

重试控制超时降级异常兜底

Domain Agent (领域专家)LLM 自主推理，决定是否调用工具、调用哪个工具

↑ Router 根据用户角色选定其中一个 Agent

ThoughtAgent 分析推理

1.理解用户意图 + 上下文

2.判断是否需要调用工具

3.选择工具 + 构造参数

调用

ActionTool Call

订单查询退款处理骑手定位图片分析+ 7 more

也可能不调用工具，直接回复

Response工具结果 + RAG知识 + 记忆上下文 + 错题本教训 → 生成最终回复

自愈机制

反馈注入Reflection 结构化评估（扣分项+违规细节）注入 retry prompt，Domain Agent 定向修正

错题本修正成功 → 提取(错误模式, 修正方案)对 → 写入 Lesson Memory → 未来相似场景自动召回，跨会话永久免疫

错题本不是独立 Agent，而是注入 Domain Agent Prompt 的动态上下文层

Output Guard (CRO标准化服务)

合规检查 · PII过滤 · 敏感词过滤 · 幻觉标记

SSE 流式输出

质量达标 → 直接回复用户

或

转人工

食品安全/用户要求/质量不达标

转人工后 + 知识沉淀

对话摘要方案建议编辑发送知识沉淀用户画像

AI建议 → 人工编辑 → 差异捕获 → 知识沉淀 → Prompt/知识库优化闭环

AI Native 设计

模型升级 = 系统升级 — 不改一行代码，意图识别更准、回复更自然、反思更智能

意图识别

Prompt 85%Code 15%

回复生成

Prompt 85%Code 15%

反思评估

Prompt 75%Code 25%

信息完备度

Prompt 70%Code 30%

为什么选择多 Agent 架构

单 Agent 可行但不够稳定 — 多 Agent 通过职责分离解决人格串味、评估偏差、输出模式冲突三大核心问题

单 Agent 方案MVP可用

!Prompt3000-5000 token 巨型prompt，末尾规则易被遗忘
!人格同时扮演3种角色，切换时容易串味
!反思"自己检查自己"存在自我肯定偏差
!调试出问题无法定位是路由/回复/合规哪环
!迭代改一条规则可能影响全局行为

多 Agent 方案当前选择

+Prompt每个Agent 500-1000 token，短prompt遵循率高
+人格每个Agent只维护一个人格锚点，不串味
+反思独立Agent用独立推理链评估，无自我偏差
+调试Pipeline每步独立输出，精确定位问题
+迭代改Consumer不影响Rider，独立迭代

三种角色人格差异大，不可混用

消费者要"共情安抚"，骑手要"100字以内"，商家要"数据驱动顾问"——混在一个prompt里切换时容易串味，比如用商家的专业口吻回复消费者。

Reflection 必须独立于生成

反思逻辑写在同一prompt里（"回复完自我检查"），模型存在强烈的自我肯定偏差——很难否定自己刚生成的内容。独立Agent才能客观评估。

Router 输出 JSON，Agent 输出自然语言

"只输出JSON" vs "亲切自然回复"——两种输出模式的prompt策略是矛盾的，放在一起模型容易在两种模式间混乱切换。

RAG 检索在路由之后更精准

Router确定意图后，用精准query检索知识库。单Agent方案只能盲目注入大量知识（浪费context），或靠模型自己判断需要什么（不可靠）。

核心判断标准

当单个 prompt 超过 2000 token 且包含多种互相矛盾的指令时，就是拆分的信号。我们的场景恰好符合 — 三种角色人格、结构化 vs 自然语言输出、生成 vs 评估，这些矛盾在单 Agent 里很难调和。MVP 阶段可先用单 Agent 快速验证，遇到串味/漏检/调试困难时再拆。

四端共享记忆 — 核心设计优势

Consumer / Rider / Merchant / Copilot 四个Agent共用一个统一记忆模块

跨场景上下文连续

消费者投诉 → 转人工坐席，Copilot 无需重复询问，自动继承完整对话记忆和用户画像。

多视角信息互补

同一笔订单：消费者视角(投诉慢)、骑手视角(商家出餐慢)、商家视角(高峰排队) — 统一记忆让每个Agent看到全貌。

实体图谱关联推理

通过 User↔Order↔Merchant↔Rider 关系图谱，自动发现跨端关联(如某骑手频繁配送某商家的订单)。

记忆自然衰减

指数衰减确保近期信息权重更高，访问频率提升保持热门记忆活跃，冲突检测保证信息一致性。

增强记忆系统

三层记忆 + 语义检索 + 衰减机制 + 冲突消解 + 实体关系图谱

短期记忆Session级

当前对话上下文
本轮工具调用结果
情绪轨迹

不参与衰减

中期记忆30天

近期交互摘要
用户偏好推断
未解决问题

指数衰减 · 半衰期7天

长期记忆持久

用户/骑手/商家画像
等级与LTV
历史行为模式

Profile不衰减

语义搜索

关键词重叠 + 衰减加权 + relevance综合评分

衰减机制

e^(-λt) 指数衰减，访问提升0.15/次

冲突检测

满意↔不满、已解决↔待处理矛盾对检测

实体图谱

User↔Order↔Merchant↔Rider BFS遍历

知识沉淀闭环

AI建议 → 人工编辑 → 差异捕获 → 知识沉淀 → Prompt/知识库优化 → 更好的AI建议

AI生成建议

Copilot推荐

人工编辑

坐席修改措辞

差异捕获

Diff自动记录

知识沉淀

结构化存储

优化迭代

Prompt/KB更新

闭环

RAG 知识检索架构

Query → Embedding → Vector Search → Re-Ranking → Context Injection

用户Query

原始问题

Embedding

向量化表示

Vector Search

Top-5 候选

Re-Ranking

场景权重+优先级

Context Inject

Top-3 注入Prompt

策略规则

退款/催单/转人工

补偿标准

会员倍率/上限

流程SOP

异常处理/评分算法

常见FAQ

退款场景/收入计算

工具层 + 多模态能力

Agent 根据意图自动选择工具，支持图片分析(外卖损坏/地址截图/菜品问题)

订单查询

状态/进度/骑手位置

退款处理

全额/部分退款

发送短信

通知用户/骑手

查询地址

地理编码/导航

投诉工单

创建/分配工单

优惠券发放

补偿券/折扣券

骑手定位

GPS/预计到达

商家数据

经营/评分/统计

差评回复

提交评价回复

天气预警

恶劣天气查询

多模态能力 (图片分析)

外卖损坏照片

自动评估损坏程度 → 建议退款比例

地址截图

图片OCR → 地址解析 → 定位纠偏

菜品问题图

异物/卫生问题检测 → 触发食品安全流程

未问先答 (Proactive Suggestions)

用户进线前，基于画像数据+实时状态预测诉求并主动推送解决方案

C端消费者

配送中订单实时追踪
历史投诉后续跟进
退款进度主动推送

外卖骑手

当前配送单路线建议
今日收入+高峰加成预告
天气预警安全提醒

入驻商家

待回复差评倒计时提醒
午高峰备餐预警
本周经营数据亮点

模型分级部署策略

MVP后优化方向

多 Agent 架构的额外收益: 不同Agent可独立选择模型规格 — Router/Reflection 用小模型降本，Domain Agent 保持大模型保证质量

Router Agent可换小模型 (7B-14B)

结构化分类任务，输出JSON格式固定，本质是枚举选择而非开放生成。意图分类准确率在小模型上通常衰减 < 3%。

延迟降低 ~70% | 成本降低 ~80%

Reflection Agent可换小模型 (7B-14B)

5维评分 + 阈值判断，规则清晰且评估维度明确。本质是结构化校验而非创造性生成，小模型完全胜任。

延迟降低 ~60% | 成本降低 ~80%

Consumer / Rider / Merchant Agent保持大模型 (70B+ / GPT-4级)

需要共情能力、个性化回复、复杂场景理解。对语言质量要求最高，是用户直接感知的核心体验。

核心体验不可降级，保持大模型

Copilot Agent保持大模型 (70B+ / GPT-4级)

需要生成多方案对比、参考话术、数据分析。辅助人工决策质量要求高，但调用频次相对较低，成本影响有限。

面向内部坐席，频次低成本可控

预估整体优化效果

降低 ~50%

Token 成本

Router + Reflection 占总调用量约60%，换小模型后大幅降本

降低 ~40%

端到端延迟

小模型推理速度快5-10x，Pipeline整体响应更快

基本持平

回复质量

Domain Agent 保持大模型，用户感知的回复质量不受影响