产品架构

Agentic AI Native 智能客服系统 — 外卖行业全场景覆盖

设计理念总结

安全优先

Guardrails 双重防护 + 完备度检查减少幻觉,安全是不可协商的底线

智能分层

RAG + 三层记忆 + 图谱 + 动态编排,不同复杂度的问题走不同路径

持续进化

Reflection反馈注入定向修正 + 错题本跨会话错误免疫 + 知识沉淀闭环 + AI Native 设计,系统自动积累经验、不犯重复错误

Agentic Pipeline (动态编排)

Input Guard → Router → RAG + 语义记忆 + 图谱 + 错题本检索 → 完备度检查 → Pipeline决策 → Domain Agent (ReAct: 推理→工具调用→回复) → Reflection(反馈注入修正 + 错题本写入) → Output Guard → 输出/转人工 → Copilot

用户消息输入 (C端消费者 / 外卖骑手 / 入驻商家)

Input Guard (CRO标准化服务)

PII脱敏 · Prompt注入检测 · 恶意意图拦截

拦截 → 安全提示

通过 ↓

RAG 知识检索
1. Query → Embedding
2. Vector Search Top-5
3. Re-Ranking Top-3
4. Context Injection
语义记忆检索
1. 语义匹配(关键词重叠)
2. 衰减分加权(半衰期7天)
3. 冲突检测(矛盾消解)
4. 访问频率提升
实体关系图谱
1. User↔Order↔Merchant↔Rider
2. BFS关联遍历(depth=2)
3. 关系权重推理
4. 跨端上下文补全
NEW
错题本检索
1. 关键词+意图+严重度匹配
2. 历史教训 Top-3 召回
3. (错误模式, 修正方案)对
4. 注入Domain Agent上下文
并行检索 + 错题本
错题本不是独立 Agent — 检索结果作为动态上下文层注入 Domain Agent Prompt
信息完备度检查

评估用户输入是否满足当前意图的必需信息

完备 → 继续不足 → 追问
Pipeline 动态编排串联 Agent 执行流程,管理重试与降级策略
重试控制超时降级异常兜底
Domain Agent (领域专家)LLM 自主推理,决定是否调用工具、调用哪个工具
↑ Router 根据用户角色选定其中一个 Agent
ThoughtAgent 分析推理
1.理解用户意图 + 上下文
2.判断是否需要调用工具
3.选择工具 + 构造参数
调用
返回
ActionTool Call
订单查询退款处理骑手定位图片分析+ 7 more

也可能不调用工具,直接回复

Response工具结果 + RAG知识 + 记忆上下文 + 错题本教训 → 生成最终回复
自愈机制
反馈注入Reflection 结构化评估(扣分项+违规细节)注入 retry prompt,Domain Agent 定向修正
错题本修正成功 → 提取(错误模式, 修正方案)对 → 写入 Lesson Memory → 未来相似场景自动召回,跨会话永久免疫
错题本不是独立 Agent,而是注入 Domain Agent Prompt 的动态上下文层

Output Guard (CRO标准化服务)

合规检查 · PII过滤 · 敏感词过滤 · 幻觉标记

SSE 流式输出
质量达标 → 直接回复用户
转人工
食品安全/用户要求/质量不达标
转人工后 + 知识沉淀
对话摘要方案建议编辑发送知识沉淀用户画像

AI建议 → 人工编辑 → 差异捕获 → 知识沉淀 → Prompt/知识库优化闭环

AI Native 设计

模型升级 = 系统升级 — 不改一行代码,意图识别更准、回复更自然、反思更智能

意图识别

Prompt 85%Code 15%

回复生成

Prompt 85%Code 15%

反思评估

Prompt 75%Code 25%

信息完备度

Prompt 70%Code 30%

为什么选择多 Agent 架构

单 Agent 可行但不够稳定 — 多 Agent 通过职责分离解决人格串味、评估偏差、输出模式冲突三大核心问题

单 Agent 方案MVP可用
  • !Prompt3000-5000 token 巨型prompt,末尾规则易被遗忘
  • !人格同时扮演3种角色,切换时容易串味
  • !反思"自己检查自己"存在自我肯定偏差
  • !调试出问题无法定位是路由/回复/合规哪环
  • !迭代改一条规则可能影响全局行为
多 Agent 方案当前选择
  • +Prompt每个Agent 500-1000 token,短prompt遵循率高
  • +人格每个Agent只维护一个人格锚点,不串味
  • +反思独立Agent用独立推理链评估,无自我偏差
  • +调试Pipeline每步独立输出,精确定位问题
  • +迭代改Consumer不影响Rider,独立迭代

三种角色人格差异大,不可混用

消费者要"共情安抚",骑手要"100字以内",商家要"数据驱动顾问"——混在一个prompt里切换时容易串味,比如用商家的专业口吻回复消费者。

Reflection 必须独立于生成

反思逻辑写在同一prompt里("回复完自我检查"),模型存在强烈的自我肯定偏差——很难否定自己刚生成的内容。独立Agent才能客观评估。

Router 输出 JSON,Agent 输出自然语言

"只输出JSON" vs "亲切自然回复"——两种输出模式的prompt策略是矛盾的,放在一起模型容易在两种模式间混乱切换。

RAG 检索在路由之后更精准

Router确定意图后,用精准query检索知识库。单Agent方案只能盲目注入大量知识(浪费context),或靠模型自己判断需要什么(不可靠)。

核心判断标准

当单个 prompt 超过 2000 token 且包含多种互相矛盾的指令时,就是拆分的信号。我们的场景恰好符合 — 三种角色人格、结构化 vs 自然语言输出、生成 vs 评估,这些矛盾在单 Agent 里很难调和。MVP 阶段可先用单 Agent 快速验证,遇到串味/漏检/调试困难时再拆。

四端共享记忆 — 核心设计优势

Consumer / Rider / Merchant / Copilot 四个Agent共用一个统一记忆模块

跨场景上下文连续

消费者投诉 → 转人工坐席,Copilot 无需重复询问,自动继承完整对话记忆和用户画像。

多视角信息互补

同一笔订单:消费者视角(投诉慢)、骑手视角(商家出餐慢)、商家视角(高峰排队) — 统一记忆让每个Agent看到全貌。

实体图谱关联推理

通过 User↔Order↔Merchant↔Rider 关系图谱,自动发现跨端关联(如某骑手频繁配送某商家的订单)。

记忆自然衰减

指数衰减确保近期信息权重更高,访问频率提升保持热门记忆活跃,冲突检测保证信息一致性。

增强记忆系统

三层记忆 + 语义检索 + 衰减机制 + 冲突消解 + 实体关系图谱

短期记忆Session级
  • 当前对话上下文
  • 本轮工具调用结果
  • 情绪轨迹
不参与衰减
中期记忆30天
  • 近期交互摘要
  • 用户偏好推断
  • 未解决问题
指数衰减 · 半衰期7天
长期记忆持久
  • 用户/骑手/商家画像
  • 等级与LTV
  • 历史行为模式
Profile不衰减
语义搜索

关键词重叠 + 衰减加权 + relevance综合评分

衰减机制

e^(-λt) 指数衰减,访问提升0.15/次

冲突检测

满意↔不满、已解决↔待处理 矛盾对检测

实体图谱

User↔Order↔Merchant↔Rider BFS遍历

知识沉淀闭环

AI建议 → 人工编辑 → 差异捕获 → 知识沉淀 → Prompt/知识库优化 → 更好的AI建议

AI生成建议

Copilot推荐

人工编辑

坐席修改措辞

差异捕获

Diff自动记录

知识沉淀

结构化存储

优化迭代

Prompt/KB更新

闭环

RAG 知识检索架构

Query → Embedding → Vector Search → Re-Ranking → Context Injection

用户Query

原始问题

Embedding

向量化表示

Vector Search

Top-5 候选

Re-Ranking

场景权重+优先级

Context Inject

Top-3 注入Prompt

策略规则

退款/催单/转人工

补偿标准

会员倍率/上限

流程SOP

异常处理/评分算法

常见FAQ

退款场景/收入计算

工具层 + 多模态能力

Agent 根据意图自动选择工具,支持图片分析(外卖损坏/地址截图/菜品问题)

订单查询

状态/进度/骑手位置

退款处理

全额/部分退款

发送短信

通知用户/骑手

查询地址

地理编码/导航

投诉工单

创建/分配工单

优惠券发放

补偿券/折扣券

骑手定位

GPS/预计到达

商家数据

经营/评分/统计

差评回复

提交评价回复

天气预警

恶劣天气查询

多模态能力 (图片分析)

外卖损坏照片

自动评估损坏程度 → 建议退款比例

地址截图

图片OCR → 地址解析 → 定位纠偏

菜品问题图

异物/卫生问题检测 → 触发食品安全流程

未问先答 (Proactive Suggestions)

用户进线前,基于画像数据+实时状态预测诉求并主动推送解决方案

C端消费者
  • 配送中订单实时追踪
  • 历史投诉后续跟进
  • 退款进度主动推送
外卖骑手
  • 当前配送单路线建议
  • 今日收入+高峰加成预告
  • 天气预警安全提醒
入驻商家
  • 待回复差评倒计时提醒
  • 午高峰备餐预警
  • 本周经营数据亮点

模型分级部署策略

MVP后优化方向

多 Agent 架构的额外收益: 不同Agent可独立选择模型规格 — Router/Reflection 用小模型降本,Domain Agent 保持大模型保证质量

Router Agent可换小模型 (7B-14B)

结构化分类任务,输出JSON格式固定,本质是枚举选择而非开放生成。意图分类准确率在小模型上通常衰减 < 3%。

延迟降低 ~70% | 成本降低 ~80%

Reflection Agent可换小模型 (7B-14B)

5维评分 + 阈值判断,规则清晰且评估维度明确。本质是结构化校验而非创造性生成,小模型完全胜任。

延迟降低 ~60% | 成本降低 ~80%

Consumer / Rider / Merchant Agent保持大模型 (70B+ / GPT-4级)

需要共情能力、个性化回复、复杂场景理解。对语言质量要求最高,是用户直接感知的核心体验。

核心体验不可降级,保持大模型

Copilot Agent保持大模型 (70B+ / GPT-4级)

需要生成多方案对比、参考话术、数据分析。辅助人工决策质量要求高,但调用频次相对较低,成本影响有限。

面向内部坐席,频次低成本可控

预估整体优化效果

降低 ~50%

Token 成本

Router + Reflection 占总调用量约60%,换小模型后大幅降本

降低 ~40%

端到端延迟

小模型推理速度快5-10x,Pipeline整体响应更快

基本持平

回复质量

Domain Agent 保持大模型,用户感知的回复质量不受影响