产品架构
Agentic AI Native 智能客服系统 — 外卖行业全场景覆盖
设计理念总结
安全优先
Guardrails 双重防护 + 完备度检查减少幻觉,安全是不可协商的底线
智能分层
RAG + 三层记忆 + 图谱 + 动态编排,不同复杂度的问题走不同路径
持续进化
Reflection反馈注入定向修正 + 错题本跨会话错误免疫 + 知识沉淀闭环 + AI Native 设计,系统自动积累经验、不犯重复错误
Agentic Pipeline (动态编排)
Input Guard → Router → RAG + 语义记忆 + 图谱 + 错题本检索 → 完备度检查 → Pipeline决策 → Domain Agent (ReAct: 推理→工具调用→回复) → Reflection(反馈注入修正 + 错题本写入) → Output Guard → 输出/转人工 → Copilot
Input Guard (CRO标准化服务)
PII脱敏 · Prompt注入检测 · 恶意意图拦截
拦截 → 安全提示
通过 ↓
评估用户输入是否满足当前意图的必需信息
也可能不调用工具,直接回复
Output Guard (CRO标准化服务)
合规检查 · PII过滤 · 敏感词过滤 · 幻觉标记
AI建议 → 人工编辑 → 差异捕获 → 知识沉淀 → Prompt/知识库优化闭环
AI Native 设计
模型升级 = 系统升级 — 不改一行代码,意图识别更准、回复更自然、反思更智能
意图识别
回复生成
反思评估
信息完备度
为什么选择多 Agent 架构
单 Agent 可行但不够稳定 — 多 Agent 通过职责分离解决人格串味、评估偏差、输出模式冲突三大核心问题
- !Prompt3000-5000 token 巨型prompt,末尾规则易被遗忘
- !人格同时扮演3种角色,切换时容易串味
- !反思"自己检查自己"存在自我肯定偏差
- !调试出问题无法定位是路由/回复/合规哪环
- !迭代改一条规则可能影响全局行为
- +Prompt每个Agent 500-1000 token,短prompt遵循率高
- +人格每个Agent只维护一个人格锚点,不串味
- +反思独立Agent用独立推理链评估,无自我偏差
- +调试Pipeline每步独立输出,精确定位问题
- +迭代改Consumer不影响Rider,独立迭代
三种角色人格差异大,不可混用
消费者要"共情安抚",骑手要"100字以内",商家要"数据驱动顾问"——混在一个prompt里切换时容易串味,比如用商家的专业口吻回复消费者。
Reflection 必须独立于生成
反思逻辑写在同一prompt里("回复完自我检查"),模型存在强烈的自我肯定偏差——很难否定自己刚生成的内容。独立Agent才能客观评估。
Router 输出 JSON,Agent 输出自然语言
"只输出JSON" vs "亲切自然回复"——两种输出模式的prompt策略是矛盾的,放在一起模型容易在两种模式间混乱切换。
RAG 检索在路由之后更精准
Router确定意图后,用精准query检索知识库。单Agent方案只能盲目注入大量知识(浪费context),或靠模型自己判断需要什么(不可靠)。
核心判断标准
当单个 prompt 超过 2000 token 且包含多种互相矛盾的指令时,就是拆分的信号。我们的场景恰好符合 — 三种角色人格、结构化 vs 自然语言输出、生成 vs 评估,这些矛盾在单 Agent 里很难调和。MVP 阶段可先用单 Agent 快速验证,遇到串味/漏检/调试困难时再拆。
四端共享记忆 — 核心设计优势
Consumer / Rider / Merchant / Copilot 四个Agent共用一个统一记忆模块
跨场景上下文连续
消费者投诉 → 转人工坐席,Copilot 无需重复询问,自动继承完整对话记忆和用户画像。
多视角信息互补
同一笔订单:消费者视角(投诉慢)、骑手视角(商家出餐慢)、商家视角(高峰排队) — 统一记忆让每个Agent看到全貌。
实体图谱关联推理
通过 User↔Order↔Merchant↔Rider 关系图谱,自动发现跨端关联(如某骑手频繁配送某商家的订单)。
记忆自然衰减
指数衰减确保近期信息权重更高,访问频率提升保持热门记忆活跃,冲突检测保证信息一致性。
增强记忆系统
三层记忆 + 语义检索 + 衰减机制 + 冲突消解 + 实体关系图谱
- 当前对话上下文
- 本轮工具调用结果
- 情绪轨迹
- 近期交互摘要
- 用户偏好推断
- 未解决问题
- 用户/骑手/商家画像
- 等级与LTV
- 历史行为模式
关键词重叠 + 衰减加权 + relevance综合评分
e^(-λt) 指数衰减,访问提升0.15/次
满意↔不满、已解决↔待处理 矛盾对检测
User↔Order↔Merchant↔Rider BFS遍历
知识沉淀闭环
AI建议 → 人工编辑 → 差异捕获 → 知识沉淀 → Prompt/知识库优化 → 更好的AI建议
AI生成建议
Copilot推荐
人工编辑
坐席修改措辞
差异捕获
Diff自动记录
知识沉淀
结构化存储
优化迭代
Prompt/KB更新
RAG 知识检索架构
Query → Embedding → Vector Search → Re-Ranking → Context Injection
用户Query
原始问题
Embedding
向量化表示
Vector Search
Top-5 候选
Re-Ranking
场景权重+优先级
Context Inject
Top-3 注入Prompt
策略规则
退款/催单/转人工
补偿标准
会员倍率/上限
流程SOP
异常处理/评分算法
常见FAQ
退款场景/收入计算
工具层 + 多模态能力
Agent 根据意图自动选择工具,支持图片分析(外卖损坏/地址截图/菜品问题)
订单查询
状态/进度/骑手位置
退款处理
全额/部分退款
发送短信
通知用户/骑手
查询地址
地理编码/导航
投诉工单
创建/分配工单
优惠券发放
补偿券/折扣券
骑手定位
GPS/预计到达
商家数据
经营/评分/统计
差评回复
提交评价回复
天气预警
恶劣天气查询
外卖损坏照片
自动评估损坏程度 → 建议退款比例
地址截图
图片OCR → 地址解析 → 定位纠偏
菜品问题图
异物/卫生问题检测 → 触发食品安全流程
未问先答 (Proactive Suggestions)
用户进线前,基于画像数据+实时状态预测诉求并主动推送解决方案
- 配送中订单实时追踪
- 历史投诉后续跟进
- 退款进度主动推送
- 当前配送单路线建议
- 今日收入+高峰加成预告
- 天气预警安全提醒
- 待回复差评倒计时提醒
- 午高峰备餐预警
- 本周经营数据亮点
模型分级部署策略
MVP后优化方向多 Agent 架构的额外收益: 不同Agent可独立选择模型规格 — Router/Reflection 用小模型降本,Domain Agent 保持大模型保证质量
结构化分类任务,输出JSON格式固定,本质是枚举选择而非开放生成。意图分类准确率在小模型上通常衰减 < 3%。
延迟降低 ~70% | 成本降低 ~80%
5维评分 + 阈值判断,规则清晰且评估维度明确。本质是结构化校验而非创造性生成,小模型完全胜任。
延迟降低 ~60% | 成本降低 ~80%
需要共情能力、个性化回复、复杂场景理解。对语言质量要求最高,是用户直接感知的核心体验。
核心体验不可降级,保持大模型
需要生成多方案对比、参考话术、数据分析。辅助人工决策质量要求高,但调用频次相对较低,成本影响有限。
面向内部坐席,频次低成本可控
预估整体优化效果
降低 ~50%
Token 成本
Router + Reflection 占总调用量约60%,换小模型后大幅降本
降低 ~40%
端到端延迟
小模型推理速度快5-10x,Pipeline整体响应更快
基本持平
回复质量
Domain Agent 保持大模型,用户感知的回复质量不受影响