主流 Agent 框架评估:从架构抽象到生产可用性边界
主流 Agent 框架评估:从架构抽象到生产可用性边界
Agent 框架选型容易被两个问题带偏:一是把 Demo 体验等同于生产可用性,二是把单点能力对比等同于架构适配。本文尝试换一种口径:不问”哪个框架最好”,而问”它的核心抽象是什么、公开资料能证明什么、哪些生产能力需要额外验证”。
评估口径与来源边界
本文评估基于截至 2026 年 4 月公开可访问的官方文档、官方仓库 README、产品文档与开源代码说明。没有把非公开内部材料、私有部署经验或未公开指标作为核心证据;涉及生产可用性的判断,均按”公开资料能支持的能力”与”上线前仍需验证的能力”区分。
需要特别说明三点:
- “适合生产”不是一个二元标签。一个框架可以适合生产中的工作流编排,但不一定覆盖多租户、权限、审计、成本控制与灾备。
- 官方文档里的定位和真实系统落地之间存在距离。本文不会把营销用语直接等同于工程事实。
- 对 Claude Code、Cursor、Codex CLI 这类本地开发者工具,本文重点评估其架构思想与安全边界,不把它们当作可直接嵌入服务端的 Agent 后端框架。
主要公开来源:
- Anthropic Claude Code 文档:Hooks、Settings、MCP 与权限相关说明(Hooks、Settings)
- OpenAI Codex CLI 文档与仓库(OpenAI Help Center、openai/codex)
- Cursor 文档(Agent、Background Agents)
- LangGraph 文档与仓库(LangGraph docs、langchain-ai/langgraph)
- CrewAI 文档与仓库(CrewAI docs、crewAIInc/crewAI)
- Microsoft AutoGen 文档与仓库(AutoGen docs、microsoft/autogen)
- Dify 文档与仓库(Dify docs、langgenius/dify)
- Coze / Coze Studio 文档与仓库(Coze docs、coze-dev/coze-studio)
- Nous Research Hermes Agent 仓库(nousresearch/hermes-agent)
框架分类:先看产品形态,再看能力清单
Agent 框架的差异首先不是”有没有工作流、有没有工具、有没有 RAG”,而是产品形态不同。形态决定了它面向谁、运行在哪里、默认承担哪些边界。
| 类型 | 代表 | 核心形态 | 主要价值 | 主要边界 |
|---|---|---|---|---|
| 本地开发者工具 | Claude Code、OpenAI Codex CLI、Cursor | CLI / IDE / 本地 Agent | 代码上下文、工具调用、权限提示、开发者交互体验 | 通常不是多租户服务端框架 |
| 通用编排库 | LangGraph、CrewAI、AutoGen | Python / TS 编排库或多 Agent 框架 | 工作流、状态、消息、角色协作等可嵌入抽象 | 业务权限、租户隔离、审计与治理通常要自己补齐 |
| 平台型产品 | Dify、Coze Studio、Hermes Agent | 可视化平台或完整 Agent 应用 | 应用搭建、知识库、插件、发布、调试等端到端能力 | 嵌入深度、二次开发边界、部署与治理模型需单独评估 |
这个分类比功能矩阵更重要。Claude Code 的 Hooks 与权限配置很值得学习,但它的公开定位是开发者本地工具;Dify 和 Coze Studio 能更快做出 AI 应用,但使用者要接受平台抽象;LangGraph、CrewAI、AutoGen 更适合作为代码层面的编排材料,但不会自动给出企业级治理层。
生产可用性的真正维度
评估 Agent 框架时,建议把”生产可用性”拆成至少八个维度。每个维度都要问”框架原生提供、通过插件提供,还是需要业务系统自行实现”。
| 维度 | 关键问题 |
|---|---|
| 状态与恢复 | 是否支持长任务状态持久化、断点恢复、失败重试、幂等控制? |
| 人工介入 | 是否支持暂停、审批、修改状态、恢复执行,而不是只在末尾加一个确认按钮? |
| 权限与安全 | 谁能调用什么工具?危险工具如何审批?工具输入输出如何脱敏? |
| 多租户与隔离 | 会话、文件、凭据、缓存、向量索引、工具权限是否按租户隔离? |
| 可观测性 | 是否能追踪每次模型调用、工具调用、状态迁移、错误与成本? |
| 上下文治理 | 长上下文如何裁剪、压缩、检索、版本化?错误记忆如何纠正? |
| 工具治理 | 工具数量增长后如何发现、选择、限流、回滚、审计? |
| 运维与演进 | 版本升级、API 变更、迁移、监控、灰度、灾备是否有明确路径? |
很多框架在”能跑一个 Agent”上体验很好,但在上述维度上覆盖程度不同。这个差异不是简单的优劣,而是设计目标不同:通用编排库负责表达控制流,企业系统还要负责组织边界、风险边界和合规边界。
本地开发者工具:工程设计值得借鉴,服务端边界要分清
Claude Code
公开资料能支持的判断:Claude Code 提供了清晰的本地工具调用、Hooks、分层 settings、权限 allow/deny、MCP 扩展等机制。官方 Hooks 文档说明了 PreToolUse、PostToolUse、Notification 等事件;Settings 文档描述了用户、项目、企业托管设置与权限规则。
架构抽象:开发者本地 Agent Loop + 工具调用 + 权限决策 + 生命周期 Hooks。它的价值在于把”模型想做什么”和”系统允许做什么”拆开,并允许团队用配置和 Hooks 注入约束。
适合场景:
- 单个开发者或小团队的代码修改、命令执行、项目理解。
- 需要借鉴本地 Agent 权限提示、Hook 拦截、MCP 工具接入设计的团队。
不适合直接承担的场景:
- 多租户 SaaS 后端 Agent 引擎。
- 需要中心化租户隔离、合规审计、跨用户任务调度的企业服务。
上线前要验证:如果借鉴其设计自研服务端,需要重新设计租户隔离、凭据托管、任务队列、审计存储与服务端权限模型,不能把本地 settings 机制直接等同于企业治理。
OpenAI Codex CLI
公开资料能支持的判断:Codex CLI 是开源命令行编码 Agent,官方 Help Center 与 openai/codex 仓库说明了安装、登录、沙箱与审批等使用方式。它的重点是把模型接入本地代码库,完成代码编辑、命令运行和开发任务。
架构抽象:CLI 驱动的本地 Agent + 沙箱 / 审批策略 + 项目指令。其工程重点在本地开发工作流,而不是作为业务系统的通用 Agent SDK。
适合场景:
- 本地代码生成、重构、测试、命令行自动化。
- 研究”沙箱、审批、项目指令如何影响 Agent 行为”。
不适合直接承担的场景:
- 面向外部用户的多租户 Agent 服务。
- 需要领域工具权限、业务审批流、统一审计报表的企业后端。
Cursor
公开资料能支持的判断:Cursor 的 Agent、Background Agents 等能力围绕 IDE 与代码编辑器状态展开。其优势来自对编辑器、文件、Git、终端和开发者交互的深度整合。
架构抽象:IDE 内 Agent。它不是通用后端编排框架,而是把 Agent 放进代码编辑场景。
适合场景:
- 多文件代码修改、IDE 内辅助开发、后台代码任务。
- 学习如何把 Agent 与具体交互环境深度绑定。
不适合直接承担的场景:
- 非代码领域的业务 Agent 后端。
- 需要独立部署和业务系统深度嵌入的服务端编排层。
通用编排库:它们解决控制流,不自动解决治理层
LangGraph
公开资料能支持的判断:LangGraph 的官方定位是构建有状态、可长期运行的 Agent。其核心是图、节点、边、状态、checkpoint、interrupt / resume、人机协同等机制。
架构抽象:状态图。把 Agent 或工作流拆成节点与状态迁移,通过 checkpoint 支持恢复,通过 interrupt 支持人工介入。
适合场景:
- 流程相对明确,但中间需要模型判断或工具调用的业务流程。
- 需要状态持久化、失败恢复、人机协同的工作流。
- 团队愿意接受”用图表达控制流”的工程模型。
不适合或需谨慎的场景:
- 完全开放式、每一步路径都高度不确定的推理型 Agent。如果最后大量逻辑都退化为一个节点内部的自由循环,图抽象的收益会下降。
- 需要完整多租户治理、领域权限、合规审计的系统。LangGraph 可以作为编排层,但业务治理层仍需额外设计。
上线前要验证:checkpoint 存储选型、线程 / 会话模型、人工审批的产品体验、状态版本迁移、LangSmith / 自建观测方案、异常重试与幂等。
CrewAI
公开资料能支持的判断:CrewAI 文档强调 Crews、Agents、Tasks、Flows 等概念,仓库描述为用于编排角色化自治 Agent 的框架。它的优势在于用角色、任务和团队协作降低多 Agent 原型开发门槛。
架构抽象:角色化 Agent 团队 + 任务分派。适合表达”研究员、分析员、写作者”这类分工清楚的协作模式。
适合场景:
- 多 Agent 协作原型、内容生产、研究汇总、流程演示。
- 团队希望快速验证”角色分工是否能改善任务质量”。
不适合或需谨慎的场景:
- 对权限、审计、租户隔离、强一致状态恢复要求很高的生产系统。
- 任务边界不清、角色划分本身不稳定的开放式 Agent。
更稳妥的表述:CrewAI 不应被简单称为”没有生产能力”。公开资料显示它正在提供 Flows、部署、监控等能力;但对于安全敏感或强治理场景,仍需要逐项验证权限、审计、状态恢复、成本控制和运维能力。
AutoGen
公开资料能支持的判断:AutoGen 官方文档把 AgentChat 作为高层 API,把 Core 作为事件驱动、多 Agent 应用的基础层。仓库和文档也提供了迁移与多 API 层说明。
架构抽象:消息传递与多 Agent 拓扑。相比简单函数调用,它更适合表达异步、可组合、可替换的 Agent 之间通信。
适合场景:
- 研究型多 Agent 系统。
- 需要异步消息、群聊、工具 Agent、跨组件协作的复杂实验。
- 团队能承受更高的架构复杂度。
不适合或需谨慎的场景:
- 只需要单进程顺序工作流的业务自动化。
- 生产时间线很紧,且团队没有余力跟进 API 演进与迁移。
上线前要验证:当前版本 API 稳定性、AgentChat/Core 的边界、运行时观测、异常传播、消息持久化、团队对事件驱动模型的掌握程度。
平台型产品:端到端效率高,嵌入边界要看清
Dify
公开资料能支持的判断:Dify 官方定位是 Agentic Workflow Builder,提供工作流、RAG、模型接入、应用发布与观测等能力,开源仓库也体现了其平台化产品形态。
架构抽象:可视化 AI 应用平台。用工作流、节点、知识库、工具和发布能力降低应用搭建门槛。
适合场景:
- 固定流程或半固定流程的 AI 应用。
- RAG 问答、客服、内部工具、业务流程自动化。
- 希望用低代码方式让非核心研发团队参与搭建。
不适合或需谨慎的场景:
- 需要把 Agent Loop 深度嵌入现有后端领域模型的系统。
- 需要完全自定义调度、权限、状态机和工具治理的核心平台。
上线前要验证:私有化部署成本、插件与工具安全、工作流版本管理、观测数据导出、与现有 IAM / 审计系统集成。
Coze / Coze Studio
公开资料能支持的判断:Coze 提供 Bot、Workflow、Plugin、Knowledge、API 等产品能力;Coze Studio 开源仓库说明其是一站式 AI Agent 可视化开发工具,后端采用 Go、前端采用 React + TypeScript,并提到微服务与 DDD 架构。
架构抽象:可视化 Agent / 应用搭建平台 + 插件和工作流生态。
适合场景:
- 快速搭建面向多渠道发布的 Bot 或 AI 应用。
- 希望利用可视化工作流、插件、知识库和 API 发布能力的团队。
- 评估低代码平台如何组织 Agent 资源、插件市场与应用发布。
不适合或需谨慎的场景:
- 对部署位置、数据边界、二次开发控制权有强要求的系统。
- 需要把平台内部运行时完全纳入自有治理体系的企业。
上线前要验证:开源版与商业版能力差异、插件安全模型、日志与 Trace 数据可导出性、私有化部署与升级路径。
Hermes Agent
公开资料能支持的判断:Hermes Agent 仓库定位为”the agent that grows with you”,强调多模型接入、记忆、技能、跨平台连接等个人 Agent 能力。公开仓库能支持的主要判断是:它更像完整 Agent 应用,而不是单纯编排库。
架构抽象:个人 Agent 应用 + 记忆 / 技能增长机制。它的价值在于展示一个长期运行、跨会话积累上下文的 Agent 产品形态。
适合场景:
- 个人助手、跨渠道 Agent、记忆与技能机制研究。
- 学习长期记忆、用户偏好、技能沉淀如何进入 Agent 产品。
不适合或需谨慎的场景:
- 直接作为企业多租户服务端底座。
- 对强审计、强隔离、中心化权限治理有明确要求的系统。
上线前要验证:多用户隔离、同步 / 异步任务模型、记忆纠错机制、敏感数据处理、技能执行边界与审计。
为什么企业常需要自研编排层
企业自研编排层的原因通常不是”开源框架不行”,而是开源框架和企业系统要解决的问题不同。
通用框架通常提供这些能力:
- Agent / 节点 / 角色 / 消息等编排抽象。
- 模型调用、工具调用、状态传递、部分恢复机制。
- 本地或平台内的调试体验。
企业系统还需要这些能力:
- 组织、租户、用户、角色与工具权限绑定。
- 凭据托管、密钥轮换、数据脱敏、越权防护。
- 任务队列、限流、熔断、重试、幂等、补偿。
- 全链路审计、成本归因、合规留存、问题复盘。
- 与现有 IAM、工单、审批、监控、数据平台集成。
因此更现实的路线常常是:复用框架思想和部分组件,自研企业编排层。例如用 LangGraph 承担某些状态工作流,用 OpenTelemetry / LangSmith / 平台日志承担观测,用自有 IAM 决定工具权限,用队列系统管理长任务。只有当框架的运行时边界和企业治理边界高度重合时,才适合把框架直接作为核心底座。
自研也不是默认答案。只有在以下情况同时出现时,自研编排层才更有说服力:
- 业务权限、审计或隔离要求已经侵入 Agent 执行路径。
- 框架扩展点不足,需要频繁修改框架内核。
- 上游 API 演进带来的维护成本接近或超过自研成本。
- 团队能清楚定义最小 Agent Loop、状态模型、工具协议和观测协议。
选型检查清单
选型前先回答这些问题,比先做功能矩阵更可靠。
场景边界
- Agent 是本地开发者工具、内部业务助手,还是外部用户可访问的服务?
- 是固定工作流、半结构化任务,还是开放式推理?
- 是否需要多 Agent?如果需要,是角色分工、审批协作,还是异步分布式拓扑?
运行边界
- 是否需要多租户?租户之间的文件、凭据、记忆、向量索引如何隔离?
- 长任务失败后能否恢复?恢复时如何保证幂等?
- 框架的状态存储是否能满足灾备、迁移和版本升级?
安全边界
- 工具调用前谁做权限判断?模型、框架、业务后端还是统一策略引擎?
- 危险工具是否有审批、限流、沙箱和审计?
- 工具返回的敏感数据是否会进入模型上下文、日志或长期记忆?
观测边界
- 是否能追踪一次任务中的所有模型调用、工具调用、状态变化和人工介入?
- 是否能按租户、用户、任务、模型、工具统计成本?
- 出错后能否复盘”模型输入是什么、选择了哪个工具、工具返回了什么、状态如何变化”?
组织边界
- 谁维护 Prompt、工具、工作流和权限?
- 非研发团队是否需要可视化配置?研发团队是否能接受平台抽象带来的限制?
- 框架升级、模型切换、工具下线是否有回滚方案?
总结
主流 Agent 框架不是同一种东西的九个替代品,而是三类不同产品形态:本地开发者工具、通用编排库、平台型产品。把它们放在同一张功能表里比较,容易得出过度简化的结论。
更稳妥的判断是:
- Claude Code、Codex CLI、Cursor 的价值在于本地开发者 Agent 的交互、权限和工具使用经验。
- LangGraph、CrewAI、AutoGen 的价值在于编排抽象:状态图、角色团队、消息拓扑。
- Dify、Coze Studio、Hermes Agent 的价值在于完整产品形态:应用搭建、插件、知识库、发布、记忆或技能体系。
- 企业级生产系统往往需要在这些能力之上补齐权限、租户隔离、审计、可观测性和运维治理。
所以,选型的本质不是找到”最强框架”,而是确认哪些边界可以交给框架,哪些边界必须由自己的系统承担。只要这个边界讲清楚,使用开源框架、平台产品或自研编排层都可以是合理选择。
分析时间:2026 年 4 月
资料来源:公开官方文档、官方仓库 README 与截至写作日期可访问的开源资料。