草稿

为什么智能体需要运行时:从 Class 到 Workload 的转变

智能体的本质是行为系统,而非代码片段。只有将其从 class 提升为 workload,才能实现企业级的调度、治理与协作。

Agent 不等于 class

当前主流开发模式通常将智能体(Agent)实现为一个 class:

  • class Agent:
  • 封装 memory、tools、prompt
  • 在框架中注册,之后通过 Python 调用执行

这种写法让 Agent 看起来像微服务的“变体”或“带脑子的函数”,但实际上是一种错误抽象。因为 Agent 的行为远超出 class 能表达的范畴:

  • Agent 有生命周期(启动、计划、执行、反思、结束)
  • Agent 运行需要状态推进
  • Agent 能跨模型、多工具、多线程并行工作
  • Agent 每次执行都有独立任务上下文(Query context,查询上下文)
  • Agent 常常是多实体协作(Team,团队智能体)的一部分

class 是静态结构,而 Agent 是动态行为系统。Agent 的本体不是“一个类”,而是“一个可以运行的实体”。因此,它需要一种能调度、能观测、能恢复、能治理的执行环境——运行时(Runtime)。

Agent 需要调度

智能体的执行模式与传统函数式调用有本质区别。传统调用模型是:

  • 输入 Prompt
  • 调用一个模型
  • 获取输出

而 Agent 的执行则包括:

  • 多轮推理循环
  • 工具链调用
  • 任务分解
  • 状态推进
  • 多 Agent 协作
  • 长生命周期上下文

这些复杂执行都需要调度器(Scheduler,调度器)来协调。

Agent 执行是任务图而非一次调用

以“生成市场分析报告”为例,整个任务通常包含:

  • Planner 解析任务
  • Worker 处理子任务
  • Evaluator 评估结果
  • Router 选择模型
  • Memory Agent 管理上下文

整个过程需要被调度和协调,无法仅靠 class 方法来组织。

资源调度

Agent 的运行涉及多种资源:

  • Token
  • KV Cache
  • GPU 时间片
  • 工具执行次数
  • 会话上下文

这些资源分配需要运行时(Runtime)统一管理,而不是代码自行处理。

提示
没有运行时就没有调度器,调度器是智能体大规模运行的基础。

Agent 需要状态

Agent 的核心在于状态推进(State Progression,状态推进):

  • Session State(长期记忆,Session State)
  • Task State(每个 Query 的执行状态,Task State)
  • Intermediate State(推理中间态,Intermediate State)
  • Tool Trace(工具调用历史,Tool Trace)

这些状态必须具备:

  • 可持久化
  • 可回放
  • 可审计
  • 可恢复

class 的内存字段无法满足这些需求,数据库也难以自然表达推理循环与任务图。只有运行时能提供结构化的状态语义模型。

Agent 需要治理

在企业级场景下,智能体系统必须具备多维治理能力。以下内容分为权限、安全、合规和可观测性四个方面:

权限治理

  • 哪些工具可调用
  • 哪些数据可读写
  • 哪些 API 可访问

安全治理

  • 工具隔离(Sandbox,沙箱环境)
  • 资源上限(Token、KV、GPU)

合规治理

  • 决策链路完整可审计
  • 敏感数据隔离
  • 成本限额

可观测性治理

  • 每次推理链路可追踪
  • 工具调用可回放
  • 多 Agent 协作图可视化

这些治理能力 class 难以承载,只能通过运行时实现。

框架与运行时的分工

下表对比了框架(Framework,框架)与 Agentic Runtime(智能体运行时)在控制方式、状态管理、并发、工具执行、调度、恢复能力和审计等方面的差异。

维度框架(Framework)Agentic Runtime
控制方式代码控制流程运行时控制生命周期
状态变量散落在代码明确的 Session / Task / Tool Trace
并发单进程 / 单线程多 Agent DAG 并发执行
工具执行函数/HTTP 调用沙箱隔离、权限控制
调度基本无Token/KV/GPU 调度
恢复能力支持有限从中间态恢复执行
审计基本无完整推理链路 Trace
表 1: 框架与运行时的核心区别

框架是编排层,运行时是执行层。二者并非替代关系,而是分工协作。未来完整的智能体应用链路通常为:

Spec / LangGraph(编排)
→ Agentic Runtime(执行)
→ AI 原生基础设施(底座)

行业趋势:运行时时代开启

2026 年将成为 Agentic Runtime 的元年,行业已出现统一趋势。以下是主流方案的简要介绍:

  • Ark(McKinsey):Agent = K8s CRD
  • AWS Strands:Agentic Orchestration
  • GKE Agent Sandbox:安全工具执行
  • Azure Copilot Runtime:Agent Level Execution
  • LangGraph:将 Execution Graph 上升为核心语义

趋势非常明确:

智能体从“代码结构”转向“运行时资源”;从 class 到 workload,是行业不可逆的方向。

企业最终需要的是“可调度、可治理、可审计、可协作”的 Agent 系统,而不仅仅是“一个能跑的 Python 类”。

总结

智能体需要运行时的根本原因在于:

Agent 是行为系统,不是代码片段。要让它在企业级场景中可靠运行,必须把它从 class 提升为 workload,并由运行时统一调度、治理与审计。