GPU 平台能力模型

平台能力的本质，是将复杂工程机制抽象为可交付、可验收、可组合的治理单元。

GPU 资源问题正从“单机性能优化”转向“平台治理”：共享与隔离、碎片化调度、在线推理尾延迟，以及异构与多租户带来的治理复杂度。本章提出一套可复用的 GPU 平台能力模型，用于将“机制与实现”抽象为“可交付、可验收、可演示”的能力单元，为平台选型、方案设计与能力路线提供统一语言。

本章不展开具体组件实现细节（如 MIG、HAMi、Kueue、Volcano、Kthena 的内部机制），而聚焦于平台对外交付的能力、成立前提、度量与验收方式，以及能力如何组合成场景方案。

从 Feature 列表到平台能力：为什么需要能力模型

许多 GPU 平台讨论停留在 feature 列表：支持某种切分、调度、指标面板。但在生产环境，用户更关心：

在给定预算与硬件条件下，利用率能提高到什么程度，代价是什么；
在线推理在资源紧张时，SLA 能否被严格保障；
多团队共享资源池时，是否能做到 可预测、可解释、可约束；
业务潮汐或突发时，平台是否具备 自适应弹性；
能否提供 可复现的验收方法，避免“看起来能用”的主观判断。

因此，本章采用“能力（Capability）”的表达方式，而非“功能（Feature）”。

能力（Capability） 指面向场景的交付单元，满足以下约束：

可叙述：一句话说明解决什么问题；
可成立：有明确适用前提与边界条件；
可验收：有清晰指标口径与可复现实验方法；
可组合：能与其他能力组合成更高层场景方案；
可权衡：明确收益与代价，避免隐性风险。

分层结构：L0–L3（原语 → 基础能力 → 平台能力 → 场景方案）

为避免内容"大而全"，本模型采用四层结构：

L0 · 资源原语（Primitives）

平台可观测、可分配、可约束的最小对象，包括：

显存：分配量、峰值、碎片与回收；
算力：SM 利用率、算力份额、调度时间片；
带宽与互联：HBM 带宽、PCIe/NVLink 拓扑与争用；
工作负载属性：推理/训练/测试、交互式/批处理、优先级与期限；
健康与热状态：温度、功耗、ECC、故障与降频。

L1 · 基础能力（Foundations）

对 L0 原语进行抽象、治理与组合的基础动作：

限额与配额（资源边界）
准入与排队（Admission/Queue）
抢占与驱逐（Preemption/Eviction）
共享与隔离等级（Isolation Profiles）
弹性调整（Resize/Scale）
性能档位（Performance Profiles）
指标采集与归因（Metering/Attribution）

L2 · 平台能力（Platform Capabilities）

面向业务场景的交付单元（可演示、可验收、可复用）。本章后半部分将对以下能力给出标准化描述：

GPU 超卖（显存超卖）
优先级抢占
自动扩缩容（显存原地扩缩容与自动扩容）
Turbo 模式（接近原生性能档位）
GPU 资源精细化管理（配额）
任务显存占用分析
一站式可观测性

L3 · 场景方案（Solutions）

多个 L2 能力按场景打包形成可交付方案，例如：

GPU 云租赁与"出租率"优化（利用率优先）
潮汐型推理平台（尾延迟与弹性优先）
多团队共享资源池（治理与公平优先）
训练/推理混部平台（隔离与可预测优先）

能力域划分：六大域（供给 / 分配 / 共享隔离 / 弹性 / QoS / 观测验收）

为让 L2 能力具备清晰层次，本章采用六个能力域组织内容。每个能力域对应平台治理闭环中的关键问题：

能力域	核心关注	关键问题
1. 供给与抽象	Supply & Abstraction	平台对外提供哪些资源形态与性能档位（profile），如 Turbo/非 Turbo、显存弹性形态等
2. 准入与分配	Admission & Allocation	谁能用、用多少、资源紧张时如何排队与抢占，确保关键任务优先
3. 共享与隔离	Sharing & Isolation	多任务共存时的干扰边界与隔离等级，决定"能不能混、混到什么程度"
4. 弹性与自适应	Elasticity & Adaptation	随业务波动动态调整资源形态与规模，避免"固定配置"导致的浪费与降级
5. 性能与 QoS	Performance & QoS	以延迟、吞吐与 SLA 为目标的性能剖面与保障机制，明确 trade-off
6. 可观测、计量与验收	Observability & Acceptance	从集群到任务的可解释性、计量口径与验收方法，形成闭环与工程事实

表 1: GPU 平台能力域划分

能力卡模板：统一写法与验收口径

为避免能力描述变成产品说明书或 feature 列表，本书对每项 L2 能力采用统一“能力卡”模板：

能力定义（一句话）：用工程语言描述要交付的能力。
适用场景与业务假设：该能力成立的前提（潮汐性、优先级划分、交互延迟约束等）。
核心价值（可量化）：收益优先用指标表达（利用率、SLA、成本、运维效率等）。
关键机制（抽象概览）：描述需要哪类机制（控制面/数据平面/观测），不展开实现细节。
验收指标（口径明确）：至少包含利用率类、性能类、稳定性类三组指标。
边界与短板：何时不适用、风险在哪里、会牺牲什么。
演示步骤（最短路径）：给出可复现实验的最小步骤与观测点。

能力矩阵总览（L2）

下表用于快速定位能力在模型中的归属与评估重点。建议实际评估时以能力卡形式展开。

平台能力	主要能力域	次要能力域
GPU 超卖	共享与隔离	弹性 / QoS
优先级抢占	准入与分配	QoS
自动扩缩容	弹性与自适应	-
Turbo 模式	供给与抽象	性能与 QoS
GPU 资源配额	准入与分配	-
任务显存占用分析	可观测、计量与验收	-
一站式可观测性	可观测、计量与验收	-

表 2: 能力矩阵总览（L2）

平台能力详解（能力卡）

GPU 超卖（显存超卖）

维度	内容
能力定义	在保证可控干扰边界的前提下，通过显存层弹性与复用机制，使单卡承载更多模型/任务，从而显著提高 GPU 利用率
适用场景	推理业务潮汐性明显（峰谷差大），或多模型碎片化部署导致利用率偏低
核心价值	利用率提升（30% → 60%）、密度提升、平台收益放大
关键机制	数据平面：显存复用与弹性策略；控制面：超卖比、优先级与资源承诺；观测：显存水位与置换事件
验收指标	利用率类：SM 利用率均值/分位数、GPU 空闲时长占比；性能类：TTFT/TPOT/ITL/ILT 的 P50/P95/P99；稳定性类：OOM/驱逐次数、置换事件频率
边界与短板	极致低延迟业务需谨慎评估；跨厂商异构需额外适配
演示步骤	单卡部署多模型实例 → 压测记录指标 → 对比无超卖与超卖配置

表 3: GPU 超卖能力卡

优先级抢占

维度	内容
能力定义	在资源紧张时，平台以确定性方式让高优先级任务获得 GPU 资源，并对低优先级任务进行降级、暂停或抢占
适用场景	任务优先级划分明确（核心推理 > 训练 > 测试），资源池存在阶段性紧张
核心价值	SLA 稳定性提升、资源利用率提升（避免为"最坏情况"长期超配）
关键机制	控制面：优先级、队列与抢占策略；数据平面：算力抑制或资源回收；观测：抢占事件与队列等待时间
验收指标	利用率类：资源紧张期间 GPU 利用率与空转占比；性能类：高优先级任务 TTFT/TPOT P95/P99；稳定性类：抢占次数、恢复成功率、队列等待时间
边界与短板	仅在"优先级明确且业务潮汐明显"场景收益最大；实时性极高任务需更严格约束
演示步骤	启动低优先级训练任务 → 启动高优先级推理服务 → 观察训练算力被抑制，推理延迟稳定

表 4: 优先级抢占能力卡

自动扩缩容（显存原地扩缩容与自动扩容）

维度	内容
能力定义	平台可在不破坏工作负载连续性的前提下，按策略动态调整任务显存配置，并在压力变化时触发自动扩容/缩容
适用场景	业务流量波动明显（突发 QPS、潮汐规律），模型加载与上下文变化导致显存需求动态变化
核心价值	降低空闲率、提升健壮性（自动扩容避免崩溃）、运维效率提升
关键机制	控制面：扩缩容策略（阈值、步长、冷却时间）；数据平面：显存在线调整与安全回收；观测：扩缩容事件与关联分析
验收指标	利用率类：显存利用率、碎片率、空闲显存占比；性能类：扩容前后 TTFT/TPOT 变化幅度与恢复时间；稳定性类：OOM 次数、扩缩容失败率、抖动次数
边界与短板	仅基于资源指标触发可能无法贴合业务指标；步长/阈值需可配置可解释
演示步骤	启动显存配置偏小的训练任务 → 验证显存压力时任务不中断 → 对比未开启策略时的 crash 行为

表 5: 自动扩缩容能力卡

Turbo 模式（接近原生性能档位）

维度	内容
能力定义	在保持平台治理能力的同时，提供以低开销路径为目标的高性能档位，使关键工作负载接近原生性能
适用场景	对 RT/尾延迟高度敏感（广告、推荐、在线推理），可接受减少部分弹性或共享策略
核心价值	接近原生性能（TTFT/TPOT/ITL 优于普通共享路径）、性能可预测（减少抖动）
关键机制	数据平面：低开销执行路径与隔离档位；控制面：以"档位"方式约束资源供给；观测：工作负载级性能指标与对比基线
验收指标	利用率类：单卡利用率与吞吐；性能类：TTFT/TPOT/ITL 的 P50/P95/P99 对比原生/非 Turbo；稳定性类：性能抖动、异常重试/超时比例
边界与短板	缺乏工作负载级算力指标易只看到"卡级别"提升；Turbo 档位要求更强约束，可能降低共享弹性
演示步骤	两张同规格卡分别部署同一模型（一开 Turbo，一关）→ 同一基准工具压测 → 输出性能对比报告

表 6: Turbo 模式能力卡

GPU 资源精细化管理（配额）

维度	内容
能力定义	多租户或多团队共享 GPU 资源池时，平台以配额与限额机制实现可预测的资源边界与公平性
适用场景	多团队共享同一集群，资源争抢会导致排队/卡死/节点被挤爆
核心价值	减少争抢与雪崩风险、提高协同效率、关键任务保障
关键机制	控制面：namespace/队列/配额与准入控制；数据平面：按配额约束显存与算力份额；观测：配额用量、拒绝原因、资源公平性
验收指标	利用率类：配额内资源使用率、超额请求被拒绝比例；性能类：关键任务延迟/吞吐稳定性；稳定性类：资源争抢失败率、节点拥塞事件
边界与短板	仅支持显存与算力约束时，带宽/拓扑等维度可能出现"隐性争抢"；配额粒度与组织结构不匹配会造成低效
演示步骤	创建 namespace 配额（显存 20G、算力 100%）→ 启动工作负载 A（15G+80%）成功 → 启动工作负载 B（10G+50%）被拒绝 → 输出拒绝原因

表 7: GPU 资源精细化管理能力卡

任务显存占用分析

维度	内容
能力定义	平台以可解释方式拆解并可视化任务显存占用结构与动态变化，用于指导混部、超卖与弹性策略
适用场景	科学智能/多任务场景显存分布不均，推理场景显存由权重/KV Cache/上下文/模块构成
核心价值	提升资源决策准确性、排障提效（定位 OOM 时间降低）、容量规划更可靠
关键机制	观测：显存占用分解维度、时间序列与事件关联；控制面：分析结果用于策略调整；数据平面：显存占用采样与标注
验收指标	利用率类：显存峰值/均值/分位数与碎片率；性能类：不同上下文长度下 TTFT/TPOT 弹性曲线；稳定性类：OOM/重试次数、显存突刺事件频率
边界与短板	分析维度过少只能看到现象无法指导策略；异构 GPU 采样一致性与归因复杂度更高
演示步骤	部署模型服务采集显存分析数据 → 改变输入上下文长度或并发 → 观察显存结构与延迟指标联动 → 给出可行动结论

表 8: 任务显存占用分析能力卡

一站式可观测性

维度	内容
能力定义	平台提供从集群/节点/卡到工作负载的一体化观测与归因体系，覆盖利用率、健康度、性能与成本相关指标
适用场景	GPU 资源池规模化运行，需同时服务平台运维/算法团队/硬件维护等多角色
核心价值	全链路可见（APP → GPU → Node → Cluster）、异常可定位、验收可复现
关键机制	观测：多层级指标与日志/事件关联，支持任务级归因；控制面：观测结果用于策略调整与告警；数据平面：卡级与任务级指标采集
验收指标	利用率类：集群/节点/卡/任务各层级利用率与空转占比；性能类：任务级延迟/吞吐与资源压力关联；稳定性类：温度/功耗阈值告警、ECC/硬件异常事件、故障 MTTR
边界与短板	缺少任务级归因指标会退化为"卡级面板"；指标口径不统一会导致验收争议
演示步骤	部署压力工作负载验证卡级性能指标 → 部署 A/B 两个任务错峰访问 → 调整超卖比或抢占策略观察波峰/波谷与事件对应

表 9: 一站式可观测性能力卡

常见组合：三类典型平台包（L3 示例）

以下为三类常见组合方式，帮助读者将能力从"单点"组织成"方案"：

平台类型	关键能力	核心目标
GPU 云租赁	GPU 超卖、自动扩缩容、配额、可观测性	利用率/出租率优先 - 提高密度与出租率，控制尾延迟风险
潮汐型推理平台	优先级抢占、自动扩缩容、Turbo、可观测性	SLA 与弹性优先 - 峰值保障、谷值节省，优先保障核心服务
多团队共享资源池	配额、优先级抢占、可观测性、显存占用分析	治理与公平优先 - 可预测、公平、可解释，降低组织摩擦成本

表 10: 三类典型平台包

能力成熟度：从可演示到可规模化

能力从"能跑"到"可规模化"，通常经历三个阶段：

阶段	特征	局限性/要求
可演示（Demo-ready）	✓ 存在最短路径演示 ✓ 有可见的指标 ✓ 基本功能可用 ✓ 概念验证完成	• 没有稳定的指标 • 缺少生产环境保障 • 测试有限
可验收（Acceptance-ready）	✓ 稳定的指标定义 ✓ 基于分位数的分析 ✓ 可复现的基准测试 ✓ 验收标准明确	• 策略治理有限 • 缺少边界情况处理 • 需要手动扩展
可规模化（Production-ready）	✓ 策略治理 ✓ 边界保护 ✓ 告警与监控 ✓ 故障排查闭环	• 需要明确边界 • 需要定义成本与权衡 • 需要稳定的运营

表 11: 能力成熟度模型

评估平台时，建议关注是否具备可验收口径、明确边界与代价、能否形成稳定运营闭环，而非仅以"能否支持某功能"为唯一标准。

总结

本章提出的 GPU 平台能力模型，旨在帮助平台团队与业务方以统一语言梳理平台交付能力、适用前提与验收方式。通过能力分层、能力卡模板与典型组合，平台治理不再停留在 feature 罗列，而是转向可复现、可组合、可演示的工程闭环。希望本模型为 GPU 平台选型、能力规划与生产落地提供参考。

创建于 2026/01/22 更新于 2026/01/22 5594 字阅读约 12 分钟