基础认知与问题定义

草稿

本章建立 GPU 基础设施的认知框架,帮助读者理解异构生态图谱、资源治理难点、控制面与数据平面的分工、Kubernetes 设备模型边界,以及评估 GPU 方案的统一决策轴。

章节目录

GPU 基础认知

草稿

为从未在生产中使用过 GPU 的读者建立可复用的心智模型,理解 GPU 的本质、显存与算力的差异、NVIDIA 数据中心 GPU 演进,以及从硬件到 Kubernetes 的端到端使用与调度路径。

GPU 异构生态导引

草稿

系统梳理 AI 训练与推理领域 GPU 厂商生态,涵盖国产 GPU 分层图谱、海外主流与新兴加速器、主流芯片在 Kubernetes 中的支持现状,并附结构化生态图谱,帮助读者建立异构 GPU 生态与技术路线的清晰认知。

GPU 资源治理为什么难

草稿

定义 GPU 共享、隔离、治理的根因:显存、拓扑、干扰与尾延迟,以及训练与推理的资源形态差异。

GPU 资源控制面地图

草稿

给出控制面与数据平面的分工地图,后续所有项目、机制与实验都将回到这张图上归类与对齐。

GPU 平台能力模型

草稿

提出一套可复用的 GPU 平台能力模型,抽象平台交付能力单元、适用前提与验收方式,助力生产环境治理与选型。

K8s 设备资源模型

草稿

理解 Kubernetes 对 GPU 这类设备资源的表达能力与天然限制,并明确调度、分配与隔离的责任边界。

GPU 评估决策轴

草稿

给出可直接用于选型评审的决策矩阵:粒度、隔离、性能干扰、可观测、运维复杂度、兼容性与异构扩展。

创建于 2026/01/10 更新于 2026/01/10 523 字 阅读约 2 分钟