📖 AI 原生基础设施:从云原生到 AI 原生的架构演进指南

全站索引

全站术语表

从 AI 到云原生的常用概念与独特术语,一页快速索引与查找。

457 术语数量
24 分组数量

术语不是知识的终点,而是理解复杂系统的入口。

这里汇总了本站所有核心概念与独特术语,便于快速检索、归类与对照。

457 条结果

A

5

AI 反馈强化学习

RLAIF

用 AI 反馈替代人工标注的对齐训练方式。

alpha-beta 剪枝

Alpha-Beta Pruning

减少搜索无用路径的剪枝方法。

安全多方计算

Secure Multi-Party Computation

多方在不泄露各自输入的情况下联合计算函数的协议。

Apache-2.0 许可

Apache-2.0

宽松许可,包含专利授权与声明要求。

API 网关

API Gateway

管理和路由 API 请求的服务器。

B

10

半精度浮点

FP16

Half Precision Floating Point,16 位半精度浮点数格式,提供约 3-4 位十进制精度,可减少内存占用和加速计算,广泛用于 AI 推理和部分训练场景。

北极星指标

North Star Metric

驱动长期增长的核心指标,用于统一团队目标。

本体

Ontology

领域概念与关系的标准化字典。

边车模式

Sidecar Pattern

将辅助功能与主应用部署在一起的设计模式,常用于服务网格。

变更数据捕获

CDC

捕获数据库变更并推送下游,用于同步与实时管道。

编码器

Encoder

神经网络中负责将输入转换为内部表示的部分。

编排

Orchestration

自动化配置、协调和管理计算机系统和软件。

边缘计算

Edge Computing

在靠近数据源的网络边缘进行计算的模式,降低延迟。

BM25

一种经典的排序函数,用于评估文档与查询的相关性。

播客

Podcast

通过网络发布的系列音频节目,常以订阅方式获取。

C

30

残差连接

Residual Connection

跳跃某些层的连接方式,帮助梯度在深层网络中更好地传播。

CANN

华为昇腾的异构计算架构,提供神经网络计算引擎和算子库。

参数高效微调

Parameter-Efficient Fine-tuning

只微调模型少量参数的方法,大幅降低训练成本和存储需求。

参数高效微调

PEFT

以少量可训练参数适配任务,降低训练成本。

CAP 定理

CAP

分布式系统中一致性、可用性与分区容错无法同时满足的权衡。

差分隐私

Differential Privacy

通过添加噪声保护个体隐私的统计方法。

产品驱动增长

PLG

依靠产品自助体验驱动增长的策略。

产品市场匹配

PMF

产品满足目标市场需求的程度与信号。

超卖

Overcommitment

分配的资源总量超过物理可用资源的情况,通常在内存或 CPU 分配中使用。

超配

Overprovisioning

预先分配超过实际需求的资源量以满足突发需求或确保高可用性。

查询理解

Query Understanding

分析查询意图和语义的步骤,提升检索准确性。

持续部署

Continuous Deployment

自动将通过测试的代码变更部署到生产环境的实践。

持续交付

Continuous Delivery

保持代码随时可以部署到生产状态的开发实践。

持续集成

Continuous Integration

频繁地将代码变更集成到主分支的开发实践。

持续集成/持续部署

CI/CD

一种通过在应用开发阶段引入自动化来频繁向客户交付应用的方法。

冲突集

Conflict Set

规则系统里可用规则的集合。

抽取 - 加载 - 转换

ELT

先加载后在目标系统内转换的数据管道流程。

抽取 - 转换 - 加载

ETL

先抽取再转换后加载的数据管道流程。

传染式许可

Copyleft

要求衍生作品同样开源的许可模式。

垂直 Pod 自动扩缩容

Vertical Pod Autoscaler

自动调整 Pod 资源请求的机制,优化资源利用率。

垂直 Pod 自动扩缩容

VPA

自动调整 Pod 资源请求与限制,优化资源利用。

初始化容器

Init Container

在主容器启动前运行的辅助容器,用于初始化配置或依赖。

初始权重

Initial Weight

训练开始前的参数值,影响训练速度与结果。

词性标注

Part-of-Speech Tagging

为文本中每个词标注词性的任务。

CLIP

Contrastive Language-Image Pre-training,连接文本和图像的模型。

ColBERT

一种基于令牌级别的向量检索方法,保留细粒度匹配信息。

CUDA

NVIDIA 的并行计算平台和编程模型,允许开发者使用 GPU 进行通用计算。

存活探针

Liveness Probe

检测容器是否存活的健康检查,不通过时重启容器。

错误预算

Error Budget

SLO 允许的失败额度,用于发布与风险权衡。

错误预算燃烧率

Burn Rate

错误预算消耗速度,用于告警与发布判断。

D

20

DALL-E

文本到图像生成系统。

大模型

Large Language Model

参数规模巨大的深度学习模型,通常指具有数十亿到数万亿参数的语言模型。

单精度浮点

FP32

Single Precision Floating Point,32 位单精度浮点数格式,提供约 6-9 位十进制精度,是深度学习训练的标准数值格式。

大语言模型

LLM

一种能够理解和生成人类语言的深度学习算法。

DevOps

一组结合了软件开发(Dev)和 IT 运营(Ops)的实践。

丢弃法

Dropout

训练时随机丢弃部分神经元的正则化技术,防止过拟合。

低秩分解

Low-Rank Factorization

将权重矩阵分解为两个小矩阵乘积的压缩技术。

低秩自适应

LoRA

Low-Rank Adaptation,一种高效的大模型微调技术。

动量

Momentum

优化训练时的加速度,避免模型震荡。

动态图

Dynamic Graph

节点或边随时间变化的图结构,用于表示动态关系。

Dynamic Resource Allocation

DRA

面向工作负载的动态资源分配机制,用于按需分配计算资源。

断路器

Circuit Breaker

一种设计模式,用于检测故障并防止故障扩散。

多进程服务

MPS

Multi-Process Service,一种用于在多个进程之间共享 GPU 资源的技术。

多集群

Multi-Cluster

涉及多个集群的部署架构。

多模态

Multimodal

处理多种数据类型(文本、图像、音频等)的模型或系统。

多实例 GPU

MIG

Multi-Instance GPU,一种将单个 GPU 分割成多个实例的技术。

多头注意力

Multi-Head Attention

并行执行多个注意力操作的机制,捕捉不同的特征表示。

多网格

Multi-Mesh

涉及多个服务网格的架构。

多向量检索

Multi-vector Retrieval

为文档的不同部分(如标题、正文)分别生成向量并检索。

多语言标注

Hreflang

标注多语言/地区版本,避免搜索结果错配。

E

3

eBPF

Extended Berkeley Packet Filter,一种允许在 Linux 内核中运行沙箱程序的技术。

二分类模型

Binary Classification Model

只能输出两种结果的分类模型。

etcd

一个分布式、可靠的键值存储,用于存储分布式系统的最关键数据。

F

21

法定多数

Quorum

读写达到多数派即成功,用于一致性与容错。

反向传播

Backpropagation

一种用于训练神经网络的算法。

非一致性存储访问

NUMA

Non-Uniform Memory Access,一种计算机体系结构,其中内存访问速度取决于内存位置。

分布式追踪

Distributed Tracing

跟踪请求在微服务间传播路径的技术,用于性能分析和故障排查。

分词

Tokenization

将文本切分为 token 的过程,影响上下文与成本。

分词器

Tokenizer

把文本切分成 token 的工具。

分群分析

Cohort Analysis

按批次分析留存与行为变化,定位问题。

氛围编程

Vibe Coding

一种强调编程环境和心理状态的编程方式。

分页注意力

PagedAttention

PagedAttention,一种通过分页机制来提高注意力机制效率的技术。

FlashAttention

高效注意力实现算法,优化显存与速度。

副本集

ReplicaSet

维护一组 Pod 副本运行的 Kubernetes 控制器,确保指定数量的 Pod 副本始终运行。

服务等级目标

SLO

Service Level Objective,定义服务性能的具体目标。

服务等级协议

SLA

Service Level Agreement,服务提供商与客户之间的正式协议。

服务等级协议

Service Level Agreement

服务提供商与客户之间的正式协议,定义服务质量和责任。

服务发现

Service Discovery

自动检测和定位网络中可用的服务实例的机制。

服务身份

Service Identity

标识微服务身份的机制,用于服务间的认证和授权。

服务水平指标

SLI

量化服务性能的指标定义,用于衡量可用性。

服务网格

Service Mesh

用于处理服务间通信的基础设施层。

服务质量

Qos

Quality of Service,一种用于描述系统性能和可靠性的指标。

负载均衡

Load Balancing

在多个计算资源之间分配工作负载。

负载均衡器

Load Balancer

用于分配网络流量的设备或软件。

G

20

感知机

Perceptron

最早的神经网络模型,像单层 if-else 判别器。

高带宽内存

High Bandwidth Memory

用于 GPU 的高速内存,提供比传统 GDDR 更高的带宽。

高带宽显存

HBM

High Bandwidth Memory,用于 GPU 的高速内存,提供比传统 GDDR 更高的带宽。

高带宽显存 2e

HBM2e

High Bandwidth Memory 2e,第二代高带宽内存的增强版本,提供比 HBM2 更高的带宽和容量,常用于高性能 GPU。

GGUF

面向大语言模型的高效权重文件格式。

GitOps

一种使用 Git 仓库作为基础设施即代码的单一事实来源的操作模型。

工具调用

Tool Calling

Agent 执行外部操作的能力,扩展 AI 的功能边界。

贡献者许可协议

CLA

明确贡献代码版权授权与使用范围的协议。

GPL 许可

GPL

强 copyleft 许可,要求衍生作品开源。

GPT

基于 Transformer 的预训练语言模型,可通过提示生成内容。

GPUDirect

NVIDIA 的技术,允许 GPU 直接访问网络或存储设备数据,绕过 CPU 和主机内存。

GPUDirect RDMA

结合 GPUDirect 和 RDMA 技术,实现 GPU 间直接高速数据传输。

Grafana

开源可视化监控平台,支持多种数据源和丰富的面板类型。

关键词提取

Keyword Extraction

从文本中找出核心词的任务。

固定大小分块

Fixed-size Chunking

按固定大小分割文档的分块策略,简单但可能破坏语义。

规范化链接

Canonical URL

指定主链接以避免重复内容与权重分散。

规范驱动开发

SDD

一种开发方法,其中规范驱动主要的开发流程。

归一化

Normalization

把输入数据缩放到统一范围以加快收敛。

滚动更新

Rolling Update

逐步替换旧版本 Pod 的更新策略,实现零停机部署。

过拟合

Overfitting

模型在训练集上表现好但泛化能力差的现象,通常由模型过于复杂或训练数据不足引起。

H

22

航点

Waypoint

Istio Ambient 模式下的代理组件,处理 L7 流量管理和策略执行。

函数调用

Function Calling

LLM 调用外部函数的机制,实现与外部系统的集成。

函数即服务

Function as a Service

无需管理服务器即可运行代码的云计算服务模式。

Helm

Kubernetes 的包管理器。

Helm Chart

用于定义、安装和升级 Kubernetes 应用的一组模板与配置包。

核心网页指标

CWV

衡量网页体验的关键指标集合。

HNSW

Hierarchical Navigable Small World,一种高效的向量索引算法。

滑动窗口

Sliding Window

一种文档分块策略,保持相邻块之间的重叠。

幻觉

Hallucination

模型生成看似合理但实际上错误或荒谬的信息。

湖仓一体

Data Lakehouse

融合数据湖与数仓的架构,兼顾开放存储与管理。

Hugging Face

AI 模型的共享平台,提供预训练模型与工具。

回本周期

Payback Period

获客成本回收所需时间,衡量增长效率。

灰度发布

Canary Release

逐步将新版本发布给部分用户,以验证新版本的稳定性和性能。

回归

Regression

预测连续数值的模型方法。

护栏

Guardrails

限制 AI 模型输出范围的约束机制,确保输出符合预期和安全要求。

护栏机制

Guardrails

限制 AI 模型输出范围的约束机制,确保输出符合预期和安全要求。

混沌工程

Chaos Engineering

通过主动注入故障提升系统韧性的工程方法,帮助发现系统弱点。

混合搜索

Hybrid Search

结合关键词搜索和语义搜索的检索策略。

混合专家模型

MoE

Mixture of Experts,一种通过结合多个专家网络来提高模型容量和效率的架构。

混合专家模型

Mixture of Experts

通过激活部分专家网络来处理输入的模型架构,提高模型效率。

获客成本

CAC

获取一个用户的平均成本,用于评估渠道效率。

Hyper GPU 交换系统

HGX

Hyper GPU Exchange,NVIDIA 推出的 GPU 模块化平台,为服务器厂商提供标准化的 GPU 集成方案,支持大规模 AI 计算集群部署。

I

2

ImageNet

大型标注图像库,常用于训练视觉模型。

Instruct / Thinking / Captioner

模型训练或用途的标签分类。

J

26

检查点

Checkpoint

保存模型训练状态的快照,用于训练中断后的恢复或模型部署。

健康检查

Health Check

定期检查应用或服务是否正常运行的方法。

检索增强生成

RAG

通过检索外部知识并与生成模型结合,提升回答准确性与可追溯性的方法。

检索增强生成

Retrieval-Augmented Generation

结合信息检索和生成模型的技术,提升生成内容的准确性和可靠性。

剪枝

Pruning

移除模型中不重要参数或神经元的技术。

键值缓存

KV Cache

Key-Value Cache,一种用于存储和检索键值对的数据结构。

交互到下一次绘制

INP

衡量交互响应速度的指标。

基础设施即代码

Infrastructure as Code

使用代码来管理和配置基础设施的方法。

基础设施即服务

Infrastructure as a Service

提供虚拟化计算资源的云计算服务。

结构化数据

Schema Markup

用结构化标记增强搜索富结果展示。

解码器

Decoder

神经网络中负责将内部表示转换为输出的部分。

进程 ID

PID

Process ID,操作系统中用于唯一标识进程的数值。

进程间通信

IPC

Inter-Process Communication,一组允许不同进程之间交换数据和同步信息的机制。

金丝雀部署

Canary Deployment

逐步将流量导向新版本的部署策略,降低风险并快速发现问题。

金丝雀发布

Canary Deployment

逐步将流量导向新版本的部署策略,降低风险并快速发现问题。

机器翻译

Machine Translation

自动将文本从一种语言翻译成另一种语言的任务。

机器学习

Machine Learning

一种数据分析方法,能让计算机自动从经验中学习。

机器学习处理器

MLU

Machine Learning Unit,寒武纪(Cambricon)推出的 AI 加速器产品系列,专为深度学习推理和训练任务优化,支持主流深度学习框架。

技术采用生命周期

Technology Adoption Lifecycle

技术扩散模型,从创新者到保守者的采用路径。

计算机视觉

CV

Computer Vision,使计算机能够从数字图像或视频中获得高层理解的领域。

就绪探针

Readiness Probe

检测容器是否准备好服务请求的健康检查,不通过时从 Service 中移除。

基于角色的访问控制

RBAC

Role-Based Access Control,基于角色的权限管理系统,通过角色定义用户权限。

基于人类反馈的强化学习

RLHF

Reinforcement Learning from Human Feedback,利用人类反馈来微调模型的方法。

卷积神经网络

CNN

Convolutional Neural Network,常用于分析视觉图像的深度神经网络。

聚类

Clustering

无监督学习方法,将相似数据自动分组。

JWT

JSON Web Token,一种用于安全传输信息的紧凑标准。

K

14

Kubernetes

K8s

Kubernetes 的通用缩写,源自 K 和 s 之间有 8 个字母。

Kaggle

机器学习竞赛平台,用于练习和分享模型。

开放策略代理

OPA

通用策略引擎,用 Rego 表达访问与合规策略。

开放容器计划

OCI

Open Container Initiative,制定容器格式和运行时标准的开放治理结构。

开发者签署证明

DCO

声明提交代码合法来源的签署机制。

开源促进会

OSI

维护开源定义与许可标准的组织。

可观测性

Observability

通过系统外部输出理解系统内部状态的能力,包括日志、指标和链路追踪。

控制组

cgroup

Control Group,一种用于限制、记录和隔离进程组资源的机制。

框架表示

Frame Representation

将知识表示为结构化对象的方式。

宽松许可

Permissive License

允许闭源再发布的开源许可类型。

kubectl

Kubernetes 的命令行工具,用于与集群通信。

Kubelet

节点代理,负责 Pod 生命周期与容器运行。

库存单位

SKU

Stock Keeping Unit,库存单位,用于跟踪库存的唯一标识符,在产品定价和管理中广泛使用。

扩散模型

Diffusion Model

通过逐步去噪生成数据的生成模型。

L

19

Lamport 时钟

Lamport Clock

逻辑时钟,用于分布式事件排序与因果一致。

蓝绿部署

Blue-Green Deployment

通过两套环境实现零停机部署的策略,快速切换流量。

累计布局偏移

CLS

衡量页面视觉稳定性的指标。

联邦学习

Federated Learning

在分布式设备上训练模型而不共享原始数据的隐私保护技术。

量化

Quantization

降低模型精度(如 FP32 转 INT8)以减少计算量和内存占用的技术。

两阶段提交

2PC

分布式事务协议,分为预提交与提交阶段。

联机分析处理

OLAP

面向分析查询的处理方式,常用于报表与数仓。

联机事务处理

OLTP

面向事务的系统形态,强调低延迟与强一致。

链式调用

Chain Invocation

将多个操作或函数调用串联起来的编程模式。

连续批处理

Continuous Batching

动态合并请求以提高 GPU 利用率的批处理技术,也称为迭代级批处理。

裂变系数

Viral Coefficient

用户带来新用户的比例,用于评估传播效率。

LIME

Local Interpretable Model-agnostic Explanations,局部可解释模型解释方法。

零和博弈

Zero-sum Game

一方收益等于另一方损失的博弈场景。

零信任

Zero Trust

不默认信任任何用户或设备的网络安全模型,所有访问都需要验证。

零样本学习

Zero-shot Learning

不需要任何样本就能完成新任务的能力。

流处理器

SM

Streaming Multiprocessor,一种 GPU 的计算核心。

流水线

Pipeline

封装模型流程的高层接口。

流言协议

Gossip Protocol

通过随机传播同步状态,常用于成员发现与配置扩散。

llama.cpp

轻量化的大语言模型推理框架,可在 CPU 或消费级 GPU 上运行。

M

14

马尔可夫决策过程

Markov Decision Process

强化学习中的数学框架,描述智能体与环境交互。

每秒万亿次浮点运算

TFLOPS

Trillion Floating Point Operations Per Second,一种衡量计算能力的指标。

每秒万亿次运算

TOPS

Trillion Operations Per Second,衡量 AI 加速器性能的指标,表示每秒可执行的整数运算次数。

幂等性

Idempotency

重复请求结果一致的性质,用于重试与消费去重。

命令行界面

CLI

基于文本的用户界面,用户通过输入命令与计算机交互。

命名空间

Namespace

Kubernetes 中用于隔离资源的虚拟集群,实现多租户和资源配额管理。

命名实体识别

Named Entity Recognition

从文本中识别和分类命名实体的任务。

MLX

Apple 的机器学习框架,针对 macOS 与 Apple Silicon 优化。

模型规模 4B

Model size 4B

约 40 亿参数的模型规模。

模型剪枝

Model Pruning

移除神经网络中不重要连接或神经元的技术,减小模型大小和计算量。

模型上下文协议

MCP

用于在模型与外部工具或数据源之间传递上下文的协议标准,定义交互与数据格式。

模型压缩

Model Compression

减小模型大小和计算开销的技术集合。

目标规则

DestinationRule

Istio 中定义流量去向后服务的配置,实现负载均衡、连接池和熔断等策略。

MUSA

摩尔线程的统一系统架构,支持其 GPU 的通用计算。

N

8

纳什均衡

Nash Equilibrium

博弈论中所有玩家都不愿单独改变策略的状态。

内容分发网络

CDN

分布在不同地理位置的服务器网络。

NetLogo

多智能体系统模拟平台,用于复杂系统仿真。

Neuware

寒武纪的 AI 软件栈,包括开发工具、运行时和驱动。

NVIDIA A100 GPU

NVIDIA A100

NVIDIA 基于 Ampere 架构的数据中心级 GPU,提供高性能计算能力和大容量显存,广泛用于 AI 训练和推理任务。

NVIDIA Ampere 架构

NVIDIA Ampere

NVIDIA 的 GPU 架构,用于 A100、A30、A40、A6000 等数据中心 GPU,提供显著的性能提升和能效改进。

NVIDIA 管理库

NVML

NVIDIA Management Library,用于监控和管理 NVIDIA GPU 的系统库。

NVLink

NVLink,一种用于连接 GPU 的高速串行通信接口。

O

6

OAuth

一种开放标准的授权协议。

Okapi BM25

BM25 算法的原始实现,广泛用于信息检索系统。

Once-for-All

一种训练一次即可适应多种部署场景的神经网络架构搜索方法。

Out of Memory

OOM

Out of Memory,一种内存不足的错误。

OpenTelemetry

可观测性数据收集的开放标准,统一 traces、metrics 和 logs 的采集。

Orca

Orca,一种用于大规模分布式训练的优化器。

P

15

PACELC 定理

PACELC

有分区时权衡一致性/可用性,无分区时权衡一致性/延迟。

爬虫规则

Robots.txt

用于控制搜索引擎抓取范围的规则文件。

Paxos 共识

Paxos

经典共识算法,在不可靠网络中达成一致。

PCIe

PCI Express,一种高速串行计算机扩展总线标准。

配置管理

Configuration Management

管理系统配置的过程,包括创建、更新和维护配置文件。

配置映射

ConfigMap

用于存储非敏感配置数据的 Kubernetes 资源,将配置与容器镜像分离。

批次大小

Batch Size

一次训练迭代使用的样本数量,影响训练速度和模型效果。

平均故障间隔

MTBF

衡量系统稳定性的指标。

平均恢复时间

MTTR

衡量故障修复速度的指标。

平台即服务

Platform as a Service

提供应用程序开发和部署环境的云计算服务。

Pod 中断预算

Pod Disruption Budget

控制 Pod 同时中断数量的机制,保证应用在维护期间的最小可用性。

Pod 中断预算

PDB

限制可中断 Pod 数量,保障服务可用性。

Prometheus

开源监控告警系统,采用拉取模型采集时序数据。

PromptOps

Prompt Operations.

PyTorch

主流深度学习框架,提供灵活易用的模型开发接口。

Q

11

恰好一次

Exactly-once

消息或计算只处理一次的语义,常用于流处理保证。

强化学习

RL

Reinforcement Learning,通过试错来训练代理以最大化奖励的机器学习方法。

强化学习

Reinforcement Learning

通过试错来训练代理以最大化奖励的机器学习方法。

欠拟合

Underfitting

模型未能充分学习训练数据特征的现象,通常由模型过于简单或训练时间不足引起。

嵌入

Embedding

将离散数据(如词语)映射到连续向量空间的表示方法。

嵌入模型

Embedding Model

用于生成文本嵌入的模型。

情感分析

Sentiment Analysis

识别文本情感倾向的任务,如正面、负面、中性。

权重

Weight

模型中可调参数,决定模型预测结果。

权重共享

Weight Sharing

在模型不同部分共享相同参数的技术,减少参数量。

权重衰减

Weight Decay

在损失函数中添加权重范数的正则化技术,防止过拟合。

区块链

Blockchain

一种去中心化的分布式账本技术。

R

19

Raft 共识

Raft

易理解的共识算法,用于日志复制与状态机一致性。

ReAct

Reasoning + Acting,结合推理和行动的智能体框架。

Recursive Character Splitting

一种文档分块方法,按段落、句子、词的层级递归分割。

Reflexion

一种让智能体从失败中学习的自我反思机制。

认证

Authentication

确认用户或系统身份的过程,通常基于凭证与验证机制。

热设计功耗

TDP

Thermal Design Power,处理器在正常工作时的最大热量输出值,用于指导散热系统的设计。

ROCm

AMD 的开放 GPU 计算平台,提供类似 CUDA 的开发体验,支持 AMD GPU。

容错

Fault Tolerance

系统在部分组件发生故障时仍能继续运行的能力。

容器

Container

一种软件包,包含运行软件所需的所有内容。

容器编排

Container Orchestration

自动化管理容器部署、扩展和连接的技术。

容器存储接口

CSI

Container Storage Interface,用于将存储系统暴露给容器化工作负载的标准接口。

容器化

Containerization

将应用程序及其依赖打包到容器中的技术。

容器网络接口

CNI

Container Network Interface,配置容器网络接口的规范和库。

容器运行时接口

CRI

Container Runtime Interface,Kubernetes 定义的容器运行时插件接口。

RotatE

一种将关系建模为复数旋转的知识图谱嵌入方法。

RSS

一种内容订阅与聚合格式,用于同步网站更新。

软件即服务

Software as a Service

通过互联网提供软件应用的云计算服务模式。

软件物料清单

SBOM

描述软件组件与依赖的清单,用于安全与合规。

入口

Ingress

Kubernetes 中管理外部访问的 API 对象,提供 HTTP 和 HTTPS 路由规则。

S

50

Safetensors

安全高效的模型权重文件格式。

Saga 模式

Saga Pattern

长事务拆分为本地事务链,失败以补偿回滚。

三元组

Triple

知识表示方式,主语 - 谓语 - 宾语结构。

SGLang

面向大语言模型优化的推理框架,支持程序化提示。

上下文

Context

模型生成响应时所依赖的信息背景。

上下文窗口

Context Window

模型能处理的最大 token 数量,决定了模型的上下文理解能力。

上下文工程

Context Engineering

优化上下文窗口使用以提高模型性能。

少样本学习

Few-shot Learning

只用少量样本就能学会新任务的能力。

SHAP

SHapley Additive exPlanations,一种模型解释方法。

设备插件

Device Plugin

Kubernetes 中用于硬件设备资源扩展的插件机制,支持 GPU、FPGA 等专用硬件。

深度计算单元

DCU

Deep Computing Unit,海光(Hygon)推出的协处理器产品,专为科学计算、AI 推理和训练等高性能计算场景设计,兼容 CUDA 生态。

深度强化学习

Deep Reinforcement Learning

结合神经网络和强化学习的模型训练方法。

深度神经网络

Deep Neural Network

层数很多的神经网络,像多层微服务串联。

深度学习

Deep Learning

一种基于人工神经网络的机器学习方法。

深度学习 GPU 交换系统

DGX

Deep Learning GPU Exchange Systems,NVIDIA 推出的集成高性能 AI 计算平台,通过 NVLink 互联多个 GPU,为深度学习提供强大算力。

生成对抗网络

GAN

Generative Adversarial Network,由两个神经网络(生成器和判别器)相互博弈的深度学习架构。

生命周期价值

LTV

用户长期贡献的价值,用于评估回收空间。

神经网络

Neural Network

受到生物神经网络启发的计算模型。

神经网络处理器

NPU

Neural Processing Unit,专门为加速神经网络计算设计的处理器,优化了矩阵运算和并行计算能力,常用于 AI 推理和训练任务。

神经网络架构搜索

Neural Architecture Search

自动搜索最优神经网络架构的技术。

神经元

Neuron

神经网络中的最小计算单元,类似代码里的函数调用。

时间片

Time Slice

操作系统分配给进程或任务的时间段,用于轮流使用计算资源(如 CPU、GPU)。

时间片分割

Time-slicing

通过时间片轮转实现 GPU 共享的技术,不同进程在不同时间片使用 GPU。

视觉 Transformer

Vision Transformer

将 Transformer 架构应用于计算机视觉任务的模型。

实体识别

Entity Recognition

从文本中识别命名实体的任务,如人名、地名等。

时序图

Temporal Graph

节点和边随时间变化的图结构。

守护进程

Daemon

在后台运行并执行系统级任务的进程,通常在系统启动时自动启动。

守护进程集

DaemonSet

确保在每个节点上运行一个 Pod 副本的 Kubernetes 资源,常用于系统级守护进程。

授权

Authorization

确定用户是否有权执行特定操作的过程。

首 token 延迟

TTFT

Time To First Token,衡量推理响应速度的指标,表示从收到请求到生成第一个 token 的时间。

双精度浮点

FP64

Double Precision Floating Point,64 位双精度浮点数格式,提供约 15-17 位十进制精度,常用于科学计算和高精度数值模拟。

双向传输层安全

mTLS

服务间双向认证的加密通信,确保服务身份验证和数据传输安全。

双向认证

Mutual Authentication

通信双方互相验证身份的安全机制,增强安全性。

输出 token 间隔

TPOT

Time Per Output Token,生成阶段每个 token 的时间间隔,衡量生成速度的指标。

水平 Pod 自动扩缩容

Horizontal Pod Autoscaler

根据负载自动调整 Pod 数量的机制,实现应用的弹性伸缩。

水平 Pod 自动扩缩容

HPA

基于指标自动扩缩 Pod 副本数,适配负载波动。

Sidecar 模式

Sidecar

将辅助功能与主应用容器部署在同一 Pod 中的设计模式。

思维链

CoT

Chain of Thought,通过生成一系列中间推理步骤来提高大模型复杂推理能力的提示技术。

思维链

Chain of Thought

通过生成一系列中间推理步骤来提高大模型复杂推理能力的提示技术。

思维树

Tree of Thoughts

将思维链扩展为树形结构的推理方法,探索多种可能的推理路径。

State-of-the-Art

SOTA

State-of-the-Art 的缩写,指在特定任务或领域中性能最优的模型或方法。

搜索结果页

SERP

搜索引擎结果页面,优化目标是提升曝光与点击。

SPDX

软件许可与物料标识标准,便于合规管理。

SPIFFE

服务身份标准,为工作负载分配可验证身份。

SPIFFE/SPIRE

为动态环境提供身份的标准,SPIRE 是 SPIFFE 的实现。

SPIRE

SPIFFE 运行时,实现身份颁发与轮转。

SSL/TLS

用于在计算机网络上提供通信安全的加密协议。

Stable Diffusion

一种基于扩散模型的文本到图像生成模型。

速率限制

Rate Limiting

限制网络请求频率的技术。

SXM 接口

SXM

Server GX Module,NVIDIA 开发的 GPU 形态因子,用于高性能服务器和计算平台,提供比 PCIe 更高的带宽和功耗支持。

T

31

弹性伸缩

Elastic Scaling

根据负载自动调整资源的能力,包括水平和垂直伸缩。

TensorFlow

Google 开发的深度学习框架,适合大规模训练。

TensorRT

NVIDIA 提供的推理优化引擎,用于加速模型部署。

特征

Feature

描述数据的关键属性,用于训练模型。

特征提取器

Feature Extractor

自动挑选关键特征的模块。

特征重要性

Feature Importance

评估每个特征对模型预测贡献度的指标。

TF-IDF

Term Frequency-Inverse Document Frequency,衡量词语在文档中重要性的指标。

调参

Hyperparameter Tuning

调整学习率、批次大小等超参数以提升训练效果。

梯度

Gradient

优化算法中指导参数更新的方向,表示函数变化最快的方向。

梯度裁剪

Gradient Clipping

限制梯度过大,避免训练爆炸。

梯度下降

Gradient Descent

一种用于优化神经网络的一阶迭代优化算法。

提示词

Prompt

输入给 AI 模型的指令或文本。

提示词工程

Prompt Engineering

设计和优化输入提示词以获得最佳输出的技术。

提示微调

Prompt Tuning

冻结模型权重,仅优化提示向量以适配任务。

体验 - 专业性 - 权威性 - 可信度

E-E-A-T

搜索质量评估框架,用于判断内容可信度。

Token

大模型处理文本的基本单位,可以是单词、词子或字符。

同态加密

Homomorphic Encryption

允许在加密数据上直接计算的加密方式。

统一计算设备架构

Compute Unified Device Architecture

NVIDIA 的并行计算平台和编程模型,允许开发者使用 GPU 进行通用计算。

统一虚拟内存

UVM

Unified Virtual Memory,NVIDIA CUDA 的一项技术,允许主机和设备共享统一的虚拟地址空间,简化内存管理。

通用人工智能

AGI

Artificial General Intelligence,具备与人类同等或超越人类的广泛认知能力的 AI。

TransE

一种简单的知识图谱嵌入方法,将关系视为平移向量。

Transformer

一种基于注意力机制的深度学习模型。

Text-to-Speech

TTS

将文本转换为语音的技术。

推测解码

Speculative Decoding

小模型预测加速生成,大模型验证纠错。

推理

Inference

使用训练好的模型进行预测的过程。

推理引擎

Inference Engine

专门用于模型推理的软件或硬件加速器,优化推理性能。

Turing-NLG

微软的大规模语言模型。

图像到文本

Image-to-Text

根据图像生成文本描述的任务。

图形处理器

GPU

并行计算利器,常用于深度学习训练。

图形用户界面

GUI

通过图形元素如窗口、按钮和菜单与计算机交互的用户界面。

图增强检索

Graph RAG

结合知识图谱的 RAG 技术,提供更结构化的上下文信息。

W

25

8 位整数

INT8

8-bit Integer,8 位整数格式,用于量化模型以减少计算量和内存占用,常用于 AI 推理加速。

网关 API

Gateway API

Kubernetes 新一代网关规范,统一 L4/L7 入口治理。

WebAssembly

WASM

可在浏览器中运行的二进制指令格式,提供接近原生的性能。

Webhook

一种允许应用向其他应用提供实时信息的机制。

微服务

Microservices

一种架构风格,将应用程序构建为一组小型服务。

微调

Fine-tuning

在预训练模型基础上进行额外训练,使模型适应特定任务或领域。

位置编码

Positional Encoding

为序列中每个位置添加位置信息的技术,使模型理解顺序关系。

文本到图像

Text-to-Image

根据文本描述生成图像的任务。

文本到文本

Text-to-Text

输入和输出都是文本的模型任务类型。

文本分类

Text Classification

将文本分配到预定义类别的任务。

文本聚类

Text Clustering

把相似文本分组的任务。

文本生成

Text Generation

自动生成文本内容的任务。

文本用户界面

TUI

基于文字的用户界面,使用文本和控制字符来创建窗口和按钮等界面元素。

文本摘要

Text Summarization

从长文本中生成简短摘要的任务。

问答

Question Answering

根据给定上下文回答问题的任务。

稳健

Robust

能够承受或克服不利条件。

稳健性

Robustness

系统在异常、噪声或输入变化下维持功能与性能的能力。

无边车网格

Sidecar-less Mesh

不需要在每个应用旁边部署代理的服务网格架构,如 Istio Ambient 模式。

无冲突复制数据类型

CRDT

支持并发合并的复制数据结构,保证最终一致。

无服务器

Serverless

一种云计算执行模型,云提供商动态分配机器资源。

无侵入网格

Ambient Mesh

Istio 的无 Sidecar 服务网格模式,通过节点级代理实现流量管理,简化应用部署。

无限带宽

InfiniBand

高性能计算机网络通信标准,提供高带宽、低延迟的互联解决方案。

无限带宽网络

InfiniBand

高性能计算机网络通信标准,提供高带宽、低延迟的互联解决方案。

无责复盘

Blameless Postmortem

聚焦系统改进的复盘方式,不追责个人。

无状态应用

Stateless Application

不保存任何会话状态的应用程序,可以随时扩展或缩减实例数量。

X

16

x509 证书

x509 Certificate

用于服务身份认证的数字证书标准,定义公钥证书的格式和分发方式。

向后推理

Backward Chaining

从目标倒推条件的推理方式。

向量化

Vectorization

将数据转换为向量表示的过程,用于机器学习和信息检索。

向量时钟

Vector Clock

用向量时间戳表示因果关系,常用于并发冲突检测。

向量数据库

Vector Database

专门用于存储和查询向量数据的数据库。

向前推理

Forward Chaining

从事实推出结论的推理方式。

显著性图

Saliency Map

显示输入图像各部分对模型输出重要性的热力图。

小芯片

Chiplet

将大芯片分解为多个小芯片的设计方法,通过先进封装技术实现芯片间高速互联。

XPU

百度的 AI 芯片架构,专为深度学习训练和推理设计。

学习率

Learning Rate

控制模型参数更新步长的超参数,影响训练收敛速度和最终效果。

循环神经网络

RNN

Recurrent Neural Network,一种专门处理序列数据的神经网络。

虚拟服务

VirtualService

Istio 中定义流量路由规则的资源,实现请求路由、故障注入和超时重试等流量管理功能。

虚拟 GPU

vGPU

GPU 虚拟化技术,将物理 GPU 分割成多个虚拟 GPU 供多个虚拟机或容器使用。

虚拟化

Virtualization

创建虚拟版本的计算机系统资源的技术。

训练

Training

使用数据集调整模型参数的过程,使模型能够学习数据中的模式。

训练轮次

Epoch

完整遍历训练数据集一次,是模型训练的基本单位。

Y

25

延迟交互

Late Interaction

在查询和文档的所有向量嵌入之间进行交互的检索方法。

遥测

Telemetry

远程收集和传输数据的技术,用于系统监控和分析。

遗传算法

Genetic Algorithm

模仿生物进化的优化方法,通过选择、交叉、变异迭代。

依存句法分析

Dependency Parsing

分析句子中词语之间依存关系的任务。

意图检测

Intent Detection

识别用户查询意图的分类任务。

一致性哈希

Consistent Hashing

分片与缓存分配策略,减少节点变动带来的迁移量。

用户空间检查点/恢复

CRIU

Checkpoint/Restore in Userspace,Linux 下的开源进程检查点/恢复工具,能够冻结正在运行的应用程序并将其状态保存到磁盘,之后可以从检查点恢复执行。

有效吞吐

Goodput

满足 SLO 前提下的实际可用吞吐,更能反映系统真实性能的指标。

有状态集

StatefulSet

Kubernetes 中用于管理有状态应用的工作负载资源,为 Pod 提供稳定的标识和持久化存储。

有状态应用

Stateful Application

需要保持状态数据的应用程序,如数据库,每个实例都有唯一的标识和持久化存储。

远程直接内存访问

RDMA

Remote Direct Memory Access,绕过操作系统内核的直接内存访问技术,降低网络延迟。

远程直接内存访问

Remote Direct Memory Access

绕过操作系统内核的直接内存访问技术,降低网络延迟。

原始设备制造商

OEM

Original Equipment Manufacturer,原始设备制造商,为公司生产产品的公司,产品通常以购买公司的品牌销售。

元数据过滤

Metadata Filtering

在向量检索中通过元数据过滤结果的技术。

运算器

Operator

用于封装和管理 Kubernetes 应用运维知识的控制器,实现应用的自动化部署和运维。

运维负担

TOIL

重复可自动化的运维工作,SRE 需要持续削减。

云原生

Cloud Native

充分利用云计算优势的应用程序开发和部署方法。

云原生计算基金会

CNCF

Cloud Native Computing Foundation,致力于推广云原生技术的非营利组织。

预训练

Pre-training

在大规模数据集上训练模型的基础阶段,学习通用知识。

预训练模型

Pre-trained Model

已在大规模数据上训练好的模型,可用于迁移学习。

语言服务器协议

LSP

定义编辑器与语言智能功能交互的协议。

语义分割

Semantic Segmentation

将图像按像素划分为语义区域的技术。

语义分块

Semantic Chunking

根据语义边界分割文档的分块策略,保持语义完整性。

语义搜索

Semantic Search

基于语义理解而非关键词匹配的搜索方法。

语义网

Semantic Web

让网页能被机器理解的语义网络。

Z

45

暂停容器

Pause Container

Pod 中负责共享网络命名空间的容器,也称 sandbox 容器。

增长闭环

Growth Loop

产出成为下一轮输入的增长机制。

增长漏斗

AARRR

获客 - 激活 - 留存 - 变现 - 传播的增长分析框架。

站点地图

Sitemap.xml

帮助搜索引擎发现与更新页面的索引文件。

张量

Tensor

多维数组,AI 计算的基本数据结构,用于表示神经网络中的数据和参数。

张量处理单元

TPU

Tensor Processing Unit,一种由 Google 开发的专用硬件加速器,用于机器学习。

张量浮点 32

TF32

TensorFloat-32,NVIDIA 在 Ampere 架构中引入的数值格式,结合了 FP32 的动态范围和 FP16 的精度,用于加速 AI 训练。

张量核心

Tensor Core

NVIDIA GPU 中的专用计算核心,用于加速矩阵乘法运算,显著提升深度学习训练和推理性能。

张量类型

Tensor type (BF16)

模型权重的数据精度类型,如 BF16。

蒸馏

Distillation

将大模型知识迁移到小模型的技术,保持性能的同时降低部署成本。

蒸馏模型

Distilled Model

通过蒸馏训练得到的小模型,推理更快更轻量。

证书颁发机构

Certificate Authority

颁发和管理数字证书的机构,负责验证身份和签发证书。

正则化技术

Regularization

防止模型过于复杂的训练技术,提升泛化能力。

值班

On-call

故障响应值班机制,确保快速恢复与升级。

指标

Metrics

数值化的可测量数据点,用于监控和告警。

指代消解

Coreference Resolution

识别文本中指代关系的任务,如将'他'指向具体的人。

直接偏好优化

DPO

用偏好数据直接优化模型,无需奖励模型。

智能合约

Smart Contract

存储在区块链上的自动执行的合约。

智能体

AI Agent

一个能够感知环境并采取行动以实现目标的智能体。

智能体

Agent

能够感知环境并执行动作以达成目标的实体或软件组件。

智能体调用大模型

A2L

Agent-to-LLM,Agent 与语言模型的交互。

智能体调用工具

A2T

Agent-to-Tool,Agent 调用外部工具的能力。

智能体间通信

A2A

Agent-to-Agent,Agent 之间的协作与通信模式。

智能体式 AI

Agentic AI

具备自主规划、行动与工具调用能力的 AI 形态。

智能体网络

Agentic web

由智能体交互构成的网络。

智能体运行时

Agentic Runtime

支持智能体运行的执行环境。

至少一次

At-least-once

保证至少投递一次,可能重复,常配合幂等处理。

知识图谱

Knowledge Graph

用图结构表示实体及其关系的知识表示方法。

知识图谱嵌入

Knowledge Graph Embedding

将知识图谱中的实体和关系映射到向量空间的技术。

知识蒸馏

Knowledge Distillation

将大模型知识迁移到小模型的技术。

重排序

Reranking

对初次检索结果进行二次排序以提升相关性的技术。

专家系统

Expert System

基于规则的 AI 系统。

抓取预算

Crawl Budget

搜索引擎可抓取额度,影响收录与更新速度。

注意力机制

Attention Mechanism

让模型关注输入数据重要部分的机制,提升模型性能。

注意力可视化

Attention Visualization

可视化模型注意力分布以理解模型关注点的技术。

自定义资源定义

CRD

Custom Resource Definition,允许用户扩展 Kubernetes API 的机制。

自然语言处理

NLP

Natural Language Processing,人工智能的一个分支,致力于使计算机能够理解人类语言。

自由与开源软件

FOSS

强调自由使用与协作的开源软件范式。

资源配额

Resource Quota

限制命名空间资源使用量的策略,包括 CPU、内存、存储等资源的配额。

资源限制

Resource Limit

对计算资源使用设定上限的策略或机制。

自注意力

Self-Attention

Transformer 中的核心机制,计算序列内部元素之间的关系。

ztunnel

Istio Ambient 模式的隧道代理,负责 L4 流量转发和 mTLS 加密。

最大边际相关性

Maximal Marginal Relevance

一种重排序策略,平衡相关性和多样性。

最大内容绘制

LCP

衡量首屏最大内容加载时间的指标。

最终用户许可协议

EULA

End User License Agreement,软件供应商与最终用户之间的法律合同,规定软件使用条款和条件。

总结

本页术语均可用于文章写作、翻译对照与站内统一表述。