全站术语表 | Jimmy Song

用 AI 反馈替代人工标注的对齐训练方式。

减少搜索无用路径的剪枝方法。

多方在不泄露各自输入的情况下联合计算函数的协议。

宽松许可，包含专利授权与声明要求。

管理和路由 API 请求的服务器。

Half Precision Floating Point，16 位半精度浮点数格式，提供约 3-4 位十进制精度，可减少内存占用和加速计算，广泛用于 AI 推理和部分训练场景。

驱动长期增长的核心指标，用于统一团队目标。

领域概念与关系的标准化字典。

将辅助功能与主应用部署在一起的设计模式，常用于服务网格。

捕获数据库变更并推送下游，用于同步与实时管道。

神经网络中负责将输入转换为内部表示的部分。

自动化配置、协调和管理计算机系统和软件。

在靠近数据源的网络边缘进行计算的模式，降低延迟。

一种经典的排序函数，用于评估文档与查询的相关性。

通过网络发布的系列音频节目，常以订阅方式获取。

跳跃某些层的连接方式，帮助梯度在深层网络中更好地传播。

华为昇腾的异构计算架构，提供神经网络计算引擎和算子库。

只微调模型少量参数的方法，大幅降低训练成本和存储需求。

以少量可训练参数适配任务，降低训练成本。

分布式系统中一致性、可用性与分区容错无法同时满足的权衡。

通过添加噪声保护个体隐私的统计方法。

依靠产品自助体验驱动增长的策略。

产品满足目标市场需求的程度与信号。

分配的资源总量超过物理可用资源的情况，通常在内存或 CPU 分配中使用。

预先分配超过实际需求的资源量以满足突发需求或确保高可用性。

分析查询意图和语义的步骤，提升检索准确性。

自动将通过测试的代码变更部署到生产环境的实践。

保持代码随时可以部署到生产状态的开发实践。

频繁地将代码变更集成到主分支的开发实践。

一种通过在应用开发阶段引入自动化来频繁向客户交付应用的方法。

规则系统里可用规则的集合。

先加载后在目标系统内转换的数据管道流程。

先抽取再转换后加载的数据管道流程。

要求衍生作品同样开源的许可模式。

自动调整 Pod 资源请求的机制，优化资源利用率。

自动调整 Pod 资源请求与限制，优化资源利用。

在主容器启动前运行的辅助容器，用于初始化配置或依赖。

训练开始前的参数值，影响训练速度与结果。

为文本中每个词标注词性的任务。

Contrastive Language-Image Pre-training，连接文本和图像的模型。

一种基于令牌级别的向量检索方法，保留细粒度匹配信息。

NVIDIA 的并行计算平台和编程模型，允许开发者使用 GPU 进行通用计算。

检测容器是否存活的健康检查，不通过时重启容器。

SLO 允许的失败额度，用于发布与风险权衡。

错误预算消耗速度，用于告警与发布判断。

文本到图像生成系统。

参数规模巨大的深度学习模型，通常指具有数十亿到数万亿参数的语言模型。

Single Precision Floating Point，32 位单精度浮点数格式，提供约 6-9 位十进制精度，是深度学习训练的标准数值格式。

一种能够理解和生成人类语言的深度学习算法。

一组结合了软件开发（Dev）和 IT 运营（Ops）的实践。

训练时随机丢弃部分神经元的正则化技术，防止过拟合。

将权重矩阵分解为两个小矩阵乘积的压缩技术。

Low-Rank Adaptation，一种高效的大模型微调技术。

优化训练时的加速度，避免模型震荡。

节点或边随时间变化的图结构，用于表示动态关系。

面向工作负载的动态资源分配机制，用于按需分配计算资源。

一种设计模式，用于检测故障并防止故障扩散。

Multi-Process Service，一种用于在多个进程之间共享 GPU 资源的技术。

涉及多个集群的部署架构。

处理多种数据类型（文本、图像、音频等）的模型或系统。

Multi-Instance GPU，一种将单个 GPU 分割成多个实例的技术。

并行执行多个注意力操作的机制，捕捉不同的特征表示。

涉及多个服务网格的架构。

为文档的不同部分（如标题、正文）分别生成向量并检索。

标注多语言/地区版本，避免搜索结果错配。

Extended Berkeley Packet Filter，一种允许在 Linux 内核中运行沙箱程序的技术。

只能输出两种结果的分类模型。

一个分布式、可靠的键值存储，用于存储分布式系统的最关键数据。

读写达到多数派即成功，用于一致性与容错。

一种用于训练神经网络的算法。

Non-Uniform Memory Access，一种计算机体系结构，其中内存访问速度取决于内存位置。

跟踪请求在微服务间传播路径的技术，用于性能分析和故障排查。

将文本切分为 token 的过程，影响上下文与成本。

把文本切分成 token 的工具。

按批次分析留存与行为变化，定位问题。

一种强调编程环境和心理状态的编程方式。

PagedAttention，一种通过分页机制来提高注意力机制效率的技术。

高效注意力实现算法，优化显存与速度。

维护一组 Pod 副本运行的 Kubernetes 控制器，确保指定数量的 Pod 副本始终运行。

Service Level Objective，定义服务性能的具体目标。

Service Level Agreement，服务提供商与客户之间的正式协议。

服务提供商与客户之间的正式协议，定义服务质量和责任。

自动检测和定位网络中可用的服务实例的机制。

标识微服务身份的机制，用于服务间的认证和授权。

量化服务性能的指标定义，用于衡量可用性。

用于处理服务间通信的基础设施层。

Quality of Service，一种用于描述系统性能和可靠性的指标。

在多个计算资源之间分配工作负载。

用于分配网络流量的设备或软件。

最早的神经网络模型，像单层 if-else 判别器。

用于 GPU 的高速内存，提供比传统 GDDR 更高的带宽。

High Bandwidth Memory，用于 GPU 的高速内存，提供比传统 GDDR 更高的带宽。

High Bandwidth Memory 2e，第二代高带宽内存的增强版本，提供比 HBM2 更高的带宽和容量，常用于高性能 GPU。

面向大语言模型的高效权重文件格式。

一种使用 Git 仓库作为基础设施即代码的单一事实来源的操作模型。

Agent 执行外部操作的能力，扩展 AI 的功能边界。

明确贡献代码版权授权与使用范围的协议。

强 copyleft 许可，要求衍生作品开源。

基于 Transformer 的预训练语言模型，可通过提示生成内容。

NVIDIA 的技术，允许 GPU 直接访问网络或存储设备数据，绕过 CPU 和主机内存。

结合 GPUDirect 和 RDMA 技术，实现 GPU 间直接高速数据传输。

开源可视化监控平台，支持多种数据源和丰富的面板类型。

从文本中找出核心词的任务。

按固定大小分割文档的分块策略，简单但可能破坏语义。

指定主链接以避免重复内容与权重分散。

一种开发方法，其中规范驱动主要的开发流程。

把输入数据缩放到统一范围以加快收敛。

逐步替换旧版本 Pod 的更新策略，实现零停机部署。

模型在训练集上表现好但泛化能力差的现象，通常由模型过于复杂或训练数据不足引起。

Istio Ambient 模式下的代理组件，处理 L7 流量管理和策略执行。

LLM 调用外部函数的机制，实现与外部系统的集成。

无需管理服务器即可运行代码的云计算服务模式。

Kubernetes 的包管理器。

用于定义、安装和升级 Kubernetes 应用的一组模板与配置包。

衡量网页体验的关键指标集合。

Hierarchical Navigable Small World，一种高效的向量索引算法。

一种文档分块策略，保持相邻块之间的重叠。

模型生成看似合理但实际上错误或荒谬的信息。

融合数据湖与数仓的架构，兼顾开放存储与管理。

AI 模型的共享平台，提供预训练模型与工具。

获客成本回收所需时间，衡量增长效率。

逐步将新版本发布给部分用户，以验证新版本的稳定性和性能。

预测连续数值的模型方法。

限制 AI 模型输出范围的约束机制，确保输出符合预期和安全要求。

通过主动注入故障提升系统韧性的工程方法，帮助发现系统弱点。

结合关键词搜索和语义搜索的检索策略。

Mixture of Experts，一种通过结合多个专家网络来提高模型容量和效率的架构。

通过激活部分专家网络来处理输入的模型架构，提高模型效率。

获取一个用户的平均成本，用于评估渠道效率。

Hyper GPU Exchange，NVIDIA 推出的 GPU 模块化平台，为服务器厂商提供标准化的 GPU 集成方案，支持大规模 AI 计算集群部署。

大型标注图像库，常用于训练视觉模型。

模型训练或用途的标签分类。

保存模型训练状态的快照，用于训练中断后的恢复或模型部署。

定期检查应用或服务是否正常运行的方法。

通过检索外部知识并与生成模型结合，提升回答准确性与可追溯性的方法。

结合信息检索和生成模型的技术，提升生成内容的准确性和可靠性。

移除模型中不重要参数或神经元的技术。

Key-Value Cache，一种用于存储和检索键值对的数据结构。

衡量交互响应速度的指标。

使用代码来管理和配置基础设施的方法。

提供虚拟化计算资源的云计算服务。

用结构化标记增强搜索富结果展示。

神经网络中负责将内部表示转换为输出的部分。

Process ID，操作系统中用于唯一标识进程的数值。

Inter-Process Communication，一组允许不同进程之间交换数据和同步信息的机制。

逐步将流量导向新版本的部署策略，降低风险并快速发现问题。

自动将文本从一种语言翻译成另一种语言的任务。

一种数据分析方法，能让计算机自动从经验中学习。

Machine Learning Unit，寒武纪（Cambricon）推出的 AI 加速器产品系列，专为深度学习推理和训练任务优化，支持主流深度学习框架。

技术扩散模型，从创新者到保守者的采用路径。

Computer Vision，使计算机能够从数字图像或视频中获得高层理解的领域。

检测容器是否准备好服务请求的健康检查，不通过时从 Service 中移除。

Role-Based Access Control，基于角色的权限管理系统，通过角色定义用户权限。

Reinforcement Learning from Human Feedback，利用人类反馈来微调模型的方法。

Convolutional Neural Network，常用于分析视觉图像的深度神经网络。

无监督学习方法，将相似数据自动分组。

JSON Web Token，一种用于安全传输信息的紧凑标准。

Kubernetes 的通用缩写，源自 K 和 s 之间有 8 个字母。

机器学习竞赛平台，用于练习和分享模型。

通用策略引擎，用 Rego 表达访问与合规策略。

Open Container Initiative，制定容器格式和运行时标准的开放治理结构。

声明提交代码合法来源的签署机制。

维护开源定义与许可标准的组织。

通过系统外部输出理解系统内部状态的能力，包括日志、指标和链路追踪。

Control Group，一种用于限制、记录和隔离进程组资源的机制。

将知识表示为结构化对象的方式。

允许闭源再发布的开源许可类型。

Kubernetes 的命令行工具，用于与集群通信。

节点代理，负责 Pod 生命周期与容器运行。

Stock Keeping Unit，库存单位，用于跟踪库存的唯一标识符，在产品定价和管理中广泛使用。

通过逐步去噪生成数据的生成模型。

逻辑时钟，用于分布式事件排序与因果一致。

通过两套环境实现零停机部署的策略，快速切换流量。

衡量页面视觉稳定性的指标。

在分布式设备上训练模型而不共享原始数据的隐私保护技术。

降低模型精度（如 FP32 转 INT8）以减少计算量和内存占用的技术。

分布式事务协议，分为预提交与提交阶段。

面向分析查询的处理方式，常用于报表与数仓。

面向事务的系统形态，强调低延迟与强一致。

将多个操作或函数调用串联起来的编程模式。

动态合并请求以提高 GPU 利用率的批处理技术，也称为迭代级批处理。

用户带来新用户的比例，用于评估传播效率。

Local Interpretable Model-agnostic Explanations，局部可解释模型解释方法。

一方收益等于另一方损失的博弈场景。

不默认信任任何用户或设备的网络安全模型，所有访问都需要验证。

不需要任何样本就能完成新任务的能力。

Streaming Multiprocessor，一种 GPU 的计算核心。

封装模型流程的高层接口。

通过随机传播同步状态，常用于成员发现与配置扩散。

轻量化的大语言模型推理框架，可在 CPU 或消费级 GPU 上运行。

强化学习中的数学框架，描述智能体与环境交互。

Trillion Floating Point Operations Per Second，一种衡量计算能力的指标。

Trillion Operations Per Second，衡量 AI 加速器性能的指标，表示每秒可执行的整数运算次数。

重复请求结果一致的性质，用于重试与消费去重。

基于文本的用户界面，用户通过输入命令与计算机交互。

Kubernetes 中用于隔离资源的虚拟集群，实现多租户和资源配额管理。

从文本中识别和分类命名实体的任务。

Apple 的机器学习框架，针对 macOS 与 Apple Silicon 优化。

约 40 亿参数的模型规模。

移除神经网络中不重要连接或神经元的技术，减小模型大小和计算量。

用于在模型与外部工具或数据源之间传递上下文的协议标准，定义交互与数据格式。

减小模型大小和计算开销的技术集合。

Istio 中定义流量去向后服务的配置，实现负载均衡、连接池和熔断等策略。

摩尔线程的统一系统架构，支持其 GPU 的通用计算。

博弈论中所有玩家都不愿单独改变策略的状态。

分布在不同地理位置的服务器网络。

多智能体系统模拟平台，用于复杂系统仿真。

寒武纪的 AI 软件栈，包括开发工具、运行时和驱动。

NVIDIA 基于 Ampere 架构的数据中心级 GPU，提供高性能计算能力和大容量显存，广泛用于 AI 训练和推理任务。

NVIDIA 的 GPU 架构，用于 A100、A30、A40、A6000 等数据中心 GPU，提供显著的性能提升和能效改进。

NVIDIA Management Library，用于监控和管理 NVIDIA GPU 的系统库。

NVLink，一种用于连接 GPU 的高速串行通信接口。

一种开放标准的授权协议。

BM25 算法的原始实现，广泛用于信息检索系统。

一种训练一次即可适应多种部署场景的神经网络架构搜索方法。

Out of Memory，一种内存不足的错误。

可观测性数据收集的开放标准，统一 traces、metrics 和 logs 的采集。

Orca，一种用于大规模分布式训练的优化器。

有分区时权衡一致性/可用性，无分区时权衡一致性/延迟。

用于控制搜索引擎抓取范围的规则文件。

经典共识算法，在不可靠网络中达成一致。

PCI Express，一种高速串行计算机扩展总线标准。

管理系统配置的过程，包括创建、更新和维护配置文件。

用于存储非敏感配置数据的 Kubernetes 资源，将配置与容器镜像分离。

一次训练迭代使用的样本数量，影响训练速度和模型效果。

衡量系统稳定性的指标。

衡量故障修复速度的指标。

提供应用程序开发和部署环境的云计算服务。

控制 Pod 同时中断数量的机制，保证应用在维护期间的最小可用性。

限制可中断 Pod 数量，保障服务可用性。

开源监控告警系统，采用拉取模型采集时序数据。

Prompt Operations.

主流深度学习框架，提供灵活易用的模型开发接口。

消息或计算只处理一次的语义，常用于流处理保证。

Reinforcement Learning，通过试错来训练代理以最大化奖励的机器学习方法。

通过试错来训练代理以最大化奖励的机器学习方法。

模型未能充分学习训练数据特征的现象，通常由模型过于简单或训练时间不足引起。

将离散数据（如词语）映射到连续向量空间的表示方法。

用于生成文本嵌入的模型。

识别文本情感倾向的任务，如正面、负面、中性。

模型中可调参数，决定模型预测结果。

在模型不同部分共享相同参数的技术，减少参数量。

在损失函数中添加权重范数的正则化技术，防止过拟合。

一种去中心化的分布式账本技术。

易理解的共识算法，用于日志复制与状态机一致性。

Reasoning + Acting，结合推理和行动的智能体框架。

一种文档分块方法，按段落、句子、词的层级递归分割。

一种让智能体从失败中学习的自我反思机制。

确认用户或系统身份的过程，通常基于凭证与验证机制。

Thermal Design Power，处理器在正常工作时的最大热量输出值，用于指导散热系统的设计。

AMD 的开放 GPU 计算平台，提供类似 CUDA 的开发体验，支持 AMD GPU。

系统在部分组件发生故障时仍能继续运行的能力。

一种软件包，包含运行软件所需的所有内容。

自动化管理容器部署、扩展和连接的技术。

Container Storage Interface，用于将存储系统暴露给容器化工作负载的标准接口。

将应用程序及其依赖打包到容器中的技术。

Container Network Interface，配置容器网络接口的规范和库。

Container Runtime Interface，Kubernetes 定义的容器运行时插件接口。

一种将关系建模为复数旋转的知识图谱嵌入方法。

一种内容订阅与聚合格式，用于同步网站更新。

通过互联网提供软件应用的云计算服务模式。

描述软件组件与依赖的清单，用于安全与合规。

Kubernetes 中管理外部访问的 API 对象，提供 HTTP 和 HTTPS 路由规则。

安全高效的模型权重文件格式。

长事务拆分为本地事务链，失败以补偿回滚。

知识表示方式，主语 - 谓语 - 宾语结构。

面向大语言模型优化的推理框架，支持程序化提示。

模型生成响应时所依赖的信息背景。

模型能处理的最大 token 数量，决定了模型的上下文理解能力。

优化上下文窗口使用以提高模型性能。

只用少量样本就能学会新任务的能力。

SHapley Additive exPlanations，一种模型解释方法。

Kubernetes 中用于硬件设备资源扩展的插件机制，支持 GPU、FPGA 等专用硬件。

Deep Computing Unit，海光（Hygon）推出的协处理器产品，专为科学计算、AI 推理和训练等高性能计算场景设计，兼容 CUDA 生态。

结合神经网络和强化学习的模型训练方法。

层数很多的神经网络，像多层微服务串联。

一种基于人工神经网络的机器学习方法。

Deep Learning GPU Exchange Systems，NVIDIA 推出的集成高性能 AI 计算平台，通过 NVLink 互联多个 GPU，为深度学习提供强大算力。

Generative Adversarial Network，由两个神经网络（生成器和判别器）相互博弈的深度学习架构。

用户长期贡献的价值，用于评估回收空间。

受到生物神经网络启发的计算模型。

Neural Processing Unit，专门为加速神经网络计算设计的处理器，优化了矩阵运算和并行计算能力，常用于 AI 推理和训练任务。

自动搜索最优神经网络架构的技术。

神经网络中的最小计算单元，类似代码里的函数调用。

操作系统分配给进程或任务的时间段，用于轮流使用计算资源（如 CPU、GPU）。

通过时间片轮转实现 GPU 共享的技术，不同进程在不同时间片使用 GPU。

将 Transformer 架构应用于计算机视觉任务的模型。

从文本中识别命名实体的任务，如人名、地名等。

节点和边随时间变化的图结构。

在后台运行并执行系统级任务的进程，通常在系统启动时自动启动。

确保在每个节点上运行一个 Pod 副本的 Kubernetes 资源，常用于系统级守护进程。

确定用户是否有权执行特定操作的过程。

Time To First Token，衡量推理响应速度的指标，表示从收到请求到生成第一个 token 的时间。

Double Precision Floating Point，64 位双精度浮点数格式，提供约 15-17 位十进制精度，常用于科学计算和高精度数值模拟。

服务间双向认证的加密通信，确保服务身份验证和数据传输安全。

通信双方互相验证身份的安全机制，增强安全性。

Time Per Output Token，生成阶段每个 token 的时间间隔，衡量生成速度的指标。

根据负载自动调整 Pod 数量的机制，实现应用的弹性伸缩。

基于指标自动扩缩 Pod 副本数，适配负载波动。

将辅助功能与主应用容器部署在同一 Pod 中的设计模式。

Chain of Thought，通过生成一系列中间推理步骤来提高大模型复杂推理能力的提示技术。

通过生成一系列中间推理步骤来提高大模型复杂推理能力的提示技术。

将思维链扩展为树形结构的推理方法，探索多种可能的推理路径。

State-of-the-Art 的缩写，指在特定任务或领域中性能最优的模型或方法。

搜索引擎结果页面，优化目标是提升曝光与点击。

软件许可与物料标识标准，便于合规管理。

服务身份标准，为工作负载分配可验证身份。

为动态环境提供身份的标准，SPIRE 是 SPIFFE 的实现。

SPIFFE 运行时，实现身份颁发与轮转。

用于在计算机网络上提供通信安全的加密协议。

一种基于扩散模型的文本到图像生成模型。

限制网络请求频率的技术。

Server GX Module，NVIDIA 开发的 GPU 形态因子，用于高性能服务器和计算平台，提供比 PCIe 更高的带宽和功耗支持。

根据负载自动调整资源的能力，包括水平和垂直伸缩。

Google 开发的深度学习框架，适合大规模训练。

NVIDIA 提供的推理优化引擎，用于加速模型部署。

描述数据的关键属性，用于训练模型。

自动挑选关键特征的模块。

评估每个特征对模型预测贡献度的指标。

Term Frequency-Inverse Document Frequency，衡量词语在文档中重要性的指标。

调整学习率、批次大小等超参数以提升训练效果。

优化算法中指导参数更新的方向，表示函数变化最快的方向。

限制梯度过大，避免训练爆炸。

一种用于优化神经网络的一阶迭代优化算法。

输入给 AI 模型的指令或文本。

设计和优化输入提示词以获得最佳输出的技术。

冻结模型权重，仅优化提示向量以适配任务。

搜索质量评估框架，用于判断内容可信度。

大模型处理文本的基本单位，可以是单词、词子或字符。

允许在加密数据上直接计算的加密方式。

NVIDIA 的并行计算平台和编程模型，允许开发者使用 GPU 进行通用计算。

Unified Virtual Memory，NVIDIA CUDA 的一项技术，允许主机和设备共享统一的虚拟地址空间，简化内存管理。

Artificial General Intelligence，具备与人类同等或超越人类的广泛认知能力的 AI。

一种简单的知识图谱嵌入方法，将关系视为平移向量。

一种基于注意力机制的深度学习模型。

将文本转换为语音的技术。

小模型预测加速生成，大模型验证纠错。

使用训练好的模型进行预测的过程。

专门用于模型推理的软件或硬件加速器，优化推理性能。

微软的大规模语言模型。

根据图像生成文本描述的任务。

并行计算利器，常用于深度学习训练。

通过图形元素如窗口、按钮和菜单与计算机交互的用户界面。

结合知识图谱的 RAG 技术，提供更结构化的上下文信息。

8-bit Integer，8 位整数格式，用于量化模型以减少计算量和内存占用，常用于 AI 推理加速。

Kubernetes 新一代网关规范，统一 L4/L7 入口治理。

可在浏览器中运行的二进制指令格式，提供接近原生的性能。

一种允许应用向其他应用提供实时信息的机制。

一种架构风格，将应用程序构建为一组小型服务。

在预训练模型基础上进行额外训练，使模型适应特定任务或领域。

为序列中每个位置添加位置信息的技术，使模型理解顺序关系。

根据文本描述生成图像的任务。

输入和输出都是文本的模型任务类型。

将文本分配到预定义类别的任务。

把相似文本分组的任务。

自动生成文本内容的任务。

基于文字的用户界面，使用文本和控制字符来创建窗口和按钮等界面元素。

从长文本中生成简短摘要的任务。

根据给定上下文回答问题的任务。

能够承受或克服不利条件。

系统在异常、噪声或输入变化下维持功能与性能的能力。

不需要在每个应用旁边部署代理的服务网格架构，如 Istio Ambient 模式。

支持并发合并的复制数据结构，保证最终一致。

一种云计算执行模型，云提供商动态分配机器资源。

Istio 的无 Sidecar 服务网格模式，通过节点级代理实现流量管理，简化应用部署。

高性能计算机网络通信标准，提供高带宽、低延迟的互联解决方案。

聚焦系统改进的复盘方式，不追责个人。

不保存任何会话状态的应用程序，可以随时扩展或缩减实例数量。

用于服务身份认证的数字证书标准，定义公钥证书的格式和分发方式。

从目标倒推条件的推理方式。

将数据转换为向量表示的过程，用于机器学习和信息检索。

用向量时间戳表示因果关系，常用于并发冲突检测。

专门用于存储和查询向量数据的数据库。

从事实推出结论的推理方式。

显示输入图像各部分对模型输出重要性的热力图。

将大芯片分解为多个小芯片的设计方法，通过先进封装技术实现芯片间高速互联。

百度的 AI 芯片架构，专为深度学习训练和推理设计。

控制模型参数更新步长的超参数，影响训练收敛速度和最终效果。

Recurrent Neural Network，一种专门处理序列数据的神经网络。

Istio 中定义流量路由规则的资源，实现请求路由、故障注入和超时重试等流量管理功能。

GPU 虚拟化技术，将物理 GPU 分割成多个虚拟 GPU 供多个虚拟机或容器使用。

创建虚拟版本的计算机系统资源的技术。

使用数据集调整模型参数的过程，使模型能够学习数据中的模式。

完整遍历训练数据集一次，是模型训练的基本单位。

在查询和文档的所有向量嵌入之间进行交互的检索方法。

远程收集和传输数据的技术，用于系统监控和分析。

模仿生物进化的优化方法，通过选择、交叉、变异迭代。

分析句子中词语之间依存关系的任务。

识别用户查询意图的分类任务。

分片与缓存分配策略，减少节点变动带来的迁移量。

Checkpoint/Restore in Userspace，Linux 下的开源进程检查点/恢复工具，能够冻结正在运行的应用程序并将其状态保存到磁盘，之后可以从检查点恢复执行。

满足 SLO 前提下的实际可用吞吐，更能反映系统真实性能的指标。

Kubernetes 中用于管理有状态应用的工作负载资源，为 Pod 提供稳定的标识和持久化存储。

需要保持状态数据的应用程序，如数据库，每个实例都有唯一的标识和持久化存储。

Remote Direct Memory Access，绕过操作系统内核的直接内存访问技术，降低网络延迟。

绕过操作系统内核的直接内存访问技术，降低网络延迟。

Original Equipment Manufacturer，原始设备制造商，为公司生产产品的公司，产品通常以购买公司的品牌销售。

在向量检索中通过元数据过滤结果的技术。

用于封装和管理 Kubernetes 应用运维知识的控制器，实现应用的自动化部署和运维。

重复可自动化的运维工作，SRE 需要持续削减。

充分利用云计算优势的应用程序开发和部署方法。

Cloud Native Computing Foundation，致力于推广云原生技术的非营利组织。

在大规模数据集上训练模型的基础阶段，学习通用知识。

已在大规模数据上训练好的模型，可用于迁移学习。

定义编辑器与语言智能功能交互的协议。

将图像按像素划分为语义区域的技术。

根据语义边界分割文档的分块策略，保持语义完整性。

基于语义理解而非关键词匹配的搜索方法。

让网页能被机器理解的语义网络。

Pod 中负责共享网络命名空间的容器，也称 sandbox 容器。

产出成为下一轮输入的增长机制。

获客 - 激活 - 留存 - 变现 - 传播的增长分析框架。

帮助搜索引擎发现与更新页面的索引文件。

多维数组，AI 计算的基本数据结构，用于表示神经网络中的数据和参数。

Tensor Processing Unit，一种由 Google 开发的专用硬件加速器，用于机器学习。

TensorFloat-32，NVIDIA 在 Ampere 架构中引入的数值格式，结合了 FP32 的动态范围和 FP16 的精度，用于加速 AI 训练。

NVIDIA GPU 中的专用计算核心，用于加速矩阵乘法运算，显著提升深度学习训练和推理性能。

模型权重的数据精度类型，如 BF16。

将大模型知识迁移到小模型的技术，保持性能的同时降低部署成本。

通过蒸馏训练得到的小模型，推理更快更轻量。

颁发和管理数字证书的机构，负责验证身份和签发证书。

防止模型过于复杂的训练技术，提升泛化能力。

故障响应值班机制，确保快速恢复与升级。

数值化的可测量数据点，用于监控和告警。

识别文本中指代关系的任务，如将'他'指向具体的人。

用偏好数据直接优化模型，无需奖励模型。

存储在区块链上的自动执行的合约。

一个能够感知环境并采取行动以实现目标的智能体。

能够感知环境并执行动作以达成目标的实体或软件组件。

Agent-to-LLM，Agent 与语言模型的交互。

Agent-to-Tool，Agent 调用外部工具的能力。

Agent-to-Agent，Agent 之间的协作与通信模式。

具备自主规划、行动与工具调用能力的 AI 形态。

由智能体交互构成的网络。

支持智能体运行的执行环境。

保证至少投递一次，可能重复，常配合幂等处理。

用图结构表示实体及其关系的知识表示方法。

将知识图谱中的实体和关系映射到向量空间的技术。

将大模型知识迁移到小模型的技术。

对初次检索结果进行二次排序以提升相关性的技术。

基于规则的 AI 系统。

搜索引擎可抓取额度，影响收录与更新速度。

让模型关注输入数据重要部分的机制，提升模型性能。

可视化模型注意力分布以理解模型关注点的技术。

Custom Resource Definition，允许用户扩展 Kubernetes API 的机制。

Natural Language Processing，人工智能的一个分支，致力于使计算机能够理解人类语言。

强调自由使用与协作的开源软件范式。

限制命名空间资源使用量的策略，包括 CPU、内存、存储等资源的配额。

对计算资源使用设定上限的策略或机制。

Transformer 中的核心机制，计算序列内部元素之间的关系。

Istio Ambient 模式的隧道代理，负责 L4 流量转发和 mTLS 加密。

一种重排序策略，平衡相关性和多样性。

衡量首屏最大内容加载时间的指标。

End User License Agreement，软件供应商与最终用户之间的法律合同，规定软件使用条款和条件。

AI 反馈强化学习

alpha-beta 剪枝

安全多方计算

Apache-2.0 许可

API 网关

半精度浮点

北极星指标

本体

边车模式

变更数据捕获

编码器

编排

边缘计算

BM25

播客

残差连接

CANN

参数高效微调

参数高效微调

CAP 定理

差分隐私

产品驱动增长

产品市场匹配

超卖

超配

查询理解

持续部署

持续交付

持续集成

持续集成/持续部署

冲突集

抽取 - 加载 - 转换

抽取 - 转换 - 加载

传染式许可

垂直 Pod 自动扩缩容

垂直 Pod 自动扩缩容

初始化容器

初始权重

词性标注

CLIP

ColBERT

CUDA

存活探针

错误预算

错误预算燃烧率

DALL-E

大模型

单精度浮点

大语言模型

DevOps

丢弃法

低秩分解

低秩自适应

动量

动态图

Dynamic Resource Allocation

断路器

多进程服务

多集群

多模态

多实例 GPU

多头注意力

多网格

多向量检索

多语言标注

eBPF

二分类模型

etcd

法定多数

反向传播

非一致性存储访问

分布式追踪

分词

分词器

分群分析

氛围编程

分页注意力

FlashAttention

副本集

服务等级目标