代币选择的统计：Logits、温度和 Top-P 演练

在本文中，您将了解 logits、温度和 top-p 采样如何协同工作来控制大型语言模型中的下一个标记预测。

我们将讨论的主题包括：

Logits 是什么以及它们是如何由变压器的最终线性层产生的。
温度和 top-p（核采样）如何塑造用于标记选择的概率分布。
这三个组件如何融入控制 LLM 输出生成的顺序管道中。

介绍

当大型语言模型（简称 LLM）产生输出时，有几个标准受到威胁，不仅包括整体响应的相关性，还包括连贯性和创造力。由于模型的深处是通过逐字构建响应（或更准确地说，逐个标记）来操作的，捕获这些理想的属性就是在数学上调整控制下一个标记预测过程的输出概率分布的问题。

本文从统计角度介绍了 LLM 解码策略背后的机制。特别是，我们将探讨原始模型如何评分，称为 逻辑数，与另外两个模型设置交互 – 温度和顶p ——这是用于控制代币选择过程的三个关键参数。

虽然我们将专注于探索 LLM 底层架构（又名变压器）的最后阶段会发生什么，但您可以检查本文如果您需要简要概述代币从开始到结束的整个过程和旅程。

LLM 中的代币选择流程

什么是逻辑？

在神经网络中，在将其转换为可能结果（例如类别）的概率之前产生的原始非标准化分数（通常在最终线性层）被称为逻辑。虽然 Logit 自 Softmax 回归等经典机器学习分类模型时代以来就已被使用，但相同的原理仍然适用于 Transformer 模型的最终线性层。最后一层处理隐藏状态（其中包含有关在整个转换器中收集的输入文本的逐渐积累的语言知识）并输出一个 logits 向量。多少？与模型的词汇量大小一样多，即模型可以生成的可能标记的数量。

例如，请参见顶部的图表。如果接受过英语到西班牙语翻译训练的法学硕士正在预测生成序列“me gusta mucho”（“我真的很喜欢”的翻译）之后的下一个单词，那么它可能会输出“viajar”（旅行）的原始 Logit 分数为 12.5，“jugar”（玩耍）的原始 Logit 分数为 8.2，“dormir”（睡眠）的原始 Logit 分数为 -3.1。这些原始值是无界的，因此很难直接解释；因此，在最终线性层之上应用 softmax 函数，将这些 logits 转换为词汇标记上标准的、可解释的概率分布，使得所有值之和为 1。

什么是温度和 Top-p？

一旦我们有了目标词汇的概率分布，法学硕士是否会简单地选择概率最高的标记作为下一个生成的标记？不完全一样，但真实的过程与该场景非常相似。下一个标记是从分布中采样的，采样的工作方式取决于多个解码参数，其中两个最重要的是温度和 top-p。

温度是在 softmax 步骤之前应用于 logits 的缩放因子。高温（例如高于 1）会使所得概率变平，使它们更加均匀。结果，不确定性和不可预测性增加，模型表现得更具创造性。低温（例如远低于 1）会加剧高概率令牌和低概率令牌之间的差异，增加确定性并强烈支持原始分布中最可能的令牌。有关温度的更多信息可以在此处找到相关文章。
顶p，也称为 细胞核取样，是控制下一个令牌选择随机性的另一种方法。它不是缩放概率，而是限制样本的候选池。虽然像 top-k 这样的类似策略只考虑 k 个最高概率的标记，但 top-p 识别累积概率满足或超过阈值 p 的最小标记集，使其更具适应性和灵活性。换句话说，如果我们设置 p=0.9，top-p 按概率对 token 进行排序，并不断将它们添加到候选池中，直到它们的累积概率达到 0.9。

完整演练：这些概念如何相互关联？

Logit 到概率计算、温度和 top-p 可以组合成一个连续的多步骤管道，用于生成 LLM 输出，即下一个令牌预测。

首先，模型为所有可能的标记生成原始 logits，如上所述。然后通过缩放这些原始 logits 来考虑温度 – 请注意，这种情况发生了前 softmax 函数将它们转换为概率。根据温度值，所得的分布看起来会更均匀（温度高，不确定性更高）或更尖锐（温度低，确定性更高）。

基于 logits、温度和 top-p 的代币选择演练

一旦缩放后的 logits 转换为概率，就会应用 top-p 来过滤结果分布，计算累积概率以仅保留最可能标记的核心“核池”（请参见上图中的步骤 3）。最后，模型从该池中随机采样以选择下一个令牌。

结束语

现在我们已经揭开了法学硕士令牌选择背后的统计过程的神秘面纱，考虑如何在实践中选择温度和 top-p 的值是有用的。作为开发人员，您需要为您的用例定义可预测性和创造力之间的适当平衡。对于编码或法律分析等事实性、高风险的场景，建议采用低温和更严格的 top-p — 例如 t=0.1 和 p=0.5 ——这会产生高度确定性的模型响应。对于诗歌生成或头脑风暴等创意领域，较高的温度和 top-p（例如 t=0.8 和 p=0.95）允许选择池中的候选标记更加丰富。

代币选择的统计：Logits、温度和 Top-P 演练

介绍

什么是逻辑？

什么是温度和 Top-p？

完整演练：这些概念如何相互关联？

结束语

代币选择的统计：Logits、温度和 Top-P 演练

以太坊基金会详细介绍了打击网络钓鱼的明确签名标准

Binance BNB 2026 年顶级 Memecoin：为什么交易者选择 MemeToro $MT 而不是 BROCCOLI、FLOKI 和 BOB

Vitalik 规模较小的以太坊基金会测试 ETH 持有者的执行需求