了解 LLM 规模

Maud Nalpas
Maud Nalpas

虽然大语言模型 (LLM) 中的“L”表示巨大规模,但现实情况更为细致。有些 LLM 包含数万亿个参数,而有些 LLM 只需使用少得多得多的参数即可高效运行。

我们来看几个真实示例,以及不同模型大小的实际影响。

LLM 大小和大小类

作为 Web 开发者,我们往往会将资源的大小视为其下载大小。模型的记录大小是指其参数数量。例如,Gemma 2B 表示具有 20 亿个参数的 Gemma。

LLM 可能有数十万、数百万、数十亿甚至数万亿个参数。

大型 LLM 比小型 LLM 具有更多参数,因此能够捕获更复杂的语言关系并处理细微的提示。它们通常还会基于更大的数据集进行训练。

您可能已经注意到,某些模型大小(例如 20 亿或 70 亿)很常见。例如 Gemma 2B、Gemma 7BMistral 7B。模型大小类别是近似分组。例如,Gemma 2B 有 大约 20 亿个参数,但不是确切的。

模型大小类提供了一种实用的 LLM 性能评估方法。不妨将其视为拳击比赛中的重量级别:同一个尺寸级别的手机更具可比性。两种 2B 模型的性能应该相似。

不过,对于特定任务,较小的模型可以达到与较大模型相同的效果