0%

Maximum Likelihood Estimation (MLE) 极大似然估计

Maximum Likelihood Estimation (MLE) 极大似然估计,又被称作最大似然估计。其可在给定概率分布模型的条件下用于模型参数的估计,即所谓的参数估计

基本原理

在此之前,我们先来了解下 P (x;θ),其中 x 就是概率中常见的随机变量,而 θ 则是该概率分布模型的模型参数。在不同概率分布模型中有各自不同的模型参数,比如二项分布的р,正态分布的 μ、σ。一般情况下我们见到更多的是,概率分布的模型参数 θ 是已知的、确定的,则此时 P (x;θ) 就是我们常见的在确定的分布模型下随机变量 x 的概率;而如果反过来,随机变量 x 是已知的,则此时 P (x;θ) 表示的就是在不同的模型参数 θ 条件下出现给定样本 x 的概率。这就是对于 P (x;θ) 理解的一体两面。显然在参数估计过程中,对 P (x;θ) 取后一种理解

所谓参数估计,就是估计出概率分布中的模型参数 θ。为此我们会首先进行 n 次抽样实验,记抽样结果为 x1,x2,,xn。那仅仅根据这 n 个抽样结果,该如何估计出此概率分布的模型参数呢?这就引入了我们的今天的主题了 ——MLE 极大似然估计。其依据的思想也很简单,即概率越大越有可能发生 (最大似然可以理解为最为相似,即最大的可能性)。即 使得当前抽样结果发生概率 L (θ) 最大的模型参数 θ,就是我们所需的参数估计值。即

argmaxθL(θ)=argmaxθL(x1,x2,...,xn;θ)=argmaxθP(x1,x2,...,xn;θ)

其中 L (θ) 被称为样本的似然函数。大多数情况下,n 次抽样实验相互之间满足独立同分布 (i.i.d),则有

argmaxθL(x1,x2,...,xn;θ)=argmaxθi=1nP(xi;θ)

在了解了 MLE 的基本原理后,让我们总结下 MLE 极大似然估计在参数估计过程中的基本步骤:

  1. 建立似然函数 L (θ)
  2. 对 L (θ) 取对数,得对数似然函数 lnL (θ)
  3. lnL (θ) 对 θ 求导并令其为 0,计算极值点
  4. 模型参数 θ 得解

上述流程相信大家都能看懂,唯一可能让人感到疑惑的地方在于第 2 点,为啥要取对数呢?这是由于一方面 ln 对数单调递增的特性使得其不会改变极值点;而更重要的原因在于取对数后方便我们后续的求导工作,这一点将会在下面的例子中体现的更加明显。事实上,取对数也是大家日常工作开发中经常会使用到的一项数据处理技巧

离散型概率分布

说了这么多,我们通过一个实际例子来展示如何具体的通过 MLE 来进行参数估计。这里我们以离散型概率分布中的二项分布为例

有一个不透明的袋子,里面装了黑、白两种颜色的球。记从袋子中摸到黑球、白球的概率分别为 p、1-p。假设某人进行了 10 次随机抽样,每次都是有放回的从袋子中摸出一个球,其抽样结果为 7 次黑球、3 次白球。试估计出概率 p 的值

如果我们希望利用 MLE 估计该模型参数 p 的值,则首先第一步需要建立似然函数 L (p)。显然该概率分布为二项分布,则有

L(p)=L(x1,x2,...,x10;p)=i=110P(xi;p)=p7(1p)3

对其取对数

lnL(p)=7lnp+3ln(1p)

然后对 p 求导并令其为 0,有

(lnL(p))=7p31p=0

最后,求解上式可得 p = 0.7

连续型概率分布

在连续型概率分布中,其不存在分布律,取而代之的是概率密度函数 f。则对于 n 个样本而言,其概率可近似地为

i=1nf(xi;θ)dxi

但由于因子 i=1ndxi 并不随 θ 变化,故在连续型概率分布下其似然函数为

L(θ)=L(x1,x2,...,xn;θ)=i=1nf(xi;θ)

这里,我们选用典型的正态分布作为实例,来展示如何通过 MLE 对正态分布的模型参数进行估计。根据上文可知,我们可直接通过概率密度函数来构建似然函数

L(μ,σ2)=i=1nf(xi;μ,σ2)=i=1n12πσe(xiμ)22σ2=(12πσ)nei=1n(xiμ)22σ2=(2πσ2)n2ei=1n(xiμ)22σ2

对其取对数

lnL(μ,σ2)=n2ln(2πσ2)i=1n(xiμ)22σ2=n2[ln(2π)+ln(σ2)]12σ2i=1n(xiμ)2

然后分别对模型参数求偏导并令其为 0,有

{lnLμ=1σ2i=1n(xiμ)=0lnLσ2=n2σ2+12σ4i=1n(xiμ)2=0

最后,求解上式,可得正态分布的模型参数在 MLE 下的估计值

{μ=1ni=1nxiσ2=1ni=1n(xiμ)2

可以看到对于正态分布而言,其均值的极大似然估计量即是样本的均值;而其方差的极大似然估计量却是 样本数据的总体方差值 (即分母为 n) ,而不是 样本数据的样本方差值 (即分母为 n-1) ,故正态分布方差的极大似然估计量是有偏的

参考文献

  1. 程序员的数学 2・概率统计 平冈和幸、堀玄著
  2. 现代心理与教育统计学 张厚粲、徐建平著
请我喝杯咖啡捏~
  • 本文作者: Aaron Zhu
  • 本文链接: https://xyzghio.xyz/MLE/
  • 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-ND 许可协议。转载请注明出处!

欢迎关注我的微信公众号:青灯抽丝

Powered By Valine
v1.5.2