Maximum Likelihood Estimation(MLE) 极大似然估计,又被称作最大似然估计。其可在给定概率分布模型的条件下用于模型参数的估计,即所谓的参数估计
基本原理
在此之前,我们先来了解下P(x;θ),其中x就是概率中常见的随机变量,而θ则是该概率分布模型的模型参数。在不同概率分布模型中有各自不同的模型参数,比如二项分布的р,正态分布的μ、σ。一般情况下我们见到更多的是,概率分布的模型参数θ是已知的、确定的,则此时P(x;θ)就是我们常见的在确定的分布模型下随机变量x的概率;而如果反过来,随机变量x是已知的,则此时P(x;θ)表示的就是在不同的模型参数θ条件下出现给定样本x的概率。这就是对于P(x;θ)理解的一体两面。显然在参数估计过程中,对P(x;θ)取后一种理解
所谓参数估计,就是估计出概率分布中的模型参数θ。为此我们会首先进行n次抽样实验,记抽样结果为 $x_1,x_2,…,x_n$。那仅仅根据这n个抽样结果,该如何估计出此概率分布的模型参数呢?这就引入了我们的今天的主题了——MLE极大似然估计。其依据的思想也很简单,即概率越大越有可能发生(最大似然可以理解为最为相似,即最大的可能性)。即 使得当前抽样结果发生概率L(θ)最大的模型参数θ,就是我们所需的参数估计值。即
其中L(θ)被称为样本的似然函数。大多数情况下,n次抽样实验相互之间满足独立同分布(i.i.d),则有
在了解了MLE的基本原理后,让我们总结下MLE极大似然估计在参数估计过程中的基本步骤:
- 建立似然函数L(θ)
- 对L(θ)取对数,得对数似然函数lnL(θ)
- lnL(θ)对θ求导并令其为0,计算极值点
- 模型参数θ得解
上述流程相信大家都能看懂,唯一可能让人感到疑惑的地方在于第2点,为啥要取对数呢?这是由于一方面ln对数单调递增的特性使得其不会改变极值点;而更重要的原因在于取对数后方便我们后续的求导工作,这一点将会在下面的例子中体现的更加明显。事实上,取对数也是大家日常工作开发中经常会使用到的一项数据处理技巧
离散型概率分布
说了这么多,我们通过一个实际例子来展示如何具体的通过MLE来进行参数估计。这里我们以离散型概率分布中的二项分布为例
有一个不透明的袋子,里面装了黑、白两种颜色的球。记从袋子中摸到黑球、白球的概率分别为p、1-p。假设某人进行了10次随机抽样,每次都是有放回的从袋子中摸出一个球,其抽样结果为7次黑球、3次白球。试估计出概率p的值
如果我们希望利用MLE估计该模型参数p的值,则首先第一步需要建立似然函数L(p)。显然该概率分布为二项分布,则有
对其取对数
然后对p求导并令其为0,有
最后,求解上式可得 p = 0.7
连续型概率分布
在连续型概率分布中,其不存在分布律,取而代之的是概率密度函数f。则对于n个样本而言,其概率可近似地为
但由于因子 $\prod_{i=1}^{n} \mathrm{d}x_i$ 并不随θ变化,故在连续型概率分布下其似然函数为
这里,我们选用典型的正态分布作为实例,来展示如何通过MLE对正态分布的模型参数进行估计。根据上文可知,我们可直接通过概率密度函数来构建似然函数
对其取对数
然后分别对模型参数求偏导并令其为0,有
最后,求解上式,可得正态分布的模型参数在MLE下的估计值
可以看到对于正态分布而言,其均值的极大似然估计量即是样本的均值;而其方差的极大似然估计量却是 样本数据的总体方差值(即分母为n) ,而不是 样本数据的样本方差值(即分母为n-1) ,故正态分布方差的极大似然估计量是有偏的
参考文献
- 程序员的数学2·概率统计 平冈和幸、堀玄著
- 现代心理与教育统计学 张厚粲、徐建平著