Maximum Likelihood Estimation(MLE) 极大似然估计，又被称作最大似然估计。其可在给定概率分布模型的条件下用于模型参数的估计，即所谓的参数估计

基本原理

在此之前，我们先来了解下P(x;θ)，其中x就是概率中常见的随机变量，而θ则是该概率分布模型的模型参数。在不同概率分布模型中有各自不同的模型参数，比如二项分布的р，正态分布的μ、σ。一般情况下我们见到更多的是，概率分布的模型参数θ是已知的、确定的，则此时P(x;θ)就是我们常见的在确定的分布模型下随机变量x的概率；而如果反过来，随机变量x是已知的，则此时P(x;θ)表示的就是在不同的模型参数θ条件下出现给定样本x的概率。这就是对于P(x;θ)理解的一体两面。显然在参数估计过程中，对P(x;θ)取后一种理解

所谓参数估计，就是估计出概率分布中的模型参数θ。为此我们会首先进行n次抽样实验，记抽样结果为 $x_1,x_2,…,x_n$。那仅仅根据这n个抽样结果，该如何估计出此概率分布的模型参数呢？这就引入了我们的今天的主题了——MLE极大似然估计。其依据的思想也很简单，即概率越大越有可能发生(最大似然可以理解为最为相似，即最大的可能性)。即使得当前抽样结果发生概率L(θ)最大的模型参数θ，就是我们所需的参数估计值。即

$\mathop{\arg\max}\limits_{\theta} L(\theta) = \mathop{\arg\max}\limits_{\theta} L(x_1,x_2,...,x_n;\theta) = \mathop{\arg\max}\limits_{\theta} P(x_1,x_2,...,x_n;\theta)$

其中L(θ)被称为样本的似然函数。大多数情况下，n次抽样实验相互之间满足独立同分布(i.i.d)，则有

$\mathop{\arg\max}\limits_{\theta} L(x_1,x_2,...,x_n;\theta) = \mathop{\arg\max}\limits_{\theta} \prod_{i=1}^{n} P(x_i;\theta)$

在了解了MLE的基本原理后，让我们总结下MLE极大似然估计在参数估计过程中的基本步骤：

建立似然函数L(θ)
对L(θ)取对数，得对数似然函数lnL(θ)
lnL(θ)对θ求导并令其为0，计算极值点
模型参数θ得解

上述流程相信大家都能看懂，唯一可能让人感到疑惑的地方在于第2点，为啥要取对数呢？这是由于一方面ln对数单调递增的特性使得其不会改变极值点；而更重要的原因在于取对数后方便我们后续的求导工作，这一点将会在下面的例子中体现的更加明显。事实上，取对数也是大家日常工作开发中经常会使用到的一项数据处理技巧

离散型概率分布

说了这么多，我们通过一个实际例子来展示如何具体的通过MLE来进行参数估计。这里我们以离散型概率分布中的二项分布为例

有一个不透明的袋子，里面装了黑、白两种颜色的球。记从袋子中摸到黑球、白球的概率分别为p、1-p。假设某人进行了10次随机抽样，每次都是有放回的从袋子中摸出一个球，其抽样结果为7次黑球、3次白球。试估计出概率p的值

如果我们希望利用MLE估计该模型参数p的值，则首先第一步需要建立似然函数L(p)。显然该概率分布为二项分布，则有

$L(p) = L(x_1,x_2,...,x_{10};p) = \prod_{i=1}^{10} P(x_i;p) = p^7 \cdot (1-p)^3$

对其取对数

$\ln L(p) = 7 \cdot \ln p + 3 \cdot \ln (1-p)$

然后对p求导并令其为0，有

$( \ln L(p) )' = \frac{7}{p} - \frac{3}{1-p} = 0$

最后，求解上式可得 p = 0.7

连续型概率分布

在连续型概率分布中，其不存在分布律，取而代之的是概率密度函数f。则对于n个样本而言，其概率可近似地为

$\prod_{i=1}^{n} f(x_i;\theta) \mathrm{d}x_i$

但由于因子 $\prod_{i=1}^{n} \mathrm{d}x_i$ 并不随θ变化，故在连续型概率分布下其似然函数为

$L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^{n} f(x_i;\theta)$

这里，我们选用典型的正态分布作为实例，来展示如何通过MLE对正态分布的模型参数进行估计。根据上文可知，我们可直接通过概率密度函数来构建似然函数

$\begin{split} L(\mu,\sigma^2) &= \prod_{i=1}^{n} f(x_i;\mu,\sigma^2) \\ &= \prod_{i=1}^{n} \frac{1}{ \sqrt{2\pi} \cdot \sigma } \cdot e^{ -\frac{(x_i-\mu)^2}{2\sigma^2} } \\ &= (\frac{1}{ \sqrt{2\pi} \cdot \sigma })^n \cdot e^{ - \sum_{i=1}^{n} \frac{(x_i-\mu)^2}{2\sigma^2} } \\ &= (2\pi \cdot \sigma^2)^{-\frac{n}{2}} \cdot e^{ - \sum_{i=1}^{n} \frac{(x_i-\mu)^2}{2\sigma^2} } \\ \end{split}$

对其取对数

$\begin{split} \ln L(\mu,\sigma^2) &= -\frac{n}{2} \cdot \ln(2\pi \cdot \sigma^2) - \sum_{i=1}^{n} \frac{(x_i-\mu)^2}{2\sigma^2} \\ &= -\frac{n}{2} [ \ln(2\pi) + \ln(\sigma^2)] - \frac{1}{2\sigma^2}\sum_{i=1}^{n} (x_i-\mu)^2 \\ \end{split}$

然后分别对模型参数求偏导并令其为0，有

$\begin{cases} \frac{ \partial \ln L }{\partial \mu} = \frac{1}{\sigma^2} \cdot \sum_{i=1}^{n}(x_i-\mu) = 0 \\ \frac{ \partial \ln L }{\partial \sigma^2} = -\frac{n}{2 \sigma^2} + \frac{1}{2 \sigma^4}\sum_{i=1}^{n}(x_i-\mu)^2 = 0 \\ \end{cases}$

最后，求解上式，可得正态分布的模型参数在MLE下的估计值

$\begin{cases} \mu = \frac{1}{n} \sum_{i=1}^{n} x_i \\ \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i-\mu)^2 \\ \end{cases}$

可以看到对于正态分布而言，其均值的极大似然估计量即是样本的均值；而其方差的极大似然估计量却是 样本数据的总体方差值(即分母为n) ，而不是 样本数据的样本方差值(即分母为n-1) ，故正态分布方差的极大似然估计量是有偏的

参考文献

程序员的数学2·概率统计平冈和幸、堀玄著
现代心理与教育统计学张厚粲、徐建平著