点估计及区间估计

2020-07-22

一、前言

统计学可分为主要的两个分支,叙述统计及推论统计。在我们对感兴趣的母群体进行抽样后,所得到的样本资料凌乱不堪,无法提供任何讯息。此时,我们可以将原始资料整理成图表或叙述统计量(平均值、变异数等),让我们对资料的轮廓有一定的基本认识,例如资料分布的中心点、变异性、对称性及偏歪性等,这就是叙述统计学。推论统计学则是由样本资料的特徵,反推母群体的特徵。推论统计学又可分为估计和检定,其中,我们从母群体抽出样本后,计算样本统计量来推论母体参数的过程就称为估计。估计又可细分为点估计及区间估计,将于本篇进行介绍。

二、点估计

举例来说,我们藉由样本平均值 \(\overline{X}=\frac{1}{n}\sum^n_{i=1}X_i\) 来估计母群体参数 \(\mu\),样本统计量为一单一的值,所以该估计方式是以「点」猜测「点」,因此又称为点估计(见图一)。可用于估计相同母群体参数的点估计式可能不只一个,例如母群体参数 \(\mu\) 除了用平均值估计外,也可以用中位数来估计。我们可以藉由评估估值的无偏性、有效性及一致性,来判断估值的好坏,进而找到最佳的估值(参考《无偏性与有效性》一文)。

点估计及区间估计

图一、点估计的流程。(本文作者赖薇云绘)

三、区间估计

区间估计是对欲估计母体参数值提供可能发生的範围(区间),并提供该区间会包含母体参数的机率值(信赖程度),因此,母体参数值的区间估计又常称为母体参数值的信赖区间 (confidence interval)。以下以建立一个母体参数 \(\mu\) 的 \(100(1-\alpha)\%\) 信赖区间为例,介绍如何建立信赖区间。

若样本来自常态分布,且此常态分布的变方已知为 \(\sigma^2\),欲估计未知的母体平均值 \(\mu\),因此由此母体抽取大小为 \(n\) 的样本,计算样本均值为样本平均值的抽样分布 \(\overline{X}\sim N(\mu,\frac{\sigma^2}{n})\),若是族群非常态分布,在 \(n\) 够大的情况下,可利用中央极限定理将样本视为近似常态分布。

再将 \(\overline{X}\) 进行标準化得  \(Z=\displaystyle\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\),

\(P\left(-Z_{\alpha/2}\le Z\le Z_{\alpha/2}\right)=1-\alpha,~~~0\le \alpha \le 1\)(如图二)

点估计及区间估计

图二、信赖区间示意图。(本文作者赖薇云绘)

我们要求的是 \(\mu\) 的 \(100 (1-\alpha)\%\) 信赖区间,因此进行移项:

\(\displaystyle P\left(-Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \le \overline{X}-\mu \le Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \right)=1-\alpha\)

\(\displaystyle P\left(-\overline{X}-Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \le -\mu \le -\overline{X}+Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \right)=1-\alpha\)

\(\displaystyle P\left(\overline{X}+Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \ge \mu \ge \overline{X}-Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \right)=1-\alpha\)

\(\displaystyle P\left(\overline{X}-Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \le \mu \le \overline{X}+Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}) \right)=1-\alpha\)

意即,区间 \(\left[\overline{X}-Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}}),\overline{X}+Z_{\frac{\alpha}{2}}(\frac{\sigma}{\sqrt{n}})\right]\) 涵盖 \(\mu\) 的机率为 \(1-\alpha\),此为 \(\mu\) 的 \(100 (1-\alpha)\%\) 信赖区间,亦可表示成 \(\overline{X}\pm Z_{\frac{\alpha}{2}}\times\frac{\sigma}{\sqrt{n}}\),而 \(1-\alpha\) 称为信赖係数。

我们有 \(100 (1-\alpha)\%\)  的信心说明该区间涵盖 \(\mu\),若是今天从母群体抽样 \(n\) 的个体,并建立信赖区间,重複进行 \(100\) 次之后,至少有 \(100 (1-\alpha)\) 个信赖区间涵盖母体参数(如图三)。

点估计及区间估计

图三、信赖区间涵盖率示意图。(本文作者赖薇云绘)

一般而言,我们都希望区间涵盖母体参数的机率越高越好,当 \(\alpha\) 值越小时,该区间包含母体参数的机率越高,但信赖区间的宽度也会增加(如表一),因此实务上经常使用 \(\alpha=0.05\) 求得之 \(95\%\) 信赖区间。而在 \(\alpha\) 值固定为 \(0.05\) 的情况下,我们可以藉由增加样本数的大小,来降低信赖区间的宽度(如表二)。

点估计及区间估计

表一、标準常态分布在样本数为 \(20\) 时不同 \(\alpha\) 值下的信赖区间

点估计及区间估计

表二、标準常态分布在 \(\alpha = 0.05\) 时不同样本数下的信赖区间

信赖区间相较于点估计值可以提供更多的资讯给决策者做决定,假设今天有一肥料即将上市,进行肥料处理后和未进行肥料处理的产量差异为 10 kg,但计算 \(95\%\) 信赖区间后,产量差异的信赖区间为 1~19 kg,或是 9~11 kg,虽然两者的点估计值是相同的,但变异程度却相差很多。有了区间估计,决策者可以藉由变异程度来决定要不要使用这个肥料。


参考文献

上一篇:
下一篇: