推計統計学:点推定の意味とやり方(1)

推測統計学のはじめとして、点推定・中でも『不偏推定量』の意味や式・『n-1で割る不偏分散』の証明などについて解説しています。

統計学の基礎知識まとめページ

※(この辺りは特に)その傾向が大きいのですが、本やサイトによって同じ用語が異なる意味・定義で紹介されていたりする事が多く、混乱しやすい分野です。

まずは大枠をつかみ、自分なりに上手く整理して読解していく事が一つ目のヤマになってきます。

点推定とは

この項では、推計統計のはじめに学ぶ【推定】、その中でも点推定についてざっくりと概要を説明します。

区間推定との違い

詳しくは区間推定の記事で紹介しますが、【平均や分散】を文字通りある区間(範囲)で推定するのが区間推定です。

※注意点:推定する値は一つに決まっており(推測するわれわれがわからないだけで、母集団の平均・分散は一つの値に定まっているはずです!)、変数ではありません。

“95%や99%という信頼区間”は、標本を100回や1000回繰り返し抽出した時、おおよそ95回、990回はその”知らないだけで決まっている統計量である”平均や分散を含んでいる、という意味です。

一方で点推定は、ぴったりとその値を推定します。

これについて、もう少し詳しく説明していきます。

母集団と母数

推定する元々の集団を『母集団』といい、その集団が従う確率分布を考えた時、以下の2つをまとめて『母数』と呼びます。

母平均と母分散

母集団が従う確率分布の平均を母平均、分散を母分散と(そのままです)言います。

結局、点推定とは・・・

このように、ピンポイントで母数の値を推定する(=これによって母数が求まる=母集団の分布が定まる)方法=『点推定』です。

標本平均と標本の分散

母集団全てを調べることができない(現実的でない)場合、無作為に抽出した『標本』(サンプル)をもとに推定することになります。

この時の標本(確率変数として扱います)の平均を『標本平均』、分散を『標本の分散』などと言います。

標本平均は、$$\frac{1}{n}\sum_{k=1}^{n}X_{k}$$

標本の分散は、$$\frac{1}{n}\sum_{k=1}^{n}(X_{k}-\bar{X})^{2}$$

ここで注意が必要なのは、『標本の分散』と下で紹介する『不偏分散』の式が違う点です。

不偏推定量と点推定の仕方

ここからは、上での分散の考え方の違いも含めて、点推定の手法の一つである『不偏推定量の求め方』+意味を紹介していきます。

不偏推定量とは?

”不偏”は、偏らず(不)、un-baiasedという意味です。

母集団の母数とサンプル(標本)の期待値が等しいときこの言葉を用います。

ちなみに、下で紹介する不偏分散の値は区間推定において、母集団の分散が不明な場面でも使用します。

(まだ??かもしれませんが、重要なものだという事だけでも知っておいてください。)

標本平均と不偏推定量の証明

今母集団の母数が\((μ、σ ^{2})\)であり、

標本(確率変数)の平均の期待値が母平均に等しいとき、つまり以下の式が成り立つ場合

\(\mathrm{E[\bar{X}]=}\mu\)

$$\bar{X}=\frac{1}{n}\sum_{k=1}^{n}X_{k}$$

この\(\mathrm{\bar{X}}\)を標本平均と言います。(=不偏推定量)

証明をしておきましょう。

$$E[\bar{X}]=E[\frac{1}{n}\sum_{k=1}^{n}X_{k}]=\frac{1}{n}E[X_{1}+X_{2}+\cdots+X_{n}]$$

ここで、「確率変数の期待値と分散の表し方と性質」で紹介している、E[X]の線型性より、

$$=\frac{1}{n}(E[X_{1}]+E[X_{2}]+\cdots+E[X_{n}])$$

さらに、これらの\(E[X_{k}]\)は同一の母集団からサンプリングしているため、それぞれが母平均μと等しくなります。

よって、$$E[\bar{X}]=\frac{1}{n}(\mu +\mu +\cdots +\mu)=\frac{1}{n}(n\cdot \mu)=\mu$$

これによって、確かに『標本の平均の期待値が母数(のうち母平均)と等しい』ことが示せ、これが”不偏推定量”であると言えました。

標本分散の式と不偏推定量であることの証明

標本の偏差平方和を次のようにnではなくn-1で割っている点に注意!

標本分散を以下のU ^{2}で定めます。

$$U^{2}=\frac{1}{n-1}\sum_{k=1}^{n}(X_{k}-\bar{X})^{2}$$

このU ^{2}の期待値\(\mathrm{E[U ^{2}]}\)が、母集団の分散\(\sigma^{2}\)に等しいとき、『不偏推定量である』と言えます。

同じく証明をしておきます。

(**):標本の元々の母集団が十分に大きいので、1つ1つの抽出したデータは互いに影響を受けない(=すなわち独立である)←「V[X]の線型性などの性質」が使える、ということを頭に入れておいてください。

$$E[U^{2}]=E[\frac{1}{n-1}\sum_{k=1}^{n}(X_{k}-\bar{X})^{2}]$$

$$=\frac{1}{n-1}E[\sum_{k=1}^{n}(X_{k}-\bar{X})^{2}]$$

ここで少し式を変形させます。

$$E[U^{2}]=\frac{1}{n-1}E[\sum_{k=1}^{n}\{(X_{k}-\mu)-(\bar{X}-\mu)\}^{2}]$$

(↑上の式の中身をチェックすると、確かに\(\mu\)が打ち消しあっていることがわかります。)

これを展開して、Σに関係のある項にだけシグマを分配すると、、

$$E[U^{2}]=\frac{1}{n-1}E[※]$$

(式が長くなるので、Eの中だけ↓取り出しています)

※=\(\sum_{k=1}^{n}(X_{k}^{2}-\mu)^{2}\)

\(-2(\bar{X}-\mu)\sum_{k=1}^{n}(X_{k}-\mu)\)

\(+(\bar{X}-\mu)^{2}\sum_{k=1}^{n}1\)

上の式中の2乗の部分は一旦後に残して、

$$\sum_{k=1}^{n}(X_{k}-\mu)=n\cdot\bar{X}-n\mu$$

$$\sum_{k=1}^{n} 1=n$$

だから、

\(E[U^{2}]=\)

$$=\frac{1}{n-1}E[\sum_{k=1}^{n}(X_{k}^{2}-\mu)^{2}-2n(\bar{X}-\mu)^{2}+n(\bar{X}-\mu)^{2}]$$

後ろの二項をまとめて、

$$=\frac{1}{n-1}E[\sum_{k=1}^{n}(X_{k}^{2}-\mu)^{2}-n(\bar{X}-\mu)^{2}]$$

ここで、\(E[  ]\)の線型性を用いて、

$$\frac{1}{n-1}\{\sum_{k=1}^{n}E[(X_{k}-\mu)^{2}]-nE[(\bar{X}-\mu)^{2}]\}$$

さらに(**)より、

\(E[(\bar{X}-\mu)^{2}]=V[\bar{X}]\)

\(\sum_{k=1}^{n}E[(x_{k}-\mu)^{2}]=n\sigma ^{2}\)

したがって、$$E[U^{2}]=\frac{1}{n-1}(n\sigma^{2}-n\cdot\frac{\sigma^{2}}{n})=\sigma^{2}$$

ゆえに、\(E[U^{2}]=\sigma^{2} \)となって、不偏推定量であることが確認できました。

・・・

ここまでは一般的な内容(=具体的でない)を示していたので、数式の羅列でかなり大変だったと思います。

一度で理解できなくても、徐々にで良いので自分で式を書けるように何回か読んでみてください!

不偏推定を具体的な問題で行ってみる

さあ、ここまで不偏推定量についての証明を行ってきたわけですが、ここからは大分楽になります。

具体的にどんな風に使うかを例示していきます。

なお、標本平均\(=\frac{1}{n}\sum_{k=1}^{n}X_{k}\)と不偏分散の式は一度理解したら覚えておいてしまいましょう。

定着用の例題

いま全国の高校生が受ける模試の英語の成績を無作為に10人分抽出した所、得点は次のようになった。

1:80点    6:52点

2:70点   7:48点

3:65点   8:93点

4:78点   9:38点

5:62点    10:44点

であった。

このとき、母集団の母数\((μ、σ ^{2})\)の不偏推定量を求めよ。

計算が大変なので、ここでは電卓を使用しながら解いてみましょう。

各番号を振った人の点数を\(x_{k}\)とすると、

\(\mu=\frac{1}{10}(\sum_{k=1}^{10}x_{k} )\)

$$\sigma^{2}=\frac{1}{10-1}\sum_{k=1}^{10}(x_{k}-μ) ^{2}$$

 

これを計算すると、

\(μ=63.0\)

\(σ^{2}=311.1\)・・・(答)

点推定(不偏推定)まとめ

・推計統計の初歩である『点推定、その中でも「不偏推定量」』について解説しました

・分散を(n-1)で割ったり、不偏推定量の定義がはじめは飲み込みにくかったりするかと思います。

が、徐々に慣れていくので、(そして先述した通り区間推定でも重要なので)例題などをこなしながら『流れ』をつかんでいきましょう。

記述・推計統計学の関連記事→最尤推定へ

次回は点推定のメジャーな手法のうちのもう一方『最尤推定』法について解説していきます。

統計学・データの分析のまとめページ

機械学習のための”数学”まとめ

次回:「(作成中です)最尤推定とそのやり方」

 

今回もスマナビング!を最後までご覧頂き、有難うございました

Twitterでフォローしよう