データの分析・確率・統計シリーズ(2)分散・標準偏差

<この記事の内容>

前回:「データの分析(1):代表値と四分位数・箱ひげ図」の続編として、『偏差平方・偏差平方和』・『分散』・『標準偏差』の意味・求め方の解説と、時間短縮のためののコツを紹介しています。

データの散らばり具合を表す偏差平方/分散/標準偏差

平均と各々のデータの差を数値化したいとき、単純に「差を足し合わせると、正の差と負の差が互いに打ち消しあう為、正確に把握出来ません。

(例:データが、5,10,15の場合平均=10でそれぞれとの差はー5、0、5:足すと0になりバラツキが全くない場合と同じになってしまいます。)

偏差・偏差平方の意味と計算法

そのため、データの分析では”(データー平均値)の2乗を足しあわせた数値”をバラツキの大きさとしての目安とし、「偏差平方和」と言います。

以下の10人の身長のデータを使って実際に分散を求めてみましょう。

<※サンプル:160、 164、 162、 166、 172、175、 165、 168、 170、 168(cm)>

まずは、平均値を求めます。160+164+・・・と計算していき、10で割っても良いのですが、データの数が増えるにつれて計算量が増えてミスをしやすくなります。ここで役立つのが『仮平均』というものです。

仮平均とは:うまく利用して計算速度アップ!

仮平均とは、大体の平均値の”あたり”をつけて、それを仮の平均(文字通り『仮平均』ですね)とし、その値との誤差を計算して実際の平均値を求める、という方法です。

実際にやってみましょう。どの値を仮平均とするかはある程度の慣れが必要ですが、最小値が160(cm)、最大値が175(cm)で、若干160cm台が多いので、ここでは166(cm)を仮の平均として計算してみます。

※のサンプルと仮平均の差は、(-6)+(-2)+(-4)+0+6+9+(-1)+2+4+2=10

であることがわかったので、仮平均と実際の平均値との関係式

$$平均値=仮平均+\frac {仮平均との差の総和}{データの個数}$$

より、

$$166+\frac{10}{10}=167(cm)$$が平均であることがわかりました。

あとは、各々のデータと平均値の差をとって2乗したもの(=偏差平方と呼びます)の総和を求めれば、偏差平方の和が求まります。

平均値と各々のデータから偏差平方とその和を求める

(偏差平方の和)=(7)2+(-3)2+(-5)2+(-1)2+(5)2+(8)2+(-2)2+(1)2+(3)2+(1)2

これを計算して、偏差平方和=49+9+25+1+25+64+4+1+9+1=188(cm2

分散の意味・求め方

次に、『分散』を計算します。分散とは、先ほど求めた{(データの平均値)ー(データ)}の2乗をすべてのデータ分足し合わせた、『偏差平方和』をデータの個数で割ったもののことです。

つまり、式にすると

$$分散=\frac{偏差平方和}{データの個数}$$で求まります。したがってこの※のデータの分散は

$$\frac{188}{10}=18.8$$となります。

<分散小まとめ>

ここまで計算してきて、分散を求めるために「データと仮平均から平均値を求める」→「平均値との差の二乗を一つ一つ求める」→「その偏差平方和をデータの個数で割る」という手順を踏んできました。

問題によっては、分散と平均値が与えられて、各データの二乗の和を求める場合があります。

そこで、分散と平均値、各データの二乗を結ぶ式を紹介します。

分散の式(2)

分散=(データの2乗の平均)ー(平均の二乗)

この式の効果的な使い方は、問題編で解説します。

標準偏差の求め方と単位

この『分散』がデータのばらつきを表す一つの指標になります。

しかし、分散の単位を考えると(cm)を2乗したものの和なので、平方センチメートル(㎠)になっています。

身長のばらつきの指標が面積なのは不自然なので、今後のことも考えてデータと指標の単位を合わせてみましょう。

つまり単位をcm^2からcmに変える方法を考えます。・・・

2乗を外せばいいので、√をとることで単位がそろうことがわかりますね。

$$この\sqrt{分散}のことを『標準偏差』$$と言います。したがって、※のデータの標準偏差は

$$\sqrt{18.8}$$となります。

まとめと次回:「共分散・相関係数へ」

・平均、特に仮平均を利用してうまく計算を進めましょう。

・偏差平方→分散→標準偏差の流れを意味と”単位”に注目して整理しておきましょう。

次回は、身長といった1種類のデータではなく、身長と年齢といった2種類のデータの関係を分析していく方法を解説していきます。

データの分析・確率統計シリーズ一覧

第一回:「代表値と四分位数・箱ひげ図の書き方

第二回:「今ここです」

第三回:「共分散と相関係数の求め方+α

第4回:「確率・統計(作成中)」

今回も最後までご覧いただきありがとうございました。

当サイト:スマナビング!では、読者の皆さんのご意見や、記事のリクエストの募集を行なっております。 ご質問・ご意見がございましたら、ぜひコメント欄にお寄せください。

B!やシェア、Twitterのフォローをしていただけると大変励みになります。

・お問い合わせ/ご依頼に付きましては、お問い合わせページからご連絡下さい。

Twitterでフォローしよう