データの分析・確率・統計シリーズ
分散・標準偏差
<この記事の内容>
前回:「データの分析(1):代表値と四分位数・箱ひげ図」の続編として、『偏差平方・偏差平方和』・『分散』・『標準偏差』の意味・求め方の解説と、時間短縮のためののコツを紹介しています。
目次(タップした所へ飛びます)
偏差平方/分散/標準偏差の意味と求め方
平均と各々のデータの差を数値化したいとき、単純に「差を足し合わせると、正の差と負の差が互いに打ち消しあう為、正確に把握出来ません。
(例:データが、5,10,15の場合平均=10でそれぞれとの差はー5、0、5:足すと0になりバラツキが全くない場合と同じになってしまいます。)
偏差・偏差平方の意味と計算法
そのため、データの分析では”(データー平均値)の2乗を足しあわせた数値”をバラツキの大きさとしての目安とし、「偏差平方和」と言います。
以下の10人の身長のデータを使って実際に分散を求めてみましょう。
<※サンプル:160、 164、 162、 166、 172、175、 165、 168、 170、 168(cm)>
まずは、平均値を求めます。160+164+・・・と計算していき、10で割っても良いのですが、データの数が増えるにつれて計算量が増えてミスをしやすくなります。ここで役立つのが『仮平均』というものです。
仮平均とは:うまく利用して計算速度アップ!
仮平均とは、大体の平均値の”あたり”をつけて、それを仮の平均(文字通り『仮平均』ですね)とし、その値との誤差を計算して実際の平均値を求める、という方法です。
実際にやってみましょう。どの値を仮平均とするかはある程度の慣れが必要ですが、最小値が160(cm)、最大値が175(cm)で、若干160cm台が多いので、ここでは166(cm)を仮の平均として計算してみます。
※のサンプルと仮平均の差は、(-6)+(-2)+(-4)+0+6+9+(-1)+2+4+2=10
であることがわかったので、仮平均と実際の平均値との関係式
$$平均値=仮平均+\frac {仮平均との差の総和}{データの個数}$$
より、
$$166+\frac{10}{10}=167(cm)$$が平均であることがわかりました。
あとは、各々のデータと平均値の差をとって2乗したもの(=偏差平方と呼びます)の総和を求めれば、偏差平方の和が求まります。
平均値とデータから偏差平方と偏差平方和を求める
(偏差平方の和)=(7)2+(-3)2+(-5)2+(-1)2+(5)2+(8)2+(-2)2+(1)2+(3)2+(1)2
これを計算して、偏差平方和=49+9+25+1+25+64+4+1+9+1=188(cm2)
分散の意味・求め方
次に、『分散』を計算します。分散とは、先ほど求めた{(データの平均値)ー(データ)}の2乗をすべてのデータ分足し合わせた、『偏差平方和』をデータの個数で割ったもののことです。
つまり、式にすると
$$分散=\frac{偏差平方和}{データの個数}$$で求まります。したがってこの※のデータの分散は
$$\frac{188}{10}=18.8$$となります。
<分散小まとめ>
ここまで計算してきて、分散を求めるために
・「データと仮平均から平均値を求める」
→「平均値との差の二乗を一つ一つ求める」
→「その偏差平方和をデータの個数で割る」という手順を踏んできました。
問題によっては、分散と平均値が与えられて、各データの二乗の和を求める場合があります。
そこで、分散と平均値、各データの二乗を結ぶ式を紹介します。
分散の式(2)
分散=(データの2乗の平均)ー(平均の二乗)
この式の効果的な使い方は、問題編で解説します。
標準偏差の求め方と単位
この『分散』がデータのばらつきを表す一つの指標になります。
しかし、分散の単位を考えると(cm)を2乗したものの和なので、平方センチメートル(㎠)になっています。
身長のばらつきの指標が面積なのは不自然なので、今後のことも考えてデータと指標の単位を合わせてみましょう。
つまり単位をcm^2からcmに変える方法を考えます。・・・
2乗を外せばいいので、√をとることで単位がそろうことがわかりますね。
$$この\sqrt{分散}のことを『標準偏差』$$と言います。したがって、※のデータの標準偏差は
$$\sqrt{18.8}$$となります。
まとめと次回:「共分散・相関係数へ」
・平均、特に仮平均を利用してうまく計算を進めましょう。
・偏差平方→分散→標準偏差の流れを意味と”単位”に注目して整理しておきましょう。
次回は、身長といった1種類のデータではなく、身長と年齢といった2種類のデータの関係を分析していく方法を解説していきます。
データの分析・確率統計シリーズ一覧
第一回:「代表値と四分位数・箱ひげ図の書き方」
第二回:「今ここです」
第三回:「共分散と相関係数の求め方+α」
統計学入門(1):「統計学とは?基礎知識とイントロダクション」
今回も最後までご覧いただきありがとうございました。
当サイト:スマナビング!では、読者の皆さんのご意見や、記事のリクエストの募集を行なっております。 ご質問・ご意見がございましたら、ぜひコメント欄にお寄せください。
B!やシェア、Twitterのフォローをしていただけると大変励みになります。
・お問い合わせ/ご依頼に付きましては、お問い合わせページからご連絡下さい。