このページには広告が含まれています。

執筆者・編集者プロフィール
安田周平
個別指導塾YES/YESオンラインスクール塾長・船場物産株式会社代表取締役社長。
理数・情報系記事とデータサイエンスの為の基本レベルの線形代数等の解説記事を執筆しています。

データの分析・確率・統計シリーズ

分散・標準偏差

<この記事の内容>

前回:「データの分析(1):代表値と四分位数・箱ひげ図」の続編として、『偏差平方・偏差平方和』・『分散』・『標準偏差』の意味・求め方の解説と、時間短縮のためののコツを紹介しています。

偏差平方/分散/標準偏差の意味と求め方

平均と各々のデータの差を数値化したいとき、単純に「差を足し合わせると、正の差と負の差が互いに打ち消しあう為、正確に把握出来ません。

(例:データが、5,10,15の場合平均=10でそれぞれとの差はー5、0、5:足すと0になりバラツキが全くない場合と同じになってしまいます。)

偏差・偏差平方の意味と計算法

そのため、データの分析では”(データー平均値)の2乗を足しあわせた数値”をバラツキの大きさとしての目安とし、「偏差平方和」と言います。

以下の10人の身長のデータを使って実際に分散を求めてみましょう。

<※サンプル:160、 164、 162、 166、 172、175、 165、 168、 170、 168(cm)>

まずは、平均値を求めます。160+164+・・・と計算していき、10で割っても良いのですが、データの数が増えるにつれて計算量が増えてミスをしやすくなります。ここで役立つのが『仮平均』というものです。

仮平均とは:うまく利用して計算速度アップ!

仮平均とは、大体の平均値の”あたり”をつけて、それを仮の平均(文字通り『仮平均』ですね)とし、その値との誤差を計算して実際の平均値を求める、という方法です。

実際にやってみましょう。どの値を仮平均とするかはある程度の慣れが必要ですが、最小値が160(cm)、最大値が175(cm)で、若干160cm台が多いので、ここでは166(cm)を仮の平均として計算してみます。

※のサンプルと仮平均の差は、(-6)+(-2)+(-4)+0+6+9+(-1)+2+4+2=10

であることがわかったので、仮平均と実際の平均値との関係式

$$平均値=仮平均+\frac {仮平均との差の総和}{データの個数}$$

より、

$$166+\frac{10}{10}=167(cm)$$が平均であることがわかりました。

あとは、各々のデータと平均値の差をとって2乗したもの(=偏差平方と呼びます)の総和を求めれば、偏差平方の和が求まります。

平均値とデータから偏差平方と偏差平方和を求める

(偏差平方の和)=(7)2+(-3)2+(-5)2+(-1)2+(5)2+(8)2+(-2)2+(1)2+(3)2+(1)2

これを計算して、偏差平方和=49+9+25+1+25+64+4+1+9+1=188(cm2

分散の意味・求め方

次に、『分散』を計算します。分散とは、先ほど求めた{(データの平均値)ー(データ)}の2乗をすべてのデータ分足し合わせた、『偏差平方和』をデータの個数で割ったもののことです。

つまり、式にすると

$$分散=\frac{偏差平方和}{データの個数}$$で求まります。したがってこの※のデータの分散は

$$\frac{188}{10}=18.8$$となります。

<分散小まとめ>

ここまで計算してきて、分散を求めるために

・「データと仮平均から平均値を求める」

→「平均値との差の二乗を一つ一つ求める」

→「その偏差平方和をデータの個数で割る」という手順を踏んできました。

問題によっては、分散と平均値が与えられて、各データの二乗の和を求める場合があります。

そこで、分散と平均値、各データの二乗を結ぶ式を紹介します。

分散の式(2)

分散=(データの2乗の平均)ー(平均の二乗)

この式の効果的な使い方は、問題編で解説します。

標準偏差の求め方と単位

この『分散』がデータのばらつきを表す一つの指標になります。

しかし、分散の単位を考えると(cm)を2乗したものの和なので、平方センチメートル(㎠)になっています。

身長のばらつきの指標が面積なのは不自然なので、今後のことも考えてデータと指標の単位を合わせてみましょう。

つまり単位をcm^2からcmに変える方法を考えます。・・・

2乗を外せばいいので、√をとることで単位がそろうことがわかりますね。

$$この\sqrt{分散}のことを『標準偏差』$$と言います。したがって、※のデータの標準偏差は

$$\sqrt{18.8}$$となります。

まとめと次回:「共分散・相関係数へ」

・平均、特に仮平均を利用してうまく計算を進めましょう。

・偏差平方→分散→標準偏差の流れを意味と”単位”に注目して整理しておきましょう。

次回は、身長といった1種類のデータではなく、身長と年齢といった2種類のデータの関係を分析していく方法を解説していきます。

データの分析・確率統計シリーズ一覧

第一回:「代表値と四分位数・箱ひげ図の書き方

第二回:「今ここです」

第三回:「共分散と相関係数の求め方+α

統計学入門(1):「統計学とは?基礎知識とイントロダクション

今回も最後までご覧いただきありがとうございました。

当サイト:スマナビング!では、読者の皆さんのご意見や、記事のリクエストの募集を行なっております。 ご質問・ご意見がございましたら、ぜひコメント欄にお寄せください。

B!やシェア、Twitterのフォローをしていただけると大変励みになります。

・お問い合わせ/ご依頼に付きましては、お問い合わせページからご連絡下さい。

Twitterでフォローしよう