変量変換(変数変換)とデータの標準化を解説
<この記事の内容>:記述統計・データの分析〜確率分布・推計統計など様々な場面で現れる『変量変換』と『データの標準化』の意味や公式、その証明などをなるべく省略せずに解説しました。
目次(タップした所へ飛びます)
変数変換とは?
データを扱う上で、変数(変量)を変換する必要がある場合があります。
具体的には、摂氏で集められたデータを華氏に変える(セルシウス度℃と華氏温度℉の間には、y=ax+b (一次関数)の関係があります)場合などです。
(※この内容は少し複雑なので、後から理解して頂いても結構です:これから紹介する「データの変換」と「確率変数の変換」は同じ結果になるのですが、(平均値と期待値E[X]など)別のものです。
ただし、式変形などの部分は共通しているので、まずは今回の内容(データの変換)を頭に入れておきましょう。)
平均値の変換公式とその証明
今、あるデータxとyがy=ax+b という関係式で結ばれているとします。
この時、xの平均値をyで表すにはどのようにすればよいでしょうか?
平均値の変換公式
\(\overline{y}=a\overline{x}+b\)・・・(1)
新たに変換する変量の平均値は、元の平均値をa倍し、bだけ足したものとなります。
平均値:公式の証明
では(1)の証明を行なっていきます。できれば目で追うだけでなく、証明を写しながらひとつひとつ確認していくと、理解も効率的に行え記憶も早く定着します。
まず、yの平均である\(\overline{y}\)は、Σを用いて次のように表せます。
$$\overline{y}=\frac{1}{n}\sum_{k=1}^{n}y_{k}=\frac{1}{n}\sum_{k=1}^{n}(ax_{k}+b)$$
Σの計算があいまいな人は、「数列の和とシグマΣ公式の復習」をご覧ください。
$$=\frac{1}{n}(a\sum_{k=1}^{n}x_{k}+\sum_{k=1}^{n}b)$$
Σbのbは定数なので、nbとなり、
$$=a(\frac{1}{n}\sum_{k=1}^{n}x_{k})+\frac{nb}{n}$$
(前半はΣとaを入れ替えて、aを前に出し、後半はnbと1/nとの積の形に変形しました。)
ここで、\(\frac{1}{n}\sum_{k=1}^{n}x_{k}\)はxの平均値の定義なので\(=\overline{x}\)とでき、
結果、\(\overline{y}=a\cdot\overline{x}+b\)・・・(1)が導けました。
分散の変換とその証明
平均値に引き続いて分散も変量変換してみましょう。
分散の変換公式
\(Sy^{2}=a^{2}Sx^{2}\)
yの分散は、xの分散の2乗に\(a^{2}\)をかけたものとなります。(ここでは”b”が登場しません。理由は以下)
分散:公式の証明
yの分散である\(Sy^{2}\)は、Σを用いて次のように表せます。
$$Sy^{2}=\frac{1}{n}\sum_{k=1}^{n}(y_{k}-\overline{y})^{2}=\frac{1}{n}\sum_{k=1}^{n}(ax_{k}+b-(a\overline{x}+b))^{2}$$
\(\overline{y}=a\overline{x}+b より\)
(カッコの中を計算すると”b”がうまく消えてくれるので)
$$\frac{1}{n}\sum_{k=1}^{n}(ax_{k}-a\overline{x})^{2}=\frac{1}{n}\sum_{k=1}^{n}(a(x_{k}-\overline{x}))^{2}$$
aでくくって、\(a(x_{k}-\overline{x})\)の二乗を計算すると、
$$\frac{1}{n}\sum_{k=1}^{n}a^{2}(x_{k}-\overline{x})^{2}=\frac{a^{2}}{n}\sum_{k=1}^{n}(x_{k}-\overline{x})^{2}$$
ここで、分散Vの定義が\(Sx^{2}=\frac{1}{n}\sum_{k=1}^{n}(x_{k}-\overline{x})^{2}\)より、
$$Sy^{2}=a^{2}Sx^{2}$$
標準偏差の変換とその証明
最後は標準偏差です。ここまでくれば簡単に導くことができるはずです。
標準偏差の変換公式
\(Sy=|a|Sx\)
yの標準偏差はxの標準偏差に絶対値付きの"a"をかけることで求まります。
標準偏差:公式の証明
これは、標準偏差と分散の定義から、両辺のルートをとることで示すことができます。
(ただし、標準偏差はSx、Sy共に0以上であることと、aについては絶対値をとっていることだけには注意しておきましょう。)
データの標準化とは?
『データの標準化』によって平均値・標準偏差が異なる場合でもデータを比較しやすくすることができるほか、「(作成中)確率分布の標準化」でも重要な役割を演じます。
データの標準化の公式
まず、先ほどから使っているy=ax+bの変数変換において、
\(y=\left(\frac{x-\overline{x}}{Sx}\right)\)を求めることを『標準化』と言います。
標準化の性質
また、こうして標準化したデータyは\(\overline{y}=0,Sy=1\)
すなわち、平均値が0、標準偏差が1になるという性質があります。
証明
ではこの性質の証明を一応しておきましょう。
$$y=\frac{x}{Sx}-\frac{\overline{x}}{Sx}=\underbrace{\frac{1}{Sx}}_{y=ax+b のa}x-\underbrace{(\frac{\overline{x}}{Sx})}_{y=ax+b のb}$$
一次方程式の係数aが\(\left(\frac{1}{Sx}\right)\)と定数項bが\(\left(-\frac{\overline{x}}{Sx}\right)\)にそれぞれが対応しているのがわかるでしょうか。
平均値の変数(変量)変換の式に代入すると以下のようになって、
$$\overline{y}=a\overline{x}+b=\frac{\overline{x}}{Sx}-\frac{\overline{x}}{Sx}$$
結局=0となりました。
先ほどの”標準偏差の変量変換の式”をここで用いて、
\(Sy=|a|Sx=\left(\frac{1}{Sx}Sx\right)=1\)
となり、標準偏差が1となることも確認できました。
変量/変数変換・標準化のまとめ
・変量変換の3つの式は、一度自分で導出してから覚えることをおすすめします。
・【標準化】の考え方は上述したとおり、正規分布・標準正規分布のところで重要になります。
データの分析・統計学の記事へ
記述統計・データの分析:「第一回:代表値と箱ひげ図」
統計学とは?:「統計入門第一回:統計学の全体像と学習の手順」
推計統計キソ:「第二回:確率分布と確率変数」
最後までご覧いただきまして、有難うございました。
【受験・学習メディア】:「スマナビング!」では,読者の皆さんのご感想を募集しています。
ぜひコメント欄にお寄せください。
(※:個々の問題・証明の質問等には対応出来ない場合があります。)
・その他の「お問い合わせ/ご依頼/タイアップ」等に付きましては、【運営元ページ】よりご連絡下さい。