社会人向け統計学シリーズ第一回

 

こんにちは。このサイト(理系科目総合解説サイトLinky) 主宰のShu Yasuda(@linkyjuku_tweet)です。

 

このシリーズを始めるにあたって。

 

昨今AIの発展やコンピューターの発達によるビッグデータの活用など、

益々ビジネスに数学や統計学などいわゆる「理系」の知識が必要になっています。

諸外国でも、MBA保持者よりもデータサイエンティストが求められる等、この傾向は不可逆かつ国際的な流れになって行く

事は疑いのない事実です。その中でも特にデータを扱い、分析する「統計学」の重要性は飛び抜けていると言えるでしょう。

 

少し前まで、コンピューターやインターネットのスキルがあるかどうかで情報格差ができていた様に、(=デジタルディバイド)

これからは、データを使いこなす事ができるか、それともデータに使われるかと言う大きな格差が出来るでしょう。

(AIで仕事が無くなると言う意見が有ります。しかしながらこれまでの幾度ものイノベーションが起こる度,

人間の仕事が無くなると言われてきましたが実際にはなくなった仕事の代わりに新しい仕事が出来、

結果としていまも殆どの人が職に就いています。従って、今回も仕事がなくなることはないでしょう。但し、所得やステータスの格差がこれまでよりも相当広がるだろうと考察します)

 

とは言え、文系学部出身であったり、理系出身でもブランクが空いていたりすると、統計学と言うものは、中々勉強しづらい分野である事は確かです。

そこで、中学数学程度のレベル(場合によっては小学校の算数)まで遡りつつ、はじめのはじめから丁寧に「統計学」と

それに必要な「数学」を解説するシリーズを始める事にしました。

 

さて、前置きはこれくらいにして第一回「データの扱い方とヒストグラムの書き方(上)」を始めたいと思います。

データの扱い方とヒストグラムの書き方(上)

データを分析する上で、最初に取り掛からなければいけない事は、’’データをどういう風に分けるか’’と言う事です。

今回は初回なので、仕組みや用語を理解しやすくする為にデータの個数を100個にして解説します。

実際には、もっと大量のデータを扱い分析する訳ですが手順は同じです。

 

度数分布表を作ろう

 

n(データの個数を今後nとします)=100個の時を例にして解説していきます。

100人の学生に100点満点のテストを行って、各々の成績が100個でてきます。

今後様々な分析をして行くにあたって、ヒストグラムを活用する事になります。<図1>がヒストグラムの例です。

 

ヒストグラムの例

 

<図1>

 

 

そのヒストグラムを作る前に、度数分布表を作らないといけません。

度数分布表とはデータの値をある程度の数字の幅(ここでは得点を何点刻みにするか=これを階級の幅と言います)に分けて、

その数字の中に何個のデータ(=人数)が入っているか(=度数、そして全体から見る

それぞれの階級の幅に属する度数の割合(=相対度数)として表にしたものです。

 

今日の最重要ポイント!!階級はどのくらいの幅で分ければ良いのか?

今回は100点満点のテストを何点刻みで分ければ良いかと言う問題です。

正解は何点刻みでしょうか?少し考えて見てください。

・・・

・・・

・・・

・・・10点刻みくらいかな?と考える人が多いです。

しかし残念ながらこの問題に正解はないのです。

目安になる数字を求める公式はいくつか有りますが、あくまで参考程度です。

統計では今後もこのように正解がないor「何々とみなす」と言うような曖昧な事がたくさん出てきます

その点で、数学や物理学といった正解が一つに定まる他の学問と違うといえます。

ですが、初めて統計学を学ぶ人に正解がないから目安で考えろと言うのは酷な話です。

そこで、階級を求めるときに使う公式の一つを紹介します。

それは、スタージェスの公式

と言われているもので、具体的には1+log10n/log102= で出た数字で階級分けすると言うものです。

logを忘れてしまった人の為に・・・

いきなりlogが出てきた。。。と思う方のために簡単にlog(=対数)についてまとめておきます。

例えば16を何回かけたものでしょうか?・・4回ですね。これを指数(の右肩についているです)を用いて、2=16とします。

この『何回かけたか』が綺麗な整数になれば良いですがならないことの方が多いのです。そこで、対数の登場です。

=16   を対数で表すと、  log216=4    と表します。指数であるを主役にする為に、このような表記になっています。

要するにを何回かけたら16になるか?と言う事を言っているにすぎません。

logのすぐ後にくる右下の数字を底(てい)、次の数字を真数(しんすう)と呼びます。

今回のスタージェスの公式では底の2の部分が10になっています。

この様な底が10の対数のことを常用対数という特別な名前が付いています。

皆さんはこの数字を手計算する必要はありません。大抵のスマートフォンでは横に傾けると関数電卓になるので、

log10 というボタンが出て来るはずです。

スタージェスの公式のn(=データの個数)を入力して、そのボタンを押すと一発でlog10n が計算できます。

また、log102も同様に求められます。

 

〜〜スタージェスの公式再び〜

さてこれで簡単な対数計算はできるはずです。

この公式は、階級の幅の目安を示してくれるものでした。実際に使って見ましょう。

n=100で0点の生徒から100点の生徒まで居るとすると、公式より、1+log10100/log102 =7.64・・・となりましたか?

大凡7〜8個くらいの階級に分ければ良さそうです。そこで、100点÷7.64≒13 より、

13点刻みで、度数分布表を書いていく事にしましょう。

 

次回「データの扱い方とヒストグラムの書き方(下)」では実際に100個のデータを用意して、度数分布表を作成し、ヒストグラムの書き方まで解説します。

次回更新まで、しばしお待ち下さい。。m(._.)m

 

お役に立ちましたら、下のSNSボタンより、はてブ!、シェア等々お願い致します。

また、記事リクエストやご感想は、コメント欄にお願いします。

 

 

 

Twitterでフォローしよう