NORMAL PROBABILITY DISTRIBUTION

Normal Distribution または Bell Shape Distribution は図表にした時に釣鐘のような形になる Distribution です。

normal-distribution

このような Bell Shape Distribution のような形になるような統計は例えば、

  • 身長・体重
  • テストのスコア
  • 大卒の初任給

などなどです。

ほとんどのデータが平均値に近い所にあるけれども、少し誤差があるようなデータの対象は Bell Shape Distribution になります。その頻度の100分率の確率で表したものが Normal Probability Distribution です。

NORMAL PROBABILITY DISTRIBUTION の特徴

Normal Probability Distribution には以下のような特徴があります。

1いろいろな形の Bell Shape がある。

一口に Bell Shape といっても、山の形が高く細かったり、平べったい形であったりします。 Mean が山の中心の場所を決め、Standard Deviation が小さければ細く尖った山、大きければ、平べったい山のような形になります。

2山の最も高い位置が Mean となる。

Normal Distribution では山の最も高い位置が Mean であり Median であり Mode となります。

3 Mean の位置は様々

測るデータによって Mean はマイナス・0・プラスの値、どのような値にでもなります。

4 Mean を中心に左右対称である。

Skewness が 0 であり、左右の広がりは Mean から遠いほど限りなく 0%に近くはなるけれども永遠に 0%に接することはない漸近線です。

5全体の面積は 1(100%)である。

全体の合計面積は 100%です。左右が対象であるためちょうど真ん中で半分にすると左右とも 50%になります。

6 Empirical Rule が使える。

Ch3 で紹介した Empirical Rule が使えます。 +/- 1 σ の中に 68.3%の値が含まれる。
+/- 2 σ の中に 95.4%の値が含まれる。
+/- 3 σ の中に 99.7%の値が含まれる。

7 ちょうど〇〇という確率は求められない。

Continuous Random Variable は無段階に繋がったデータなので、ちょうど ◯◯ である確率は?というのは求められません。
例えば身長が 170cm である確率は?という問は応えることができません。なぜなら一見 170cm と思っても 170.0000001cm とか 169.999999997cm である可能性が無限につながっているからです。
図表上で 170cm を線で表すことはできても、線は面積を持たないからです。
なので 169cm から 171cm の間の確率は?というような問にしか答えられません。

EXCEL をつかった NORMAL PROBABILITY DISTRIBUTION

Normal Probability Distribution につかえる Excel の関数はいくつかあります。

X value により確率を求める関数。=NORM.DIST

Excel Function: Normal Distribution =NORM.DIST(x,Mean, Standard-dev,Cumulative)

Excel の関数では=NORM.DIST を使い下記の項目を指定します。

  • x は特定のxの値。
  • Mean
  • Standard-dev には Standard Deviation
  • Cumulative の項目では少し注意が必要です。 0 とすると指定したところのx value での山(カーブ)の高さを表しますが、確率を表すものではありません。なぜなら、Continuous Random Variable で線に面積はないからです。

0 とするのは主にグラフを描くときに使います。 1 とすると指定したところの x value 以下の面積(確率)を求められます。

例:

  • 平均給料 Mean:20 万円 (¥200,000)
  • Standard Deviation:7,000 円(¥70,000)
  • Normal Standard Deviation で分布しているとします。

給料が 19 万円から 21 万円の間の確率はどのくらいでしょうか? まず、大きい方の値の確率を出してみます。

=NORM.DIST(210000,200000,7000,1)=約 92.34%

21 万円以下の確率は約 92.34%であることがわかります。 次に小さい方の値の確率を出してみます。

=NORM.DIST(190000,200000,7000,1)=約 7.66%

19 万円以下のの確率は約 7.66%であることがわかります。

求めたいのは 19 万円~ 21 万円の間なので

大きい方の確率から小さい方の確率を引きます

92.34%-7.66%=約 84.7%

答えは約 84.7%です。 Excel で一つの式にすると以下のようになります。 =NORM.DIST(210000,200000,7000,1)-NORM.DIST(190000,200000,7000,1)=約 84.7% 図であらわすと以下のようになります。

normal-distribution

Z スコアを指定して確率を求める関数=NORM.S.DIST

Excel Function: Normal Standard Distribution =NORM.S.DIST(z,Cumulative)

Excel の関数では=NORM.S.DIST を使い Z-Score を指定します。 Z-Score はいくつ Standard Deviation 分 Mean から離れているかを表したものです。 Normal Standard Distribution は Normal Distribution を標準化したものです

Mean が 0 Standard Deviation が 1 という数字で標準化したものです。

実際の数値に関わらず例えば 100 分率で表示するような方法と似ていて、相対的に比べるのに適しています。

例えば、Z-Score が 1.5 以下の確率はどのくらいでしょうか?1.5

Standard Deviation 以下の確率。

P(x=<1.5)=NORM.S.DIST(1.5,1)=約 93.3%

normal-distribution

確率を指定して x value を求める関数 = NORM.INV

Excel Function: Normal Distribution =NORM.INV(Probability,Mean, Standard_dev)

=NORM.DIST とは逆に確率を指定して特定の x Value を知る関数です。 Probability に確率を入力します。 先程の例で上位 20%以上の給料はいくらになるでしょうか?

  • 給与平均 20 万
  • STD 7000 円

ただし Excel では上位 20%と指定することはできません。 Excel では〇〇%以下の確率のときの Xvalue は?という具合に指定できるのでそれを利用します。 逆に下位 80%でなければ上位 20%ということなので、 80%以下の確率となる Xvalue は、

=NORM(80%,200000,7000,1)=¥205,891

つまり約 ¥205,900 であれば、上位 20%であることがわかります。

normal-distribution

確率を指定して z-score を求める関数=NORM.S.INV

Excel Function: Normal Standard Distribution =NORM.S.INV(Probability)

Probability を指定すると Z-Score がわかります。 この場合指定する確率は z-Score が左から累積した部分です。