データの範囲にどのくらいのデータが含まれるか?その2

前回のセクションでは Chebyshev’s Theorem を使いどのくらいのデータがどのくらいの範囲にあるかを探りました。ここでも、同じようにどれくらいのデータがどのくらいの範囲にあるかを探りますが、とくに Bell Shape Distribution について紹介しています。 Chebyshev’s Theorem はどんな形の Distribution にも使えました。 ただしその分データの特定範囲はどうしても広くなってきます。 他の形の Distribution と違い、Bell Shape Distribution はほとんどのデータがより Mean に近いこともありもっと範囲を絞った推定ができます。ここでは特定の形の Distribution の時にだけ使える Empirical Rule を紹介します。

EMPIRICAL RULE

68-95-99.7 ルール または 3 つの σ(シグマ)のルールとも知られています。 Empirical Rule はもし Distribution の形が

  • Symmetric Distribution (Mean を挟んで左右対称の分布)、もしくは
  • Bell Shaped Distribution

であれば特定の Standard Deviation 内にどのくらいの%のデータが含まれているか特定できるというものです。

  • 約 99.7%のデータは+/-3 Standard Deviation の間にある。
  • 約 95%のデータは+/-2 Standard Deviation の間にある。
  • 約 68%のデータは+/-1 Standard Deviation の間にある。

empirical-rule

Bell Shape の面積が%を表しています。

EMPIRICAL RULE の使い方

売上高の範囲

例えば、全国の支店を一日の売上高を調べたところ

  • 平均売上 Mean が 200 万円
  • Standard Deviation が 20 万円でした。
  • また Frequency Distribution を作って見たところ Bell Shape Distribution の形をしています。

Empirical Rule を使って、全国の約 95%の支店がどのくらいの範囲の売上なのかを求めます。 Empirical Rule によると、

約 95%のデータは+/-2 Standard Deviation(2z)の間にあります。

z は z-score と同時に Standard Deviation でもあります。

  • 200 万円+20 万円*2z=240 万円
  • 200 万円-20 万円*2z=160 万円

つまり、約 95%の支店の売上は 160 万円から 240 万円の間にあるということがわかりました。

上位 16%の求め方

Empirical Rule は 68-95-99.7 Rule とも呼ばれ 68%、95%、99.7%の区切りでしか数字を求められません。

しかし、Bell Shape Distribution の特徴は左右対称であるため、面積を足し算引き算することにより違う区切りを求めることができます。

下記の図を見てください。左右対称であるため Mean を中心に面積を半分に分割する計算が行えます。

例えば、Mean から左半分はちょうど 50%です。

Mean から 1Standard Deviation 分右方向は 68%のちょうど半分の 34%です つまり、50%+34%で+1Standard Deviation より左側は全体で 84%と言えます。

逆に+1Standard Deviation から右側は 100%から左側の 84%を引けば 100%-84%で 16%と言えます。

empirical-rule

上位に入るにはどれくらい売上がいる?

先の例の続きです。

  • 平均売上 Mean が 200 万円
  • Standard Deviation が 20 万円
  • 売上高データの分布は Bell Shape Distribution

でした。

売上高が支店全体の上位 16%に入るにはいくら必要でしょうか?

上の計算によると+1Standard Deviation から右側が 16%でした。なので、

200 万円+1*20 万円=220 万円

つまり売上高が 220 万円以上であれば上位 16%に入っているということが言えます。

empirical-rule