Ch3-5 Empirical Rule

データの範囲にどのくらいのデータが含まれるか?その2

前回のセクションではChebyshev’s Theoremを使いどのくらいのデータがどのくらいの範囲にあるかを探りました。ここでも、同じようにどれくらいのデータがどのくらいの範囲にあるかを探りますが、とくにBell Shape Distributionについて紹介しています。
Chebyshev’s Theoremはどんな形のDistributionにも使えました。
ただしその分データの特定範囲はどうしても広くなってきます。
他の形のDistributionと違い、Bell Shape DistributionはほとんどのデータがよりMeanに近いこともありもっと範囲を絞った推定ができます。ここでは特定の形のDistributionの時にだけ使えるEmpirical Ruleを紹介します。

Empirical Rule

68-95-99.7 ルール または 3つのσ(シグマ)のルールとも知られています。
Empirical RuleはもしDistributionの形が

  • Symmetric Distribution (Meanを挟んで左右対称の分布)、もしくは
  • Bell Shaped Distribution

であれば特定のStandard Deviation内にどのくらいの%のデータが含まれているか特定できるというものです。

  • 約99.7%のデータは+/-3 Standard Deviationの間にある。
  • 約95%のデータは+/-2 Standard Deviationの間にある。
  • 約68%のデータは+/-1 Standard Deviationの間にある。

Bell Shapeの面積が%を表しています。

Empirical Rule の使い方

売上高の範囲

例えば、全国の支店を一日の売上高を調べたところ
平均売上Meanが200万円
Standard Deviationが20万円でした。 またFrequency Distributionを作って見たところBell Shape Distributionの形をしています。
Empirical Ruleを使って、全国の約95%の支店がどのくらいの範囲の売上なのかを求めます。
Empirical Ruleによると、
約95%のデータは+/-2 Standard Deviation(2z)の間にあります。
zはz-scoreと同時にStandard Deviationでもあります。
200万円+20万円*2z=240万円
200万円-20万円*2z=160万円
つまり、約95%の支店の売上は160万円から240万円の間にあるということがわかりました。

上位16%の求め方

Empirical Ruleは68-95-99.7 Ruleとも呼ばれ68%、95%、99.7%の区切りでしか数字を求められません。
しかし、Bell Shape Distributionの特徴は左右対称であるため、面積を足し算引き算することにより違う区切りを求めることができます。
下記の図を見てください
左右対称であるためMeanを中心に面積を半分に分割する計算が行えます。
例えば、Meanから左半分はちょうど50%です。
Meanから1Standard Deviation分右方向は68%のちょうど半分の34%です
つまり、50%+34%で+1Standard Deviationより左側は全体で84%と言えます。
逆に+1Standard Deviationから右側は100%から左側の84%を引けば
100%-84%で16%と言えます。

上位に入るにはどれくらい売上がいる?

先の例の続きです。
平均売上Meanが200万円
Standard Deviationが20万円
売上高データの分布はBell Shape Distribution
でした。
売上高が支店全体の上位16%に入るにはいくら必要でしょうか?
上の計算によると
+1Standard Deviationから右側が16%でした。
なので、
200万円+1*20万円=220万円
つまり売上高が220万円以上であれば上位16%に入っているということが言えます。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top