データの範囲どのくらいのデータが含まれているか?
Z-Score はとあるデータが Mean からどのくらい離れているかを教えてくれました。 ここのセクションでは、どのくらいデータの数が Standard Deviation (何 z) 内に含まれているか知る方法を紹介します。
CHEBYSHEV’S THEOREM チェビシェフの定理
チェビシェフは確率論・統計学の分野で貢献したロシアの数学者です。
チェビシェフの定理は
どのような形の分布のデータセットでも Mean からの距離が+/-Z Standard Deviation の間には少なくとも全体の(1-1/z^2)のデータがある。
- Mean からの距離が-2から+2 Standard Deviation の間には少なくとも全体の約 75%のデータがある。
- Mean からの距離が-3 から+3 Standard Deviation の間には少なくとも全体の約 89%のデータはある。
- Mean からの距離が-4 から+4 Standard Deviation の間には少なくとも全体の約 94%のデータはある。
CHEBYSHEV’S THEOREM の使い方。
例えば、あなたはとある A 町の単身者向けの賃貸マンションの値段を調べたとします。
- 家賃平均 Mean が 15 万円
- Standard Deviation が 1.5 万円
でした。 あなたは賃貸マンションの家賃の相場がどのくらいかを知りたいとします。 Chebyshev’s Theorem によると
Mean からの距離が-2から+2 Standard Deviation の間には少なくとも全体の約 75%のデータがある。
それを元に計算すると、約 75%のマンション家賃の上のハードルは
15 万円+2*1.5 万円= 18 万円
下のハードルは
15 万円-2*1.5 万円= 12 万円
つまり、少なくとも約 75%の単身者向け賃貸マンションの家賃は 12 万円ー 18 万円間であるということがわかりました。家賃の相場が 12 万から 18 万といっても良いでしょう。 もし、約 89%の家賃相場となると範囲は広がります。
15 万+3*1.5 万円=19.5 万円
15 万-3*1.5 万円=10.5 万円
少なくとも約 89%の単身者向け賃貸マンションの家賃は 10.5 万円から 19.5 万円の間にあると言えます。
CHEBYSHEV’S TEOREM の便利なところ
この Chebyshev’s Theorem の便利なところはどのような形の Distribution でも当てはまるところです。
Distribution の形の項目で紹介した代表的な形以外にも上記にあるような凸凹したいびつな山が2つあるような形にでも当てはまります。ただし、形がゆがんだり偏ったりしているほど Standard Deviation が大きくなるために必然的に特定する範囲は広くなってしまいます。