Ch3-4 Chebyshev’s Theorem

データの範囲どのくらいのデータが含まれているか?

Z-ScoreはとあるデータがMeanからどのくらい離れているかを教えてくれました。
ここのセクションでは、どのくらいデータの数がStandard Deviation (何z) 内に含まれているか知る方法を紹介します。

Chebyshev’s Theorem チェビシェフの定理

チェビシェフは確率論・統計学の分野で貢献したロシアの数学者です。
チェビシェフの定理によると、
どのような形の分布のデータセットでも
Meanからの距離が+/-Z Standard Deviationの間には少なくとも全体の(1-1/z^2)のデータがある。

  • Meanからの距離が-2から+2 Standard Deviation の間には少なくとも全体の約75%のデータがある。
  • Meanからの距離が-3から+3 Standard Deviation の間には少なくとも全体の約89%のデータはある。
  • Meanからの距離が-4から+4 Standard Deviation の間には少なくとも全体の約94%のデータはある。

Chebyshev’s Theoremの使い方。

例えば、あなたはとあるA町の単身者向けの賃貸マンションの値段を調べたとします。
家賃平均Meanが15万円
Standard Deviation が1.5万円
でした。
あなたは賃貸マンションの家賃の相場がどのくらいかを知りたいとします。
Chebyshev’s Theoremによると
Meanからの距離が-2から+2 Standard Deviation の間には少なくとも全体の約75%のデータがある。
それを元に計算すると、約75%のマンション家賃の上のハードルは
15万円+2*1.5万円=18万円
下のハードルは
15万円-2*1.5万円=12万円
つまり、少なくとも約75%の単身者向け賃貸マンションの家賃は12万円ー18万円間であるということがわかりました。家賃の相場が12万から18万といっても良いでしょう。
もし、約89%の家賃相場となると範囲は広がります。
15万+3*1.5万円=19.5万円
15万-3*1.5万円=10.5万円
少なくとも約89%の単身者向け賃貸マンションの家賃は10.5万円から19.5万円の間にあると言えます。

Chebyshev’s Teoremの便利なところ

このChebyshev’s Theoremの便利なところはどのような形のDistributionでも当てはまるところです。
Distributionの形の項目で紹介した代表的な形以外にも上記にあるような凸凹したいびつな山が2つあるような形にでも当てはまります。ただし、形がゆがんだり偏ったりしているほどStandard Deviationが大きくなるために必然的に特定する範囲は広くなってしまいます。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top