Ch3 Numerical Measure

データ特徴を数で表すNumerical Measuresについて

このチャプターではデータ全体の特徴を数字で表す要素であるNumerical Measureについて紹介しています。
数字による統計の情報の表し方には様々あります。よく言う「平均」などもその一つです。
小学校の算数でならう平均、a,b,cを足して3で割る(a+b+c)/3は統計学ではMeanと呼ばれます。
統計学を使えば平均値だけでなく、 データにどのくらいのばらつきがあるとか、データの範囲が全体の何%含まれているとかいったことを数字で的確に表すことができるようになります。

数字による統計の情報の表し方には様々あります。よく言う「平均」などもその一つです。
小学校の算数でならう平均、a,b,cを足して3で割る(a+b+c)/3は統計学ではMeanと呼ばれます。

Numerical Measures

Numerical Measureは数で表せられるデータの代表たちです。

Mean

Meanはいわゆる小学校の算数でならう平均でa,b,c,, と足してその個数で割った数字です。
たとえば、100,50,60のMeanは(100+50+60)/3で70です。
Excel Function: Mean
=AVERAGE(Data Area)
Excelの関数ではAVERAGEを使いデータの範囲を指定します。averageは平均という意味です。

Mode

Modeは最頻値とも呼ばれ最も多く出現する数を指します。
例えば, 1,2,2,3,4,5,5,6,7,7,8,8,8,9,10,10というグループの中では
2と5と7と10が2回あり。
8が3回と最も多いのででModeは8です。
Excel Function:Mode
=MODE.SNGL(Data Area)
Excelの関数ではMODEを使いデータの範囲を指定します。

Five-number summary

統計学ではMean やMode に加えてFive-number summary (5つの数の要約) と呼ばれる5つの数の代表もよくつかわれます。

Minimum 最小値

Minimum はデータの中で最も小さい数です
Excel Function: Minimum
=MIN(Data Area)

Lower Quartile

Lower Quartile はデータを小さい方大きい方へ順番にならべて全体を4分割したとき1番目にくる区切り目にある数字です。(Minimumは0番目の区切りとして)Excelでは小数点も計算されて分割されます。
Excel Function: Lower Quartile
=QUARTILE.EXC(Data Area, 1)

Median 中央値

Medianはデータを小さい方から大きい方へ順番に並べたときちょうど真ん中にある数字です。
Excel Function: Median
=MEDIAN(Data Area) または =QUARTILE(Data Area,2)

Upper Quartile

Upper Quartile はデータを小さい方から大きい方へ順番に並べて全体を4分割したとき3番目にくる区切り目にある数字です。
Excel Function: Upper Quartile
=QUARTILE.EXC(Data Area,3)

Maximum 最大値

Maximumはデータの中でもっとも大きい数です。
Excel Function: Maximum
=MAX(Data Area)以下はExcelでの例です。

平均についての解説:Mean or Median?

平均とはデータ全体の特徴を表すのにとても便利な数字です。
平均年齢・平均身長・平均年収などがわかればグループ全体のことが把握しやすくなります。
世の中で一般的に言われている平均とは統計学ではMeanと呼ばれます。
データ全体の特徴を表すものにもMedianというものも出てきました。
ではMeanとMedianどちらがよりデータ全体の特徴を表しているのでしょうか?
少し極端な例を出してみます。
あなたはとあるA町で車を売ることになりました。
A町では住人のみんながだいたい700万から900万円くらいの範囲の世帯収入があり、全体の世帯収入のMeanが800万円です。同じく世帯収入のMedianも800万円です。
あなたは車を300万円の車を売ることに決めました。世帯収入のMeanが800万円なら300万円ぐらいの車であればたくさん売れると考えました。
ところがある日A町に年収が100億円という超お金持ちが引っ越してきました。そのおかげでA町全体の世帯収入のMeanが2000万円までぐっとあがりました。
世帯収入がMean上がったからもっと高い値段の高ランクの車を売った方が良いでしょうか?答えはおそらくNoでしょう。一人のお金持ちによりMeanがガクッとあがりましたが、他のみんなの年収はこれまでと同じだからです。こういう場合はMedianはほとんど変わることなく800万円に近い数字をキープしています。
このように元のデータ全体のばらつきが極端な場合はMedianの方が有効な場合もあります。(この例はわかりやすいように極端ですが。)
今後のチャプターではこのばらつきを踏まえたデータの扱い方も見ていきます。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top