データ特徴を数で表す NUMERICAL MEASURES について

このチャプターではデータ全体の特徴を数字で表す要素である Numerical Measure について紹介しています。 数字による統計の情報の表し方には様々あります。よく言う「平均」などもその一つです。 小学校の算数でならう平均、a,b,c を足して3で割る(a+b+c)/3 は統計学では Mean と呼ばれます。 統計学を使えば平均値だけでなく、 データにどのくらいのばらつきがあるとか、データの範囲が全体の何%含まれているとかいったことを数字で的確に表すことができるようになります。

数字による統計の情報の表し方には様々あります。よく言う「平均」などもその一つです。 小学校の算数でならう平均、a,b,c を足して3で割る(a+b+c)/3 は統計学では Mean と呼ばれます。

NUMERICAL MEASURES

Numerical Measure は数で表せられるデータの代表たちです。

Mean

Mean はいわゆる小学校の算数でならう平均で a,b,c,, と足してその個数で割った数字です。 たとえば、100,50,60 の Mean は(100+50+60)/3 で 70 です。 Excel Function: Mean =AVERAGE(Data Area) Excel の関数では AVERAGE を使いデータの範囲を指定します。average は平均という意味です。

Mode

Mode は最頻値とも呼ばれ最も多く出現する数を指します。 例えば, 1,2,2,3,4,5,5,6,7,7,8,8,8,9,10,10 というグループの中では 2と5と7と10が 2 回あり。 8が3回と最も多いのでで Mode は 8 です。 Excel Function:Mode =MODE.SNGL(Data Area) Excel の関数では MODE を使いデータの範囲を指定します。

FIVE-NUMBER SUMMARY

統計学では Mean や Mode に加えて Five-number summary (5 つの数の要約) と呼ばれる 5 つの数の代表もよくつかわれます。

five-numman

Minimum 最小値

Minimum はデータの中で最も小さい数です Excel Function: Minimum =MIN(Data Area)

Lower Quartile

Lower Quartile はデータを小さい方大きい方へ順番にならべて全体を 4 分割したとき 1 番目にくる区切り目にある数字です。(Minimum は 0 番目の区切りとして)Excel では小数点も計算されて分割されます。 Excel Function: Lower Quartile =QUARTILE.EXC(Data Area, 1)

Median 中央値

Median はデータを小さい方から大きい方へ順番に並べたときちょうど真ん中にある数字です。 Excel Function: Median =MEDIAN(Data Area) または =QUARTILE(Data Area,2)

Upper Quartile

Upper Quartile はデータを小さい方から大きい方へ順番に並べて全体を 4 分割したとき3番目にくる区切り目にある数字です。 Excel Function: Upper Quartile =QUARTILE.EXC(Data Area,3)

Maximum 最大値

Maximum はデータの中でもっとも大きい数です。 Excel Function: Maximum =MAX(Data Area)以下は Excel での例です。

maximum

平均についての解説:MEAN OR MEDIAN?

平均とはデータ全体の特徴を表すのにとても便利な数字です。 平均年齢・平均身長・平均年収などがわかればグループ全体のことが把握しやすくなります。 世の中で一般的に言われている平均とは統計学では Mean と呼ばれます。 データ全体の特徴を表すものにも Median というものも出てきました。 では Mean と Median どちらがよりデータ全体の特徴を表しているのでしょうか?

少し極端な例を出してみます。 あなたはとある A 町で車を売ることになりました。 A 町では住人のみんながだいたい 700 万から 900 万円くらいの範囲の世帯収入があり、全体の世帯収入の Mean が 800 万円です。同じく世帯収入の Median も 800 万円です。 あなたは車を 300 万円の車を売ることに決めました。世帯収入の Mean が800万円なら 300 万円ぐらいの車であればたくさん売れると考えました。 ところがある日 A 町に年収が 100 億円という超お金持ちが引っ越してきました。そのおかげで A 町全体の世帯収入の Mean が 2000 万円までぐっとあがりました。

richman

世帯収入が Mean 上がったからもっと高い値段の高ランクの車を売った方が良いでしょうか?答えはおそらく No でしょう。一人のお金持ちにより Mean がガクッとあがりましたが、他のみんなの年収はこれまでと同じだからです。こういう場合は Median はほとんど変わることなく 800 万円に近い数字をキープしています。

このように元のデータ全体のばらつきが極端な場合は Median の方が有効な場合もあります。(この例はわかりやすいように極端ですが。)今後のチャプターではこのばらつきを踏まえたデータの扱い方も見ていきます。