2015/01/22

平均値,中央値,最頻値の求め方といくつかの例

分野: データの分析,確率  レベル: 基本公式

データ群の特徴を一つの数値で表したものを代表値と呼ぶ。代表値の中でも平均値,中央値,最頻値が有名。

平均値,中央値,最頻値の意味と計算方法を解説します。いくつかの具体例を通じてそれぞれのメリット・デメリットを見ていきます。

平均値の求め方と例

データの値の算術平均(全部足してデータ数で割ったもの)を平均値と言います。みなさんご存知,最も有名な代表値です。

例1

六人の国語のテストの点数はそれぞれ $52,52,70,72,80,100$ 点であった。テストの点数の平均を求めよ。

解答

平均値は,$\dfrac{52+52+70+72+80+100}{6}=71$ 点


例2

数学のテスト直前に天才が転校して来た。数学のテストはとても難しかった。その結果,七人の数学のテストの点数はそれぞれ $6,9,9,10,10,10,100$ 点であった。テストの点数の平均を求めよ。

解答

平均値は,$\dfrac{6+9+9+10+10+10+100}{7}=22$ 点

ほとんどの人が $10$ 点以下なのに一人の天才によって平均点が $10$ 点以上も上がってしまいました。

平均値のメリット:全てのデータを考慮できる。
平均値のデメリット:外れ値(異常に大きい値,小さい値)に弱い。

中央値の求め方と例

データを大きい順(または小さい順)に並べたとき,真ん中の値を中央値(メディアン)と言います。データの数が偶数のときは「真ん中の値」が二つ登場するのでそれらを足して2で割ったものを中央値とします。

例1

さきほどの六人の国語の点数$(52,52,70,72,80,100)$ において中央値を求めよ。

解答

六人の中間である,三位と四位の点数を足して2で割ったものが中央値である。よって中央値は,$\dfrac{70+72}{2}=71$ 点。


例2

さきほどの七人の数学の点数$(6,9,9,10,10,10,100)$ において中央値を求めよ。

解答

七人の中間である,四位の点数が中央値である。よって中央値は $10$ 点。

中央値のメリット:外れ値に強い。
中央値のデメリット:全てのデータを十分に考慮できていない。
(100点を取った天才が報われない)

最頻値の求め方と例

データの中で最も頻度が高い値を最頻値(モード)と言います。

例2

さきほどの七人の数学の点数$(6,9,9,10,10,10,100)$ において最頻値を求めよ。

解答

$10$ 点をとった人が三人であり最も多いので最頻値は $10$ 点。


例1

さきほどの六人の国語の点数$(52,52,70,72,80,100)$ において最頻値を求めよ。

解答

$52$ 点が二人であとは同じ点数をとった人はいないので最頻値は $52$ 点。

この例で $52$ 点の人が $53$ 点になると最頻値による分析はできなくなります。また,$52$ 点の人が $70$ 点になると最頻値は $70$ 点になってしまいます。

この例のようにサンプル数が少ないとき,データがぴったり一致することは珍しいので変なところ(感覚とズレるところ)に最頻値が来ることがあります。そのためそのまま最頻値を使うのは得策ではありません。

そこで,データを度数分布表にした上で度数が最も大きい階級の階級値を最頻値とすることもあります。

最頻値のメリット:外れ値に強い。
最頻値のデメリット:一つに決まらないことがある。サンプル数が少ないと使えない。

3つの代表値について

対称で山が一つ(単峰性)の分布では平均値,代表値,最頻値はほとんど同じ値なのでどれを使っても問題ないことが多いです(上側の図,横軸はデータの値,縦軸はデータの頻度を表す)。

代表値

山が一つでも対称でない(偏っている)分布のときは平均値が外れ値に引っ張られ「平均値,中央値,最頻値」の順に並ぶことが多いです(ピアソンの経験則)。例えば所得の分布もこのような構造をしていると考えられます(年収1億とかの人が平均年収をつりあげている,下側の図)。

以上のように,代表値は分布の特徴を表す重要な指標ですが,一つの代表値だけで判断するのは危険ということです。背後にある分布がどのような形なのか意識するべきです。

データを一つの数字で表すのは便利ですが,限界があるということです。

Tag: 数学1の教科書に載っている公式の解説一覧

分野: データの分析,確率  レベル: 基本公式