2015/04/28

四分位数の求め方といろいろな例題

分野: データの分析,確率  レベル: 基本公式

1次元データが与えられたとき,下から $\dfrac{1}{4}$ の部分にある数を第一四分位数,上から $\dfrac{1}{4}$ の部分にある数を第三四分位数と言う。


「下から $\dfrac{1}{4}$ の部分」をどう定めるかはいくつか流儀がありますが,その中でも基本的な2つの方法について解説します。

四分位数の定義と例

まずは最も一般的と思われる「幅」を考慮する方法です。データを並べて(データ数について)幅を四等分します。

例題

データを小さい方から並べると $1,3,4,7,9,11,12,12,15$ だった。四分位数を求めよ。

四分位数の求め方

解答

データは $9$ 個。「幅」は $8$ なので四等分すると各区間の幅は $2$ となる。
よって,第一四分位数は $4$,第二四分位数(中央値)は $9$,第三四分位数は $12$

データ数が4k+3のとき

データの数が $4$ の倍数$+1$ のときには各分点に対応するデータが存在してハッピーですが,そうでないときには分点が中間に来ます。その場合は近い2点のデータの重み付き平均を取ります。

例題2

データを小さい方から並べると $1,3,4,5,6,8,100$ だった。四分位数を求めよ。

四分位数の求め方2

解答

幅は $6$ なので,第一四分位点は $3$ と $4$ の中点になる。よって,$3$ と $4$ の平均を考えることにより第一四分位数は $\dfrac{3+4}{2}=3.5$,第三四分位数も同様に $\dfrac{6+8}{2}=7$

注:$100$ という外れ値をスルーできています。このように外れ値に引っ張られにくので四分位数は「頑強」と言われることがあります。

データ数が偶数の場合

データ数が偶数のときには一つの区間幅には $\dfrac{3}{4}$ とかが登場します。このような場合,重みを $0.25$(分点から遠い側),$0.75$(近い側)とした重み付き平均を考えます。

例題3

一次元データ $3,4,9,10$ の四分位数を求めよ。

偶数の場合の四分位数

解答

幅は $3$ なので各区間の幅は $0.75$ になる。
よって,第一四分位数は $3\times 0.25+4\times 0.75=3.75$
第三四分位数は $9\times 0.75+10\times 0.25=9.25$

ヒンジの定義と例

次は二つ目の流儀。中央値で上半分と下半分に分けて,下半分の中央値を第一四分位数,上半分の中央値を第三四分位数とする考え方です。

この方法だと $0.75$ の重みとか考えなくてよいので先ほどの方法より単純です。高校の数学1の教科書(東京書籍)にもこちらの方法が採用されています。上の方法と区別したいときは,こちらの方法で求めた四分位数をヒンジと言います。

例題1から3(以下のデータ)のヒンジをそれぞれ求めよ。
$1,3,4,7,9,11,12,12,15$
$1,3,4,5,6,8,100$
$3,4,9,10$

解答
・例題1:
中央値は $9$ 。下半分のデータ $1,3,4,7$ の中央値は $3.5$ なので下側ヒンジは $3.5$
同様に上側ヒンジは $11,12,12,15$ の中央値なので $12$

・例題2:
中央値は $5$,下側ヒンジは $1,3,4$ の中央値なので $3$
同様に上側ヒンジは $8$

・例題3:
中央値は $6.5$,下側ヒンジは $3.5$,上側ヒンジは $9.5$

四分位数とヒンジ

注:先ほどの四分位数と今回のヒンジでは微妙に値が異なります。一般的にヒンジの方が「端っこに近い」値を取ってきます。

ヒンジの方が端っこに近いのは図を見て納得して下さい!

四分位数のいろいろな求め方

  • この他にも四分位数の定め方には流儀があるのでテストに出しにくい話題だと思います。→四分位数(PDFファイル)
  • ただ,(少なくとも東京書籍の)教科書にはヒンジが四分位数として載っていたので,高校生はヒンジを覚えておけばOKだと思います。

・実際のデータを扱う場合はデータ数が大量にあることが多く,どの流儀を使っても得られる数値は大差ないのであまり心配する必要はありません。

25%点,という意味は非常に単純ですが,きちんと定義しようとすると意外と厄介なやつです。

Tag: 数学1の教科書に載っている公式の解説一覧

分野: データの分析,確率  レベル: 基本公式