2015/07/10

箱ひげ図の意味

分野: データの分析,確率  レベル: 基本公式

一次元のデータの分布を簡潔に表現する手法の一つ「箱ひげ図」について解説します。

箱ひげ図の意味

箱ひげ図は,一次元のデータ(数字が並んだもの)の分布を簡潔に表現する図です。箱ひげ図からは最小値,最大値,平均値,中央値,四分位数が分かります。

箱ひげ図の読み方

箱(長方形)
・箱の途中の縦線は中央値
・箱の両端が四分位数(第一四分位数と第三四分位数)
・(箱の真ん中付近にあることが多い)×印は平均値

ひげ(横線)
・ひげの左端は最小値,右端は最大値

箱ひげ図に関する注意

  • 上記で説明したのは高校数学の教科書に載っている「外れ値を考慮しないバージョン」です。外れ値を考慮した箱ひげ図(こちらの方が一般的だと思う)については後述します。
  • ×印(平均値)を書かないこともあります。
  • 第一四分位数とはデータの中で小さい方から $\dfrac{1}{4}$,第三四分位数とはデータの中で大きい方から $\dfrac{1}{4}$ にある数です。四分位数の求め方にはいくつか流儀があるので注意が必要です。→四分位数の求め方といろいろな例題

外れ値を考慮した箱ひげ図

中央値,四分位数は外れ値に引っ張られませんが,最大値,最小値は外れ値に引っ張られます。つまり教科書の箱ひげ図の定義の場合「箱」は外れ値に引っ張られませんが「ひげ」は外れ値に引っ張られます。

外れ値と箱ひげ図

そこで「外れ値を考慮する立場」では,左右のひげはともに箱の1.5倍以下の長さとして,もしそれを越えるようなデータがある場合それは外れ値とみなす(最大・最小値とはみなさない,ひげはそこまで伸ばさない)ことにします。

都合の悪い実験データを外れ値として意図的に隠すのは倫理に反するのでやってはいけませんよ!

Tag: 数学1の教科書に載っている公式の解説一覧

分野: データの分析,確率  レベル: 基本公式