2015/11/08

ケンドールの順位相関係数


ケンドールの順位相関係数の定義,計算例,性質,および関連する検定手法について解説します。

ケンドールの順位相関係数の定義

ケンドールの順位相関係数(ケンドールのタウ)とは,$n$ 個のペアのデータ:$(x_1,y_1),\cdots,(x_n,y_n)$ から計算される,$X$ と $Y$ の関係を表す指標の1つです。

$(x_i,y_i)$ と$(x_j,y_j)$ という2個のペアのデータについて,
$(x_i-x_j)(y_i-y_j) > 0$ のとき「順方向」
$(x_i-x_j)(y_i-y_j) < 0$ のとき「逆方向」
と呼ぶことにします。
(2個のペアの選び方は全部で${}_n\mathrm{C}_2$ 通りあります)

このとき「順方向のペア数ー逆方向のペア数」を${}_n\mathrm{C}_2$ で割った値をケンドールの順位相関係数と言います。

計算例

例題

$n=4$ で,データが$(80,90),(50,70),(100,80),(60,60)$ のときケンドールの順位相関係数を計算せよ。

解答

1つめのペアと2つめのペア:$(80,90)$ と$(50,70)$ は「順方向」
1つめのペアと3つめのペア:$(80,90)$ と$(100,80)$ は「逆方向」
1つめのペアと4つめのペア:$(80,90)$ と$(60,60)$ は「順方向」
2つめのペアと3つめのペア:$(50,70)$ と$(100,80)$ は「順方向」
2つめのペアと4つめのペア:$(50,70)$ と$(60,60)$ は「逆方向」
3つめのペアと4つめのペア:$(100,80)$ と$(60,60)$ は「順方向」
よって,ケンドールの順位相関係数は,$\tau=\dfrac{4-2}{6}=\dfrac{1}{3}$

注:$x_i=x_j$ または $y_i=y_j$ となる異なる $i,j$ が存在する場合はもう少し複雑な処理が必要になります。今回は $x_1,\cdots,x_n$ は全て異なり,$y_1,\cdots,y_n$ も全て異なる場合を考えます。

意味,性質

  • 「 $X$ が大きいほど $Y$ が大きい傾向にある」とき順方向のペア数は多くなります。逆に「 $X$ が大きいほど $Y$ が小さい傾向にある」とき逆方向のペア数は多くなります。よって,ケンドールの順位相関係数が大きいほど「 $X$ が大きいほど $Y$ が大きい傾向にある」と言えます。
  • 一般的な相関係数(ピアソンの相関係数)と違って,データの値を直接使うのではなく大小関係のみを考慮します。
  • $x$ と $y$ の順番が完全に一致しているとき,全てのペアが順方向になるので $\tau=1$ になります。また,$x$ と $y$ の順番が完全に逆転しているとき,$\tau=-1$ になります。
  • 常に$-1\leq \tau \leq 1$ です。
  • 確率分布 $P(X,Y)$ から $n$ 個のサンプル$(x_1,y_1),\cdots,(x_n,y_n)$ を生成したとき,$X$ と $Y$ が独立なら $\tau$ の期待値は $0$ になります。

独立性の検定

確率分布 $P(X,Y)$ から $n$ 個のサンプル$(x_1,y_1),\cdots,(x_n,y_n)$ を生成した状況を考えます。このとき,ケンドールの順位相関係数を使って $X$ と $Y$ が独立かどうか検定することができます。

$X$ と $Y$ が独立で $n$ が十分大きい($n > 10$)とき,$\tau$ は平均 $0$,分散 $\dfrac{2(2n+5)}{9n(n-1)}$ の正規分布に近似的に従うことが知られています(※)。

よって,帰無仮説:$X$ と $Y$ は独立
として統計量 $\dfrac{\tau}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}}$ と標準正規分布のパーセント点を比較すれば検定できます。

確率分布 $P(X,Y)$ に関する仮定を必要としない一般的な方法(ノンパラメトリックな手法)です。

参考文献:The Kendall Rank Correlation Coefficient

※の証明を見つけることができませんでした,ご存知の方はご一報ください。