2015/02/07

情報量の意味と対数関数を使う理由

分野: 代数,情報・暗号理論  レベル: 大学数学

確率 $p ( > 0)$ で起こる事象を観測したときに得られる(自己)情報量を$-\log_2 p$ bitと定義する。

情報理論の最も基本的な概念である情報量(自己エントロピー)について解説します。

情報量の例

情報量を考える際に対数の底は $2$ を用いることが多いです($2$ 以外を用いることもあります)。底を $2$ で考えるとき,情報量の単位は「1bit」または「1シャノン」です。

例1

「(公平な)コインを投げて表が出た」ことを観測したときに得る情報量は
$-\log_2 \dfrac{1}{2}=1$ bit

例2

「友人が,確率 $0.000002$ で三億円当たるような宝くじで三億円当てた」ことを観測したときに得る情報量は$-\log_2 0.000002\simeq 19.9$ bit

この例で分かるように,事象を観測したときに得る情報量は,その事象が起きる確率が低い(=珍しい)ほど大きいです。これは「情報量」という言葉のイメージとも一致します。

自己情報量と平均情報量

情報理論で「情報量」という言葉を使うときには以下の二つのいずれかを表しています。この記事で扱っているのは自己情報量の方です。

・自己情報量
(確率が決まっている)事象に対して定義される量。

・平均情報量(エントロピー)
確率分布に対して定義される量。

平均情報量を理解するためにもまずは自己情報量をきちんと理解する必要があります。「自己」や「平均」という単語は省略されることが多く,混同しやすいので注意してください。

情報量が満たすべき性質

ここからは情報量がなぜ対数関数で定義されるのか説明します。「情報量」と呼ばれる意味が何となく分かると思います。

目標:定義域が $0 <p \leq 1$ であるような関数 $f(p)$ を「都合の良い(情報量っぽい)性質を満たすように」定めようとすると,それは対数関数になる!

情報量っぽい性質として以下が考えられます。

1:$f(p)$ は単調減少
意味:起きる確率が高い事象ほど観測したときに得る情報量は小さい

2:$f(p)$ は連続
意味:確率がほんの少し変わってもそのときに得る情報量はほとんど変わらない

3:$f(pq)=f(p)+f(q)$
意味:$A$ と $B$ が独立なとき「事象 $A$ と $B$ を同時に観測したときに得る情報量」と「事象 $A$ を観測して得た情報量と事象 $B$ を観測して得た情報量の和」は等しい。

4:確率 $\dfrac{1}{2}$ で起きる事象を観測したときに得る情報量は $1$ bitにしておこう。

関数方程式を解く

上記の性質を満たす関数が $f(p)=-\log_2 p$ だけであることを証明します!

証明

実は,2と3だけでほとんど関数形が定まる。(詳しくはコーシーの関数方程式の解法と応用の二つ目の応用)

$f(p)=C\log_2 p$
となる($C$ は任意の実数)。

4より $C=-1$ となる。また,このとき1も満たしている。


情報理論の紹介

この記事では情報量の定義と,それが我々がイメージする「情報量」っぽい性質を満たしていることを説明しました。このように定義した情報量を使って何ができるのか,何が嬉しいのかもっと知りたい方は情報理論という分野を勉強してみてください!

関数方程式が役に立つ感動的な例です。
分野: 代数,情報・暗号理論  レベル: 大学数学