情報量の意味と対数関数を使う理由

情報量とは

確率 pp で起こる事象を観測したときに得られる(自己)情報量log2p-\log_2 p bitと定義する。

情報理論の最も基本的な概念である情報量(自己エントロピー)について解説します。

情報量の例

例1

「公平なコインを投げて表が出た」ことを観測したときに得る情報量は log212=1-\log_2 \dfrac{1}{2}=1 bit

例2

「友人が,確率 0.0000020.000002 で三億円当たるような宝くじで三億円当てた」ことを観測したときに得る情報量は log20.00000219.9-\log_2 0.000002\fallingdotseq 19.9 bit

この例で分かるように,事象を観測したときに得る情報量は,その事象が起きる確率が低い(=珍しい)ほど大きいです。これは「情報量」という言葉のイメージとも一致します。

なお,情報量を考える際の対数の底として,22 以外を用いることもあるようです。底を 22 で考えるとき,情報量の単位は「1bit」または「1シャノン」です。

情報量が満たすべき性質

ここからは情報量がなぜ対数関数で定義されるのか説明します。 「情報量」と呼ばれる意味が何となく分かると思います。

目標

定義域が 0<p10 < p \leq 1 であるような関数 f(p)f(p) を「都合の良い(情報量っぽい)性質を満たすように」定めようとすると,それは対数関数になる!

情報量っぽい性質として以下が考えられます。

  1. f(p)f(p) は単調減少
    意味:起きる確率が高い事象ほど観測したときに得る情報量は小さい

  2. f(p)f(p) は連続
    意味:確率がほんの少し変わってもそのときに得る情報量はほとんど変わらない

  3. f(pq)=f(p)+f(q)f(pq)=f(p)+f(q)
    意味: AABB が独立なとき「事象 AABB を同時に観測したときに得る情報量」と「事象 AA を観測して得た情報量と事象 BB を観測して得た情報量の和」は等しい。

  4. 確率 12\dfrac{1}{2} で起きる事象を観測したときに得る情報量は 11 bitにしておこう。

関数方程式を解く

上記の性質1~4を満たす関数が f(p)=log2pf(p)=-\log_2 p だけであることを証明します!

証明

実は,2と3だけでほぼ関数形が定まる(詳しくはコーシーの関数方程式の解法と応用の二つ目の応用)。

具体的には, f(p)=Clog2pf(p)=C\log_2 p となる(CC は任意の実数)。

4より C=1C=-1 となる。また,このとき1も満たしている。

自己情報量と平均情報量

情報理論で「情報量」という言葉を使うときには,以下の2つのいずれかを表します。ここまで紹介していた情報量は自己情報量のほうです。

  • 自己情報量:
    (確率が決まっている) 事象に対して定義される量。

  • 平均情報量(エントロピー):
    確率分布に対して定義される量。

平均情報量を理解するためにも,まずは自己情報量をきちんと理解する必要があります。「自己」や「平均」という単語は省略されることが多く, 混同しやすいので注意してください。

平均情報量の定義

平均情報量

確率分布 PP について,PP の平均情報量を AP(A)log2P(A) -\sum_{A} P(A) \log_2 P(A) と定める。なお,AA は事象を指す。

これだけではいまいちパッとしないので例を計算してみましょう。

例3

コインを投げたときに表が出る確率を pp,裏が出る確率を 1p1-p とする。

このとき,コインを投げた表裏の平均情報量は plog2p(1p)log2(1p) -p \log_2 p - (1-p) \log_2 (1-p) である。

平均情報量は,事象が分かったときの情報としての価値を測る値です。

コインが常に表になる場合,平均情報量は 00 です。

常に表になるコインの表裏を分かっても情報としての価値はないですね。こうしてみると情報の価値を表現しているとわかります。

情報理論の紹介

この記事では情報量の定義と,それが我々がイメージする「情報量」っぽい性質を満たしていることを説明しました。このように定義した情報量を使って何ができるのか,何が嬉しいのかもっと知りたい方は情報理論という分野を勉強してみてください!

関数方程式が役に立つ感動的な例です。