分野: 大学の確率・統計


連続型確率変数 $X$ に対して,$X$ が $a$ 以上 $b$ 以下となる確率が,積分を用いて $P(a\leq X\leq b)=\displaystyle\int_a^bf(x)dx$ で与えられるとき,$f(x)$ を確率密度関数という。

連続型確率変数および確率密度関数の話です。多くの人は高校では習いませんが,数B(旧課程では数C)の教科書に載っています。理系なら知っておきたい話題。


ポアソン分布:単位時間あたり平均 $\lambda$ 回起こるようなランダムな事象が,単位時間に $k$ 回起きる確率は,
$P(k)=e^{-\lambda}\dfrac{\lambda^k}{k!}$
である。この確率分布をポアソン分布と呼ぶ。

ただし,$0!=1$ です。世の中に登場するいろいろな確率が $e$ とかを使って表せるのが感動ですね。この定理の証明は記事の最後に行います。


正規分布の基本的な知識を整理しました。

数Bの統計分野の話題です。ほとんどの大学で数Bの統計分野は出題されませんが,正規分布はいろいろなところで登場するので理系なら知っておきたい知識です。


マルコフ(Markov)の不等式:任意の確率変数 $X$ と $a > 0$ に対して(期待値 $E[|X|]$ が存在するとき), $P(|X|\geq a)\leq\dfrac{E[|X|]}{a}$

確率論における基本的な不等式です。大学入試で扱われることはまずないですが比較的簡単なので紹介します。


最小二乗法による直線フィッティングの基礎的な説明です。
最小二乗法はデータの組$(x_i,\:y_i)$ が $n$ 組与えられたときに,そのデータたちの関係を表すもっともらしい直線を求める方法です。


大数の弱法則:(適当な仮定のもとで)サンプル数を増やしていくと,サンプル平均は真の平均に確率収束する。

大数の法則について,前半は意味,具体例をざっくり説明します。後半は大数の弱法則を数学的に定式化してきちんと証明します。


指数分布:確率密度関数が $f(x)=\dfrac{1}{\mu}e^{-\frac{x}{\mu}}\:(x \geq 0)$ であるような連続型確率分布を(平均 $\mu$ の)指数分布と言う。

指数分布の例,重要性,平均の導出,ポアソン分布との関係について。


分散共分散行列とは,分散(散らばり具合を表す指標)の概念を多次元確率変数に拡張して行列としたもの。

分散共分散行列の定義,具体例,独立な場合に対角行列になること,半正定値になること。


平均 $\mu$,分散 $\sigma^2$ の分布(母集団)からランダムに抽出したサンプルの値を $x_1,x_2,\cdots, x_n$ とする。
このとき, $u^2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2$
とおくと, $E[u^2]=\sigma^2$ となる。 $u^2$ を不偏標本分散と言う。

ただし,$\overline{x}=\dfrac{x_1+x_2+\cdots +x_n}{n}$ は標本平均です。


定理1(正規分布の一次式):
$X$ が正規分布に従うとき,$aX+b$ も正規分布に従う。
(ただし $a,b$ は任意の実数で $a\neq 0$)

(証明は最後にやります)
この定理の応用として正規分布の標準化について解説します。


最小二乗法の行列表現:
主張1:行列 $A$ と列ベクトル $\overrightarrow{b}$ が与えられたときに
$\|A\overrightarrow{x}-\overrightarrow{b}\|$ を最小にする $\overrightarrow{x}$ を求める問題は非常に重要である。

主張2:$A^{\mathrm{T}}A$ が正則のとき上記の問題の解は唯一つである: $x=(A^{\mathrm{T}}A)^{-1}A^{\mathrm{T}}\overrightarrow{b}$

この記事では主張1(最小二乗法の行列による定式化)について解説します。主張2の証明には行列の公式がいくつか必要なのでいつか別記事で書こうと思います。→正規方程式の導出と計算例


ビュフォンの針

ビュフォンの針:$l \leq d$ とする。平面上に間隔 $d$ で平行線を引く。長さ $l$ の針を適当に投げたとき,針が平行線と交わる確率は,$\dfrac{2l}{\pi d}$ である。

非常に有名な確率の問題です。円周率が登場するのが面白いですね。


統計学における仮説検定:
とある仮説が正しいかどうかを統計学を使って判断する手法。

「仮説検定」と言わずに単純に「検定」ということも多いです。統計検定という資格と混同しないようにご注意下さい。


二項分布の正規近似(ド・モアブル–ラプラスの定理)
二項分布 $\mathrm{Bin}(n,p)$ は $n$ が十分大きいとき,平均 $np$,分散 $np(1-p)$ の正規分布に近づく。

ド・モアブル–ラプラスの定理の嬉しさ,中心極限定理との関係など。


同時確率密度関数が,
$f(\overrightarrow{x})=\dfrac{1}{(2\pi)^{\frac{n}{2}}\sqrt{|\Sigma|}}\exp \left\{-\dfrac{1}{2}(\overrightarrow{x}-\overrightarrow{\mu})^{\top}\Sigma^{-1}(\overrightarrow{x}-\overrightarrow{\mu})\right\}$
で表される分布を多変量正規分布(多変量ガウス分布)と言う。

上記の一見複雑な関数の意味を理解するのが目標です。


逆関数法:累積分布関数が $F(x)$ であるような確率分布に従う乱数を生成したいときには,$[0,1]$ 上の一様分布に従う乱数を生成してそれに $F^{-1}$ をかませばよい。

逆関数法のモチベーション,方法,具体例などを解説します。


確率変数 $X$ が従う分布の尖度,歪度が以下のように定義される:
歪度:$\dfrac{E[(X-\mu)^3]}{\sigma^3}$
尖度:$\dfrac{E[(X-\mu)^4]}{\sigma^4}-3$

統計学における歪度,尖度の定義,意味について解説します。


定理:
$X_1,X_2,\cdots,X_n$ が互いに独立に平均 $\mu$,分散 $\sigma^2$ の正規分布に従うとき,
$\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2$ は自由度 $n-1$ のカイ二乗分布に従う。

ただし,$\overline{X}=\dfrac{X_1+X_2+\cdots +X_n}{n}$ です。


平均が $\mu$,分散が $\sigma^2$ である正規分布の母分散の推定,検定:
母平均が既知→ $\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\mu)^2$ が自由度 $n$ のカイ二乗分布に従うことを使う。
母平均が未知→ $\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2$ が自由度 $n-1$ のカイ二乗分に従うことを使う。


統計量(確率変数)がデータから計算した統計量の値より極端な値を取る確率をp値と言う。
p値が小さい→帰無仮説が正しくなさそう。

p値の意味,具体例(カイ二乗分布)について説明します。


同時確率関数が
$P(n_1,\cdots,n_k)=\dfrac{n!}{n_1!\cdots n_k!}p_1^{n_1}\cdots p_k^{n_k}$ (各 $n_i$ が非負で $n_1+\cdots +n_k=n$ のときはこの値,それ以外のときは $0$)
で表されるような分布を多項分布と言う。
ただし,$n,p_1,\cdots,p_k$ はパラメータで,$p_1+\cdots +p_k=1$ を満たす。


確率密度関数が,
$f(x_1,\cdots,x_n)=Cx_1^{\alpha_1-1}\cdots x_n^{\alpha_n-1}$
(ただし,$x_1+\cdots +x_n=1,x_i\geq 0\:(i=1,\cdots,n)$ を満たす$(x_1,\cdots, x_n)$ についてのみ確率が定義される)で表されるような多次元の確率分布をディリクレ分布と言う。ただし,$\alpha_1,\cdots,\alpha_n$ はパラメータで $C$ は正規化定数。


確率変数 $Y$ が正規分布に従うとき,$e^Y$ が従う分布を対数正規分布と言う。

前半は対数正規分布の応用例(ゆるい話),後半は対数正規分布の確率密度関数と平均,分散を計算します。


確率変数 $X$ に対して,モーメント母関数(積率母関数)を $M_X(t)=E[e^{tX}]$ で定義する。

モーメント母関数 $M_X(t)$ は $t$ についての関数です。 $X$ が従う確率分布によってはモーメント母関数は存在しないこともありますが,以下ではモーメント母関数が存在するような場合について考えます。


確率(密度 or 質量)関数が,
ある関数 $g_i(\theta)$,$h_i(x)$ $(i=0,1,\dots,d)$ を用いて
$p(x\mid \theta)=g_0(\theta)h_0(x)\exp\left\{\displaystyle\sum_{i=1}^dg_i(\theta)h_i(x)\right\}$
と表せるような分布を指数型分布族(exponential family)と言う。


二つのベクトル $\overrightarrow{a}=(a_1,a_2,\cdots,a_n)$ と $\overrightarrow{b}=(b_1,b_2,\cdots,b_n)$ に対して
$\dfrac{a_1b_1+\cdots +a_nb_n}{\sqrt{a_1^2+\cdots +a_n^2}\sqrt{b_1^2+\cdots +b_n^2}}$
をコサイン類似度(またはコサイン距離)と言う。


「向き」に確率をのせた分布の代表例としてフォンミーゼスフィッシャー分布がある。

まずは(少し難しいですが)定義を紹介して,それから二次元の場合の例を通じて意味を解説します。