分野: データの分析,確率


ポリアの壺:
壺に赤玉が $a$ 個,白球が $b$ 個入っている。その中から玉を1つ無作為に取り出し,選んだ玉を壺に戻した上で選んだ玉と同じ色の玉を1つ壺に加える。
この試行を $n$ 回繰り返す。 $n$ 回目に赤玉が選ばれる確率は $p_n=\dfrac{a}{a+b}$


共分散について覚えておくべきことを整理しました。

共分散 $\mathrm{Cov}(X,Y)$ は二組の対応するデータの間の関係を表す数値である。
データを$(x_1,\:y_1),(x_2,\:y_2),\cdots,(x_n,\:y_n)$ とおくとき,
$\mathrm{Cov}(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$

ただし $\mu_X$ は $X$ の平均,$\mu_Y$ は $Y$ の平均です。


  • 確率 $p$ で当たるような試行を(独立に)$n$ 回繰り返す。そのうち $k$ 回当たる確率は,${}_n\mathrm{C}_kp^k(1-p)^{n-k}$ である。
  • 二項分布 $\mathrm{B}(n,p)$ に従う確率変数の期待値は $np$,分散は $np(1-p)$ である。

確率変数 $X$ と $Y$ が
1:独立なら無相関
2:無相関でも独立とは限らない

3:多次元正規分布に従うとき独立 $\iff$ 無相関

確率変数の独立性,無相関について。混同しやすいので整理しました。


漸化式を用いて確率を求める有名問題を解説します。難関大の受験対策のよい練習問題になるだけでなく,現実的で面白い話題です。


データ群の特徴を一つの数値で表したものを代表値と呼ぶ。代表値の中でも平均値,中央値,最頻値が有名。

平均値,中央値,最頻値の意味と計算方法を解説します。いくつかの具体例を通じてそれぞれのメリット・デメリットを見ていきます。


条件付き確率に関する超有名な問題です。直感的にすぐ納得できる人もいますが,全く納得できない人も多いのでモンティ・ホールのジレンマと呼ばれることもあります。


誕生日のパラドックス:$23$ 人いれば,その中に同じ誕生日である二人組が $50\%$以上で存在する。

同じ誕生日である二人組が存在する確率,なぜパラドックスと呼ばれるのか,三人組の場合はどうなのか,について解説します。


反復試行の確率:
確率 $p$ で成功するような試行を独立に $n$ 回反復して行ったとき,$n$ 回のうち $k$ 回成功する確率は,
${}_n\mathrm{C}_kp^k(1-p)^{n-k}$

反復試行の確率の公式の証明,簡単な例題,最大点を求める応用問題を解説。


コンプガチャの期待値:
$n$ 種類,等確率のコンプガチャで全ての景品を集めるのに必要な回数の期待値は $n(1+\dfrac{1}{2}+\dfrac{1}{3}+\cdots +\dfrac{1}{n})$ である。

コンプガチャについて。確率の練習問題として上式を二通りの方法で証明してみます。


分散 $V[X]$ はデータの散らばり具合を表す指標。データを $x_1,x_2,\cdots ,x_n$ とすると
$\mathrm{Var}[X]=E[(X-\mu)^2]=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2$

ただし,$\mu$ はデータの平均です。分散は $V[X],\sigma^2$ と書くこともあります。


$n$ 人でじゃんけんをしたときにあいこになる確率は $p_n=1-\dfrac{2^n-2}{3^{n-1}}$

前半はじゃんけんであいこになる確率 $p_n$ の二通りの導出。
後半は2人,3人, $\cdots$,10人のときに実際にあいこになる確率の計算。


標準偏差 $\sigma$ はデータの散らばり具合を表す指標の一つ。データを $x_1,x_2,\cdots ,x_n$ とすると
$\sigma=\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2}$

ただし,$\mu$ はデータの平均です。


巴戦(ともえせん)の問題について解説します。2016年東大第2問(文理共通)でも扱われた話題です。