分野: データの分析,確率


ポリアの壺:
壺に赤玉が $a$ 個,白球が $b$ 個入っている。その中から玉を1つ無作為に取り出し,選んだ玉を壺に戻した上で選んだ玉と同じ色の玉を1つ壺に加える。
この試行を $n$ 回繰り返す。 $n$ 回目に赤玉が選ばれる確率は $p_n=\dfrac{a}{a+b}$


  • 確率 $p$ で当たるような試行を(独立に)$n$ 回繰り返す。そのうち $k$ 回当たる確率は,${}_n\mathrm{C}_kp^k(1-p)^{n-k}$ である。
  • 二項分布 $\mathrm{B}(n,p)$ に従う確率変数の期待値は $np$,分散は $np(1-p)$ である。

確率変数 $X$ と $Y$ が
1:独立なら無相関
2:無相関でも独立とは限らない

3:多次元正規分布に従うとき独立 $\iff$ 無相関

確率変数の独立性,無相関について。混同しやすいので整理しました。


漸化式を用いて確率を求める有名問題を解説します。難関大の受験対策のよい練習問題になるだけでなく,現実的で面白い話題です。


データ群の特徴を一つの数値で表したものを代表値と呼ぶ。代表値の中でも平均値,中央値,最頻値が有名。

平均値,中央値,最頻値の意味と計算方法を解説します。いくつかの具体例を通じてそれぞれのメリット・デメリットを見ていきます。


条件付き確率に関する超有名な問題です。直感的にすぐ納得できる人もいますが,全く納得できない人も多いのでモンティ・ホールのジレンマと呼ばれることもあります。


誕生日のパラドックス:$23$ 人いれば,その中に同じ誕生日である二人組が $50\%$以上で存在する。

同じ誕生日である二人組が存在する確率,なぜパラドックスと呼ばれるのか,三人組の場合はどうなのか,について解説します。


反復試行の確率:
確率 $p$ で成功するような試行を独立に $n$ 回反復して行ったとき,$n$ 回のうち $k$ 回成功する確率は,
${}_n\mathrm{C}_kp^k(1-p)^{n-k}$

反復試行の確率の公式の証明,簡単な例題,最大点を求める応用問題を解説。


コンプガチャの期待値:
$n$ 種類,等確率のコンプガチャで全ての景品を集めるのに必要な回数の期待値は $n(1+\dfrac{1}{2}+\dfrac{1}{3}+\cdots +\dfrac{1}{n})$ である。

コンプガチャについて。確率の練習問題として上式を二通りの方法で証明してみます。


分散とは,データの散らばりの大きさを表す指標です。分散が小さいほど「全員が平均に近い」と言え,分散が大きいほど「平均から遠いデータが多い」と言えます。

このページでは,分散の意味分散の定義式の理由,そして分散を効率的に計算する方法について解説します。


四分位数の定義

四分位数とは,データを小さい順に並べたときの,下から $\dfrac{1}{4}$,または上から $\dfrac{1}{4}$ の部分にある数のことです。
特に,下から $\dfrac{1}{4}$ の数を第1四分位数と言い,上から $\dfrac{1}{4}$ の数を第3四分位数と言います。

四分位数の求め方にはいくつかの流儀があります。このページでは,四分位数を求める2つの方法を,具体例を使って解説します。


$n$ 人でじゃんけんをしたときにあいこになる確率は $p_n=1-\dfrac{2^n-2}{3^{n-1}}$

前半はじゃんけんであいこになる確率 $p_n$ の二通りの導出。
後半は2人,3人, $\cdots$,10人のときに実際にあいこになる確率の計算。


箱ひげ図の意味

箱ひげ図とは,図のように「最大値・最小値・四分位数」の情報を表現したグラフです。箱ひげ図には平均値の情報が含まれることもあります。

箱ひげ図を見れば,データの分布を大雑把に把握することができます。


標準偏差 $\sigma$ はデータの散らばり具合を表す指標の一つ。データを $x_1,x_2,\cdots ,x_n$ とすると
$\sigma=\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2}$

ただし,$\mu$ はデータの平均です。


巴戦(ともえせん)の問題について解説します。2016年東大第2問(文理共通)でも扱われた話題です。