ソフトマックス関数

更新 2022/01/26

ソフトマックス関数

ソフトマックス関数とは
$y_i=\dfrac{e^{x_i}}{e^{x_1}+e^{x_2}+\cdots +e^{x_n}}\:(i=1,\dots,n)$
という関数のこと。

ソフトマックス関数 各成分が正で，合計が $1$ になるように調整するという役割を持つ。

ソフトマックス関数の定義・意味・性質を整理しました。

ソフトマックス関数とは

ソフトマックス関数の定義式：
yi=exiex1+ex2+⋯+exn (i=1,…,n)y_i=\dfrac{e^{x_i}}{e^{x_1}+e^{x_2}+\cdots +e^{x_n}}\:(i=1,\dots,n)yi​=ex1​+ex2​+⋯+exn​exi​​(i=1,…,n)
について，説明します。
nnn 個の実数 (x1,⋯ ,xn)(x_1,\cdots,x_n)(x1​,⋯,xn​)
を入力とし， nnn
個の実数 (y1⋯ ,yn)(y_1\cdots,y_n)(y1​⋯,yn​) を出力する関数です。
例えば n=3n=3n=3 の場合，(x1,x2,x3)(x_1,x_2,x_3)(x1​,x2​,x3​) が入力で，y1=ex1ex1+ex2+ex3y_1=\dfrac{e^{x_1}}{e^{x_1}+e^{x_2}+e^{x_3}}y1​=ex1​+ex2​+ex3​ex1​​ と y2=ex2ex1+ex2+ex3y_2=\dfrac{e^{x_2}}{e^{x_1}+e^{x_2}+e^{x_3}}y2​=ex1​+ex2​+ex3​ex2​​ と y3=ex3ex1+ex2+ex3y_3=\dfrac{e^{x_3}}{e^{x_1}+e^{x_2}+e^{x_3}}y3​=ex1​+ex2​+ex3​ex3​​が出力です。
例えば，x=(10,2,1)x=(10,2,1)x=(10,2,1) にソフトマックス関数をほどこすと，y=(0.9995⋯ ,0.0003⋯ ,0.0001⋯ )y=(0.9995\cdots,0.0003\cdots,0.0001\cdots)y=(0.9995⋯,0.0003⋯,0.0001⋯) となります。

ソフトマックス関数と確率分布

性質1

ソフトマックス関数の出力は $0$ から $1$ の間で，合計は $1$ になる。つまり，

$0 < y_i < 1$
$y_1+\cdots +y_n=1$

確率分布の表現に使えそうですね！　この性質のおかげで，ソフトマックス関数は機械学習で使われることがあります。具体的には，分類問題に対するニューラルネットワークの最終層として使われることがあります。

性質1の証明は，ソフトマックス関数の定義から簡単にできます。 $n=2$ の場合で確認してみましょう。

性質1の確認(n=2の場合)

$e^{x_1}$ と $e^{x_2}$ は $0$ 以上なので， $y_1,y_2$ は $0$ から $1$ の間。
$y_1+y_2\\ =\dfrac{e^{x_1}}{e^{x_1}+e^{x_2}}+\dfrac{e^{x_2}}{e^{x_1}+e^{x_2}}\\ =\dfrac{e^{x_1}+e^{x_2}}{e^{x_1}+e^{x_2}}\\ =1$

「ソフトマックス」と呼ぶ理由

ソフトマックス関数は，「マックス関数」を「ソフトにしたもの」とみなせます。

マックス関数とは？
一番大きい成分を $1$ にして，それ以外のものを $0$ にする関数を「最大を取り出す」のでマックス関数と呼ぶことにします。
ソフトにするとは？
さきほどの具体例を見るとわかりやすいです。 $x=(10,2,1)$ にソフトマックス関数をほどこすと， $y=(0.9995\cdots,0.0003\cdots,0.0001\cdots)$ でした。マックス関数の出力 $(1,0,0)$ をソフトにしたという感じです。実際，以下の性質が成り立ちます。

性質2

入力成分の中で $x_i$ がダントツで大きいなら，

$y_i$ はほぼ $1$ で他の出力成分はほぼ $0$

シグモイド関数との関係

n=2n=2n=2
 の場合は，
y1=ex1ex1+ex2y_1=\dfrac{e^{x_1}}{e^{x_1}+e^{x_2}}y1​=ex1​+ex2​ex1​​
 となります（y1+y2=1y_1+y_2=1y1​+y2​=1
 という条件があるので，y2y_2y2​
 のことは忘れて
y1y_1y1​
 だけ考えてみる）。
分母分子を
ex1e^{x_1}ex1​
 で割ると
11+ex2−x1\dfrac{1}{1+e^{x_2-x_1}}1+ex2​−x1​1​
 となり，シグモイド関数が登場します。

ソフトマックス関数の微分

ソフトマックス関数の微分は，出力 $y_i$ を使って簡潔に表せます。

ソフトマックス関数の微分公式

$\dfrac{\partial y_i}{\partial x_j}= \begin{cases}y_i(1-y_i)&i=j\\-y_iy_j&i\neq j\end{cases}$

つまり，

出力成分 $y_i$ を入力成分 $x_i$ で微分すると $y_i(1-y_i)$
出力成分 $y_i$ を入力成分 $x_j$ で微分すると $-y_iy_j$

証明は，商の微分公式を使って計算するだけです。

証明

表記簡略化のために， $e^{x_1}+\cdots +e^{x_n}=Z$ とおく。 $y_i=\dfrac{e^{x_i}}{Z}$ である。

$i=j$ のとき，

$\dfrac{\partial y_i}{\partial x_i}=\dfrac{e^{x_i}Z-e^{x_i}e^{x_i}}{Z^2}=y_i(1-y_i)$

$i\neq j$ のとき，

$\dfrac{\partial y_i}{\partial x_j}=\dfrac{-e^{x_i}e^{x_j}}{Z^2}=-y_iy_j$

ソフトマックス関数という名前，何度でも呼びたくなりますね。

この記事の監修者

マスオ

高校数学の美しい物語の管理人。「わかりやすいこと」と「ごまかさないこと」の両立を意識している。著書に『高校数学の美しい物語』『超ディープな算数の教科書』。記事の誤植やわかりにくい等のご指摘はお気軽にメールください！