例題

コイン投げのゲームをしました。表が出るか裏が出るかを予想して、3回投げて当てたのが多かった方が勝ちです。

やってみたら(表、表、裏)が出て、表を予想した人の価値となりました。しかし、このコインが、本当に2分の1の確率で出るのか疑われました。

表が出る確率が2分の1よりかなり大きい(例えば3分の2以上とかの)確率は?

以下の開設のPPTでの説明は:BayesEst01.pdf(508KB)

事象$y$

1回目の試行で「表が出た」という事象を$y_1=1$、「裏が出た」という事象を$y_1=0$と表しましょう。$y_1$は、0か1が出るということなので、 $$y_1\in {0,1}$$ です。2回目以降も、$y_2\in {0,1 }$、$y_3\in {0,1 }$と表し、 $$y=(y_1,y_2,y_3)$$ と表記しましょう。例題の場合(表、表、裏)となったので、 $$y=(1,1,0)$$ ですね。

尤度 $\Pr(y|p)$

1回のコイン投げ(試行と言います)で表が出る確率を$p$で、2回目も3回目も同じだとしましょう。(同じコインを使っているので、そう考えてもよいでしょう。投げ方とかが違ったら?・・・ここでは、あまりややこしく考えません)

この時、事象$y_1$が生じる確率は $$\Pr(y_1|p)=p^{y_1}(1-p)^{1-y_1}$$ ややこしく見えますが、表が出たら$Pr(y_1=1|p)=p$ということだし、裏が出たら$\Pr(y_1=0|p)=1-p$ということを、場合分けせずにいっぺんに表現したらこうなります。

事象$y=(y_1,y_2,y_3)$が生じる確率は、これが独立に3回行われるので、 $$\Pr(y|p)=\Pr(y_1|p)\Pr(y_2|p)\Pr(y_3|p)$$

$$=\prod_{i=1}^3\Pr(y_i|p)$$

$$=\prod_{i=1}^3p^y_i(1-p)^{1-y_i}$$

これもややこしく見えますが、例だと、$y=(1,1,0)$なので、 $$\Pr(y=(1,1,0)|p)=p^2(1-p)$$ です。具体的に考えると簡単です。

この $\Pr(y|p)$ は、$p$が与えられたときに$y$が生じる確率(条件付き確率と言います)。**尤度(ゆうど, Likelihood)**と呼ばれます。

ちなみに、$y$として考えられる事象は、すべて表が出るのが1通り$(1,1,1)$です。2回表が出るのが3通り$(1,1,0),(1,0,1),(0,1,1)$、1回表が出るのが3通り$(1,0,0),(0,1,0),(0,0,1)$、裏しか出ないのが1通り$(0,0,0$の合計8通りあります。

この8通りが同じ確率で出ると考えるのは早急で、表が出る確率$p$が2分の1でなかったら、そうはいきません。

例えば、$p=1/3$だとすると、それぞれの確率は、全て表が1/27、2回表は3通りとも2/27、1回表も3通りとも4/27、全て裏は8/27となります。

ちなみに、8通りの確率を合計すると1となるはずです(というか、ならんといかんですね)。

$p=0,1/2/2/3,1$の場合でも計算してみると、それぞれの尤度は次のようになりますね。

$y=(1,1,1)$ $y=(1,1,0)$ $y=(1,0,1)$ $y=(0,1,1)$ $y=(1,0,0)$ $y=(0,1,0)$ $y=(0,0,1)$ $y=(0,0,0)$
$\Pr(y\mid p=0)$ 0 0 0 0 0 0 0 1 1
$\Pr(y\mid p=\frac{1}{3})$ $\frac{1}{27}$ $\frac{2}{27}$ $\frac{2}{27}$ $\frac{2}{27}$ $\frac{4}{27}$ $\frac{4}{27}$ $\frac{4}{27}$ $\frac{8}{27}$ 1
$\Pr(y\mid p=\frac{1}{2})$ $\frac{1}{8}$ $\frac{1}{8}$ $\frac{1}{8}$ $\frac{1}{8}$ $\frac{1}{8}$ $\frac{1}{8}$ $\frac{1}{8}$ $\frac{1}{8}$ 1
$\Pr(y\mid p=\frac{2}{3})$ $\frac{8}{27}$ $\frac{4}{27}$ $\frac{4}{27}$ $\frac{4}{27}$ $\frac{2}{27}$ $\frac{2}{27}$ $\frac{2}{27}$ $\frac{1}{27}$ 1
$\Pr(y\mid p=1)$ 1 0 0 0 0 0 0 0 1

もうちょっと一般的に、8通りの$y$について尤度を求めると、は以下のようになります。(2回表が出る場合と、1回表が出る場合は、それぞれ3通りあって、同じことなので省略しました)

$y=(1,1,1)$ $y=(1,1,0)$ $\cdots$ $y=(0,0,1)$ $y=(0,0,0)$
$\Pr(y\mid p)$ $p^3$ $p^2(1-p)$ $\cdots$ $p(1-p)^2$ $(1-p)^3$ 1

さらに一般的に書くと、尤度は $$\Pr(y|p)=\prod_{i=1}^3p^{y_i}(1-p)^{1-y_i}$$ ということになります。

最尤法 $\max_p \Pr(y|p)$

さて、表・裏が出る可能性は8通りあるけど、今回は表が2回出ました。つまり、$y=(1,1,0)$ですね。これを前提にしたら、表が出る確率$p$はいくらだと考えるのが最も尤もらしいでしょうか?

表が出る確率$p$が0だったら、表が2回出る確率は0ですね。 $$\Pr(y=(1,1,0)|p=0)=0$$ $p=1/3$だったら $$\Pr(y=(1,1,0)|p=1/3)=\frac{1}{3}\times\frac{1}{3}\times\frac{2}{3}=\frac{2}{27}$$ 、同様に$\Pr(y|p=1/2)=1/8$、$\Pr(y|p=2/3)=4/27$、$\Pr(y|p=1)=0$。

さきほどの尤度の表でいうと下の赤字の部分のことですね。(※すみませn,エディタ変えたら色が出せなくなりました!確認はPDF版でお願いします。)

$y=(1,1,1)$ ${y=(1,1,0)}$ $\cdots$ $y=(0,0,1)$ $y=(0,0,0)$
$\Pr(y\mid p=0)$ 0 ${0}$ $\cdots$ 0 1 1
$\Pr(y\mid p=\frac{1}{3})$ $\frac{1}{27}$ ${\frac{2}{27}}$ $\cdots$ $\frac{4}{27}$ $\frac{8}{27}$ 1
$\Pr(y\mid p=\frac{1}{2})$ $\frac{1}{8}$ ${\frac{1}{8}}$ $\cdots$ $\frac{1}{8}$ $\frac{1}{8}$ 1
$\Pr(y\mid p=\frac{2}{3})$ $\frac{8}{27}$ ${\frac{4}{27}}$ $\cdots$ $\frac{2}{27}$ $\frac{1}{27}$ 1
$\Pr(y\mid p=1)$ 1 ${0}$ $\cdots$ 0 0 1

このようにどんな$p$を想定するかで尤度は異なる。ならば、尤度が最も高い$p$が最も尤もらしいと考えてよいのではないか? この考え方が最尤法(さいゆうすいてい method of maximum likelihood)あるいは最尤推定(maximum likelifood estimation, MLE)。これで求められた$p$が最尤推定量(maximum likelihood estimator, MLE)

例の尤度は、 $$\Pr(y=(1,1,0|p)=p^2(1-p)$$ でした。これを最も大きくする$p$は?

$f(x)=x^2(1-x)$のグラフを描いてみるとこんな感じ。

img

このカーブが一番高くなっている横軸の値が最尤推定量ということ。しかし、図では正確な値はわからないので計算してみる。

尤度$\Pr(y|p)=p^2(1-p)$の傾きが0になっているところが一番大きいのだから、尤度を$p$で微分した $$\frac{d}{dp}\Pr(y|p)=2p-3p^2$$ が0となる$\hat{p}=2/3$が最尤推定量!

補足:対数尤度

今回、尤度を求める関数は簡単でしたが、指数関数$\exp$が含まれたりすると、尤度の微分が面倒になります。その場合、尤度の対数(自然対数)をとって、その最大化を行います。 $$\ln\Pr(y|p)$$ これを対数尤度と言います。尤度を最大化する所と対数尤度を最大化するところは同じなので、どっちでもよいのです。

ちなみに、コインの場合の対数尤度は、

$$\ln\Pr(y|p)= \sum^3_{y_i=1} y_i \ln p+\sum^3_{y_i=1} (1-y_i)\ln(1-p)$$

です。掛け算が足し算になってちょっとわかりやすくなっていませんか?

$y=(1,1,0)$の例だと、 $$\ln\Pr(y=(1,1,0)|p)=2\ln p+\ln(1-p)$$ です。このグラフを見ると、対数をとらない尤度と少し形が変わります。しかし、対数は単調増加なので、最大値となる$p$は変わりません。 img対数尤度を$p$で微分すると、 $$\frac{d}{dp}\ln\Pr(y|p)=\frac{2}{p}-\frac{1}{1-p}$$ でこれが0になる$p$は、$\hat{p}=2/3$で、対数をとらない場合の尤度と同じですね。

事後分布

尤度と事後分布の違いを理解する

最尤法は、表が出る確率$p$を前提とした場合に表がどう出るかという$y$の確率を求めました。これは$p$がわかっていたらわかりやすい考え方ですが、$p$の可能性がいくつもあって、そのうちのどれがよいかと考えるにはちょっと回りくどい思考が必要でした。

表が出る確率$p$というのは、本当はよくわかりません。私たちが観察できるのは、コインを3回投げて表が何回出たかという$y$の方です。ですから、$y$が出た場合に、どういう$p$の可能性があるかと考えた方が素直なような気がします。

これを数式で書くと、 $$\Pr(p|y)$$ となります。$y$が与えられた場合の$p$の条件付き確率です。これを事後分布と言います。

尤度$\Pr(y|p)$の$y$と$p$をひっくり返しただけですが、意味は全然違います。尤度$\Pr(y|p)$は、原因$p$を前提にして結果$y$の可能性を求めるものなので、定義が簡単でした。ところが事後分布$\Pr(p|y)$は、結果$y$から原因$p$を推定するので、$y$が生じる$p$のいろんな可能性をかき集めて定義しなければなりません。

事前確率というものがある

先ほどの表で、事後分布を求めてみましょう。尤度はこんな感じでした。

$y=(1,1,1)$ ${y=(1,1,0)}$ $\cdots$ $y=(0,0,1)$ $y=(0,0,0)$
$\Pr(y\mid p=0)$ 0 ${0}$ $\cdots$ 0 1 1
$\Pr(y\mid p=\frac{1}{3})$ $\frac{1}{27}$ ${\frac{2}{27}}$ $\cdots$ $\frac{4}{27}$ $\frac{8}{27}$ 1
$\Pr(y\mid p=\frac{1}{2})$ $\frac{1}{8}$ ${\frac{1}{8}}$ $\cdots$ $\frac{1}{8}$ $\frac{1}{8}$ 1
$\Pr(y\mid p=\frac{2}{3})$ $\frac{8}{27}$ ${\frac{4}{27}}$ $\cdots$ $\frac{2}{27}$ $\frac{1}{27}$ 1
$\Pr(y\mid p=1)$ 1 ${0}$ $\cdots$ 0 0 1

話を簡単にするために、表が出る確率の可能性として、$p=0,1/3,1/2,2/3,1$だけだとしましょう。 実際にコインを投げて$y=(1,1,0)$が出たということは、$p=0$、$p=1$はあり得ないですね。尤度としては$p=2/3$が一番大きいです。

しかし、このコインをつくるおっちゃんの技術はもうちょっと確かで、50%ぐらいはちゃんと$p=1/2$のコインをつくることができます。数式で表すと、$\Pr(p=1/2)=0.5$となります。手元が狂って$p=1/3$となる確率が0.2、$p=2/3$となる確率も0.2ぐらいあるそうです。さらに、裏しか出ない$p=0$、あるいは表しか出ない$p=1$となる場合もそれぞれ5%ぐらいあるそうなのです。

この確率を事前確率と言い、次で表します。 $$\Pr(p)$$

同時分布=尤度×事前確率

この事前確率$\Pr(a)$を尤度$\Pr(y|p)$に掛けると同時分布$ \Pr(p,y)$が得られます。 $$\Pr(p,y)=\Pr(y|p)\Pr(p)$$

コイン投げの例で言うとこうなります。

$\Pr(p,y=(1,1,1))$ ${\Pr(p,y=(1,1,0))}$ $\cdots$ $\Pr(p,y=(0,0,1))$ $\Pr(p,y=(0,0,0))$
$\Pr(p=0,y)$ $0{\times 0.05}$ ${0}{\times 0.05}$ $\cdots$ $0{\times 0.05}$ $1{\times 0.05}$ $\Pr(p=0)=0.05$
$\Pr(p=\frac{1}{3},y)$ $\frac{1}{27}{\times 0.2}$ ${\frac{2}{27}}{\times 0.2}$ $\cdots$ $\frac{4}{27}{\times 0.2}$ $\frac{8}{27}{\times 0.2}$ $\Pr(p=\frac{1}{3})=0.2$
$\Pr(p=\frac{1}{2},y)$ $\frac{1}{8}{\times 0.5}$ ${\frac{1}{8}}{\times 0.5}$ $\cdots$ $\frac{1}{8}{\times 0.5}$ $\frac{1}{8}{\times 0.5}$ $\Pr(p=\frac{1}{2})=0.5$
$\Pr(p=\frac{2}{3},y)$ $\frac{8}{27}{\times 0.2}$ ${\frac{4}{27}}{\times 0.2}$ $\cdots$ $\frac{2}{27}{\times 0.2}$ $\frac{1}{27}{\times 0.2}$ $\Pr(p=\frac{2}{3})=0.2$
$\Pr(p=1,y)$ $1{\times 0.05}$ ${0}{\times 0.05}$ $\cdots$ $0{\times 0.05}$ $0{\times 0.05}$ $\Pr(p=1)=0.05$
${\Pr(y=(1,1,1))}$ ${\Pr(y=(1,1,0))}$ $\cdots$ ${\Pr(y=(0,0,1))}$ ${\Pr(y=(0,0,0))}$ $1$

表体の数字が同時確率$\Pr(p,y)$で、行の合計が事前分布$\Pr(p)$

同時分布というのは、$p$も$y$も前提にしない、$p$と$y$の両方が事象として生じる可能性を評価した確率です。起こりうる$p$と$y$の確率をすべて足して1となります。

ちなみに、条件付き確率$\Pr(y|p)$と$\Pr(p|y)$は全然違いますが、同時確率$\Pr(p,y)$と$\Pr(y,p)$は同じ意味です。

そもそも、条件付き確率が以下で定義されています。 $$\Pr(y|p)=\frac{\Pr(p,y)}{\Pr(p)}$$ $$\Pr(p|y)=\frac{\Pr(p,y)}{\Pr(y)}$$

事後分布=尤度×事前分布/yが生じた確率

それでは、事後分布$\Pr(p|y)$を求めてみましょう。 まず、コイン投げの例で説明します。この例の事後分布は、$y=(1,1,0)$が起こった場合の$p$の分布だから、上の表の赤字が入っている列で、 $$\Pr(p|y=(1,1,0))=\frac{{\Pr(p,y=(1,1,0))}}{{\Pr(y=(1,1,0))}}
=\frac{{\Pr(y=(1,1,0))|p)}{\Pr(p)}}{{\Pr(y=(1,1,0))}}$$ で計算できて、 $${\Pr(y=(1,1,0)}) ={0}{\times 0.05} +{\frac{2}{27}}{\times 0.2} +{\frac{1}{8}}{\times 0.5} +{\frac{4}{27}}{\times 0.2} +{0}{\times 0.05} ={0.106944} $$ なので、各$p$の事後分布は、 $$\Pr(p=0|y=(1,1,0))=\frac{{0}{\times{0.05}}}{{0.106944}}=0$$

$$\Pr(p=\frac{1}{3}|y=(1,1,0))=\frac{{\frac{2}{27}}{\times0.2}}{{0.106944}}=0.138528$$

$$\Pr(p=\frac{1}{2}|y=(1,1,0))=\frac{{\frac{1}{8}}{\times0.5}}{{0.106944}}=0.584416$$

$$\Pr(p=\frac{2}{3}|y=(1,1,0))=\frac{{\frac{4}{27}}{\times0.2}}{{0.106944}}=0.277056$$

$$\Pr(p=1|y=(1,1,0))=\frac{{0}{\times{0.05}}}{{0.106944}}=0 $$

img

$p=1/2$の場合が多いという事前情報が、尤度の場合より、事後分布を$p=1/2$の方に分布を近づけていることがわかります。

事後分布$\propto$尤度×事前分布

ただし、この計算は、${\Pr(y=(1,1,0)})$の計算が大変ですね。それなのに、各$p$の事後分布を求める式は、全部同じ数が入るので、分布を求めるにはどうでもよさそうです。${\Pr(y=(1,1,0))}$で割らない値の分布を求めてみましょう。

これだと、 $$\Pr(p=0|y=(1,1,0))\propto{0}{\times{0.05}}$$

$$\Pr(p=\frac{1}{3}|y=(1,1,0))\propto{\frac{2}{27}}{\times0.2}$$

$$\Pr(p=\frac{1}{2}|y=(1,1,0))\propto{\frac{1}{8}}{\times0.5}$$

$$\Pr(p=\frac{2}{3}|y=(1,1,0))\propto{\frac{4}{27}}{\times0.2}$$

$$\Pr(p=1|y=(1,1,0))\propto{0}{\times{0.05}} $$ と計算は簡単ですね。ちなみに、$\propto$は「比例する」という意味で、正確には具体的な数字には使いませんが、後の説明のために強引に使用しています。 グラフに書くとこうなります。

img

値は違いますが、分布の形は同じですね。つまり、$p$の分布を知るためには${\Pr(y=(1,1,0)})$の計算は不要だということです。

事後分布の一般的な説明

事後分布をもう少し一般的に説明しましょう。

$$\Pr(p|y)=\frac{{\Pr(y|p)}{\Pr(p)}}{{\Pr(y)}}$$ ここで、${\Pr(y)}$は$p$にかかわらず一定なので、$\Pr(p|y)$の分布の形には影響しません。そこで、これを省略して、 $$\Pr(p|y)\propto{\Pr(y|p)}{\Pr(p)}$$ で考えます。つまり、尤度×事前分布ということですね。

コイン投げの例の事後分布を求めてみる:pが連続変数

コイン投げの例($y=(1,1,0)$)だと、尤度は $${\Pr(y=(1,1,0)|p)=p^2(1-p)}$$ でした。事前分布を$p$の[0,1]区間全体で定義していませんでしたが、計算が簡単になるように、 $${\Pr(\le p)=3p^2-2p^3}$$ と仮定しましょう。いきなり${\Pr(\le p)}$と、${\le}$がくっつきましたが、$p$が連続変数の場合、特定の$p$は「点」でしかないので確率が定義できません。そこで、このように「$p$以下となる確率」というように累積分布で表すか、その傾きである確率密度で表します。 累積分布 ${\Pr(\le p)}$をグラフで表すとこんな感じです。

img

確率密度はその傾きで、 $${\frac{d}{dp}\Pr(\le p)=6p-6p^2=6p(1-p)}$$ グラフに表すとこんな感じです。

img

0.5辺りが出やすく、0とか1とかは出にくいということを表しています。

そうなると、事後分布は、確率密度で表して、 $$\frac{d}{dp}\Pr(\le p|y)\propto {p^2(1-p)}{p(1-p)}=p^3(1-p)^2$$ グラフで表すとこんな感じです。

img

点で表しているのが尤度です。分母を省略しているので、山がちっさくなってしまっていますが、スケールを調整すると、こんな感じになります。

img

0.5が出やすいという事前分布に引っ張られて、尤度のグラフより0.5の方に寄っているのがわかりますね。

補足:事前分布って?

しかし、この事前分布はどっから出てきたのか? そんな勝手に適当な分布を当てはめていいのか?コインの例だと、結構事前分布に引っ張られているではないか? という疑問が出されても当然です。

事前分布を仮定しないとマズい例:UFOにやられた?

ちょっと極端な例で説明します。事前分布として、人の死亡リスクを考えます。ただし、話を簡単にするために、リスクは以下の2つか、無事の3通りしかないと仮定します。

  • UFOに攻撃される
  • UFOには攻撃されないが、風邪をひく
  • UFOにも襲われなかったし、風邪もひかなかった、無事

まず尤度を考えます。UFOに襲われた場合は、間違いなくでやられます。風邪をひいた場合は、1万人に1人ぐらいが風邪をこじらせて亡くなられるかもしれません(もっと少ないのでしょうが、正しい確率は知りません) 昨日、ある人が亡くなれました。この場合、死因はUFOと風邪のどちらでしょう?

まず尤度を考えます。 件の方が亡くなられた場合 $y=1$、生存されている場合 $y=0$ と表記します。尤度は以下のようになります。

$y=1$ $y=0$
$\Pr(y\mid UFO)$ 1 0 1
$\Pr(y\mid 風邪)$ $\frac{1}{10000}$ $\frac{9999}{10000}$ 1
$\Pr(y\mid 無事)$ 0 1 1

亡くなられている($y=1$)ので、最尤法で言うと、この方は**UFOに襲撃されて亡くなられた!!!**ことになります。

${y=1}$ $y=0$
$\Pr(y\mid UFO)$ ${1}$ 0 1
$\Pr(y\mid 風邪)$ ${\frac{1}{10000}}$ $\frac{9999}{10000}$ 1
$\Pr(y\mid 無事)$ ${0}$ 1 1

しかし、UFOに襲撃される可能性はまずない(・・・と思います、たぶん)。これが事前分布${\Pr(UFO)=0.000000\cdots}$ということです。風邪ひいたことのない人はあんまりいないので ${\Pr(風邪)=0.95}$、風邪もひいたことがない人が5%ぐらいいるかもしれません。だから${\Pr(無事)=0.05}$としておきましょう。

同時分布は以下となります。

${\Pr(リスク,y=1)}$ $\Pr(リスク,y=0)$
$\Pr(UFO,y)$ ${1}{\times 0.000}$ $0{\times 0.000}$ $\Pr(UFO){= 0.000}$
$\Pr(風邪,y)$ ${\frac{1}{10000}}{\times 0.95}$ $\frac{9999}{10000}{\times 0.95}$ $\Pr(風邪){=0.95}$
$\Pr(無事,y)$ ${0}{\times 0.05}$ $1{\times 0.05}$ $\Pr(無事){= 0.05}$
${\Pr(y=1)}$ ${\Pr(y=0)}$ 1

事後分布は、 $$\Pr(リスク|y=1)=\frac{{\Pr(y=1|リスク)}{\Pr(リスク)}}{{\Pr(y=1)}}
\propto {\Pr(y=1|リスク)}{\Pr(リスク)}$$

「リスク」のところに、「UFO」「風邪」「無事」を入れて、分布を求めると、

$$\Pr(UFO|y=1)\propto {1}{\times 0.000}$$

$$\Pr(風邪|y=1)\propto {\frac{1}{10000}}{\times 0.95}$$

$$\Pr(無事|y=1)\propto {0}{\times 0.05}$$

となり、確率1で風邪ですね。。。

事前分布が間違ってたら・・・?

UFOの例は、「そりゃそうだろう」という気はしますが、コイン投げの例だと、最初に仮定した事前分布(コインづくりのおっちゃんの正確度)は微妙で、ベイズの推定の結果がそれに引っ張られているというのは、推定としてどうだろうという気もします。

しかし、コイン投げの結果は、わずか3回の結果でした。30回投げたらどうでしょうか?

30回投げて、20回が表で、10回が裏が出たとします。

$$\frac{d}{dp}\Pr(\le p|y)\propto {p^{20}(1-p)^{10}}{p(1-p)}$$

$$=p^{21}(1-p)^{11}$$

回数が増えると、尤度の次数が増えて、事前分布の影響が小さくなるのがわかります。 グラフで表すと、以下です。

img

分母を省略して山が小さくなった分、スケールを調整したのが以下です。

img

ほとんど尤度と同じですね。

サンプル数が多くなると、事前分布の影響はそれほど影響しなくなります。範囲を限定するとか、制約のだいぶ強い事前分布を仮定すれば別ですが・・・ ということは、十分なサンプルがとれるのであれば、あんまり事前分布の形状に神経質になる必要はない!・・・と言ってしまっていいのかは、ちょっと議論のあるところではありますが。