ベイズ推定

提供: miniwiki
2018/8/19/ (日) 17:44時点におけるAdmin (トーク | 投稿記録)による版 (1版 をインポートしました)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先:案内検索

ベイズ推定(ベイズすいてい、: Bayesian inference)とは、ベイズ確率の考え方に基づき、観測事象(観測された事実)から、推定したい事柄(それの起因である原因事象)を、確率的な意味で推論することを指す。

ベイズの定理が基本的な方法論として用いられ、名前の由来となっている。統計学に応用されてベイズ統計学[1]の代表的な方法となっている。

ベイズ推定においては、パラメータ[math]\,\theta[/math]点推定を求めることは、ベイズ確率(分布関数)を求めた後に、決められた汎関数[math]\,p(\theta)\rightarrow\hat{\theta}[/math]の値(平均値もしくは中央値など)を派生的に計算することと見做される。

  • 標語的には、「真値は分布する」、「点推定にはこだわらない」などの考え方に依拠している。

概要

いま、AおよびXを離散確率変数とする。ここで A を原因、X をそれに対する証拠(つまり原因によって起きたと想定される事象)とするとき、

P(A) = 事象 A が発生する確率を、事前確率 (prior probability)
P(A|X) = 事象 X が発生した下で、事象 A が発生する条件付き確率を、事後確率 (posterior probability)

という。P(A|X) は、ベイズの定理によって

[math] \begin{align} P(A|X) &=\frac{P(X|A) P(A)}{P(X)} \\ &= \frac{P(X|A) P(A)}{\sum_{A}P(X|A) P(A)} \end{align} [/math]

と表される。

ここで、P(X|A) のことを尤度と呼ぶ。またこれを A の関数と考えて尤度関数 L(A|X) = P(X|A) ともいう(L(A|X)はA に関する確率分布ではない)。

ベイズ確率(ベイジアン)の考え方では、A を定数とする必要はなく、上記のような分布に従う確率変数としてよい(客観的に定義できるものではないから、主観確率である)。

この考え方からすると、上のベイズの定理の式は、

主観確率分布 P(A) に、係数 P(X|A) / P(X) を掛けることにより、証拠 X を加味して、より客観性の高い確率分布 P(A|X) を求める

と解釈できることがわかる。このように確率分布をより客観的にする方法(ベイズ改訂)を利用して、A を推定する方法が、ベイズ推定である。さらに新たな証拠が加えられれば、事後確率を新たに事前確率として扱い、ベイズ改訂を繰り返すこともできる(さらに高い客観性が期待される)。

一方、A は「原因」であるから、従来の推計統計学では、確率分布 P(A) は既に決定しているものであり、従って X を条件とする確率 P(A|X)A は意味がない。

従来の推計統計学は既に確固たる数学的理論として構築され、多方面に応用されている。しかしながら母数 a を定数と仮定した上で造り上げられた理論であることから、必ずしも応用に向いたものではない(例えば母集団を決定しにくい医学への応用など)という批判がされる。一方で、ベイズ推定は人間の思考の過程をモデル化したものとも考えられ、人間の思考様式になじむとも主張されている。

ベイズ推定に対する批判としては、事前確率が主観的で一意的に決められない、またそれをもとにして事後確率を求めても、それが客観的な確率分布に収束するという保証がない、といったものがある。

しかし現在では特にコンピュータを用いた方法の発展によりベイズ推定の方法も発展し、スパムメールを識別するためのベイジアンフィルタなどの応用が進んでいる。事前分布としては全く情報がない場合には一様分布などが用いられ(もちろん情報があれば他の分布でよい)、一般には異なる事前確率分布からマルコフ連鎖モンテカルロ法などで安定した結果(事後確率分布)が得られれば、実用的に問題はないと考えられている。

ベイズ推定の具体例

どちらのボウルにクッキーがあるか?

クッキーのいっぱい詰まったボウルが2つあるとしよう。ボウル#1には10個のチョコチップクッキーと30個のプレーンクッキーが、ボウル#2にはそれぞれが20個ずつある(これを前提知識とする)。どちらか1つのボウルをランダムに選び、さらにランダムにクッキーを取り出す。結果、クッキーはプレーンだった。これがボウル#1から取り出されたという確率はどれくらいか?

半分以上だというのは直感的に分かる(ボウル#1の方がプレーンクッキーが多いから)。正確な答えをベイズ推定で出そう。ボウル#1を選ぶという事象をH1、ボウル#2を選ぶという事象をH2とする。

最初にボウルをランダムに選ぶのだから、そのどちらか一方をとる確率は P(H1) = P(H2) = 0.5。

「プレーンクッキーが出た」という観察結果を「データD」とする。ボウル#1での D の確率は P(D | H1) = 30/40 = 0.75 、ボウル#2では P(D | H2) = 20/40 = 0.5 と分かる。ベイズの式は

[math]\begin{align} P(H_1 | D) &= \frac{P(H_1) \cdot P(D | H_1)}{P(H_1) \cdot P(D | H_1) + P(H_2) \cdot P(D | H_2)} \\ & = \frac{0.5 \times 0.75}{0.5 \times 0.75 + 0.5 \times 0.5} = 0.6 \end{align}[/math]

となるから、クッキーを見る前にボウル#1を選ぶ確率(事前確率)は P(H1) = 0.5。クッキーを見た後には、この確率は P(H1|D) = 0.6 に改訂される。

臨床検査における偽陽性

偽陽性はどのような検査でも問題になる。完全な検査はありえず、検査結果が誤って陽性(実際には陰性)となることもある。例えば患者に特定の病気の検査を行う場合、実際には病気でないのに病気だという検査結果を出してしまうことが(少ないながら)ある。ベイズの定理から、もし病気が稀なものならば、(検査自体が正確でも)陽性の結果の多くが偽陽性ということもありうるのがわかる。

特定の病気の検査で、成功率が非常に高い、具体的には

  • 患者が実際に病気であるならば、99%の場合には(確率0.99)検査結果は正しく「陽性」となる。
  • 患者が実際は病気でないならば、95%の場合には(確率0.95)検査結果は正しく「陰性」となる。

としよう。そして患者の0.1%が実際に病気だとしよう(確率0.001)。こうして、検査結果が陽性だったという条件下で、それが偽陽性である確率をベイズの定理を用いて計算しよう。

A を「患者が病気である」という事象、B を「結果が陽性だった」という事象とする。ベイズの定理により、陽性結果が本当の陽性だった確率は

[math]\begin{align} P(A | B) &= \frac{P(B | A) P(A)}{P(B | A)P(A) + P(B | A^C)P(A^C)} \\ &=\frac{0.99\times 0.001}{0.99 \times 0.001 + 0.05\times 0.999} \approx 0.019\end{align}[/math]

そして陽性結果が偽陽性である確率はおよそ 1 − 0.019 = 0.981 となる。

検査の正確性は見かけ上高いにもかかわらず、病気の発生率が非常に低い(1000分の1)ため、陽性の結果となった患者の圧倒的多数(100人に98人)が実際には病気でない。それでも陽性の結果となった患者のうち実際病気である割合 (0.019) は、検査結果を知る前の割合 (0.001) より大幅に絞り込まれている。このように検査は決して無駄ではなく、再検査によってより正確な結果を知ることができる。

さて、検査は理想的には、患者が病気でないときには非常に高い信頼性で陰性の結果を出さねばならない。数学的にいうとこれは、上記の分母の第2項が第1項に比較して小さくなければならないということである。たとえば病気でない患者について 0.999 の確率で陰性の検査結果が出る(上の例では 0.95 だったが)とすれば、この値から計算して偽陽性の確率はおよそ (1 − (0.99 × 0.001/(0.99 × 0.001 + 0.001 × 0.999))) = 0.50 となり、偽陽性の率は約98/100から約50/100に減ることになる(これでもまだ半分は偽陽性だ)。

この例のようにベイズの定理は、稀な条件における検査は、1回の検査で信頼の置ける結果を出せる高い正確性を持つと共に、偽陽性の可能性を覚悟せねばならないことを教えてくれる。偽陰性の確率も同様にベイズの定理から計算することができる。

法廷

ベイズ推定は、法廷で個々の陪審員もしくは裁判官が証拠を矛盾なく収集し、「合理的疑いがあるかどうか」に関する個人の基準に従って総合的に被告人の有罪無罪を推定するために用いることができる。

  • G を、被告人が有罪である事象とする。
  • E を、被告人の DNA が現場で見出された DNA と一致する事象とする。
  • p(E | G) を、被告人が有罪であるとの条件 G の下で DNA が一致する事象 E の確率とする(これらは通常確率1であると見なされる)。
  • p(G | E) を、DNA が一致する条件 E の下で被告人が有罪である事象 G の確率とする。
  • p(G) を、DNA の一致以外の証拠に基づいて被告人が有罪だと陪審員が個人的に推定する確率とする。

ベイズ推定により、DNA の証拠を考慮する前に被告人が有罪である確率が p(G) であるとできたならば、次の関係を用いて、この確率を条件付確率 p(G | E) に改訂できることが分かる:

p(G | E) = p(G) p(E | G) / p(E)

他の証拠に基づいて陪審員が、被告人が有罪である可能性は30%であると考えるとしよう。また法医学的に、ランダムに選んだ人のDNAが現場のDNAと一致する確率は100万分の1、つまり 10-6 であるとされているとしよう。

事象 E の起こり方は2つありうる。被告人が有罪である(事前確率 0.3)か、または無実(事前確率 0.7)であってしかも彼はDNAが偶然一致する100万分の1の人間の1人であるか、である。

陪審員は次のように DNA の証拠を考慮に入れて考えを改めることができる:

p(G | E) = (0.3 × 1.0) /(0.3 × 1.0 + 0.7 × 10-6) = 0.99999766667

ベイズ推定の方法で、ある段階での事後確率を次の事前確率にするという形で全ての証拠を整合的に繋ぎ合わせることができる。ただし陪審員は最初の証拠を考慮する前に有罪の確率について事前確率分布を持っていなければならない。これには、事件が起きた町の適切な人々(性別、年齢などを考慮する)からランダムに選んだ誰かの有罪確率を用いればよかろう。例えばその町に住む5万人の成人男子の1人が犯人であったという事前確率は 1/50,000 とできる。

一般の陪審員にベイズの定理を説明するためには、確率よりもオッズの形(有罪・無罪の確率比)で示すのが分かり易いかもしれない。この形でのベイズの定理は

事後オッズ = 事前オッズ × ベイズ因子

となる(ベイズ因子は旧来の統計学における尤度比に相当する)。上の例では、被告人が有罪の事前確率を 0.3 とする陪審員の考えは、「オッズ 3:7 で有罪」と表現される。ベイズ因子は100万、従って事後オッズは300万:7、あるいは約429,000:1で有罪となる。

潜水艦沈没事故

1968年5月、アメリカの原子力潜水艦スコーピオンが大西洋で行方不明となった。この時捜索と並行して用いられた手法は次のものであった。まず海図上を多数のグリッドに分割してそこに潜水艦が沈んでいる事前確率を経験に基づいて割り振っておき、確率の高い所を捜索し、捜索の結果そこに見付からなかったら全体の確率を改訂する。また確率の高いところを捜索し、これを繰り返して絞り込みを行う。この方法で潜水艦は発見された。

ある領域に潜水艦が沈んでいる確率を p とし、実際にそこにあるという条件でそれが発見される確率をq としよう。その領域を捜索した結果、発見されなければ、潜水艦がそこに沈んでいる事後確率は

[math]p'= \frac{p(1-q)}{(1-p)+p(1-q)}[/math]

となる。それ以外の領域については残りの確率 1 - p を、事前確率に比例する形で割り振る。

モンティ・ホール問題

3つの扉のうち1つだけに賞品が入っていて、回答者はそれを当てたら賞品がもらえる。ただし扉は次のように2段階で選ぶことができる。

  1. まず回答者は3つの扉からどれか1つを選ぶ。
  2. 次に、答を知っている司会者が、選んでいない扉で賞品の入っていない扉1つを開けてみせる。ただし、回答者が当たりの扉を選んでいる場合は、残りの扉からランダムに1つを選んで開けるとする。このあと回答者は扉を1回選び直してもよい。

2で扉を換えるのと換えないのと、どちらが当たる確率が高いか?

1の段階では、選んだ扉(A としよう)に賞品がある確率(回答者にとっての事前確率)は 1/3 で、賞品がない(つまり選んでないどちらかの扉に賞品がある)確率は 2/3。2の段階で司会者から示された扉を B、残りの扉を C としよう。この段階で、1で選んでいない扉の選択肢は2個から1個に絞られた(1で選んだ扉に関しては変わりない)ので、Cが当たりとなる事後確率は 2/3(Aの確率は 1/3 のまま)。だから、2の段階でもう1つの扉を選び直した方が当たる確率が高い。1で選んだかどうかは主観的なもので確率に関係ないのではないか?という気がするが、実際は扉 A を選んだと表明することで司会者の行動に影響を与えているのである。潜水艦の例では、確率が高いとして選んだ領域から捜索している点で違う。

P(A), P(C) を、それぞれ A, C が当たりである事前確率とし、P(B | A), P(B | C) を、それぞれ A, C が当たりである場合に司会者が B を開ける確率とする。このとき、B が開いたという前提で、C が当たりである事後確率 P(C | B) は

[math]P(C|B)=\frac{P(B|C)P(C)}{P(B|A)P(A)+P(B|C)P(C)}=\frac{1 \times \frac{1}{3}}{\frac{1}{2} \times \frac{1}{3}+1 \times \frac{1}{3}}=\frac{2}{3}[/math]

と求まる。

なお、Aが当たりである場合に司会者が Bを開ける確率P(B | A) を1/2とせずそのままの形にしておくと、上の式は 1/(P(B | A) + 1) となる。すなわち、Aが当たりである場合に司会者が Bを開ける確率P(B | A)が0から1まで変化すると、B が開いたという前提で、C が当たりである事後確率P(C | B) は1から1/2まで変化するのである。してみると、Aが当たりである場合に司会者が Bを開ける確率P(B | A)が1/2である場合に限って、上の式でC が当たりである事後確率P(C | B) が2/3となることが分かる。 従って、モンティホール問題では、「ただし、回答者が当たりの扉を選んでいる場合は、残りの扉からランダムに1つを選んで開けるとする。」という条件が最も重要であることに留意すべきである。

参考

以上は、モンティ・ホール問題に対して、ベイズ確率を計算した場合である(ベイズ推定)。もし「頻度確率」を計算する問題として考えた場合も同じ結果が得られる。

ただし議論の形は異なる。以下、頻度確率の考え方で、「扉を換えるのと換えないのと、どちらが当たる確率が高いか?」を計算してみる。

最初の選択を変えないと決めた場合、最初に選んだ扉をすぐ開けても事情は同じである。そうすると、頻度確率の計算であるから、(無限の)参加者が無限にこの選択を実施したと考えれば、「当たりのドアを選んだ回数/全選択回数」は、大数の法則により1/3に収束する。これが最初の選択を変えないと決めた場合に当たる確率である。 一方、最初に選択した扉を常に変更した場合に当たる確率は、上述の確率を1から引いた値になる。すなわち、1-1/3=2/3である。

してみると、ベイズ確率の計算で最も重要であった、「ただし、回答者が当たりの扉を選んでいる場合は、残りの扉からランダムに1つを選んで開けるとする。」という条件は、頻度確率では何の意味も持たないことに留意すべきである。 もっとも、ベイズ確率の計算においても、理由不十分の原理を適用すれば、「Aが当たりである場合に司会者が Bを開ける確率P(B | A) 」を1/2とすることに合理性がある。

二項分布母数の事後分布

これまでは確率論的な例だったが、統計学的な(多数のものを扱う)例として、二項分布の母数の事後分布を計算することを考えよう。同じ問題はベイズも考えている。

観察結果が、成功 m 回、失敗 n 回となったとする。具体的にはコイントスでも、誰かに賛成・反対の意見を聞くのでもよい。母数a (試行回数、成功確率)について事前確率p(a) で表されるとする。

与えられた a の値に対して、全 m+n 回の試行の内成功が m 回となる確率は、

[math] p(m,n|a) = \begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n [/math]

mn は固定され、 a は不明だから、これは a の尤度関数となる。

ベイズの定理(連続分布の形)から、

[math] p(a|m,n) = \frac{p(m,n|a)\,p(a)}{\int_0^1 p(m,n|a)\,p(a)\,da} = \frac{\begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n\,p(a)} {\int_0^1 \begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n\,p(a)\,da} [/math]

事前分布 p(a) として特定のものを選べば、この積分は実行できて事後確率は簡単な形となる。

特に、 p(a) が母数 m0 および n0ベータ分布ならば、事後分布もベータ分布で、母数は m+m0 および n+n0 となる。

上の例のベータ分布のように、事後分布が同じタイプの分布になるような事前分布を共役事前分布という。

臨床試験

プラセボと新薬との比較を行い、新薬の方がよく効く確率 θ の確率密度関数 p(θ) を推定するとしよう。

[math] p(\theta|x) = \frac{l(\theta|x)}{p(x)} p(\theta) [/math]

事前確率分布 p(θ) としては一様分布、尤度関数 l(θ |x) としては、n 回の比較のうち x 回で新薬が優位となる二項分布を仮定する。すると事後確率分布はベータ分布 Be(1 + x, 1 + n - x) となる。

例えば n = 5, x = 4 とすると、θ の平均は 5/7、θ が 0.5 以上となる確率は 0.891 となり、どちらかといえば新薬の方がよいと考えられる。このようにベイズ推定を使うと、小さい標本でも暫定的に母数を推定することができる。

関連項目

脚注

  1. 従来の推計統計学(および「確率」に対する頻度主義的な考え方)とは多少異なる考え方を採用している。