베이즈정리는 조건부(conditional) 확률과 주변부(marginal) 확률간의 관계에 관한 정리로, 해석적인 측면에서는 새로운 증거에 기반하여 과거의 정보를 향상시키거나 개선한다고 할 수 있다. 어떤 사건 A가 발생했을 때 또 다른 사건 B가 나타날 확률(P(B|A))과 어떤 사건 B가 발생했을 때 또 다른 사건 A가 나타날 확률(P(A|B))은 일반적으로 다르나 둘 간에는 다음의 관계가 존재하는 데 이것이 베이즈 정리이다.
여기에서 P(A)는 A에 대한 사전확률(prior probability) 혹은 주변확률(marginal probability)이라 하며, 여기에서 ‘사전’이라 함은 사건 B가 영향을 미치지 않은 상태를 말한다. P(A|B)는 사건 B가 발생할 때의 A의 조건부 확률로서 사후확률(posterior probability)이라 하는데 이는 P(A|B)가 사건 B에 대한 구체적인 정보에 의존하기 때문이다.
또한, 통상 베이즈 정리는 잘 알려진 확률(P(B|A))을 이용해 자신이 원하는 확률 (P(A|B))을 구하는(역확률)데에 이용된다.
이를 일반화하면, 사건 A1, A2, ⋯이 표본공간 S를 공통부분이 없게 n개로 분할하고 P(Aj) > 0 일 때, P(B)>0 이면,
또한,
(예제1) 환자가 반점이 생겼을 때, 홍역에 걸렸을 확률은?
전체인구 중 홍역을 앓는 사람의 비율(확률) P(M)=0.2, 의학적 경험으로 통하여 홍역에 걸렸을 때 반점이 생기는 비율(확률) P(S|M)=0.9 및 홍역에 걸리지 않았는데 반점이 있는 비율(확률) P(S|M )=0.15을 알고 있는 상황에서 환자가 반점이 생겼을 때, 홍역에 걸렸을 확률 P(M|S)을 어떻게 구할 것인가하는 문제임
베이즈정리에 의하여 P(M|S)={P(S|M)*P(M)}/P(S)이므로 전체인구중 반점이 생긴 사람의 비율(확률) P(S)를 구하면 되는데 이는 P(S|M)*P(M)+P(S|M )*P(M ) = 0.9*0.2+0.15*0.8=0.3이 되며, 구하고자하는 값은 (0.9*0.2)/0.3=0.6이 된다.
(예제2) 불량품이 나왔을 때, 어느 기계 제품인지?
한 공장에서 전체 생산량의 20%, 30%, 50%를 세 기계 M1, M2, M3로 생산하고 있고, 각 기계에서의 불량품 제조 비율은 각각 3%, 2%, 1%로 알려져 있다. 이 공장에서 생산된 제품 중 임의로 1개를 택하여 검사하였더니 불량품이었을 때, 이 제품이 각 기계에서 생산되었을 확률은?
검사전 한 제품이 기계 M1, M2, M3에서 생산되었을 확률은 각각, P(M1)=0.2, P(M2)=0.3, P(M3)=0.5이고, 한 제품이 불량품일 사건을 B라고 하면, 각 기계에서 불량품 제조 비율은, P(B|M1)=0.03, P(B|M2)=0.02, P(B|M3)=0.01 이다.
따라서 불량품이 M1에서 제조되었을 확률 P(M1|B)는 다음과 같이 계산할 수 있다.
P(M1|B) = {P(B|M1)*P(M1)}/P(B)
= {P(B|M1)*P(M1)}/{P(B|M1)*P(M1)+P(B|M2)*P(M2)+P(B|M3)*P(M3)}
= (0.03*0.2)/(0.03*0.2+0.02*0.3+0.01*0.5) = 6/17
마찬가지로, P(M2|B) = 6/17, P(M3|B) = 5/17
한편, 위식 (1)에 의해, P(M1|B)∝0.2*0.03,P(M2|B)∝0.3*0.02,P(M3|B)∝0.5*0.01 → P(M1|B):P(M2|B):P(M3|B)=6:6:5 이므로, P(M1|B) = 6/17, P(M2|B) = 6/17, P(M3|B) = 5/17
(예제3) 새로운 증거로 인하여 죄수가 유죄일 확률은?
배심원이 법정에서 한 사건에 대해 듣고는 피고인이 유죄일 가능성을 0.01(사전확 률)이라고 판단하였다. 그러나 검사가 내놓은 새로운 증거를 듣게 되는데 그것은 피고인의 집에서 무기가 발견되었고, 피고인이 유죄일 때 집에서 무기가 발견될 확률은 0.95이고 무죄임에도 무기가 발견될 확률은 0.1이라고 한다. 그러면 새로운 증거에 따라 이 피고인이 유죄일 확률은?
동 피고인이 유죄일 사전확률, 즉 새로운 증거가 발견되기 전의 확률은 P(G)=0.01 이고 유죄일 경우 무기가 발견될 확률 P(M|G)=0.95이다. 우리가 구하고자 하는 확률은 새로운 증거가 추가된 경우 즉, 무기가 발견되었을 경우 이 피고인이 유죄 일 확률 P(G|M)을 구하는 것이다.(사후확률)
베이즈정리에 의하여 P(G|M)={P(M|G)*P(G)}/P(M)
= {P(M|G)*P(G)}/{P(M|G)*P(G)+P(M|G )*P(G )
=(0.95*0.01)/(0.95*0.01+0.1*0.99)
= 0.088
분산분석(ANOVA)과 회귀분석 (1) | 2023.12.05 |
---|---|
몬티홀(Monty Hall) 문제 (2) | 2023.11.13 |
분산분석(ANOVA)과 활용 (0) | 2023.11.11 |
“초과 사망자수”를 활용한 실제 코로나 사망자 추정 (‘Our World in Data’와 ‘Economist’지 사례) (0) | 2023.11.11 |
확률 (1) (0) | 2023.11.09 |