딥러닝을 처음 배울 때에는 내가 지금 배우는 딥러닝과 선형대수/확률통계의 기본적 개념 사이의 연결성이 전혀 형성되지 않은 채로 배웠다.
그러다 점점 그 기저에 수학적인 바탕이 깔려 있다는 것을 알게 되고, MAP, MLE라는 단어도 자주 접하며 궁금증을 갖게 된다.
MAP와 MLE에 대해 간단하게 정리해 본다.
1. 기본 용어 정리
x : 모델 (어떠한 사건이 발생할 수 있는 환경)
z : 사건 (결정된 모델에서 발생하는 특정 이벤트)
예를 들어 특정한 길이의 머리카락을 발견했다고 하자. 그 머리카락은 남자 혹은 여자에게서 나왔을 것이다.
머리카락을 발견한 사건이 z이며, 남자 또는 여자가 모델 x이다.
P(z|x) : 가능도, likelihood
모델 x가 결정되었을 때, 그 모델 x에서 사건 z가 발생할 확률
P(x) : 사전확률, prior
관측자가 관측을 하기 전에 모델 x에 대해 가지고 있는 선험적 확률. 예를 들어, P(남자) 또는 P(여자) 가 된다.
P(x|z) : 사후확률, posterior
사건 z가 관측된 뒤, 그 사건이 특정 모델 x에서 발생했을 확률
2. MLE와 MAP
확률을 이용해서 분류 문제를 푸는 종류는 크게 두 가지로 나뉜다.
MLE (Maximum Likelihood Estimation) 과 MAP (Maximum a Posteriori)
MLE 의 역우 E를 빼고 ML방법이라고도 부른다.
앞서 예를 들었던 머리카락 예를 다시 가지고 와서, MLE와 MAP의 차이를 알아보자.
MLE 방법의 경우 말 그대로 likelihood를 최대로 하는 방법이다.
즉, P(z|남자) 또는 P(z|여자) 중에 큰 것을 고르면 된다.
이를 해석해 보면 남자에게서 z라는 머리카락이 발견될 확률과 여자에게서 z라는 머리카락이 발견될 확률 중 큰것을 고른다.
MAP 방법은 Posteriori를 최대화 하는 방법이다.
P(남자|z) 와 P(여자|z) 중 큰것을 고르면 되는데, 이를 풀어 해석해 보면
z라는 머리카락이 발견되었는데, 그것이 남자에게서 나온 것일 확률과 여자에게서 나온 것일 확률 중 큰 것을 고르면 된다.
이때 사후확률인 P(남자|z)와 P(여자|z)를 계산하는 데 베이즈 정리가 사용된다.
뭔 차이인지 잘 모르겠다면 정상이다.
많은 사람들이 MLE와 MAP가 어떤 차이인지 한번에 이해하기 힘들어하며 본인조차도 엄청 헷갈려한다...ㅎㅎ
그렇지만 아래의 예시를 한번 더 읽어 보면 조금 더 와닿을 것이다.
3. 예시로 구별하는 MLE와 MAP의 차이
전 세계에 남자는 10%밖에 없고, 여자는 90%를 차지한다. 이때, 특정한 길이의 머리카락을 주웠다.
MLE방법은 성비를 완전히 무시한 채 그저 남자에게서 해당 머리카락이 나올 확률 p(z|남)과
여자에게서 해당 머리카락이 나올 확률 p(z|여) 중 큰 것을 선택한다.
반면, MAP방법은 남녀의 성비까지 고려하여 어느 모델에서 발생되었는지를 판단하는 방법이다.
여기에서 P(z)는 상수로 볼 수 있으며, 분자를 계산할 때 모델에 대해 갖고 있는 선험적 확률인 사전확률 p(여자)가 개입되게 된다.
즉 MAP방법이 조금 더 엄밀하고 통계적으로 유의미한 방법이라고 볼 수 있다.
[Reference]
hyeongminlee.github.io/post/bnn002_mle_map/
베이즈 정리, ML과 MAP, 그리고 영상처리
고등학교 수학에서 조건부 확률이라는 걸 배운다. 그런데 그게 나중에 가면 베이지안 확률이라는 이름으로 불리면서 사람을 엄청 햇갈리게 한다. 1. 베이즈 정리 베이즈 정리(Bayes's theorem) 또는
darkpgmr.tistory.com
Maximum Likelihood Estimation(MLE) & Maximum A Posterior(MAP) | Hyeongmin Lee's Website
Bayes Rule을 이용한 방식의 가장 큰 단점들 중 하나는 Likelihood의 Probability Distribution을 알아야 한다는 점입니다. 물론 앞선 포스팅에서는 관찰을 통해 Likelihood를 얻었지만, 여간 귀찮은 일이 아닐 ��
hyeongminlee.github.io