Intro
안녕하세요, 오늘은 MLE(Maximum Likelihood Estimation) 에 대해서 정리하겠습니다.
MLE는 많은 머신 러닝, 특히 deep learning에서 자주 등장하는, 꼭 알아야할 개념 중 하나입니다.
Likelihood
Likelihood는 우리말로 가능도, 또는 우도라고 합니다.
영어 표현에 *"be likely to -" (- 할 것 같은)* 이라는 숙어가 있잖아요? 따라서 likelihood 또한 비슷한 느낌으로 *"~ 할 것 같은 정도"* 로 받아들일 수 있을 거 같습니다.
그리고 이는 통계학의 관점에서 풀어보면, 어떤 고정된 파라미터 $\theta$를 갖는 분포가 있을 때, 이 분포에서 특정 sample (또는 event) $x$가 발견(또는 수집)될 거 같은 정도로 할 수 있습니다.
수식으로 표현해보자면 아래와 같습니다.
한 개의 sample $x$에 대해서는 $p(x|\theta)$
$n$ 개의 sample set $X = {x_1, x_2, \dots, x_n}$에 대해서는 $\prod_{i=1}^n p(x_i|\theta)$
편의를 위해 둘 다 $P(X|\theta)$라고 하겠습니다.
여기서 우리가 관심을 가져야할 변수는 바로 $\theta$ 입니다. 이 $\theta$는 우리가 사용하는 모델이 gaussian distribution이라면 평균 $\mu$와 분산 $\sigma$가 될테고, deep learning 모델이라면 이 모델이 갖고있는 모든 파라미터가 될 것입니다.
Maximum Likelihood Estimation
Likelihood의 느낌을 어느정도 잡으셨다면 MLE는 말 그대로 likelihood를 최대화 해주는 파라미터 $\theta$를 예측하는 일입니다. 즉, $\theta$가 어떤 값을 가져야 발견(또는 수집) 된 sample (또는 event)들이 발생할 확률이 최대가 될까? 에 대한 답을 찾는 것입니다.
수식으로는 $\hat{\theta} = argmax P(X|\theta)$로 표현할 수 있습니다.
간단하게 동전 던지기로 예시를 들겠습니다.
동전은 앞면과 뒷면 단 두개의 값만 가질 수 있고, 여러 번 동전 던지기를 수행했을 때 각 동전 던지기의 결과를 x라고할 수 있습니다. 그리고 우리가 관심있어하는 파라미터 $\theta$는 이 문제의 경우 "앞면이 나올 확률" 1개 입니다.
그렇다면 이를 MLE관점에서 보자면 우리가 알고싶은 것은 $n$번의 동전 던지기를 수행해서 앞면이 $k$번, 뒷면이 $n-k$번 나왔을 때, 이 결과가 나올 확률을 최대로 만들어 주는 파라미터 $\theta$는 무엇인가? 입니다.
위 예시와 관련한 구체적인 설명은 이 글을 참고해주세요.
Why MLE?
MLE문제를 푸는 것은 deep learning 모델을 최적화하는 문제와 많이 유사합니다.
대표적인 지도학습 예시인 classification을 생각해보겠습니다.
파라미터 $\theta$를 갖는 모델 $f$가 있을 때, 우리는 이 모델에게 어떤 sample을 주고, 이 sample의 class는 무엇인지 에측하도록 합니다.
예측을 하는 모델의 파라미터는 sample을 받기 전에 이미 정해져 있고 (given $\theta$), sample이 주어졌을 때 이 sample의 class가 무엇인지 값을 내놓습니다 ($f(x|\theta)$).
그리고 sample의 실제 class와 비교해서 그 차이에 따라 $\theta$를 최적화해나가죠.
이러한 관점에서 보았을 때, MLE는 deep learning에서 많이 쓰이는 개념 중 하나인 것입니다.
마무리
오늘은 MLE, Maximum Likelihood Estimation에 대해서 알아봤습니다.
MLE의 개념을 아는 것 만으로는 부족하고, 여러 모델이나 논문을 학습하면서 MLE의 개념이 어떻게 녹아들어 있는지 확인하면 좋을 거 같습니다.
References
'[Mathmatics]' 카테고리의 다른 글
[Statistics] 정규분포 (0) | 2021.04.27 |
---|---|
[Statistics] 포아송과 친구들 (0) | 2021.04.27 |
[Statistics] 이산형 확률분포 (0) | 2021.04.27 |
[Statistics] 상관관계와 공분산 (0) | 2021.04.27 |
[Statistics] 평균, 분산, 표준편차 (0) | 2021.04.27 |