이진 확률 변수 x ∈ {0,1} 을 고려하자.
- 예를 들어 x는 동전 던지기의 예제로 x=0은 뒷면, x=1은 앞면이라고 하자.
- 그런데 동전이 망가져서 앞면과 뒷면이 나올 확률이 다르다고 가정하자.
- x = 1일 확률은 매개변수 μ를 통해 다음과 같이 표현 가능하다.
- 여기서 0 ≤μ≤1 이다. 그리고 p(x=0∣μ)=1−μ가 된다.
- 따라서 x에 대한 확률 분포를 다음과 같이 적을 수 있다.
- 이것을 베르누이분포(bernoulli distribution) 라고 한다.
- 베르누이 분포는 정규화 되있고, 그 평균과 분산이 다음과 같이 주어진다.
- x의 관측값 데이터 집합 D= {x1,...,xN} 이 주어졌다고 할 때 관측값들이 p(x|μ)에서 독립적으로 추출 되었다는 가정하에 μ의 함수로써 가능도 함수를 구성 할 수 있다.
- 빈도적 관점에서 가능도 함수를 최대화하는 μ를 찾아서 μ의 값을 추정할 수 있다. MLE는 다음과 같다.
- 여기서 중요한 것은 위 함수가 오로지 관찰된 데이터 xn의 개수 N에만 영향을 받는다는 것이다.
- 위 식을 μ에 대해 미분하고 이를 0과 같다고 놓으면 최대 가능도 추정값을 구할 수 있다.
- 이를 표본 평균(sample mean)이라고도 부르는데 그냥 앞면이 나온 횟수를 총 시행 횟수로 나눈것이다.
이제 추정 방식의 문제점을 살펴보자.
- 만약 동전 3번 던져서 3번 다 앞면이 나왔다고 해보자.
- 그러면 N=m=3 이므로 μML = 1 이다.
- MLE로 예측한다면 모든 미래의 예측에서 앞면이 나온다는 것을 말한다.
- 이런것은 오버피팅 되었다고 판단하고 사전 분포를 도입해서 이런 문제를 해결할 것이다.
- 크기 N의 데이터가 주어졌을 때 x=1인 관측값의 수 m에 대해서 분포를 생각해보자.
- 이것을 이항분포(binomial distribution)이라고 한다.
- N=10 μ=0.25일 때 결과를 보자 .
- 이 분포에 대한 평균과 분산 값은 다음과 같다.
이항분포는 5번중 3번 성공 했을때 기댓값 분산값 맞추라는 중학교 문제랑 비슷하다.
Uploaded by Notion2Tistory v1.1.0