2.1 이산 확률 변수

PRML/chap2

2.1 이산 확률 변수

math_tbro 2022. 3. 7. 02:39

이진 확률 변수 x $\in$ {0,1} 을 고려하자.

예를 들어 x는 동전 던지기의 예제로 x=0은 뒷면, x=1은 앞면이라고 하자.

그런데 동전이 망가져서 앞면과 뒷면이 나올 확률이 다르다고 가정하자.

x = 1일 확률은 매개변수 $\mu$ 를 통해 다음과 같이 표현 가능하다.

p(x =1 |\mu) = \mu

여기서 0 $\le$ $\mu\le1$ 이다. 그리고 $p(x = 0 |\mu) = 1 - \mu$ 가 된다.

따라서 x에 대한 확률 분포를 다음과 같이 적을 수 있다.

Bern(x|\mu) = \mu^x(1 - \mu)^{1-x}

이것을 베르누이분포(bernoulli distribution) 라고 한다.
- 베르누이 분포는 정규화 되있고, 그 평균과 분산이 다음과 같이 주어진다.

\mathbb{E}[x] = \mu \qquad var[x] = \mu(1-\mu)

$x$ 의 관측값 데이터 집합 $\mathcal{D} =$ { $x_1,... , x_N$ } 이 주어졌다고 할 때 관측값들이 p(x| $\mu$ )에서 독립적으로 추출 되었다는 가정하에 $\mu$ 의 함수로써 가능도 함수를 구성 할 수 있다.

p(\mathcal{D}|\mu) = \prod_{n=1}^Nlnp(x_n|\mu) = \prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}

빈도적 관점에서 가능도 함수를 최대화하는 $\mu$ 를 찾아서 $\mu$ 의 값을 추정할 수 있다. MLE는 다음과 같다.

lnp(\mathcal{D}|\mu) = \sum_{n=1}^Nlnp(x_n|\mu) = \sum_{n=1}^N\left\{x_nln\mu + (1-x_n)ln(1-\mu) \right\}

여기서 중요한 것은 위 함수가 오로지 관찰된 데이터 $x_n$ 의 개수 N에만 영향을 받는다는 것이다.

위 식을 $\mu$ 에 대해 미분하고 이를 0과 같다고 놓으면 최대 가능도 추정값을 구할 수 있다.

\mu_{ML} = \frac{1}{N}\sum_{n=1}^Nx_n = \frac{m}{N}

이를 표본 평균(sample mean)이라고도 부르는데 그냥 앞면이 나온 횟수를 총 시행 횟수로 나눈것이다.

이제 추정 방식의 문제점을 살펴보자.

만약 동전 3번 던져서 3번 다 앞면이 나왔다고 해보자.

그러면 N=m=3 이므로 $\mu_{ML}$ = 1 이다.

MLE로 예측한다면 모든 미래의 예측에서 앞면이 나온다는 것을 말한다.

이런것은 오버피팅 되었다고 판단하고 사전 분포를 도입해서 이런 문제를 해결할 것이다.

크기 N의 데이터가 주어졌을 때 x=1인 관측값의 수 m에 대해서 분포를 생각해보자.

이것을 이항분포(binomial distribution)이라고 한다.

Bin(m|N, \mu)= {N \choose m}\mu^m(1-\mu)^{N-m}

{N \choose m} \equiv\frac{N!}{(N-m)!m!}

N=10 $\mu$ =0.25일 때 결과를 보자 .

이 분포에 대한 평균과 분산 값은 다음과 같다.

\mathbb{E}[m]=\sum_{m=0}^NmBin(m|N,\mu) = N\mu \qquad

var[m]\equiv\sum_{m=0}^N(m-\mathbb{E}[m])^2Bin(m|N,\mu) = N\mu(1-\mu)

이항분포는 5번중 3번 성공 했을때 기댓값 분산값 맞추라는 중학교 문제랑 비슷하다.

Uploaded by Notion2Tistory v1.1.0

'PRML > chap2' 카테고리의 다른 글

Chapter2. 확률 분포 (0)	2022.03.07

현재글2.1 이산 확률 변수

댓글

안녕하세요

DBMS, 인사이드 #Inside #메타버스, 백준 #15552번 #python #sys #기초, 백준 # 2741 #python # for, 백준 # python #while # 10952, 백준 #2439 #별찍기 # python, 2577 #python #백준, aivle # aivle school # kt, 3052 #나머지 # python # 백준, 추천시스템 #추천 #코사인유사도 #맨하탄유사도 #협업필터링 #컨텐츠기반필터링, 백준 # 10871 # python # for #if,

Today :
Yesterday :

티스토리툴바