목표
- 몇몇 확률 분포의 예시와 그 성질에 대해 살펴보고자 한다.
- 밀도 추정(Density Estimation)
- 한정된 수의 관찰 집합 x1,...,xN이 주어졌을 때 확률 변수 x의 확률 분포 p(x)를 모델링 하는 것
- 데이터 포인트들은 독립적이며, 동일하게 분포되어 있다고 가정할 것이다.
- 사실 관찰된 데이터로 부터 추측해볼 수 있는 확률 분포는 끝도없이 많다.
- 각각의 데이터 포인트 x1,...,xN에 대해서 0이 아닌 값을 가지는 어떤 분포 p(x)도 모 분포의 후보가 될 수 있다.
- 우선적으로 이산 확률 변수의 이항 분포와 다항 분포에 대해 살펴본 후 연속 확률 변수의 가우시안 분포에 대해서 논의 한다.
- 위 분포를 매개변수적(Parametric) 분포의 예라고 한다.
- 이런 모델을 밀도 추정 문제에 적용하기 위해서 관찰된 데이터 집합을 바탕으로 적절한 매개변숫값을 구하는 과정이 필요하다.
- 빈도적 관점 : 어떤 특정 기준을 최적화 하는 방식으로 매개변수를 찾는다.
- 베이지안 관점 : 매개변수에 대한 사전 분포를 바탕으로 관측 데이터가 주어졌을 때 해당 사후 분포를 계산
- 켤레(conjugate) 사전 확률이 중요한 역할을 하는 것을 살펴 볼 것이다.
- 이는 베이지안 분석이 단순하도록 켤레 사전확률과 사후확률이 같은 함수의 형태를 띠도록 만들어주는 것이다.
- 디리클레분포, 지수족에 대해서 앞으로 논의 할 것이다.
- 매개변수적인 접근법의 한계점은 함수 자체가 이미 특정한 함수의 형태를 띠고 있다고 가정하는 것이다.
- 따라서 실제 샘플과 다른 양상의 분포를 선택하면 원하는 결과를 얻지 못할 수 있다.
- 이 때 비매개변수적 밀도 추정 방식이 사용된다.
- 위 방식은 분포의 형태가 데이터 집합의 크기에 종속적이다.
- 여전히 매개변수를 가지고 있지만, 분포 형태를 결정하는 것이 아니라 모델의 복잡도에 영향을 미친다.
- 마지막으로 히스토그램, 최근접 이웃, 커널을 바탕으로 한 비매개변수적 방법에 대해 살펴본다.
Uploaded by Notion2Tistory v1.1.0