PRML/chap2

Chapter2. 확률 분포

math_tbro 2022. 3. 7. 01:41

목표

  • 몇몇 확률 분포의 예시와 그 성질에 대해 살펴보고자 한다.
  • 밀도 추정(Density Estimation)
    • 한정된 수의 관찰 집합 x1,...,xN\mathbf{x}_1, ... ,\mathbf{x}_N이 주어졌을 때 확률 변수 x의 확률 분포 p(x)p(x)를 모델링 하는 것
    • 데이터 포인트들은 독립적이며, 동일하게 분포되어 있다고 가정할 것이다.
  • 사실 관찰된 데이터로 부터 추측해볼 수 있는 확률 분포는 끝도없이 많다.
  • 각각의 데이터 포인트 x1,...,xN\mathbf{x}_1, ... ,\mathbf{x}_N에 대해서 0이 아닌 값을 가지는 어떤 분포 p(x)p(x)도 모 분포의 후보가 될 수 있다.
  • 우선적으로 이산 확률 변수의 이항 분포와 다항 분포에 대해 살펴본 후 연속 확률 변수의 가우시안 분포에 대해서 논의 한다.
  • 위 분포를 매개변수적(Parametric) 분포의 예라고 한다.
  • 이런 모델을 밀도 추정 문제에 적용하기 위해서 관찰된 데이터 집합을 바탕으로 적절한 매개변숫값을 구하는 과정이 필요하다.
    • 빈도적 관점 : 어떤 특정 기준을 최적화 하는 방식으로 매개변수를 찾는다.
      • ex) 가능도 함수
    • 베이지안 관점 : 매개변수에 대한 사전 분포를 바탕으로 관측 데이터가 주어졌을 때 해당 사후 분포를 계산
      • 이 과정에서 베이지안 정리를 사용한다.
  • 켤레(conjugate) 사전 확률이 중요한 역할을 하는 것을 살펴 볼 것이다.
    • 이는 베이지안 분석이 단순하도록 켤레 사전확률과 사후확률이 같은 함수의 형태를 띠도록 만들어주는 것이다.
    • 디리클레분포, 지수족에 대해서 앞으로 논의 할 것이다.
  • 매개변수적인 접근법의 한계점은 함수 자체가 이미 특정한 함수의 형태를 띠고 있다고 가정하는 것이다.
    • 따라서 실제 샘플과 다른 양상의 분포를 선택하면 원하는 결과를 얻지 못할 수 있다.
    • 이 때 비매개변수적 밀도 추정 방식이 사용된다.
      • 위 방식은 분포의 형태가 데이터 집합의 크기에 종속적이다.
      • 여전히 매개변수를 가지고 있지만, 분포 형태를 결정하는 것이 아니라 모델의 복잡도에 영향을 미친다.
  • 마지막으로 히스토그램, 최근접 이웃, 커널을 바탕으로 한 비매개변수적 방법에 대해 살펴본다.

'PRML > chap2' 카테고리의 다른 글

2.1 이산 확률 변수  (0) 2022.03.07