베이지안 통계학
#
Find similar titles
- 최초 작성자
Structured data
- Category
- Statistics
베이지안 통계학의 시작 #
베이지안 통계학의 시작은 18세기 영국의 수학자인 Tomas Bayes로부터 시작하였으며, 그를 기리기 위하여 그의 이름(베이지안, Bayesian)을 인용한 Bayes method라 명명하였습니다. 베이즈의 이항분포에서의 추정에 관한 연구가 1763년 Philosophical Transaction pf the Royal Society에 발표되면서 본격적으로 베이지안 통계학은 시작되었고, 이러한 베이지안의 연구에 뒤이어 이항분포 이외의 일반적인 분포에서의 사후분포의 계산을 1774년 라플라스(Laplace)에 의해 구현되었습니다.
베이지안 통계학은 그의 연구 이후 수 많은 통계학자들에 의하여 20세기에도 꾸준한 발전을 해왔으며, 20세기 후반에 들어서 제안된 마르코프 확률과 정을 이용한 사후분포의 계산방법은 베이지안 통계학을 한 단계 비약시켰다. 이러한 베이지안 통계학은 80년대 이후 컴퓨터공학의 급속한 발달과 더불어 현재 다양한 분야에서 사용되고 있다.
베이지안 통계학의 정의 #
베이지안 통계학이란 통계학적으로 관심이 있는 모든 것(모수, 결측치 등)들은 불확실 하며 이 불확실의 정도는 확률로써 표현된다는 가정으로부터 출발합니다. 따라서 베이지안 통계학의 목표는 주어진 자료(data)를 통하여 관심의 대상이 되는 모수(parameter)의 불확실성(uncertainty)을 확률로써 나타내는 것입니다.
베이지안 통계학에서는 모수에 대한 주관적인 견해가 중요한 역할을 하기때문에 주어진 주관적인 견해와 이후 시행된 확률실험으로부터 얻어지는 결과를 종합하여 모수에 대한 견해를 확률로써 나타내는 것입니다. 이때 사전확률(prior probability)은 모수의 주관적인 견해에 대한 불확실성을 나타내는 확률을 의미하며, 사전확률에 대한 분포를 사전분포(prior distribution)라고 합니다. 사후확률(posterior provavility)은 확률실험과 사전분포의 결과로부터 새로 구한 모수의 불확실성에 대한 확률을 의미하며, 사후확률에 대한 분포를 사후분포(posterior distribution)라 합니다.
베이지안 통계학의 기본구조 #
베이지안 통계학의 기본구조는 다음과 같이 정의할 수 있습니다.
- 모수의 사전분포 결정
- 자료와 사전분포를 이용한 사후분포의 예측
- 사후분포를 이용한 모수의 추론
베이지즈 정리 #
사후 분포의 계산과정은 베이즈 정리(Bayes’ Theorem)를 이용하여 다음과 같이 계산하며 베이즈 정리는 다음과 같습니다.
$$ Pr(X|Y)=\frac{Pr(X,Y)}{Pr(Y)} = \frac{Pr(Y|X)Pr(X)}{Pr(Y)} $$
여기서 Pr(X,Y) 는 사상 X와 Y의 결합 확률이며, Pr(X|Y) 는 Y 가 발생하였다는 조건하의 X 의 발생 확률입니다. 이러한 베이즈 정리를 이용하여 주어진 관측자료의 모수를 추정하기 위한 베이지안 추론(Bayesian Inference)방법은 다음과 같습니다.
$$ f(\theta|y)=\frac{f(y|\theta)f(\theta)}{f(y)} \propto f(y|\theta)f(\theta) $$
여기서 θ는 알고자 하는 모수(parameter), y는 관측치 입니다. θ의 확률밀도함수인 f(θ)는 사전분포라 하며, 분석자의 주관에 의하여 결정되며, 또한 주어진 모형과 모수에 θ에 f(y|θ)는 y의 조건부확률밀도함수이며, 이를 우도(likelihood)라 하고, 우도함수(likelihood function) L(y|θ)는 f(y|θ)에 비례하는 θ의 함수입니다. 위 공식에서 관측치의 확률밀도함수 f(y)는 θ의 확률밀도함수인 f(θ)와 우도인 f(y|θ)에 영향을 미치지 않으므로 관측 자료가 주어진 조건의 모수 θ의 확률밀도함수 f(θ|y)는 사전분포와 우도의 곱에 비례하며, 이를 사후분포라 합니다.
베이지안 통계학의 기본은 주어진 사전 분포로부터 사후분포를 계산하는 것이지만, 대부분의 경우에서 사전분포가 공액(conjugate)이 아닐 경우 사후분포의 계산은 어려워 이런 이유로 인하여 20세기 후반까지의 베이지안 통계학은 주로 공액사전분포만을 사용하였습니다. 그러나 Metropolis와 Hastings가 제안한 마르코프 연쇄(Markov chain)를 이용한 사후분포의 계산 방법은 컴퓨터 기술의 발달로 인한 계산능력의 발전과 더불어 현재에는 공액이 아닌 사전분포 하에서도 사후분포의 계산이 가능하게 되었습니다.