확률과 통계에 대해 공부하다 보면 정규 분포라는 걸 자주 보게 되죠. 중심 극한 정리에 등장하는 아주 중요한 분포예요. 중심 극한 정리도 언젠가 기회가 되면 소개할 생각이지만, 기초가 되는 확률 이론들을 소개한 다음이 될 것 같네요.
평균 mean이 $\mu$이고 표준 편차 standard deviation가 $\sigma$인 정규 분포 normal distribution는 연속 확률 변수 continuous random variable의 확률 분포 probability distribution로 그 확률 밀도 함수 probability density function가\[f(x)={1\over\sqrt{2\pi}\sigma}e^{-(x-\mu)^2\over2\sigma^2}\]으로 나타나죠. 특히 평균이 0이고 표준 편차가 1인 경우를 표준 정규 분포 standard normal distribution라고 해요.
확률 밀도 함수로 확률을 표현할 때는 적분을 하게 되죠. 전체 확률은 1이라야 하니 표준 정규 분포의 확률 밀도 함수를 생각하면\[\int_{-\infty}^\infty e^{-x^2\over2}dx=\sqrt{2\pi}\]가 성립해야 해요. 표준 편차를 $1\over\sqrt2$로 두면 좀 더 간단한 형태의 식을 얻을 수 있죠.\[\int_{-\infty}^\infty e^{-x^2}dx=\sqrt\pi.\]이 적분을 가우스 적분 Gaussian integral이라고 해요.
직접 이 식을 계산해 보려고 하면 잘 되지 않을 거예요. 일반적인 방법으론 적분이 불가능하죠. 하지만 이렇게 정확한 값을 구할 수 있는 단서는 적분할 수 없는 함수 자체에 있어요. 같은 밑을 가지는 두 거듭제곱의 곱은 지수의 합으로 표현할 수 있다는 걸 이용하는 거죠.
두 정적분의 변수가 다르다면 그 곱은 하나를 상수로 취급해 나머지 하나의 적분 내부로 넣어줄 수 있어요.\[\eqalign{\p{\int_a^bf(x)dx}\p{\int_c^dg(y)dy}&=&\int_c^d\p{\int_a^bf(x)dx}g(y)dy\\&=&\int_c^d\int_a^bf(x)g(y)dxdy}\]라는 거죠.
가우스 적분을 두 변수 x와 y에 대해 표현하고 그 둘을 곱해 위와 같은 방식으로 나타내면, 지수가 $-x^2-y^2$이 돼요. 극좌표계로 치환하면 지수는 $-r^2$이 되고 $dxdy=rdrd\th$이니 \[{d\over dr}e^{-r^2}=-2re^{-r^2}\]을 이용해 쉽게 적분할 수 있는 형태가 되죠.
이제 직접 계산해 보면, $I=\int_{-\infty}^\infty e^{-x^2}dx$라고 할 때,\[\eqalign{I^2&=&\iint_{\R^2}e^{-x^2-y^2}dxdy=\int_{-\pi}^\pi\int_0^\infty re^{-r^2}drd\th\\&=&\frac12\int_{-\pi}^\pi d\th=\pi}\]이니 $I=\sqrt\pi$로 위의 식이 성립한다는 걸 알 수 있어요. $e^{-x^2}>0$이니 $I$가 음수일 수는 없죠.
위의 중적분은 회전체의 부피로 생각할 수도 있어요. 일반적으로 중적분에서 두 변수 $x$와 $y$의 범위가 모두 상수로 표현할 수 있다면 적분 영역은 직사각형꼴이 되지만, 각각의 범위가 실수 전체이니 회전체로 생각할 수도 있는 거죠.
반대로, 유한한 범위에서 적분한다면 이런 방법을 쓸 수 없다는 말이 돼요. 실제로 0에서 어떤 실수까지의 구간에서 적분한 구체적인 값을 다른 함수나 상수들로 간단히 나타내기는 힘들죠. 이 함수의 상한과 하한을 각각 1과 -1로 조정한 함수\[\erf(z)={2\over\sqrt\pi}\int_0^ze^{-x^2}dx\]를 오차 함수 error function 또는 가우스 오차 함수 Gauss error function라고 해요.
물론 구체적인 식으로 주어져 있으니 근삿값을 구할 수 있죠. 특히 테일러 정리를 이용해서 쉽게 근삿값을 계산할 수 있어요. 오차 함수의 매클로린 급수\[\erf(z)={2\over\sqrt\pi}\int_0^z\sum_{n=0}^\infty{\p{-x^2}^n\over n!}dx={2\over\sqrt\pi}\sum_{n=0}^\infty{(-1)^n\over n!(2n+1)}z^{2n+1}\]의 부분합을 계산하면 되는 거죠.
표준 정규 분포의 누적 분포 함수 cumulative distribution function도 확률 밀도 함수의 적분으로 나타나니 비슷한 형태를 가져요. 당연히 오차 함수를 이용해 나타낼 수도 있죠.\[\Phi(x)=\frac12\p{1+\erf\p{x\over\sqrt2}}.\]