통계학을 배우다 보면 나오는 정규 분포 normal distribution의 그래프를 본 적이 있을 거예요. 아시는 분도 있겠지만 정확히는 그 확률 밀도 함수 probability density function\[f(x)={1\over\sqrt{2\pi}\sigma}e^{-\frac12\p{x-\mu\over\sigma}^2}\]의 그래프로 흔히 '종 모양 곡선'이라고 하죠. $\mu$는 평균 mean(기댓값 expectation), $\sigma$는 표준편차 standard deviation를 나타내요.
특히 $\mu=0$이고 $\sigma=1$인 경우를 표준 정규 분포 standard normal distribution라고 하죠.
위의 그림은 사실 두 곡선을 겹쳐 그렸어요. desmos 그래핑 계산기에 저장된 normaldist함수와 위의 확률 밀도 함수를 비교하기 위해서죠.
https://www.desmos.com/calculator/w6vb1pn2tj
위의 링크에 들어가 확인해 볼 수 있어요. 비율 조정은 normaldist함수에서 기본으로 제공하니 새 그래프로 한 번 확인하시면 좋겠네요.
이 곡선이 확률 밀도 함수라면, 정의역 전체에서 적분한 값이 1이죠. 확률 밀도함수는 그 적분으로 확률을 표현하니까요. \[\int_{-\infty}^\infty{1\over\sqrt{2\pi}}e^{-{x^2\over2}}dx=1.\]
하지만 적분이 그리 쉽지는 않아요. 흔히 아는 공식들로 적분할 수 있는 식이 아니죠. 물론 관심이 있으신 분은 어디선가 이미 본 기억이 있을 수도 있지만, 이 적분은 특이하게 단일 적분인데도 중적분을 이용해 계산하죠.
먼저 식을 조금 단순화한\[I=\int_{-\infty}^\infty e^{-x^2}dx\]를 계산할 거예요. 이 적분을 가우스 적분 Gaussian integral이라고 하죠.
$I$의 적분함수를 살펴보면 지수에 제곱이 있는 형태로, $I^2$에서 각 적분의 변수를 구분해 적으면 지수에 두 변수의 제곱 합이 나타나요.\[I^2=\int_{-\infty}^\infty e^{-x^2}dx\int_{-\infty}^\infty e^{-y^2}dy=\iint_{\R^2}e^{-\p{x^2+y^2}}dA.\]이렇게 말이죠. 적분영역이 좌표평면 전체이고, 함수가 극좌표계로 수정하기 좋은 형태가 됐어요. 이렇게 하는 이유는 적분함수에 일차 단항식을 곱해주면 비슷한 함수의 도함수가 되는데, 마침 극좌표계로 치환하면 $dA=rdrd\th$가 되기 때문이죠.\[I^2=\int_{-\pi}^\pi\int_0^\infty re^{-r^2}drd\th=\int_{-\pi}^\pi\left({e^{-0^2}\over2}-\lim_{r\to\infty}{e^{-r^2}\over2}\right)d\th=\pi.\]이렇게 회전체의 부피처럼 계산되기에 $I=\sqrt\pi$라는 어찌 보면 엉뚱한 값이 나오네요. 그래서 위의 확률 밀도 함수에 $1\over\sqrt\pi$이 곱해져 있는 거죠.
이제 다시 위의 정규 분포에 대한 확률 밀도 함수를 적분하려면 $t={x-\mu\over\sqrt2\sigma}$로 치환하면 되겠죠. $\sqrt2\sigma dt=dx$이므로\[{1\over\sqrt{2\pi}\sigma}\int_{-\infty}^\infty e^{-\frac12\left(x-\mu\over\sigma\right)^2}dt={1\over\sqrt\pi}\int_{-\infty}^\infty e^{-t^2}dt=1\]이에요.
이번엔 정규 분포의 확률 분포 함수를 적분하기 위해 필요한 가우스 적분에 대해서만 설명해 봤어요. 사실 정규 분포라면 따라 나오는 중심 극한 정리를 설명해야겠지만, 이 내용은 다음에 기회가 있을 때 다시 설명하도록 할게요.