Computer Science/Probability in Computer Science

Moments, Deviations에 대하여

Youngseo Lee 2020. 11. 23. 07:21

(Lecture 4 전반부)

Moments(적률)

기댓값으로 정의될 수 있는 중요한 함수, moment function입니다. 정의는 아래와 같습니다.

정의 : The rth moment of a random variable X is defined as E(X^r)

따라서 r에 따라 적률 함수의 특징이 달라지는데요. 

기댓값과 분산은 익숙한 표현입니다. 기댓값은 평균이 어떤지, 분산은 평균으로 부터 얼마나 분산되어 있는지를 나타내는 척도입니다. 왜도와 첨도는 생소한 용어인데, 왜도는 값이 분포가 오른쪽으로 치우져 있는지, 왼쪽으로 치우져 있는지를 나타내는 척도입니다. 첨도는 분포도가 뾰족한지 완만한지를 나타냅니다.

적률 함수의 대표적인 네가지 종류에 대해 알아봤는데요. 적률 생성 함수에 대해 알아보고자 합니다. 

 

- 상수 c에 대한 확률변수 X의 n차 적률은 (X-c)ⁿ의 기댓값 E[(X-c)ⁿ]로 정의합니다.

- c=0이면 원적률, c=E(X)이면 중심적률(central moment)이라고 하며 원적률을 보통 적률이라고 부릅니다.

 

 

 

Moment Generating Function(MGF, 적률 생성 함수)

확률변수 X에 대한 적률생성함수 Mx(t)는 실수 t에 대해 아래와 같이 정의됩니다.

적률생성 함수가 존재할 경우, 적률 즉 Moment가 생성되고 따라서 이 모멘트들이 한 가지의 분포를 결정합니다. 즉 적률생성함수와 distribution은 일대일 대응입니다. 따라서 두 확률변수의 모든 적률이 일치하면 두 확률변수는 같은 분포를 갖는다고 봅니다. 그래서 MGF로 분포를 표현할 수도 있습니다.

 

어떻게 MGF로 Moment를 구할까요?

우리가 MGF를 얻는다면, 그걸 미분하고 t=0을 대입하면 모멘트를 구할 수 있습니다. 즉 한 번 미분 후 0을 대입하면 1차 적률, 세 번 미분 후 0을 대입하면 3차 적률을 구하는 것입니다.

 

왜 n번째 미분이 n번째 적률을 의미할까요?

테일러 시리즈로 함수 approximation 하던거 기억 나시나요? MGF가 e^x함수이기 때문에 역시 테일러 시리즈에 대입할 수 있는데, 따라서 우리가 n번 미분 후 0을 대입하면 n번째 항의 계수를 얻게 됩니다. 

 

 

Variance(분산)

확률변수 X의 2차 중심 적률은 분산으로 알려져 있습니다. 이를 간단하게 Var(X)로 표현하고, 이의 제곱근 값은 잘 알려진 표준편자(Standard Deviation)입니다.

분산은 다음과 같이 표현할 수 있습니다.

 

확률 분포에 따른 평균값과 분산값을 나타낸 표입니다.

 

그렇다면, 분산도 기댓값과 같이 linear한 관계일까요?

여기서 Covariance의 개념이 등장합니다.

 

 

Covariance(공분산)

Covariance는 두 확률변수 간의 Linear Dependence를 계산할 수 있습니다. 두 변수간의 공분산이 양수이면 두 변수는 "correlated", 음수이면 "anticorrelated"라고 합니다. 서로 다른 두 확률변수 X와 Y에 대해 두 변수간 공분산은 아래와 같은 식으로 계산합니다.

따라서 Y=aX의 관계에 있는 두 확률 변수라면 Cov(X,Y) = aVar(X)가 됩니다.

또한, 만약 두 확률 변수 X와 Y가 독립이라면 두 변수의 공분산은 0입니다. 하지만 역은 성립하지 않습니다.

 

즉 두 변수가 독립일 경우

두 변수가 독립이 아닐 경우