오늘도 데이터: R로 하는 기초통계 [강의자료 ] 확률변수, 난수, 모집단, 표본

변수 X 값을 알아 보려고 조회 할 때 마다 값이 변하는 변수를 수학에서는 확률변수(random variable)이라 하며, 컴퓨터에서는 난수(random number)라고 부른다.

통계학에서는 모집단(population)은 통계적인 관찰의 대상이 되는 집단 전체를 말한다.

모집단과 평균

모집단의 예를 들자면, 지금 수강하고 있는 수강인원 및 대통령 선거의 유권자 수 정도이고, 모집단 population에서 n 개 (표본, sample)을 꺼내 선택하는 것을 확률변수 X 라고 한다.

전체 유권자 중에서, 1,000명에게 전화 또는 휴대폰으로 여론조사 하였다는 것을 확률변수 X라고 보면 되고, n은 1,000개로 일반적으로 sample of size는 n 개라고 부른다.

확률변수 X의 평균값 (또는 기대값, expected value 또는 expectation) 은 아래와 같다.

$$ \bar{X} = { 1 \over n }(X_1 + X_2 + \cdot\cdot\cdot + X_n) 의 n -> ∞극한이다. $$

이 값을 기호로 E(X) 또는 (X)라고 적는다. E(X) 값을 한 문자로 나타내고 싶을 때 평균이라는 영어단어 첫 글자 m에 해당되는 그리스 문자 μ(뮤)를 사용한다.

μ = E(x) 모평균(population mean)이라 하고 모집단에서 n 개를 꺼년 평균

$ \bar(X)= { 1 \over n} (X_1 + X_2 + \cdot\cdot\cdot + X_n)$을 표본평균(sample mean)이라고 한다.

기대값은 다음 식이 성립 된다.

$$ Ex(aX + bY) = aE(X) + bE(Y)$$

> # 기대값 공식에 대한 일치성 확인

> X = c(1, 2, 3, 4, 5)

> Y = c(5, 3, 1, 8, 9)

> mean(2 * X + 3 * Y)

[1] 21.6

> 2*mean(X) + 3*mean(Y)

[1] 21.6

위와 같이 R에서 계산 하였을 경우 위의 공식이 같다고 함이 증명된다.

참고서적 : 누구나 통계 with R 길벗출판사

오늘도 데이터