1. Random Experiment, Random Variable, Random Sample
Random Experiment 확률실험
통계학을 공부하다보면 ‘random experiment’라는 용어를 수도 없이 마주하게 된다. random experiment는
- 실험의 결과를 미리 알 수 없고
- 실험 전에 나올 수 있는 결과의 집합을 알 수 있고 (이때 이 결과의 집합을 sample space라고 한다.)
- 같은 조건 하에서 반복할 수 있는 실험을 의미한다.
예시를 통해 random experiment에 대한 감을 잡아보자.
- ‘동전 던지기’는 random experiment일까?
- 동전을 던졌을 때 어떤 결과가 나올지, 던져보기 전까지는 미리 알 수 없다.
- 동전을 던졌을 때, 우리는 동전의 앞면 또는 뒷면을 결과값으로 얻을 수 있다.
- 동전은 같은 조건에서 여러 번 던져볼 수 있다.
- cf. 만약 동전이 선다면? 그러면 동전을 던졌을 때 나올 수 있는 결과의 집합을 안다고 할 수 없지 않을까?
→ 이러한 가정은 동전을 무한히 던져볼 수 없으므로 무시한다.
- ‘삼성전자의 주가’는 random experiment일까?
- 삼성전자의 주가는 미리 알 수 없다.
- 삼성전자의 주가는 양의 실수 집합의 원소들 중 하나의 값이 될 것이다.
- 삼성전자의 주가에 영향을 미치는 수많은 요소들이 모두 일치하는 환경을 조성할 수 없다.
Random Variable 확률변수
위에서 어떠한 실험이 random experiment가 되기 위한 조건들을 살펴보면서, random experiment로부터 관측 가능한 모든 결과의 집합을 sample space라고 했다. 동전 던지기에서는 {앞면, 뒷면}이, 주사위 굴리기에서는 {1, 2, 3, 4, 5, 6}이 sample space가 될 것이다. random variable란, 이러한 sample space를 실수 공간으로 대응한 값이다. 즉, 동전 던지기의 sample space {앞면, 뒷면}을 random variable {0, 1}로 대응할 수 있는 것이다.
그렇다면 random variable은 왜 필요할까? 두 개의 원소를 갖는 sample space들을 생각해보자. 동전 던지기의 {앞면, 뒷면}, 게임의 {승리, 패배} 등 이 세상에는 두 개의 원소로 구성된 수많은 sample space들이 존재할 것이다. 하지만 이 모든 sample space들에 대응되는 random variable은 {0, 1} 하나이다. 즉, 우리는 수많은 sample space들에 대해 생각할 필요 없이, random variable의 개념을 도입함으로써 하나의 실수 집합 {0, 1}에 대해서만 고려할 수 있게 된다.
Random Sample 무작위표본
앞선 포스팅에서 통계학을 표본에 속한 제한된 정보를 통하여 미지의 값인 모집단의 모수를 추정 및 검정하고자 하는 학문이라고 설명했다. random sample은 모수를 추정하기 위해 추출하는 표본을 나타내기 위한 개념으로, 그 정의는 다음과 같다.
If \(X_i \stackrel{\text{iid}}\sim f(x), i=1, 2, \cdots, n\), (iid = independent and identically distributed), \(X_1, \cdots, X_n\) are a random sample from a distribution which has pdf f(x).
이 정의에 따르면, random sample은 random variable의 일종이다. ‘표본’이라고 하면 이미 추출되어 정해진 데이터 값일 것 같은데, 측정을 하기 전까지는 확률 분포에 따라 어떤 값이 될 확률 만이 있을 뿐 정해진 어떠한 값이 있는 것이 아니다. 측정이나 실험을 통해 실제로 얻어지는 값들은 random sample의 realization이라고 한다.
예를 들어 전구의 수명을 알고자 할 때, 추출한 전구 1번의 수명 random sample \(X_1\) 은 random variable이 되고, 실제로 측정을 해보니 3년이 나왔다고 한다면, \(X_1\)의 realization이 3년이 되는 것이다.