Lecture/Theory Statistics

1. Random Experiment, Random Variable, Random Sample

iamzieun 2024. 3. 29. 16:20

Random Experiment 확률실험

통계학을 공부하다보면 ‘random experiment’라는 용어를 수도 없이 마주하게 된다. random experiment는

  1. 실험의 결과를 미리 알 수 없고
  2. 실험 전에 나올 수 있는 결과의 집합을 알 수 있고 (이때 이 결과의 집합을 sample space라고 한다.)
  3. 같은 조건 하에서 반복할 수 있는 실험을 의미한다.

예시를 통해 random experiment에 대한 감을 잡아보자.

  • ‘동전 던지기’는 random experiment일까?
    1. 동전을 던졌을 때 어떤 결과가 나올지, 던져보기 전까지는 미리 알 수 없다.
    2. 동전을 던졌을 때, 우리는 동전의 앞면 또는 뒷면을 결과값으로 얻을 수 있다.
    3. 동전은 같은 조건에서 여러 번 던져볼 수 있다.
    이렇듯 동전 던지기는 위의 세 조건을 모두 만족하므로, random experiment라 할 수 있다. 즉, 동전을 던졌을 때의 결과는 오직 앞면 혹은 뒷면 만이 가능하다고 ‘가정’하는 것이다. 결국 통계학도 어떠한 ‘가정’을 했을 때 어떠한 ‘결론’을 얻어낼 수 있는가에 대한 학문인 것이다.
    • cf. 만약 동전이 선다면? 그러면 동전을 던졌을 때 나올 수 있는 결과의 집합을 안다고 할 수 없지 않을까?
      → 이러한 가정은 동전을 무한히 던져볼 수 없으므로 무시한다. 
  • ‘삼성전자의 주가’는 random experiment일까?
    1. 삼성전자의 주가는 미리 알 수 없다. 
    2. 삼성전자의 주가는 양의 실수 집합의 원소들 중 하나의 값이 될 것이다.
    3. 삼성전자의 주가에 영향을 미치는 수많은 요소들이 모두 일치하는 환경을 조성할 수 없다.
    이렇듯 삼성전자의 주가는 위의 세 가지 조건 중 마지막 조건을 만족하지 못하기 때문에 random experiment라고 할 수 없다. 하지만 통계학은 random experiment만을 대상으로 한다. 이에 시계열 분석 등의 분야에서는 삼성전자의 주가를 random experiment라고 ‘가정’하고 미래의 주가를 예측한다. 이렇게 예측한 삼성전자의 주가는 정확할까? 당연히 그렇지 않다. 애초에 random experiment가 아닌 것을 random experiment라고 가정했다는 점에서, 잘못된 가정으로부터 나온 결과이기 때문에 정확도가 떨어질 수밖에 없는 것이다.

 

Random Variable 확률변수

위에서 어떠한 실험이 random experiment가 되기 위한 조건들을 살펴보면서, random experiment로부터 관측 가능한 모든 결과의 집합을 sample space라고 했다. 동전 던지기에서는 {앞면, 뒷면}이, 주사위 굴리기에서는 {1, 2, 3, 4, 5, 6}이 sample space가 될 것이다. random variable란, 이러한 sample space를 실수 공간으로 대응한 값이다. 즉, 동전 던지기의 sample space {앞면, 뒷면}을 random variable {0, 1}로 대응할 수 있는 것이다.

그렇다면 random variable은 왜 필요할까? 두 개의 원소를 갖는 sample space들을 생각해보자. 동전 던지기의 {앞면, 뒷면}, 게임의 {승리, 패배} 등 이 세상에는 두 개의 원소로 구성된 수많은 sample space들이 존재할 것이다. 하지만 이 모든 sample space들에 대응되는 random variable은 {0, 1} 하나이다. 즉, 우리는 수많은 sample space들에 대해 생각할 필요 없이, random variable의 개념을 도입함으로써 하나의 실수 집합 {0, 1}에 대해서만 고려할 수 있게 된다.

 

Random Sample 무작위표본

앞선 포스팅에서 통계학을 표본에 속한 제한된 정보를 통하여 미지의 값인 모집단의 모수를 추정 및 검정하고자 하는 학문이라고 설명했다. random sample은 모수를 추정하기 위해 추출하는 표본을 나타내기 위한 개념으로, 그 정의는 다음과 같다.

If \(X_i \stackrel{\text{iid}}\sim f(x), i=1, 2, \cdots, n\), (iid = independent and identically distributed), \(X_1, \cdots, X_n\) are a random sample from a distribution which has pdf f(x).

이 정의에 따르면, random sample은 random variable의 일종이다. ‘표본’이라고 하면 이미 추출되어 정해진 데이터 값일 것 같은데, 측정을 하기 전까지는 확률 분포에 따라 어떤 값이 될 확률 만이 있을 뿐 정해진 어떠한 값이 있는 것이 아니다. 측정이나 실험을 통해 실제로 얻어지는 값들은 random sample의 realization이라고 한다.

예를 들어 전구의 수명을 알고자 할 때, 추출한 전구 1번의 수명 random sample \(X_1\) 은 random variable이 되고, 실제로 측정을 해보니 3년이 나왔다고 한다면, \(X_1\)의 realization이 3년이 되는 것이다.