Lecture/Theory Statistics
5. T distributon
iamzieun
2024. 6. 27. 19:05
- t분포는 무엇이고, 왜 필요할까?
- 평균이 \(\mu\)이고 분산이 \(\sigma^2\)인 정규분포의 평균을 추정하기 위해서 표본평균 \(\bar{X}\)를 추정량으로 사용한다고 하자. 이 때 표본평균 \(\bar{X}\)와 표본분산 \(S^2\)는 다음과 같다.
- \(\bar{X} = \frac{1}{n}(X_1 +\cdots+X_2\)
- \(S^2= \frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2\)
- \(\bar{X}\)가 얼마나 정확하게 \(\mu\)를 추정한 값인지, 즉 이 추정량의 정확도를 파악하기 위해서는 \(\bar{X}\)의 분포에 대한 정보가 필요하다. 이 분포를 파악하기 위해 다음과 같은 식을 세운다.
- \(V= (n-1)\frac{S^2}{\sigma^2}\)는 자유도가 n-1인 카이제곱분포를 따른다.
- \(Z=\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\)는 평균이 0, 분산이 1인 정규분포를 따른다.
- 평균이 \(\mu\)이고 분산이 \(\sigma^2\)인 정규분포의 평균을 추정하기 위해서 표본평균 \(\bar{X}\)를 추정량으로 사용한다고 하자. 이 때 표본평균 \(\bar{X}\)와 표본분산 \(S^2\)는 다음과 같다.

-
-
- 이 때 \(T\)에는 \(\sigma\)가 사용되지 않으므로, t분포를 이용하면 모분산을 알 수 없을 때에도 모평균을 추정할 수 있게 된다. 즉, t분포는 모평균 \(\mu\)를 추정하기 위해 알아낸 \(\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}\)의 분포이다.
- 이러한 t분포를 활용하여, 우리는 \(\mu\)의 신뢰구간을 구할 수도 있고, \(\mu\)의 추정치에 대한 가설을 검정할 수도 있다.
-
- 어떤 연속형 자료를 관찰하고 나면, 그 연속형 자료가 t분포를 따른다고 확신할 수 있을까?
- 그 연속형 자료가
- iid(independent and identically distributed)이고
- 정규분포를 따르는 모집단에서 추출한 표본인지 여부를 나타내는 정규성 가정을 만족한다면
- 그 연속형 자료가
- 그럼에도 불구하고 우리는 왜 \(X_1, \cdots, X_n \stackrel{\text{iid}}{\sim}N(\mu, \sigma^2)\) 의 가정만 사용하고, \(X_1, \cdots, X_n \stackrel{\text{iid}}{\sim}t\) 와 같은 가정은 사용하지 않을까?
- 어떤 확률변수가 정규분포를 따르는지 여부는 t분포와 마찬가지로 확신할 수 없지만, t분포 가정보다 정규분포 가정을 했을 때 활용할 수 있는 수학적 성질이 더 많기 때문에 굳이 t분포로 가정하지 않고 정규분포 가정을 주로 사용하는 것이다.
- 그렇다면 어떤 확률변수가 특정한 분포를 따른다고 확신할 수 있는 경우도 있을까?
- 그 확률변수를 결정하는 random experiment의 특징에 따라 특정 분포를 따른다는 것을 확신할 수 있는 경우가 존재한다.
- 예시로, 어떠한 random experiment가 다음의 조건을 만족한다면,
- 가능한 결과값은 2개이며
- 각 시행은 서로 독립적이며
- 각 시행마다 성공확률이 일정하다