좋은 통계적 가설검정이란?
- 통계적 가설검정 시 고려해야할 오류로는
- 귀무가설이 참인데 귀무가설을 기각하는 1종 오류와
- 대립가설이 참인데 귀무가설을 채택하는 2종 오류가 있다.
검정력과 표본의 크기
연구자들은 많은 경우 ‘대립가설을 채택’하기 위해 연구를 실행하므로, 높은 검정력은 성공적인 연구에 있어 중요한 요인이 된다. 그런데 검정력은 표본의 크기 및 effect size와 밀접한 연관을 가진다. 이에 우리는 수행하고자 하는 통계적 가설검정의 검정력을 통하여 연구에 필요한 표본의 크기를 결정할 수 있다. 즉, ‘내 연구는 이만큼의 검정력이 필요하다’ 하는 것을 정하면, 그 연구의 가설검정이 그만큼의 검정력을 가지기 위해 필요한 표본의 크기를 알 수 있다. (반대로 표본의 크기가 주어지면 해당 통계적 가설검정의 검정력을 알 수도 있다.)
그 전에, 검정력이 표본의 크기 및 effect size와 어떻게 관련이 있는지 다음의 예시를 통해 감을 잡아보자.
자유투 성공률이 0.4인 농구선수 A와 0.3인 농구선수 B가 있다고 하자. 이 두 선수가 각각 10번씩 자유투를 던진 결과를 통해, 두 선수의 자유투 성공률 간에 차이가 있는지 확인하고자 한다. 두 선수가 각각 10번씩 자유투를 던져서 A 선수는 4번을, B 선수는 3번을 성공했다고 하자. 이 경우에는 두 선수 간의 자유투 성공 개수가 1개밖에 차이가 나지 않으므로 두 선수의 실력에 차이가 있다고 확신하기 어렵다. 즉, 가설 검정의 검정력이 낮은 것이다. 반면, 두 선수가 각각 100번씩 자유투를 던져서 A 선수는 40번을, B 선수는 30번을 성공했다면 어떨까? 이 경우 두 선수의 자유투 성공 개수의 차이는 10개가 되어, 두 선수의 실력에 차이가 있음을 보다 확신할 수 있을 것이다. 이는 곧 표본의 크기가 클수록 그 통계적 가설검정은 높은 검정력을 가지게 됨을 의미한다.
검정력과 effect size
- effect size: 두 표본평균의 차이를 표본표준편차로 나눈 값
이번에는 자유투 성공률이 0.31인 농구선수 C와 농구선수 B를 비교해보자. 이 두 선수가 각각 100번씩 자유투를 던져서 C 선수는 31번을, B 선수는 30번을 성공했다고 하다. 이 경우, 위의 예시와 표본의 크기(100번)가 같음에도 불구하고 두 선수 간의 자유투 성공 개수가 1개밖에 차이가 나지 않으므로 이 결과만으로 두 선수의 실력에 차이가 있다고 확신하기 어려워진다. 이를 통해 effect size가 클수록 높은 검정력을 가지게 됨을 알 수 있다.
위 그래프는 모수의 값과 표본의 크기에 따른 귀무가설 기각 확률을 나타낸 것이다. $\mu_0$을 기준으로 왼쪽은 귀무가설이 참, 오른쪽은 귀무가설이 거짓이 된다. 따라서 그래프의 왼쪽 부분은 귀무가설이 참일 때 귀무가설을 기각할 확률이므로 1종 오류를 의미하고, 오른쪽 부분은 귀무가설이 거짓일 때 귀무가설을 기각할 확률이므로 검정력을 의미한다. 결론적으로 위 그래프는 표본의 크기가 클수록, 모수와 추정량의 차이가 클수록 검정력이 높아짐을 보여준다.
cf. 현재는 대체로 표본의 크기가 매우 큰 경우가 많아, 모수와 추정량이 아주 적은 차이만 보여도 통계적으로 유의미한 차이가 있다는 결론으로 이어지는 경우가 많다. 하지만 0.5kg을 감량시켜주는 다이어트 보조제는 의미가 없는 것처럼, 통계적 유의성을 맹신하기보다는 관련 분야 전문가의 의견 또한 참고해야 할 것이다.
이포본 t 검정에서 표본의 크기 공식 유도
그렇다면 검정력과 표본의 크기가 어떠한 관계를 가지는지 이표본 t 검정을 예시로 알아보자.
\(1-\beta\)의 검정력을 갖는 표본의 크기를 구하는 공식을 수리적으로 유도하기 위해서는 다음의 단계를 따르면 된다.
- 검정통계량을 찾아서 기각역을 결정한다. 즉, 귀무가설이 참인 경우, 검정통계량의 값이 기각역이 속하여 귀무가설을 기각하게 되는 확률이 \(\alpha\)가 되도록 기각역을 결정한다.
- 검정력이 \(1-\beta\)가 되도록 표본의 크기를 결정한다. 즉, 대립가설이 참인 경우, 검정통계량의 값이 기각역에 속할 확률이 \(1-\beta\)가 되도록 표본의 크기를 결정한다.
'Lecture > Theory Statistics' 카테고리의 다른 글
6. 표준편차와 표준오차 (0) | 2024.06.27 |
---|---|
5. T distributon (0) | 2024.06.27 |
4. Distribution of Functions of Random Variables (0) | 2024.06.27 |
3. 확률변수, 모수, 상수의 구분 (1) | 2024.06.27 |
2. 통계량 Statistic (0) | 2024.06.27 |
댓글