본문 바로가기

전체 글75

7. 검정력과 표본의 크기 좋은 통계적 가설검정이란?통계적 가설검정 시 고려해야할 오류로는귀무가설이 참인데 귀무가설을 기각하는 1종 오류와대립가설이 참인데 귀무가설을 채택하는 2종 오류가 있다.대체로 이 두 오류 중 1종 오류를 2종 오류보다 심각한 것으로 본다. 예컨대, 코로나에 걸린 사람을 걸리지 않았다고 판단하는 것이, 코로나에 걸리지 않은 사람을 걸렸다고 판단하는 것보다 위험할 것이다. 그래서 1종 오류를 범할 확률을 유의수준 이하로 통제하면서, 대립가설이 참일 때 귀무가설을 기각할 확률인 검정력을 최대로 하는 통계적 가설 검정이 가장 좋은 검정 방법이 된다.검정력과 표본의 크기연구자들은 많은 경우 ‘대립가설을 채택’하기 위해 연구를 실행하므로, 높은 검정력은 성공적인 연구에 있어 중요한 요인이 된다. 그런데 검정력은 표본.. 2024. 7. 3.
6. 표준편차와 표준오차 표본표준편차표본표준편차는 각각의 표본값들이 표본평균으로부터 얼마나 떨어져 있는지를 나타내는 측도로, 자료를 요약한 것에 속한다.관측한 자료를 \(X_1, X_2, \cdots, X_n\)이라 할 때, 표본표준편차는 다음과 같이 계산할 수 있다.\(\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2}\)표본표준편차가 클수록 관측한 자료들은 표본평균으로부터 멀리 산포되어있는 것이고, 표본표준편차가 작을수록 자료들이 표본평균 근처에 밀집되어있는 것이다. 이러한 표본표준편차는 단지 자료를 요약한 것에 불과하며, 표본표준편차를 계산하는 공식은 위의 식 단 하나로 주어진다.표준오차통계학은 표본에 속한 제한된 정보를 사용하여 미지의 값인 모집단의 모수를 추정 및 검정하고자 하는 학문이.. 2024. 6. 27.
5. T distributon t분포는 무엇이고, 왜 필요할까?평균이 \(\mu\)이고 분산이 \(\sigma^2\)인 정규분포의 평균을 추정하기 위해서 표본평균 \(\bar{X}\)를 추정량으로 사용한다고 하자. 이 때 표본평균 \(\bar{X}\)와 표본분산 \(S^2\)는 다음과 같다.\(\bar{X} = \frac{1}{n}(X_1 +\cdots+X_2\)\(S^2= \frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2\)\(\bar{X}\)가 얼마나 정확하게 \(\mu\)를 추정한 값인지, 즉 이 추정량의 정확도를 파악하기 위해서는 \(\bar{X}\)의 분포에 대한 정보가 필요하다. 이 분포를 파악하기 위해 다음과 같은 식을 세운다.\(V= (n-1)\frac{S^2}{\sigma^2}\)는 자유도가 n.. 2024. 6. 27.
4. Distribution of Functions of Random Variables 우리는 왜 functions of random variables의 분포를 알고싶어할까?우리는 모집단의 특성을 설명해줄 ‘모수’를 추론하기 위해, 표본으로부터 모수를 추정하고 그 추정량의 정확도를 검정한다. 추정량을 검정하기 위해 \(P(|\hat{\theta}-\theta| \leq c)\)를 구하기 위해서는 \(\hat{\theta}\) = statistic = \(T(X_1, X_2, \cdots, X_n)\)= functions of random variables 의 분포를 알아야 한다.Methods to obtain the distribution of functions of random variablesdistribution function techniquecontinuous type random.. 2024. 6. 27.
3. 확률변수, 모수, 상수의 구분 이렇듯 통계학은 모수를 추론하기 위하여 특정한 분포를 가지는 확률변수들로부터 통계량을 만들고 이를 이용해 모수를 추정하고 또 추정한 모수를 검정하는 학문이라는 점에서, 통계학을 공부하며 마주하는 여러 수식들에서 확률변수와 모수, 상수를 구분하는 것은 매우 중요하다.회귀분석 모형을 예시로 들어보자.\(Y_i = \beta_0+\beta_1X_i+\epsilon_i, \epsilon_i \stackrel{\text{iid}}\sim N(0,\sigma^2)\)이 모형의 구성요소들은 각각 확률변수, 모수, 상수 중 무엇일까?먼저 \(X_i\)는 추출한 표본의 값이므로 상수이다.\(\epsilon_i\)는 \(N(0, \sigma^2)\)의 정규분포를 따르는 확률변수이고, 이러한 \(\epsilon_i\)를 포.. 2024. 6. 27.
2. 통계량 Statistic 통계량 statistic 은 ‘a function of one or more random variables that does not depend on any ‘unknown’ parameter’로 정의된다. 즉, \(X_1, \cdots, X_n\)이라는 확률변수들이 있을 때, 이 확률변수들을 입력으로 계산한 함수값 \(T=T(X_1, \cdots, X_n)\)이 통계량이 되는 것이다.이러한 통계량들 중에서모수를 추정하는데 쓰이는 통계량을 추정량이라 하고,모수에 대한 추정량을 검정하는데 쓰이는 통계량을 검정통계량이라고 한다. 그렇다면 수많은 통계량들 중에서, 어떤 것이 ‘좋은 통계량’일까?추정 - 추정량\(\bar{X}\)와 \(X_1\) 중 어떤 값을 \(\mu\)에 대한 추정량으로 쓰는 것이 좋을까?.. 2024. 6. 27.
[CSS] Tistory 줄 간격 / 문단 간격 커스터마이징 개요 주로 노션을 이용하여 강의 내용이나 공부한 내용을 정리한 후 티스토리로 내용을 복사해서 포스팅을 하는데, 티스토리의 스킨이 노션에 비해 묘하게 가독성이 떨어진다고 느꼈다. 이미 한 차례 폰트나 글자 크기, 들여쓰기 등을 커스터마이징 한 상태임에도 그런 느낌이 드는 원인은 줄 간격과 문단 간격에 있다고 생각했고, 노션처럼 문단 간격이 줄 간격보다 넓어지도록 하기 위해 CSS를 수정해보았다. 여기서 줄 간격이란 shift enter로 줄바꿈을 했을 때 줄 사이의 간격이고, 문단 간격이란 enter로 줄 바꿈을 했을 때 줄 사이의 간격이다. 최종적으로 나는 태그에 상관 없이 shift enter를 했을 때의 줄 간격을 a로 통일하고, enter를 했을 때의 문단 간격을 b로 통일하고자 했다. CSS 코드.. 2024. 4. 10.
[SQLD] 제52회 SQLD 후기 및 요약본 공유 - 개정 후 첫 회차였던 2024.03.09 제52회 SQLD 시험 후기입니다. - 데이터베이스 관련 수업을 듣지 않은 전공자입니다. - 시험 전 3일동안 약 18시간 정도 투자했습니다. 1. 시험을 응시한 계기 한 프로젝트를 하면서 다량의 데이터를 다루게 되었는데, 프로젝트 초반에 데이터베이스를 구축하지 않고 각각의 데이터를 엑셀 파일 단위로 구분하여 사용함으로 인해 프로젝트 과정 중에 크고 작은 문제들을 맞딱뜨렸습니다. 한 데이터에 수정 사항이 있는 경우 관련 데이터의 파일을 모두 일일이 열어 수정해야 하기에 참조 무결성을 유지하기 어려움 모든 사용자가 각자 본인의 로컬에 파일을 다운받아 사용하기에, 데이터에 수정 사항이 있는 경우 모든 사용자가 수작업으로 수정 사항을 반영해야 함 여러 데이터가 공통.. 2024. 4. 10.
1. Random Experiment, Random Variable, Random Sample Random Experiment 확률실험 통계학을 공부하다보면 ‘random experiment’라는 용어를 수도 없이 마주하게 된다. random experiment는 실험의 결과를 미리 알 수 없고 실험 전에 나올 수 있는 결과의 집합을 알 수 있고 (이때 이 결과의 집합을 sample space라고 한다.) 같은 조건 하에서 반복할 수 있는 실험을 의미한다. 예시를 통해 random experiment에 대한 감을 잡아보자. ‘동전 던지기’는 random experiment일까? 동전을 던졌을 때 어떤 결과가 나올지, 던져보기 전까지는 미리 알 수 없다. 동전을 던졌을 때, 우리는 동전의 앞면 또는 뒷면을 결과값으로 얻을 수 있다. 동전은 같은 조건에서 여러 번 던져볼 수 있다. 이렇듯 동전 던지기.. 2024. 3. 29.