안녕하세요
오늘은 토론토대학교 수업 중 Reading Assignment 를 진행하는 과정에서 오랜만에 다시 공부한 가설검정에 대해 적어보려합니다.
Paper : Storks Deliver Babies (p = 0.008)
상관관계와 인과관계의 차이에 대해 설명한 논문입니다.
유럽 17개국의 황새 개체수와 출생률 간의 상관관계를 분석했는데요. 두 변수(황새 개체수와 출생률) 사이에 통계적으로 유의미한 상관관계가 있음을 발견했습니다. 쉽게 설명하자면, 황새의 개체수가 많을수록 출생률도 높은 경향이 있다는 것입니다.
하지만 이러한 결과가 "황새가 아이를 가져다준다"를 의미하지는 않는다고 강조합니다. 다시 말하자면, 두 변수 사이에 상관관계가 존재하더라도 이것이 인과관계를 의미하지 않는다는 것이죠.
짧게 종합하자면, 유의확률(p-value) 같은 통계적 수치가 잘못 해석되면 얼마나 잘못된 결론에 도달할 수 있는지를 보여줍니다. 이러한 황새와 출생률 간의 상관관계를 통해 단순한 예시를 넘어 통계 해석의 중요성과 조심스러움의 필요함에 대해 강조하였습니다.
가설검정
Sample data를 기반으로 모집단에 대한 가설이 맞는지 검증하는 과정. 많은 연구에서 귀무가설을 가정으로 출발합니다. 연구 과정에서 이러한 귀무가설을 기각할 수 있는지 판단하기 위해 데이터를 분석합니다.
귀무가설(null hypothesis (H₀))
통계적 가설 검정에서 일반적으로 두 변수 간에 효과나 관계가 없다는 기본 가정 ( 상관관계가 없다는 가정 )
ex) 알코올 섭취량과 암 발병 위험 간의 상관관계를 검정할 때 귀무가설의 예
H₀: There is no correlation between alcohol consumption and the risk of cancer.
대립가설(alternative hypothesis (H₁))
두 변수 간에 상관관계가 있다는 가정
ex) 알코올 섭취량과 암 발병 위험 간의 상관관계를 검정할 때 귀무가설의 예
H₁: There is a correlation between alcohol consumption and the risk of cancer.
귀무가설을 기각
귀무가설이 맞지 않을 가능성이 높다라는 말로 통계적 검정에서 P-value가 일반적인 유의수준(α = 0.05)보다 작다면, 귀무가설(H₀)을 기각합니다. "관찰한 결과가 우연히 발생했을 가능성이 5%보다 작다"는 말이 됩니다.
즉, 효과가 없거나 관계가 없다는 가정을 인정하기 어렵다는 말입니다. 하지만 이 말이 대립가설(H₁)이 옳다는 말은 아닙니다.
P-value
귀무가설이 참이라고 가정했을 때, 우리가 얻은 데이터가 나타날 확률 (P값은 귀무가설이 참일 때 관측된 데이터가 나올 확률)
p < 0.05 : 귀무가설을 기각
p >= 0.05 : 귀무가설을 기각하지 않음
* p-value가 0.05보다 작다는 건, 귀무가설을 지지하기 어렵다는 결론
검정 통계량
실제 결과가 기대값과 얼마나 차이가 나는지 수치로 표현
연속형 변수 (숫자형)
ex) 키, 몸무게 등
- 두 집단 비교 : T-Test
- 세 집단 이상 비교 : ANOVA
- 두 연속형 변수 관계 비교 : 상관분석
범주형 변수 (그룹형)
ex) 성별 등
- 두 변수의 독립성 검정 : 카이제곱 검정 ex) 알코올 섭취 여부에 따라 암 발병률이 다른가?
- 두 집단 비율 비교 : Z-검정 ex)백신 접종률
1종 오류와 2종오류