끄적끄적
2025.06.30 통계 세션 3 본문
| 튜터 | 곽승예 튜터님 |
| 수업 목표 | 1. 상황에 맞는 가설검정 방법을 알아봅니다. 2. 파이썬으로 어떻게 가설검정할 수 있는지 실습해봅니다. |
1️⃣ 수치형 변수 가설검정
데이터의 형태와 분석 목적에 따라 적절한 검정 방법이 다르다.
따라서 우리는 다양한 검정 방법을 알 필요가 있다.
📌 t 검정
t 검정은 1개 또는 2개의 집단 간 평균 차이를 비교하는 검정 방법이다.
또한, 정규분포를 가정하는 모수 검정 방법이다.
t 검정의 전제
- t 검정은 모수검정에 속한다.
- 모수검정: 모집단이 특정 분포(ex.정규분포)를 따른다는 가정을 바탕으로 진행하는 통계 검정
- 보통 정규분포에서 나온 데이터라는 전제를 가진다. (정규성)
- 비교 대상의 평균뿐 아니라 분산이 같다는 등분산성도 가정하는 경우가 많다.
-> 위 전제가 어긋날 경우 비모수검정을 고려해야한다.
t 검정의 종류
- 단일표본 t검정 (One-Sample t-test)
- 하나의 집단 평균이 특정 기준값과 다른지 비교한다.
- ex) 학생들의 평균 수면시간이 7시간과 다른가?
- 귀무가설 : 모집단의 평균은 7시간이다.
- 대립가설 : 모집단의 평균은 7시간이 아니다.
- 연구 맥락에 따라 의미 있는 기준값을 설정하는 것이 중요하다.
- 이표본 t검정 (Two-Sample t-test)
- 독립표본 t검정과 동의어
- 서로 독립된 두 집단의 평균 차이 비교한다.
- ex) 남학생과 여학생의 평균 키가 다른가?
- 귀무가설 : 두 집단의 평균은 같다.
- 대립가설 : 두 집단의 평균은 다르다.
- 전제 조건 : 정규성, 등분산성
- 정규성이 어긋날 경우 → Mann-Whitney U검정 사용 (비모수 대안)
- 등분산성이 아닐 경우 → Welch t검정을 사용 (정규성 가정은 여전하지만 분산은 달라져도 괜찮음)
- 대응표본 t검정 (Paired t-test)
- 같은 집단에서 전과 후를 비교하거나, 쌍을 이룬 데이터 비교한다.
- ex) 약 복용 전후의 혈압 차이 → 비교 대상이 같은 사람, 같은 특성
- 두 시점의 차이값(후 - 전) 자체가 정규성을 가져야 함
- 정규성 어긋날 경우 : Wilcoxon signed-rank 검정 사용
📌 정규성과 등분산성
정규성: 표본이 정규분포를 따르는 모집단에서 나왔다고 가정
등분산성: 두 집단의 분산이 동일하다고 가정
정규성 검정 방법
| 방법 | 설명 | 사용시기 |
| Q-Q플랏 | 정규분포와 데이터의 분위수를 비교하는 시각적 도구 | 탐색적 단계, 직관적 확인 |
| 샤피로-윌크 검정 | 귀무가설: “정규분포이다” (p < 0.05면 정규성 기각) | 소표본일 때 효과적 |
| Kolmogorov-Smirnov 검정 (KS 검정) | 이론적 분포(정규분포 등)와 데이터 분포의 차이 검정 | 대체로 샤피로보다 덜 민감 |
| 히스토그램 확인 | 데이터 분포의 대칭성과 종모양을 시각적으로 확인 | 보조 자료로 사용 |
-> p > 0.05라도 정규성을 확정할 수는 없다 : 단지 정규분포가 아닌 것 같지 않다~ 수준의 판단
등분산성 검정 방법
| 방법 | 설명 | 사용시기 |
| Levene 검정 | 귀무가설: “두 집단의 분산은 같다” | 가장 널리 쓰이며 정규성 민감도 낮음 |
| F-검정 | 두 집단 분산이 같은지를 검정 (정규성 민감) | 정규성에 민감해 실제로는 잘 사용되지 않음 |
| Bartlett 검정 | 세 집단 이상에서 분산 동질성 검정 (정규성 가정 강함) | 2개 이상 집단의 분산이 동일한지 검정 |
-> 등분산성이 기각되면 Welch t검정 또는 Welch ANOVA 사용
정규성과 등분산성을 검정하는 이유
- 표본 수가 충분히 크면 중심극한정리에 따라 정규성 가정이 완화된다.
- → 일반적으로 n > 30이면 비교적 자유롭게 t검정 사용 가능
- 하지만 소표본(n ≤ 30)일수록 정규성과 등분산성 확인이 매우 중요하다.
- 각 전제가 충족되지 않을 경우에는 다음과 같은 대체 검정을 사용한다.
- 정규성 위반 → 비모수검정 (Mann-Whitney, Wilcoxon 등)
- 등분산성 위반 → Welch t검정 (이표본에 한해)
실무에서의 흐름
실제 분석에서는 전제조건 검정 결과뿐만 아니라 표본 수와 분포 형태까지 고려하여 유연하게 판단해야한다.
| 전제 조건 결과 | n <= 30 | n > 30 |
| 정규성 만족 | t검정 | t검정 |
| 정규성 불만족 | 비모수 검정 권장 | t검정 가능 (분포 확인 후) |
| 등분산성 불만족 | Welch t검정 | Welch t검정 |
-> 전제가 기각되었다고 무조건 비모수 검정으로 넘어가는 것이 아니라, 표본 수, 분포 모양, 이상치 유무 등을 종합적으로 고려해 결정해야 한다.
📌 비모수 검정
모집단의 분포를 전제로 하지 않는 검정 방법으로, 정규분포를 가정하지 않아도 사용할 수 있다.
모수검정은 정규분포를 전제로 평균과 분산 등의 모수를 비교하지만, 현실의 데이터는 정규분포를 가정할 수 없는 경우가 많다.
1) 극단값(이상치)가 많은 경우,
2) 좌우 비대칭 분포인 경우,
3) 표본 수가 너무 많은 경우
에는 모수(평균,분산)를 비교하는 것을 신뢰할 수 없다.
-> 분포 전체를 가정할 수 없다면, 데이터의 위치에 집중한다. (평균 대신 순위, 중앙값 등 분포의 위치에 주목)
모수검정 vs 비모수검정
|
구분
|
모수검정
|
비모수검정
|
|
전체
|
정규분포 등 분포 가정 필요
|
분포 가정 없음
|
|
비교대상
|
평균, 분산 등 모수
|
순위, 중앙값, 위치
|
|
장점
|
효율적, 정규성 만족 시 강력
|
유연성, 이상치에 덜 민감
|
|
단점
|
전제 어긋나면 결과 왜곡
|
정밀도 낮고 해석 제한적
|
|
예시
|
t검정, ANOVA
|
Mann-Whitney, Wilcoxon, Kruskal-Wallis
|
비모수 검정은 아래와 같은 상황에서 사용한다.
- 정규성 검정 결과 p < 0.05 -> 정규성 기각
- 소표본(n ≤ 30)이고 정규성 확인 불가
- 이상치/극단값이 존재하는 경우
- 자료가 순서형(서열형)이고 간격이 일정하는 않는 경우 (ex. 만족도 조사)
상황별 비모수검정 방법
|
상황
|
모수검정
|
비모수검정 대안
|
|
한 집단 vs 기준값
|
단일표본 t검정
|
Wilcoxon signed-rank test
|
|
독립된 두 집단
|
이표본 t검정
|
Mann-Whitney U test
|
|
대응된 두 집단
|
대응표본 t검정
|
Wilcoxon signed-rank test
|
|
세 집단 이상
|
ANOVA
|
Kruskal-Wallis test
|
-> 비모수 검정은 정규성 가정을 하지 않고, 평균보다 순위와 위치에 기반해 두 집단 간 차이를 판단한다.
📌 분산분석 (ANOVA: Analysis of Variance)
3개 이상의 집단의 평균 차이를 비교하는 검정 방법이다 (t 검정의 확장 형태)
ANOVA가 필요한 이유
- 3개 이상의 집단에서 평균 비교를 위해 t검정을 반복해서 사용하면 안됨
- ex. A vs B, B vs C, A vs C → t검정 3번? ❌
- 문제: 검정이 반복될수록 1종 오류(α)가 누적됨
- 따라서, 한 범의 검정으로 모든 집단 간 평균 차이 유무를 판단하는 방법이 필요하다.
ANOVA 원리
- 전체 데이터의 변동을 집단 간 변동 + 집단 내 변동으로 분리하여 집단 간 평균 차이의 유의성을 평가한다.
- 즉, 집단 간 변동이 크고 집단 내 변동이 작다면 집단 간 평균에 차이가 있다고 판단한다.
- 정규성, 등분산성 만족 + 독립성(각 집단의 데이터는 서로 독립적이어야 함)
- 전제 위반 시에는 Welch ANOVA 또는 Kruskal-Wallis 등 비모수 대안 사용
- 가설
- 귀무가설(H₀) : 모든 집단의 평균이 같다
- 대립가설(H₁) : 적어도 하나의 집단 평균은 다르다
→ 단, 어느 집단끼리 다른지는 알려주지 않으므로 사후검정(post-hoc test) 필요함
F분포
- F값 : ANOVA에서 사용하는 검정통계량
- 집단 간 분산 / 집단 내 분산 → 이 비율이 클수록 집단 간 차이가 크다고 판단한다.
- 이렇게 계산된 F값은 F분포라는 확률분포를 따른다.
- F분포 : 두 개의 독립적인 카이제곱 분포의 비율로 만들어지는 분포
- ANOVA 외에도 회귀분석, 분산비교 등 다양한 검정에서 사용된다.
-> ANOVA는 3개 이상 집단의 평균 차이를 한 번에 검정할 수 있는 방법이며, 분산 구조를 분석함으로써 평균 차이를 판단한다.
📌 사후검정과 다중검정
사후검정
- ANOVA는 집단들 사이에 평균 차이가 존재하는가에 대해 있다/없다만 알려준다
- 우리는 A,B,C 집단 중 정확히 어디가 다른가를 확인하고 싶을 때 사후검정을 사용한다.
- 사후검정이란 ANOVA 결과에서 차이가 있을 때, 각 집단을 하나씩 쌍으로 묶어서 비교해보는 추가 검정 방법이다. (t 검정 또는 유사한 방법으로 비교)
- 사후검정 방법은 아래와 같이 존재한다.
| 방법 | 특징 | 비고 |
| Tukey HSD | 가장 대표적인 방법, 모든 쌍을 비교 | 등분산 가정 필요 |
| Bonferroni | 보수적, 유의수준을 나눠서 비교 | 단순하고 안전하지만 검정력 낮음 |
| Scheffé | 매우 보수적, 모든 조합 가능 | 자유도 보정 포함 |
| Games-Howell | 등분산 가정 필요 없음 | Welch ANOVA와 함께 사용 가능 |
다중검정
- 검정은 여러 번 반복될수록 오류가 쌓이기 때문에 유의수준을 보정해주는 작업이 필요하다. -> 다중검정
- 다중검정 방법은 아래와 같이 존재한다.
|
방법
|
특징
|
비고
|
|
Bonferroni correction
|
α를 검정 횟수로 나눔 | 가장 보수적, 간단 |
|
Holm correction
|
단계적으로 보정
|
Bonferroni보다 덜 보수적 |
|
Benjamini-Hochberg
(FDR) |
거짓 발견률 조정 방식 | 많은 비교가 있을 때 유리 |
|
False Discovery Rate
(FDR) |
유의한 결과 중 실제 거짓일 확률 조절 | 베냐미니-호크버그 방식과 자주 함께 사용 |
2️⃣ 범주형 변수를 위한 가설검정
평균이 아닌 비율/빈도/범주의 차이 또는 관계를 검정하는 흐름
범주형 변수는 수치가 아닌 범주로 나뉘는 변수로 순서나 크기가 없는 명목형 변수와 순서는 있지만 간격이 일정치 않는 순서형 변수가 있다.
이들은 평균 비교가 불가능하기 때문에 비율이나 빈도를 중심으로 검정한다. -> 이산형 데이터 형태로 분석
대표 검정 흐름
|
질문유형
|
예시
|
검정방법
|
귀무가설(H₀)
|
|
한 집단의 비율이 기준과 다른가?
|
“구매율이 50%보다 높은가?”
|
이항검정 (Binomial test)
|
비율 = 기준값
|
|
두 집단의 비율이 다른가?
|
“남녀 클릭률이 다른가?”
|
Z검정 for proportions
|
두 집단의 비율이 같다
|
|
여러 범주 비율이 기대와 다른가?
|
“A/B/C 선호 비율이 같을까?
|
카이제곱 적합도 검정
|
관측 비율 = 기대 비율
|
|
두 범주형 변수 간에 관계가 있는가?
|
“성별과 구매 여부가 관련 있나?”
|
카이제곱 독립성 검정
|
두 변수는 독립이다
|
📌 이항검정 (Binomial Test)
하나의 이진 범주형 변수에서 특정 비율이 기준과 다른지를 검정할 때 사용한다.
- 사용 조건
- 한 집단의 데이터가 성공/실패, 예/아니오처럼 2개의 범주로 나뉨
- 관측된 비율이 기준값(예: 50%)과 다른지 검정
- 예시
- “우리 앱 사용자의 재방문율이 50%보다 높을까?”
- 100명 중 65명이 재방문 → 기준값(0.5)과 유의미한 차이?
- 귀무가설(H₀) : “사용자의 재방문율은 50%이다” (비율 = 기준값)
📌 Z검정 for proportions (두 비율 검정)
두 개 집단의 비율을 비교할 때 사용한다.
- 사용 조건
- 두 집단에서 성공 비율, 클릭률, 구매율 등을 비교
- 집단별 표본 수가 충분히 클 때 사용 가능 (n ≥ 30 추천)
- 예시
- “남성과 여성의 뉴스레터 오픈률이 다른가?”
- 남성: 200명 중 40명 오픈 / 여성: 200명 중 70명 오픈
- 귀무가설(H₀)
- “남성과 여성의 오픈률은 같다” (비율 차이 = 0)
📌 카이제곱 적합도 검정 (Goodness-of-Fit Test)
한 집단의 여러 범주 분포가 기대와 일치하는지 검정할 때 사용한다.
- 사용 조건
- 하나의 범주형 변수에 3개 이상의 범주가 있고
- 각 범주가 예상된 비율(기대값)과 다른지를 검정
- 예시
- “고객이 A/B/C 브랜드를 고른 비율이 모두 1:1:1일까?”
- A: 40명, B: 30명, C: 30명 → 기대값은 33.3명씩
- 귀무가설(H₀)
- “관측된 분포는 기대 분포와 같다”
📌 카이제곱 독립성 검정 (Test of Independence)
두 범주형 변수 간에 관련이 있는지(독립인지)를 검정할 때 사용한다.
- 사용 조건
- 교차표(Contingency Table)로 표현 가능한 두 범주형 변수
- 행과 열 변수 간 관계(연관성)이 있는지를 봄
- 예시
- “성별과 구매 여부가 관련이 있을까?”
- 귀무가설(H₀)
- “성별과 구매 여부는 서로 독립이다” (즉, 성별은 구매 여부에 영향을 주지 않는다)
3️⃣ 결론
상황별 데이터별로 다른 가설검정 방법을 사용해야 한다.
- 비교하려는 집단 수는 몇 개인가?
- 독립된 집단인가, 같은 집단의 전후 비교인가?
- 데이터는 연속형인가, 범주형인가?
- 정규성/등분산성 같은 전제조건을 만족하는가?
⇒ 이에 따라 사용해야 할 검정 방법이 달라진다. 즉, 가설검정 = 상황에 맞는 도구를 선택하는 일!
가설검정 실습
https://colab.research.google.com/drive/1mDuOiaZ7442CayDWFKStzICbo7jDzTbx?usp=sharing
예제로 알아보는 Scipy 라이브러리.ipynb
Colab notebook
colab.research.google.com
2025.06.25 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 31일차 - 통계 세션 1
31일차 - 통계 세션 1
튜터곽승예 튜터님수업 목표1. 통계를 왜 배워야 하는지 생각해본다.2. 첫 술에 배부르랴’ 마인드를 깊이 새긴다.3. 기술 통계와 추론 통계에 차이를 이해한다.4. 정규분포와 가설검정에 대해 알
kminx.tistory.com
2025.06.30 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 34일차 - 통계 세션 2
34일차 - 통계 세션 2
튜터곽승예 튜터님수업 목표1. 신뢰구간이 무엇이고, 왜 사용하는지 알아봅니다.2. p-value를 이해하고 어떻게 사용할 수 있을지 배웁니다.더보기표본오차일부 표본만 관찰했기에 생기는 오차로,
kminx.tistory.com
'[스파르타]내일배움캠프 데이터 분석 트랙 > Session' 카테고리의 다른 글
| 2025.07.01 머신러닝 세션 2 (4) | 2025.07.09 |
|---|---|
| 2025.07.01 통계 세션 4 (3) | 2025.07.09 |
| 2025.06.30 머신러닝 세션 1 (0) | 2025.07.02 |
| 2025.06.27 통계 세션 2 (1) | 2025.06.30 |
| 2025.06.25 통계 세션 1 (2) | 2025.06.25 |