2025.06.27 통계 세션 2

Recap

Recent Posts

Recent Comments

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

관리 메뉴

끄적끄적

2025.06.27 통계 세션 2 본문

[스파르타]내일배움캠프 데이터 분석 트랙/Session

2025.06.27 통계 세션 2

kminx 2025. 6. 30. 18:24

튜터	곽승예 튜터님
수업 목표	1. 신뢰구간이 무엇이고, 왜 사용하는지 알아봅니다. 2. p-value를 이해하고 어떻게 사용할 수 있을지 배웁니다.

표본오차

일부 표본만 관찰했기에 생기는 오차로, 통계량(평균, 비율)이 참값에서 벗어나는 오차이다.
즉, 샘플링이 달라지면 결과가 달라졌을 우연적 오차이다.
표본오차는

1. 표본의 크기가 작을수록 변동성이 커져 값이 커진다.

2. 모집단 자체가 다양할수록 표본도 변동성이 커져 값이 커진다.

3. 설계가 좋으면 오차를 줄일 수 있다.

1️⃣ 신뢰구간

표본을 통해 모집단의 평균 μ를 추정한다.
이때 구한 표본평균(𝑥 ̅)은 모수 μ의 점추정값이 되지만,
단 하나의 값만으로는 오차가 얼마나 클지 알 수 없고, 실제 모수와 정확히 일치할 가능성이 낮다.
-> 따라서, 모수가 이 정도 범위 안에 있을 것이다라는 구간 추정이 필요하다.

📌 점추정 vs 구간 추정

개념	설명	예시
점추정	하나의 숫자로 모수 추정	모집단 평균은 약 65다
구간추정	신뢰 가능한 범위를 제시	모집단의 평균은 62~68 사이일 것이다

점추정은 매우 직관적이지만, 불확실성을 담지 못한다.
구간추정은 정규분포와 표본오차의 규칙성을 이용해 모수가 포함될 가능성이 높은 범위(신뢰구간)을 제공한다.
점추정으로 평균, 비율 등을 계산하고 구간추정으로 그 값이 얼마나 신뢰 가능한지를 표현한다.

📌 표본오차의 정규분포

표본오차의 약 95% : \( -2 \times \frac{s}{\sqrt{n}} \leq \bar{x} - \mu \leq 2 \times \frac{s}{\sqrt{n}}\)
표본평균(𝑥 ̅)에서 𝜇를 알고 싶기 때문에 식을 다시 전개하면
- \( \bar{x} - 2 \times \frac{s}{\sqrt{n}} \leq \mu \leq \bar{x} + 2 \times \frac{s}{\sqrt{n}}\)
- 즉, 표본크기 n으로 얻은 표본으로 계산한 평균과 표준편차로부터 모집단의 평균 𝜇의 범위를 도출 가능하다.
- 이것이 약 95%의 신뢰구간이다.

📌 신뢰구간을 해석하는 방법

신뢰구간은 모수가 실제로 포함될 것으로 추정되는 범위이다.
ex) 95% 신뢰구간: 반복해서 표본을 추출하고 신뢰구간을 만들면, 그 중 95%가 𝜇를 포함하게 될 것이다.
즉 95% 신뢰구간이란 말은 내가 만든 신뢰구간이 모집단 평균 𝜇를 포함할 가능성을 95%로 ‘신뢰한다’는 뜻이다.
예시 : 남성 평균 키 추정
- 20번의 1번 꼴로 신뢰구간에 모집단의 평균이 포함되지 않는다!

📌 Z-분포 기반 신뢰구간

Z-분포는 평균이 0, 표준편차가 1인 정규분포이다.
모집단의 표준편차 σ를 알고 있을 때, 표본평균이 얼마나 떨어져 있는지 (상대적인 위치) Z값으로 계산 가능하다.
Z 값을 사용하는 이유:
1. Z 값으로 비교하면 기준이 다른 데이터도 공정하고 상대적인 위치 비교가 가능하다.
2. 어떤 값이 평균보다 얼마나 극단적인지 판단이 가능하다.
3. 정규분포(종모양)에서 해석이 쉽다.

📌 t-분포

모집단의 표준편차 σ를 모를 때, 대신 표본의 표준편차 s를 추정해서 사용하는 분포이다.
s의 불확실성을 반영하기 위해 정규분포보다 꼬리가 더 두꺼운 t-분포를 사용한다.
특히 표본 수가 적을 때(n < 30) 사용한다.
자유도(df)가 커질수록 t값은 작아진다 = t-분포는 Z 분포에 가까워진다!
- 표본의 개수가 많아질수록, 표본표준편차 s가 σ에 더 가까워진다.
- 추정의 불확실성이 줄어들고 t-분포의 꼬리도 얇아지며 정규분포와 유사해진다.
-> 즉 t-분포는 Z-분포의 보정 버전이다.

2️⃣ 가설검정

신뢰구간이 모수의 추정 범위를 판단했다면, 가설검정은 어떤 주장이 통계적으로 의미있는가를 판단한다.
즉, 우리가 세운 주장이 우연인지 아닌지를 판단하기 위해, 실험군과 대조군을 비교해 가설을 검정한다.

가설검정의 구조

항목	설명
귀무가설(H₀)	밝히고자 하는 가설의 부정 명제 : 두 그룹의 클릭률 차이는 없다 (즉, 차이 = 0)
대립가설(H₁)	밝히고 싶은 가설 : 두 그룹의 클릭률 차이는 있다 (즉, 차이 ≠ 0)
검정통계량	(A - B)의 차이를 표준오차로 나눈 값
유의수준 α	보통 0.05 (5%)
p-value	실제 데이터에서의 차이가 우연히 나올 확률
판단 기준	p-value < 0.05 → H₀ 기각 (차이 유의함)

📌 p-value

귀무가설이 맞다고 가정했을 때, 지금과 같은 데이터가 나올 확률
유의수준(α)을 기준선으로 잡는다. 보통 0.05 (5%) 사용 (=귀무가설 채택 기준)
p-value < α → “이런 데이터는 귀무가설이 맞다면 거의 나오지 않는다.” → 귀무가설 기각 (통계적으로 유의미한 차이가 있다.)
p-value ≥ α → “이런 데이터는 귀무가설이어도 자주 나올 수 있다.” → 귀무가설 유지

📌 양측검정 vs 단측검정

실무에서는 대부분 양측검정을 사용한다.
사전 지식 없이 A가 B보다 낫다고 주장하는 건 위험할 수 있다!

📌 신뢰구간과 가설검정의 관계

	신뢰구간	가설검정
목적	모수가 어떤 범위에 있을지를 추정	어떤 주장이 통계적으로 유의한지를 검정
결과 표현	범위	확률(p-value)
해결 방식	이 범위 안에 모수가 들어있을 것이라고 신뢰	우연일 가능성이 낮으면 귀무가설을 기각
기준값과의 관계	기준값이 구간 안에 있는가?	기준값의 차이가 유의미한가?

두 개 이상의 독립변수와 종속변수 간의 관계를 분석 및 예측할 때
ex) 다양한 광고비와 매출 간의 관계 분석

3️⃣ 제 1종 오류와 제 2종 오류

가설검정은 표본 데이터를 바탕으로 판단하기 때문에 틀린 결과가 나올 수 있다.

📌 제1종 오류

사실은 효과가 없는데(귀무가설이 맞는데), 있다고 판단하는 오류 → 없는데 있다고 착각한 것
예: 무죄인 사람을 유죄라고 판단한 상황
발생 확률 = 유의수준(α) → 보통 0.05 (즉, 5%)

📌 제2종 오류

사실은 효과가 있는데(대립가설이 맞는데), 없다고 판단하는 오류 → 있는데 없다고 착각한 것!
예: 유죄인 사람을 무죄로 판단한 상황
발생 확률 = β (베타) ↔ 발생하지 않을 확률 = 1 - β (검정력)

2025.06.25 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 31일차 - 통계 세션 1

31일차 - 통계 세션 1

튜터곽승예 튜터님수업 목표1. 통계를 왜 배워야 하는지 생각해본다.2. 첫 술에 배부르랴’ 마인드를 깊이 새긴다.3. 기술 통계와 추론 통계에 차이를 이해한다.4. 정규분포와 가설검정에 대해 알

kminx.tistory.com

'[스파르타]내일배움캠프 데이터 분석 트랙 > Session' 카테고리의 다른 글

2025.07.01 머신러닝 세션 2 (4)	2025.07.09
2025.07.01 통계 세션 4 (3)	2025.07.09
2025.06.30 머신러닝 세션 1 (0)	2025.07.02
2025.06.30 통계 세션 3 (0)	2025.07.01
2025.06.25 통계 세션 1 (2)	2025.06.25

'[스파르타]내일배움캠프 데이터 분석 트랙/Session' Related Articles

끄적끄적

2025.06.27 통계 세션 2 본문

2025.06.27 통계 세션 2

표본오차

1️⃣ 신뢰구간

📌 점추정 vs 구간 추정

📌 표본오차의 정규분포

📌 신뢰구간을 해석하는 방법

📌 Z-분포 기반 신뢰구간

📌 t-분포

2️⃣ 가설검정

📌 p-value

📌 양측검정 vs 단측검정

📌 신뢰구간과 가설검정의 관계

3️⃣ 제 1종 오류와 제 2종 오류

📌 제1종 오류

📌 제2종 오류

'[스파르타]내일배움캠프 데이터 분석 트랙 > Session' 카테고리의 다른 글

티스토리툴바