2025.07.03 통계 세션 5

Recap

Recent Posts

Recent Comments

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

관리 메뉴

끄적끄적

2025.07.03 통계 세션 5 본문

[스파르타]내일배움캠프 데이터 분석 트랙/Session

2025.07.03 통계 세션 5

kminx 2025. 7. 9. 16:47

튜터	곽승예 튜터님
학습목표	1. 로지스틱 회귀란 무엇인지 알아봅니다. 2. 지금까지 배웠던 통계를 바탕으로 실습을 진행해봅니다.

1️⃣ 로지스틱 회귀

🔥 로지스틱 회귀의 핵심 개념

오즈(odds)와 오즈비(odds ratio)

확률 vs 오즈
- 확률은 얼마나 자주 성공하냐, 오즈는 성공이 실패보다 몇 배 더 많은가
오즈비 - 두 그룹 비교
- 남성 구매 확률 = 0.8 → 오즈 = 4
- 여성 구매 확률 = 0.4 → 오즈 = 0.667
- 오즈비 = 4 / 0.667 ≈ 6 → 남성의 구매 오즈가 여성보다 6배 높다!

왜 확률로 비교하지 않고 오즈비로 비교할까?

오즈비는 곱셈적 비교, 확률은 덧셈적 차이를 의미함
- 확률 비교 : 0.8 vs 0.4 = 0.4
- 오즈 비교 : 4 vs 0.667 → 오즈비 = 6
실제로는 큰 차이인데 확률로 비교하면 차이가 작아보임
확률 비교는 직관적이지만 모델링과 통계적 해석에서는 오즈를 써야 선형성, 안정성, 해석력이 좋다!

로짓함수 (logit function)

로그 오즈를 의미함
- \(\log\left(\frac{p}{1 - p}\right)\)
- -∞ < log(odds) < ∞
오즈는 해석과 수학적 모델링이 어려움
- 오즈는 0 ~ ∞ 이라 곱셈적(변화량이 선형이 아님) → 변수가 1단위 증가할 때마다 고정된 차이를 보기 어려움
- 값의 범위가 비대칭 → 작은 확률 차이라도 오즈는 큰 폭으로 변함
- 로그를 취하면
  - 곱셈 → 덧셈 구조로 바뀌고
  - 값의 변화가 선형적으로 변함
  - 해석도 1단위가 증가할 때 log(odds)가 얼마나 변하는가 명확해짐

⇒ 오즈는 곱셈적이고 직관성이 떨어지기 때문에 수학적으로 다루기 쉬운 ‘선형 공간’으로 바꾸기 위해 log(odds)를 사용

확률 vs 오즈 vs 로그 오즈

확률(p)는 0~1 사이의 값을 가지지만 logit(p)는 -∞ < log(odds) < ∞ 값을 가짐
→ 선형식으로 문제를 다루기에 적합해진다.

📌 로지스틱 회귀란

결과가 범주형(보통 0 또는 1)일 때 확률을 예측하는 회귀모형

로지스틱 회귀의 예측값

목적 : y=1일 확률 p를 예측 = P(y=1 | X)
로지스틱 회귀식
- \(\log\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p\)
- p = y가 1일 확률 ( ↔ 1-p = y가 0일 확률)
- 왼쪽 : logit(p), 확률을 -∞~∞로 늘린 값
- 오른쪽 : 선형식 → 입력 X에 따라 예측값이 바뀜 ⇒ 분류 모델임에도 회귀라고 불리는 이유!
우리가 구하고자 하는 것은 확률이므로 p를 중심으로 정리하기 = 시그모이드 함수(확률 예측 식)
이 확률을 임계값(Threshold)을 기준으로 0 또는 1로 분류함 (보통 0.5)
- p = 0.7 → 1로 분류
- p = 0.1 → 0으로 분류
시그모이드 함수
- 0과 1에 무한히 가까워지긴 하지만 완전히 그 값이 되지는 않음

모델 평가 지표

모델 평가 지표

혼동 행렬(Confusion Matrix)
- 예측값과 실제값을 비교해서 정답/오답 네 가지로 분류한 표

평가 지표

지표	설명	사용상황
정확도(Accuracy)	전체 중 맞춘 비율	클래스 비율이 균형 잡혀있을 때
정밀도(Precision)	예측한 것 중 맞춘 비율	False Positive가 민감할 때
재현율(Recall)	실제 있는 것 중 맞춘 비율	False Negative가 민감할 때
F1-Score	정밀도와 재현율의 조화 평균	둘 다 중요할 때
ROC Curve, AUC	다양한 임계값에서 모델 성능 시각화	모델 전반 평가용

재현율(Recall) = 민감도(Sensitivity)
특이도(Specificity) : 실제로 Negative 인 것들 중에서 모델이 제대로 음성이라고 예측한 비율
- ↔ 민감도(TPR)
- 1-특이도 = FPR (False Positive Rate)
ROC Curve : 분류 모델의 임계값 변화에 따른 TPR - FPR 관계를 시각화하는 그래프
- 왼쪽 위로 휜 곡선일수록 더 성능이 좋은 모델
- AUC : ROC 커브 아래 면적 (0.5 ≤ AUC ≤ 1)

로지스틱 회귀 한계 및 대안

선형 결정 경계 → 분류 기준이 직선(또는 평면)이라서 복잡한 분포를 잘 나누지 못함
선형회귀의 한계점
- 다중공선성에 민감
- 이상치에 민감
- 복잡한 패턴 학습 불가

로지스틱 회귀는 통계적으로 해석이 가능하고 간단하지만 강력한 분류도구. 하지만 선형 결정 경계나 다중공선성 등 한계도 분명 → 이런 한계를 극복하고 복잡한 패턴까지 학습할 수 있는 모델을 머신러닝에서 배우자!

2️⃣ 통계학 마무리

📌 머신러닝과 통계

질문	통계	머신러닝
왜 배울까?	왜 그런 일이 일어났는지 이해하고 설명하기 위해 (모집단 이해)	앞으로 어떤 일이 일어날지 잘 예측하기 위해
어떤 모델?	해석 가능한 모델, 추론 중심	복잡하고 강력한 모델, 예측 중심
중요 포인트	p-value, 신뢰구간, 오류의 종류, 설명력 등	모델 평가 지표
모델을 대하는 태도	해석을 통해 믿을 수 있어야 한다	성능이 좋으면 쓸 수 있다

⇒ 머신러닝은 데이터를 ‘잘 맞추는’ 기술이고 통계는 데이터를 ‘이해하고 설명하는’ 언어이다.

📌우리는 왜 통계를 배워야 할까?

숫자에 의미를 붙이는 힘: 해석과 판단의 언어
- 예측이 중요한 세상이지만, 예측 결과에 책임 지고 해석하는 건 통계의 몫
  - 모델이 왜 그렇게 예측했는지 설명할 수 있을까?
  - 이 결과는 우연일까, 진짜 패턴일까?
  - 데이터가 바뀌었을 때 해석도 바뀌는 걸까?
판단과 의사결정의 기준: 신뢰, 불확실성, 검증
- 통계는 무엇이 맞다고 주장하는 학문이 아니라 ‘이 정도 확률로 맞을 것’이라고 말하는 학문
- 불확실성이 넘치는 지금과 같은 시대일수록 데이터의 한계를 이해하고 조심스럽게 판단하는 관점이 중요
머신러닝도 결국 통계 기반
- 모든 머신러닝 모델의 뿌리는 확률과 통계
- 성능 평가 지표(정확도, 정밀도, 재현율, RMSE …) 모두 통계 기반

⇒ 우리가 데이터를 믿고, 설명하고, 설득하기 위해서는 머신러닝봐 더 근본적인 언어 ‘통계’를 배워야 한다!

⇒ 통계는 단순한 숫자가 아니라 데이터로 현실을 해석하고 세상을 이해하려는 태도이다!

최종 실습

실습코드

2025.06.25 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 31일차 - 통계 세션 1

31일차 - 통계 세션 1

튜터곽승예 튜터님수업 목표1. 통계를 왜 배워야 하는지 생각해본다.2. 첫 술에 배부르랴’ 마인드를 깊이 새긴다.3. 기술 통계와 추론 통계에 차이를 이해한다.4. 정규분포와 가설검정에 대해 알

kminx.tistory.com

2025.06.30 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 34일차 - 통계 세션 2

34일차 - 통계 세션 2

튜터곽승예 튜터님수업 목표1. 신뢰구간이 무엇이고, 왜 사용하는지 알아봅니다.2. p-value를 이해하고 어떻게 사용할 수 있을지 배웁니다.더보기표본오차일부 표본만 관찰했기에 생기는 오차로,

kminx.tistory.com

2025.07.01 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 34일차 - 통계 세션 3

34일차 - 통계 세션 3

튜터곽승예 튜터님수업 목표1. 상황에 맞는 가설검정 방법을 알아봅니다. 2. 파이썬으로 어떻게 가설검정할 수 있는지 실습해봅니다. 1️⃣ 수치형 변수 가설검정데이터의 형태와 분석 목적에

kminx.tistory.com

2025.07.01 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 35일차 - 통계 세션 4

35일차 - 통계 세션 4

튜터곽승예 튜터님수업 목표1. 상관과 회귀 개념에 대해 이해합니다. 2. 선형회귀란 무엇이고 어떻게 사용할 수 있을지 배워봅니다.1️⃣ 상관과 회귀📌 상관관계양적 변수 2개는 x축과 y축으로

kminx.tistory.com

'[스파르타]내일배움캠프 데이터 분석 트랙 > Session' 카테고리의 다른 글

2025.07.04 데이터 크롤링 세션 2 (10)	2025.07.09
2025.07.04 Pandas 실무 기초 세션 2 (0)	2025.07.09
2025.07.02 데이터 크롤링 세션 1 (2)	2025.07.09
2025.07.02 Pandas 실무 기초 세션 1 (1)	2025.07.09
2025.07.01 머신러닝 세션 2 (4)	2025.07.09

'[스파르타]내일배움캠프 데이터 분석 트랙/Session' Related Articles

끄적끄적

2025.07.03 통계 세션 5 본문

2025.07.03 통계 세션 5

1️⃣ 로지스틱 회귀

🔥 로지스틱 회귀의 핵심 개념

📌 로지스틱 회귀란

모델 평가 지표

2️⃣ 통계학 마무리

📌 머신러닝과 통계

📌우리는 왜 통계를 배워야 할까?

최종 실습

'[스파르타]내일배움캠프 데이터 분석 트랙 > Session' 카테고리의 다른 글

티스토리툴바