끄적끄적
2025.07.03 통계 세션 5 본문
| 튜터 | 곽승예 튜터님 |
| 학습목표 | 1. 로지스틱 회귀란 무엇인지 알아봅니다. 2. 지금까지 배웠던 통계를 바탕으로 실습을 진행해봅니다. |
1️⃣ 로지스틱 회귀
🔥 로지스틱 회귀의 핵심 개념
오즈(odds)와 오즈비(odds ratio)
- 확률 vs 오즈
- 확률은 얼마나 자주 성공하냐, 오즈는 성공이 실패보다 몇 배 더 많은가
- 오즈비 - 두 그룹 비교
- 남성 구매 확률 = 0.8 → 오즈 = 4
- 여성 구매 확률 = 0.4 → 오즈 = 0.667
- 오즈비 = 4 / 0.667 ≈ 6 → 남성의 구매 오즈가 여성보다 6배 높다!
왜 확률로 비교하지 않고 오즈비로 비교할까?
- 오즈비는 곱셈적 비교, 확률은 덧셈적 차이를 의미함
- 확률 비교 : 0.8 vs 0.4 = 0.4
- 오즈 비교 : 4 vs 0.667 → 오즈비 = 6
- 실제로는 큰 차이인데 확률로 비교하면 차이가 작아보임
- 확률 비교는 직관적이지만 모델링과 통계적 해석에서는 오즈를 써야 선형성, 안정성, 해석력이 좋다!
로짓함수 (logit function)
- 로그 오즈를 의미함
- \(\log\left(\frac{p}{1 - p}\right)\)
- -∞ < log(odds) < ∞
- 오즈는 해석과 수학적 모델링이 어려움
- 오즈는 0 ~ ∞ 이라 곱셈적(변화량이 선형이 아님) → 변수가 1단위 증가할 때마다 고정된 차이를 보기 어려움
- 값의 범위가 비대칭 → 작은 확률 차이라도 오즈는 큰 폭으로 변함
- 로그를 취하면
- 곱셈 → 덧셈 구조로 바뀌고
- 값의 변화가 선형적으로 변함
- 해석도 1단위가 증가할 때 log(odds)가 얼마나 변하는가 명확해짐

- ⇒ 오즈는 곱셈적이고 직관성이 떨어지기 때문에 수학적으로 다루기 쉬운 ‘선형 공간’으로 바꾸기 위해 log(odds)를 사용
- 확률 vs 오즈 vs 로그 오즈

- 확률(p)는 0~1 사이의 값을 가지지만 logit(p)는 -∞ < log(odds) < ∞ 값을 가짐
→ 선형식으로 문제를 다루기에 적합해진다.
📌 로지스틱 회귀란
결과가 범주형(보통 0 또는 1)일 때 확률을 예측하는 회귀모형
로지스틱 회귀의 예측값
- 목적 : y=1일 확률 p를 예측 = P(y=1 | X)
- 로지스틱 회귀식
- \(\log\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p\)
- p = y가 1일 확률 ( ↔ 1-p = y가 0일 확률)
- 왼쪽 : logit(p), 확률을 -∞~∞로 늘린 값
- 오른쪽 : 선형식 → 입력 X에 따라 예측값이 바뀜 ⇒ 분류 모델임에도 회귀라고 불리는 이유!
- 우리가 구하고자 하는 것은 확률이므로 p를 중심으로 정리하기 = 시그모이드 함수(확률 예측 식)

- 이 확률을 임계값(Threshold)을 기준으로 0 또는 1로 분류함 (보통 0.5)
- p = 0.7 → 1로 분류
- p = 0.1 → 0으로 분류
- 시그모이드 함수
- 0과 1에 무한히 가까워지긴 하지만 완전히 그 값이 되지는 않음
모델 평가 지표
모델 평가 지표
- 혼동 행렬(Confusion Matrix)
- 예측값과 실제값을 비교해서 정답/오답 네 가지로 분류한 표
- 평가 지표
| 지표 | 설명 | 사용상황 |
| 정확도(Accuracy) | 전체 중 맞춘 비율 | 클래스 비율이 균형 잡혀있을 때 |
| 정밀도(Precision) | 예측한 것 중 맞춘 비율 | False Positive가 민감할 때 |
| 재현율(Recall) | 실제 있는 것 중 맞춘 비율 | False Negative가 민감할 때 |
| F1-Score | 정밀도와 재현율의 조화 평균 | 둘 다 중요할 때 |
| ROC Curve, AUC | 다양한 임계값에서 모델 성능 시각화 | 모델 전반 평가용 |
- 재현율(Recall) = 민감도(Sensitivity)
- 특이도(Specificity) : 실제로 Negative 인 것들 중에서 모델이 제대로 음성이라고 예측한 비율
- ↔ 민감도(TPR)
- 1-특이도 = FPR (False Positive Rate)
- ROC Curve : 분류 모델의 임계값 변화에 따른 TPR - FPR 관계를 시각화하는 그래프
- 왼쪽 위로 휜 곡선일수록 더 성능이 좋은 모델

- AUC : ROC 커브 아래 면적 (0.5 ≤ AUC ≤ 1)
- 왼쪽 위로 휜 곡선일수록 더 성능이 좋은 모델
로지스틱 회귀 한계 및 대안
- 선형 결정 경계 → 분류 기준이 직선(또는 평면)이라서 복잡한 분포를 잘 나누지 못함
- 선형회귀의 한계점
- 다중공선성에 민감
- 이상치에 민감
- 복잡한 패턴 학습 불가
로지스틱 회귀는 통계적으로 해석이 가능하고 간단하지만 강력한 분류도구. 하지만 선형 결정 경계나 다중공선성 등 한계도 분명 → 이런 한계를 극복하고 복잡한 패턴까지 학습할 수 있는 모델을 머신러닝에서 배우자!
2️⃣ 통계학 마무리
📌 머신러닝과 통계
| 질문 | 통계 | 머신러닝 |
| 왜 배울까? | 왜 그런 일이 일어났는지 이해하고 설명하기 위해 (모집단 이해) | 앞으로 어떤 일이 일어날지 잘 예측하기 위해 |
| 어떤 모델? | 해석 가능한 모델, 추론 중심 | 복잡하고 강력한 모델, 예측 중심 |
| 중요 포인트 | p-value, 신뢰구간, 오류의 종류, 설명력 등 | 모델 평가 지표 |
| 모델을 대하는 태도 | 해석을 통해 믿을 수 있어야 한다 | 성능이 좋으면 쓸 수 있다 |
⇒ 머신러닝은 데이터를 ‘잘 맞추는’ 기술이고 통계는 데이터를 ‘이해하고 설명하는’ 언어이다.
📌우리는 왜 통계를 배워야 할까?
- 숫자에 의미를 붙이는 힘: 해석과 판단의 언어
- 예측이 중요한 세상이지만, 예측 결과에 책임 지고 해석하는 건 통계의 몫
- 모델이 왜 그렇게 예측했는지 설명할 수 있을까?
- 이 결과는 우연일까, 진짜 패턴일까?
- 데이터가 바뀌었을 때 해석도 바뀌는 걸까?
- 예측이 중요한 세상이지만, 예측 결과에 책임 지고 해석하는 건 통계의 몫
- 판단과 의사결정의 기준: 신뢰, 불확실성, 검증
- 통계는 무엇이 맞다고 주장하는 학문이 아니라 ‘이 정도 확률로 맞을 것’이라고 말하는 학문
- 불확실성이 넘치는 지금과 같은 시대일수록 데이터의 한계를 이해하고 조심스럽게 판단하는 관점이 중요
- 머신러닝도 결국 통계 기반
- 모든 머신러닝 모델의 뿌리는 확률과 통계
- 성능 평가 지표(정확도, 정밀도, 재현율, RMSE …) 모두 통계 기반
⇒ 우리가 데이터를 믿고, 설명하고, 설득하기 위해서는 머신러닝봐 더 근본적인 언어 ‘통계’를 배워야 한다!
⇒ 통계는 단순한 숫자가 아니라 데이터로 현실을 해석하고 세상을 이해하려는 태도이다!
최종 실습
2025.06.25 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 31일차 - 통계 세션 1
31일차 - 통계 세션 1
튜터곽승예 튜터님수업 목표1. 통계를 왜 배워야 하는지 생각해본다.2. 첫 술에 배부르랴’ 마인드를 깊이 새긴다.3. 기술 통계와 추론 통계에 차이를 이해한다.4. 정규분포와 가설검정에 대해 알
kminx.tistory.com
2025.06.30 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 34일차 - 통계 세션 2
34일차 - 통계 세션 2
튜터곽승예 튜터님수업 목표1. 신뢰구간이 무엇이고, 왜 사용하는지 알아봅니다.2. p-value를 이해하고 어떻게 사용할 수 있을지 배웁니다.더보기표본오차일부 표본만 관찰했기에 생기는 오차로,
kminx.tistory.com
2025.07.01 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 34일차 - 통계 세션 3
34일차 - 통계 세션 3
튜터곽승예 튜터님수업 목표1. 상황에 맞는 가설검정 방법을 알아봅니다. 2. 파이썬으로 어떻게 가설검정할 수 있는지 실습해봅니다. 1️⃣ 수치형 변수 가설검정데이터의 형태와 분석 목적에
kminx.tistory.com
2025.07.01 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 35일차 - 통계 세션 4
35일차 - 통계 세션 4
튜터곽승예 튜터님수업 목표1. 상관과 회귀 개념에 대해 이해합니다. 2. 선형회귀란 무엇이고 어떻게 사용할 수 있을지 배워봅니다.1️⃣ 상관과 회귀📌 상관관계양적 변수 2개는 x축과 y축으로
kminx.tistory.com
'[스파르타]내일배움캠프 데이터 분석 트랙 > Session' 카테고리의 다른 글
| 2025.07.04 데이터 크롤링 세션 2 (10) | 2025.07.09 |
|---|---|
| 2025.07.04 Pandas 실무 기초 세션 2 (0) | 2025.07.09 |
| 2025.07.02 데이터 크롤링 세션 1 (2) | 2025.07.09 |
| 2025.07.02 Pandas 실무 기초 세션 1 (1) | 2025.07.09 |
| 2025.07.01 머신러닝 세션 2 (4) | 2025.07.09 |