끄적끄적

2025.07.03 통계 세션 5 본문

[스파르타]내일배움캠프 데이터 분석 트랙/Session

2025.07.03 통계 세션 5

kminx 2025. 7. 9. 16:47
튜터 곽승예 튜터님
학습목표 1. 로지스틱 회귀란 무엇인지 알아봅니다.
2. 지금까지 배웠던 통계를 바탕으로 실습을 진행해봅니다.

1️⃣ 로지스틱 회귀

🔥 로지스틱 회귀의 핵심 개념

 

오즈(odds)와 오즈비(odds ratio)

  • 확률 vs 오즈
    • 확률은 얼마나 자주 성공하냐, 오즈는 성공이 실패보다 몇 배 더 많은가
  • 오즈비 - 두 그룹 비교
    • 남성 구매 확률 = 0.8 → 오즈 = 4
    • 여성 구매 확률 = 0.4 → 오즈 = 0.667
    • 오즈비 = 4 / 0.667 ≈ 6 → 남성의 구매 오즈가 여성보다 6배 높다!
왜 확률로 비교하지 않고 오즈비로 비교할까?
  • 오즈비는 곱셈적 비교, 확률은 덧셈적 차이를 의미함
    • 확률 비교 : 0.8 vs 0.4 = 0.4
    • 오즈 비교 : 4 vs 0.667 → 오즈비 = 6
  • 실제로는 큰 차이인데 확률로 비교하면 차이가 작아보임
  • 확률 비교는 직관적이지만 모델링과 통계적 해석에서는 오즈를 써야 선형성, 안정성, 해석력이 좋다!

 

 

로짓함수 (logit function)

  • 로그 오즈를 의미함
    • \(\log\left(\frac{p}{1 - p}\right)\)
    • -∞ < log(odds) < ∞
  • 오즈는 해석과 수학적 모델링이 어려움
    • 오즈는 0 ~ ∞ 이라 곱셈적(변화량이 선형이 아님) → 변수가 1단위 증가할 때마다 고정된 차이를 보기 어려움
    • 값의 범위가 비대칭 → 작은 확률 차이라도 오즈는 큰 폭으로 변함
    • 로그를 취하면
      • 곱셈 → 덧셈 구조로 바뀌고
      • 값의 변화가 선형적으로 변함
      • 해석도 1단위가 증가할 때 log(odds)가 얼마나 변하는가 명확해짐

                  ⇒ 오즈는 곱셈적이고 직관성이 떨어지기 때문에 수학적으로 다루기 쉬운 ‘선형 공간’으로 바꾸기 위해 log(odds)를 사용
  • 확률 vs 오즈 vs 로그 오즈

  • 확률(p)는 0~1 사이의 값을 가지지만 logit(p)는 -∞ < log(odds) < ∞ 값을 가짐
    → 선형식으로 문제를 다루기에 적합해진다.

 

 

📌 로지스틱 회귀란

결과가 범주형(보통 0 또는 1)일 때 확률을 예측하는 회귀모형



로지스틱 회귀의 예측값

  • 목적 : y=1일 확률 p를 예측 = P(y=1 | X)
  • 로지스틱 회귀식
    • \(\log\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p\)
    • p = y가 1일 확률 ( ↔ 1-p = y가 0일 확률)
    • 왼쪽 : logit(p), 확률을 -∞~∞로 늘린 값
    • 오른쪽 : 선형식 → 입력 X에 따라 예측값이 바뀜 ⇒ 분류 모델임에도 회귀라고 불리는 이유!
  • 우리가 구하고자 하는 것은 확률이므로 p를 중심으로 정리하기 = 시그모이드 함수(확률 예측 식)
  • 이 확률을 임계값(Threshold)을 기준으로 0 또는 1로 분류함 (보통 0.5)
    • p = 0.7 → 1로 분류
    • p = 0.1 → 0으로 분류
  • 시그모이드 함수
    • 0과 1에 무한히 가까워지긴 하지만 완전히 그 값이 되지는 않음

 

 

모델 평가 지표

모델 평가 지표

  • 혼동 행렬(Confusion Matrix)
    • 예측값과 실제값을 비교해서 정답/오답 네 가지로 분류한 표
  • 평가 지표
지표 설명 사용상황
정확도(Accuracy) 전체 중 맞춘 비율 클래스 비율이 균형 잡혀있을 때
정밀도(Precision) 예측한 것 중 맞춘 비율 False Positive가 민감할 때
재현율(Recall) 실제 있는 것 중 맞춘 비율 False Negative가 민감할 때
F1-Score 정밀도와 재현율의 조화 평균 둘 다 중요할 때
ROC Curve, AUC 다양한 임계값에서 모델 성능 시각화 모델 전반 평가용
  • 재현율(Recall) = 민감도(Sensitivity)
  • 특이도(Specificity) : 실제로 Negative 인 것들 중에서 모델이 제대로 음성이라고 예측한 비율
    • ↔ 민감도(TPR)
    • 1-특이도 = FPR (False Positive Rate)
  • ROC Curve : 분류 모델의 임계값 변화에 따른 TPR - FPR 관계를 시각화하는 그래프
    • 왼쪽 위로 휜 곡선일수록 더 성능이 좋은 모델
    • AUC : ROC 커브 아래 면적 (0.5 ≤ AUC ≤ 1)

 

 

로지스틱 회귀 한계 및 대안

  • 선형 결정 경계 → 분류 기준이 직선(또는 평면)이라서 복잡한 분포를 잘 나누지 못함
  • 선형회귀의 한계점
    • 다중공선성에 민감
    • 이상치에 민감
    • 복잡한 패턴 학습 불가

 

로지스틱 회귀는 통계적으로 해석이 가능하고 간단하지만 강력한 분류도구. 하지만 선형 결정 경계나 다중공선성 등 한계도 분명 → 이런 한계를 극복하고 복잡한 패턴까지 학습할 수 있는 모델을 머신러닝에서 배우자!

 

 

2️⃣ 통계학 마무리

📌 머신러닝과 통계

질문 통계 머신러닝
왜 배울까? 왜 그런 일이 일어났는지 이해하고 설명하기 위해 (모집단 이해) 앞으로 어떤 일이 일어날지 잘 예측하기 위해
어떤 모델? 해석 가능한 모델, 추론 중심 복잡하고 강력한 모델, 예측 중심
중요 포인트 p-value, 신뢰구간, 오류의 종류, 설명력 등 모델 평가 지표
모델을 대하는 태도 해석을 통해 믿을 수 있어야 한다 성능이 좋으면 쓸 수 있다

 

⇒ 머신러닝은 데이터를 ‘잘 맞추는’ 기술이고 통계는 데이터를 ‘이해하고 설명하는’ 언어이다.

 

 

📌우리는 왜 통계를 배워야 할까?

  1. 숫자에 의미를 붙이는 힘: 해석과 판단의 언어
    • 예측이 중요한 세상이지만, 예측 결과에 책임 지고 해석하는 건 통계의 몫
      • 모델이 왜 그렇게 예측했는지 설명할 수 있을까?
      • 이 결과는 우연일까, 진짜 패턴일까?
      • 데이터가 바뀌었을 때 해석도 바뀌는 걸까?
  2. 판단과 의사결정의 기준: 신뢰, 불확실성, 검증
    • 통계는 무엇이 맞다고 주장하는 학문이 아니라 ‘이 정도 확률로 맞을 것’이라고 말하는 학문
    • 불확실성이 넘치는 지금과 같은 시대일수록 데이터의 한계를 이해하고 조심스럽게 판단하는 관점이 중요
  3. 머신러닝도 결국 통계 기반
    • 모든 머신러닝 모델의 뿌리는 확률과 통계
    • 성능 평가 지표(정확도, 정밀도, 재현율, RMSE …) 모두 통계 기반

⇒ 우리가 데이터를 믿고, 설명하고, 설득하기 위해서는 머신러닝봐 더 근본적인 언어 ‘통계’를 배워야 한다!

⇒ 통계는 단순한 숫자가 아니라 데이터로 현실을 해석하고 세상을 이해하려는 태도이다!

 

 

최종 실습

실습코드

 

 

 


2025.06.25 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 31일차 - 통계 세션 1

 

31일차 - 통계 세션 1

튜터곽승예 튜터님수업 목표1. 통계를 왜 배워야 하는지 생각해본다.2. 첫 술에 배부르랴’ 마인드를 깊이 새긴다.3. 기술 통계와 추론 통계에 차이를 이해한다.4. 정규분포와 가설검정에 대해 알

kminx.tistory.com

2025.06.30 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 34일차 - 통계 세션 2

 

34일차 - 통계 세션 2

튜터곽승예 튜터님수업 목표1. 신뢰구간이 무엇이고, 왜 사용하는지 알아봅니다.2. p-value를 이해하고 어떻게 사용할 수 있을지 배웁니다.더보기표본오차일부 표본만 관찰했기에 생기는 오차로,

kminx.tistory.com

2025.07.01 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 34일차 - 통계 세션 3

 

34일차 - 통계 세션 3

튜터곽승예 튜터님수업 목표1. 상황에 맞는 가설검정 방법을 알아봅니다. 2. 파이썬으로 어떻게 가설검정할 수 있는지 실습해봅니다. 1️⃣ 수치형 변수 가설검정데이터의 형태와 분석 목적에

kminx.tistory.com

2025.07.01 - [[스파르타]내일배움캠프 데이터 분석 트랙] - 35일차 - 통계 세션 4

 

35일차 - 통계 세션 4

튜터곽승예 튜터님수업 목표1. 상관과 회귀 개념에 대해 이해합니다. 2. 선형회귀란 무엇이고 어떻게 사용할 수 있을지 배워봅니다.1️⃣ 상관과 회귀📌 상관관계양적 변수 2개는 x축과 y축으로

kminx.tistory.com