로지스틱 회귀 (Logistic Regression)
단순선형회귀에서 이항(binary) 종속변수에 대한 반응확률을 모형화하기 위한 방법.
1. 로짓 모형
\( \pi \)를 \( X = x \) 일 때 \( Y = 1 \)의 확률이라고 하자. 확률 \( \pi \)와 X 사이의 관계는 로지스틱 반응함수(logistic response function)으로 흔히 표현될 수 있다.
식이 쓰여있긴 하지만 주어진 S-곡선은 확률을 다음과 같이 모형화하여 재표현할 수 있다.
$$ \pi = Pr(Y=1|X=x) = \frac{e^{\beta_0+\beta_1x}}{1 + e^{\beta_0+\beta_1x}} $$
이 모형은 여러 개의 독립변수가 있는 형태로 바로 일반화 될 수 있다.
$$ \pi = Pr(Y=1|X_1=x_1,...,X_p=x_p) = \frac{e^{\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p}}{1 + e^{\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p}} $$
이를 로지스틱 회귀함수라고 한다.
그래프를 보면 알 수 있지만, 모수 \( \beta_0, \beta_1, ..., \beta_p \)에 비선형이다. 이는 로짓 변환(logistic transformation)에 의해 선형화될 수 있다. 확률 \( \pi \)가 아닌 비율 \( \pi/(1-\pi) \)를 가지고 작업하는 것이다. \( \pi \)가 어떤 사건의 발생확률이라면, 비율 \( \pi/(1-\pi) \)은 그 사건의 오즈비(odds ratio)라고 부른다.
$$ 1 - \pi = Pr(Y=0|X_1=x_1,...,X_p=x_p) = \frac{1}{e^{\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p}} $$
$$ \frac{\pi}{1 - \pi} = e^{\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p} $$
이 식의 양변에 자연로그를 취하면 로짓(logit)이 도출된다.
$$ g(x_1, x_2, ..., x_p) = ln(\frac{\pi}{1-\pi})= \beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p $$
- 입력 값의 범위가 [0,1] 일때 출력 값의 범위를 \( (-\infty ,+\infty ) \)로 조정한다. -> 선형회귀에 더 적절
정규화 (regularization)
- 과대적합(overfitted): high variance
- 과소적합(underfitted): high bias.
모델을 만들면서 대표적으로 발생하는 일이 overfitting인데, 여러가지 해결 방법이 있다.
- 파라미터 수가 적은 모델을 선택하거나, 모델에 제약을 가하여 단순화시킨다.
- 훈련 데이터를 더 많이 확보한다.
- 훈련 데이터의 잡음을 줄인다(outlier, error 제거).
- 정규화를 수행한다.
정규화는 회귀모델에서 변수의 역할을 수정해 과대적합을 방지하고 좀 더 간단한 기능적 형태를 달성하기 위한 방법이다. 원래의 데이터셋을 실제로 조작할 필요가 없다는 것이 이 대안적 접근 방법의 흥미로운 점이다. 정규화는 지나치게 복잡한 모델에 대해 패널티를 사용해 예측과 무관한 변수 또는 중복된 변수에 대한 계수를 줄임으로 학습 과정을 강화해 작업한다.
1. 릿지 정규화 (Ridge regularization, L2 Regularization)
릿지 회귀는 일반적으로 영향을 거의 미치지 않는 특성에 대하여 0에 가까운 가중치를 주게 된다. 릿지 회귀에서의 가중치 선택은 훈련 데이터를 잘 예측하기 위해서 뿐만 아니라 추가 제약 조건을 만족시키기 위한 목적도 있는데, 가중치의 절댓값을 가능한 한 작게 만드는 것이다. 즉, 가중치의 모든 원소가 0에 가깝게 되길 원하는 것이다. 이는 모든 특성이 출력에 주는 영향을 최소한으로 만든다(기울기를 작게 만드니까).
2. 라쏘 정규화 (Lasso regularization, L1 Regularization)
선형회귀에 규제를 적용하는데 있어 릿지의 대안으로 등장한 것이 라쏘 회귀이다. 특성값의 계수가 매우 낮다면 0으로 수렴하게 하여 특성을 지워버린다. 릿지 회귀와 비슷하게 계수를 0으로 만드려고 하나, L1 규제의 결과로 라쏘를 사용할 때 어떤 계수는 정말 0이 된다(모델에서 완전히 제외).
'AI > Statistics' 카테고리의 다른 글
[통계] 최대우도법(Maximum Likelihood Estimation) (1) | 2021.09.10 |
---|---|
[통계] logistic regression 예제 - 타이타닉 데이터셋 (0) | 2021.09.06 |
[통계] 다중회귀분석 예제 - Statsmodel을 이용한 고유값, vif 확인 (0) | 2021.09.06 |
[통계] 최소제곱법과 회귀분석의 가정들 (0) | 2021.09.06 |
[통계] 다중선형회귀(Multiple Linear Regression) (0) | 2021.09.04 |