우리는 아래 포스트를 통해 최소제곱법과 회귀분석의 네 가지 기본 가정들을 살펴보았다. 이번 포스트에서는 회귀모형을 진단하는 방법들에 대해 알아보려 한다.
[통계] 최소제곱법과 회귀분석의 가정들, 회귀모형 진단
우리는 단순선형회귀와 다중선형회귀에서 최소제곱법을 통해 최소제곱추정치를 제시할 수 있다. 이 포스트에서는 최소제곱법이란 무엇인지 설명하고, 제시된 최소제곱추정량과 통계분석들이
heeya-stupidbutstudying.tistory.com
모형의 진단
회귀분석 결과의 진단(diagnosis)이란 회귀분석에 사용된 데이터가 회귀분석에 사용된 모형 가정을 제대로 만족하고 있는지를 확인하는 과정이다. 우리는 이를 위해 잔차를 사용한다.
종속변수 Y와 p개의 독립변수
각 가정에 대한 진단 방법은 다음과 같다.
1. 선형성 검정
잔차 산점도(residual plot)
관측값
- 정상적인 잔차 산점도

정상적인 잔차 산점도는 0을 중심으로
- 회귀모형의 비선형성(non-linearity) : 관측값
에 대하여 잔차 값이 곡선의 형태

두 이미지 모두 관측값이 증가함에 따라 y축 값인 잔차
- 회귀모형의 이분산성(heteroscedascity) : 관측값
가 증가함에 따라 잔차 값의 폭이 커지는 형태

세 이미지 모두 관측값이 증가함에 따라 y축 값인 잔차
이처럼 로그변환을 취하면 어느 정도 등분산성을 만족하게 된다.
2. 등분산성 검정
위에서처럼 그래프를 통해 시각적으로 검정을 할 수도 있지만 수치적으로 검증할 수도 있다.
Breusch-Pagan 검정
통상적으로 독립변수의 값이 증가함에 따라 잔차의 변동성도 증가한다. 잔차의 제곱값
왜 갑자기
여기서 유의성 검정을 할 때처럼 귀무가설
- 귀무가설
등분산성을 만족한다(잔차가 동일한 분산으로 분포됨) - 대립가설
이분산성을 만족한다(잔차가 동일한 분산으로 분포되지 않음)
검정의 p-값이 유의 수준(예: α = 0.05)보다 작으면 귀무 가설을 기각하고 회귀 형에 이분산성이 존재한다고 결론을 내린다.
혹은 검정 통계량을 이용할 수도 있다. Breusch-Pagan 검정 통계량
이때,
3. 정규성 검정
(1) Q-Q plot
관측치를 표준정규분포의 분위수와 비교하여 그리는 그래프로, 시각적으로 정규성 가정에 대한 검토를 가능하게 해준다. 모집단이 정규성 가정을 만족한다면 관측치들에 대한 Q-Q plot은 다음과 같을 것이다.

데이터의 분포가 일직선의 형태를 나타낸다.
반대로 정규성을 따르지 않는 분포의 Q-Q plot 그래프들을 다음과 같은 형태이다. 왼쪽은 카이제곱 분포이고, 오른쪽은 heavy tail 분포이다.

(2) Shapiro-Wilk 검정
통계량을 이용해서 수치적으로 정규성 검정을 시행할 수도 있다. Shapiro-Wilk 검정은 자료 값들과 표준정규점수와의 선형상관. 관계를 측정하여 검정하는 방법으로, 표본수가 2000개 미만인 데이터셋에 적합하다고 한다. 표본수가 2000개를 초과한다면 Kolmogorove-Smirnov 검정을 시행하는 것이 좋다.
간단히 W-통계량이라고 부르기도 하는데, Q-Q plot에서 x축과 y축을 형성하던 정규점수와 관측값의 순서통계량의 상관계수(correlation coefficient)의 제곱값이다. 이 상관계수는 W-통계량을 정의할 때
이때,
- 귀무가설
데이터가 정규분포를 따른다 - 대립가설
데이터가 정규분포를 따르지 않는다
4. 독립성 검정
Durbin-Watson 검정
Durbin-Watson 검정에 대해 설명하기 전에 우선 자기상관이란 무엇인지 이해할 필요가 있다. 선형회귀모형의 기본 가정들 중 하나는 i번째와 j번째 관측개체에 대한 오차항인
Durbin-Watson 통계량은 회귀분석에서 오차항의 자기상관성 여부를 대수적 방법으로 검정하기 위해 사용되는 방법이다. Durbin-Watson 검정은 오차항들이 다음 형식의 1차의 자기상관계열을 이룬다는 가정에 근거를 두고 있다.
는 서로 독립이며, 평균이 0이고 분산이 상수인 정규분포를 따른다. sms 와 의 상관계수
Durbin-Watson 통계량
여기서
- 귀무가설
- 대립가설
에 대한 검정 통계량으로 사용될 수 있다. 왜냐하면
'AI > Statistics' 카테고리의 다른 글
[통계] 4가지 측정척도, Pearson correlation & Spearman rank correlation (0) | 2021.09.21 |
---|---|
[통계] 데이터 전처리 - 여러 가지 feature scaling 방법 (0) | 2021.09.19 |
[통계] 정규화(Normalization) vs 표준화(Standardization) (0) | 2021.09.14 |
[통계] F-분포와 분산 분석 ANOVA (0) | 2021.09.14 |
[통계] 여러가지 분포 - 정규분포, 이항분포, t-분포, 카이제곱-분포 (0) | 2021.09.14 |