본문 바로가기

AI/Statistics

[통계] 최소제곱법과 회귀분석의 가정들

우리는 단순선형회귀와 다중선형회귀에서 최소제곱법을 통해 최소제곱추정치를 제시할 수 있다. 이 포스트에서는 최소제곱법이란 무엇인지 설명하고, 제시된 최소제곱추정량과 통계분석들이 따르는 회귀분석의 표준적인 가정들을 제시하려 한다.

 

1. 최소제곱법 (least squares method)

  어떤 데이터에 대하여, 회귀방정식을 잘 세우는 것은 곧 종속변수 대 독립변수의 산점도에 있는 점들을 가장 잘 적합(best fit) 혹은 표현하는 직선을 찾는 것과 같다. 이때 '잘 맞는 직선'을 찾기 위한 방법이 최소제곱법이다. 회귀직선이 x를 통해 y를 추정하는데 쓰인다고 하자. 이때 각각의 점에 대응하는 거리는 점으로부터 회귀직선까지의 수직거리, 즉 y축에 따라 측정하는 거리로 정의된다. 수직거리들의 평균을 구할 때 통계학에서는 종종 RMSE를 사용한다(참고로 SSE를 최소화하든 MSE를 최소화하든 RMSE를 최소화하든 같은 회귀직선이 얻어진다고 한다)

 

예를 들어 단순선형회귀 모형에서 오차들은 다음과 같이 재표현될 수 있다.

$$ \varepsilon_i  = y_i - \beta_0 - \beta_1x_i, i=1,2,...,n $$

이러한 거리들의 제곱합은 다음과 같이 쓸 수 있다.

$$ S(\beta_0, \beta_1) = \sum_{i=1}^{n} \varepsilon_i^2 = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1x_i)^2 $$

우리는 위의 \( S(\beta_0, \beta_1) \)를 최소로 해야 한다. 단순선형회귀에서는 종속변수 Y와 독립변수 X가 하나씩만 존재하기 때문에 \( S(\beta_0, \beta_1) \)를 최소로 하는 값 \( \hat{\beta_0} \)와  \( \hat{\beta_1} \)을 쉽게 구할 수 있다.

$$ \hat{\beta_1} = \frac{\sum (y_i - \overline{y})(x_i - \overline{x})}{\sum (x_i - \overline{x})^{2}} $$

$$ \hat{\beta_0} = \overline{y} - \hat{\beta_1}\overline{x} $$

 

 

마찬가지로 다중선형회귀에서도 기본 모형을 재구성해 다음과 같이 표현할 수 있다.

$$ \varepsilon_i  = y_i - \beta_0 - \beta_1x_{i1} - ... - \beta_px_{ip}, i=1,2,...,n $$

이러한 오차들의 제곱합은 다음과 같다.

$$ S(\beta_0,\beta_1,...,\beta_p) = \sum_{i=1}^{n} \varepsilon_i^2 = \sum_{i=1}^{n} (y_i-\beta_0-\beta_1x_{i1}-...-\beta_px_{ip})^2 $$

\( S(\beta_0, \beta_1,...,\beta_p) \)를 최소화하는 최소제곱추정치 \( \hat{\beta_0},\hat{\beta_1},...,\hat{\beta_p} \)는 정규방정식(normal equation)으로 알려진 연립 선형방정식에 대한 해에 의하여 주어진다. https://soohee410.github.io/least_squares_sol 이쪽 참고해서 행렬 표현식으로 풀면 된다... 어렵다... 

 

 

2. 회귀분석의 표준적인 가정들

위에서 최소제곱법에 따라 추정된 최소제곱추정치들을 다음과 같은 가정들에 근거한다. 최소제곱법의 특징 중 하나는 기본 가정에 대한 사소한 혹은 작은 위반이 분석으로부터 도출된 추론이나 결론을 무효화할 만큼 큰 영향을 주지는 않는다는 것이지만, 모형의 가정에 대한 큰 위반은 결론을 왜곡시킬 수 있다.

 

모형의 형태에 대한 가정

반응 Y와 독립변수 \( X_1, X_2, ..., X_p \)를 관계시키는 모형이 회귀계수 \( \beta_0, \beta_1, ..., \beta_p \)에 대하여 선형임을 가정한다. 즉, 

$$ Y = \beta_0 + \beta_1X_1 + ... + \beta_pX_p + \varepsilon $$

이는 i번째 관측개체가 다음과 같이 표현될 수 있음을 나타낸다.

$$ y_i = \beta_0 + \beta_1x_{i1} + ... + \beta_px_{ip} + \varepsilon_i, i=1,2,...,n $$

이것을 선형성(linearity) 가정이라고 부른다. 단순회귀에서는 선형성을 검토하는 것이 쉽지만, 다중회귀에서는 선형성 가정이 만족되지 않는다면 종종 데이터에 대한 변환을 통해 선형성을 달성할 수 있다.

 

오차에 대한 가정

위 식의 오차 \( \varepsilon_1, \varepsilon_2,..., \varepsilon_n \)은 서로 독립이고 동일한(independently and identically distributed; iid) 정규확률변수로서 평균 0과 공분산 \( \sigma^2 \)을 가지는 것으로 가정된다. 이는 다음과 같은 말인데,

  • 정규성(normality) 가정 - 오차 \( \varepsilon(i=1,2,...,n) \)는 정규분포를 따른다. 
  • 상수분산(constant variance) 혹은 등분산(homoscedasticity) 가정 - 오차 \( \varepsilon(i=1,2,...,n) \)은 동일한(그러나 알려져 있지 않은) 분산 \( \sigma^2 \)를 가진다.
  • 오차 \( \varepsilon(i=1,2,...,n) \)은 평균 0을 가진다.
  • 독립성(independent-error) 가정 - 오차 \( \varepsilon(i=1,2,...,n) \)은 서로 독립이다(공분산이 모두 0이다).

 

독립변수들에 대한 가정

  • 독립변수 \( X_1, X_2, ..., X_p \)는 확률변수가 아니다. 즉, 값 \(x_{1j}, x_{2j}, ... x_{nj}(j=1,2,...,p) \)는 미리 고정되었거나 선택된 것으로 가정된다. 비실험 또는 관측의 상황에서는 이것이 만족되지 않을 것이라는 사실이 명확하기 때문에, 회귀모형들이 제시한 이론적 결과들은 계속 유효하겠지만 그에 대한 해석은 수정되어야 한다.
  • 값 \(x_{1j}, x_{2j}, ... x_{nj}(j=1,2,...,p) \)는 오차 없이 측정된 것으로 가정한다. 
  • 독립변수 \( X_1, X_2, ..., X_p \)는 선형종속이 아닌 것으로 가정된다. 이 가정이 위반된다면 공선성(collinearity)의 문제가 있다고 한다.

 

관측개체에 대한 가정

모든 관측개체들은 동일하게 신뢰할 만하며, 회귀의 결과를 결정하고 결론을 도출함에 있어서 거의 동등한 역할을 한다.