단순선형회귀
하나의 변수와 다른 또 하나의 변수간의 관계를 분석하는 방법 - 종속변수 Y와 하나의 독립변수 X 사이의 관계를 연구
1. 공분산과 상관계수
종속변수 Y와 독립변수 X로 구성된 n개의 관측개체를 가지고 있다고 할때, Y와 X 간 연간관계의 방향과 강도를 측정해보자. 이때 등장하는 것이 공분산(covariance)와 상관계수(correlation coefficient)이다.


공분산
두 변수간의 관계에 대한 방향을 나타냄
이면, Y와 X 사이에 양의 관계(우상향) 이면, Y와 X 사이에 음의 관계(우하향) 을 만족
상관계수
두 변수간의 관계가 얼마나 강한지 측정 (절댓값이 높을수록 산포도의 점들이 밀집되어 있다고 보면 될듯..)
표본평균을
해당 식의 분모와 분자를 각각 자유도
즉,
2. 단순선형회귀모형
종속변수 Y와 독립변수 X의 관계는 다음과 같은 선형모형으로 가정될 수 있다.
또, 각 관측개체는 다음과 같이 표현될 수 있다.
와 은 모수(parameter) - 상수 은 확률변동(random disturbance) 혹은 오차(error) - 실제 자료와 참회귀선 의 차이
모수에 대한 추정
우리는 관측된 연구의 범위 내에서 선형방정식이 Y와 X 사이의 참 관계에 대하여 만족스러운 근사를 제공한다고 가정한다. 또, 오차항은 평균이 0, 표준편차는
이 방법은 각 점으로부터 구하고자 하는 최적의 직선까지의 수직거리(vertical distance)의 제곱합을 최소로 하는 직선의 방정식을 제공한다. 다시 말하면 RMSE(root-mean-square error)를 최소화 하는 것!
- RMSE : 실제값과 예측치의 차이가 어느 정도 될지 알려주는 수치 - 회귀의 표준오차(standard error of regression)
잔차, MSE, RMSE, 그리고 오차
- 잔차(residual) : 실제 관측값
와 그 추정치 간의 차이. - 평균-제곱 오차(MSE) : 잔차를 제곱하여 더한 잔차제곱합(SSE)를 자유도로 나눈 것.
- 제곱근-평균-제곱 오차(RMSE) : MSE에 제곱근을 취한 것.
잔차 vs 오차?
오차(error)는 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이를 이야기 합니다. 여기서 집중하셔야 할 점은 '모집단으로부터' 입니다. 즉 오차는, 추정한 회귀식과 모집단에서의 관측값의 차이를 말합니다.
잔차(residual)는 표본(sample)으로 추정한 회귀식과 실제 관측값의 차이를 말합니다. 사실상 현상을 분석할때, 모집단의 모든 데이터를 축적하기 보다, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식의 최적의 회귀계수를 추정합니다.
- 출처: https://jangpiano-science.tistory.com/116
위에서 모수를 추정하기 위해 사용한 최소제곱법은 '잔차'를 가지고 회귀식의 최적의 파라미터 값들을 추정하는 방법이다. 즉, 모집단으로부터 회귀식을 추정하는 것이 아니라 표본으로부터 회귀식을 얻을 때 사용하는 것이라고 할 수 있다! 사실상 실제 모집단의 모든 자료를 계산해 선형회귀식을 구하는 것은 불가능하다. 따라서 우리는 모집단에서 n개의 표본을 추출해 이 n개의 자료, 즉 표본자료에 대한 선형회귀식을 구해야 한다.
오차(

3. 결정계수
결정계수(coefficient of determination)

- 종속변수 Y의 평균 - 적합값의 평균
결정계수
- 모형이 데이터에 잘 적합된다면
의 값은 1에 가까울 것이다. - 참고로 SST는 SSE + SSR로, Y의 총 변동(SST)은 직선으로 설명 불가능한 변동 SSE와 직선으로 설명 가능한 변동 SSR로 되어있다.
는 y의 평균을 의미

4. 유의성 검정
개별 계수 추정치의 표준오차
단순회귀분석 모형에서 우리는 자료로부터 상수항과 기울기를 구한다. 다시 말하면, 입력시키는 자료가 바뀌면 출력되는 상수항과 기울기도 바뀐다. 여기서 규칙성을 찾을 수 있을까? 자료로부터 구한 상수항과 기울기의 추정치는 자료가 바뀜에 따라 얼마나 변하는가? 이를 표준오차(standard error; SE)로 구할 수 있다. 상수항 추정량의 표준오차는 자료에 걸쳐 상수항의 추정치가 얼마나 변할지 전형적인 크기를 알려주고, 마찬가지로 기울기 추정량의 표준오차는 자료에 걸쳐 기울기 추정치가 얼마나 변할지 전형적인 크기를 알려준다.
상수항과 기울기 추정량의 표준오차를 각각 SE(
표준오차 자체의 추정치를 각각 SE(
여기서
개별 계수에 대한 추론
단순회귀분석 모형에서의 추정결과의 보고:
이때,이고
관측지수=, 결정계수= , 추정의 표준오차=
근데 저러면
이제 위
- 귀무가설 -
(기울기가 0이라는 거니까, x가 y를 설명하는데 무용지물이라는 뜻이다) - 대립가설 -
논리전개상 일단 귀무가설이 맞다고 가정하자. 이제 귀류법으로 y에 대한 예측자로서 x의 유용성을 입증해야 한다. 귀무가설을 검정하기 위한 검정통계량(test statistics)은 다음의 t-검정 통계량이다. t-값은 자료에서 구한 추정치와 귀무가설 하에서 주어진 값의 차이를 그 추정치의 표준오차 단위로 나타내는 것을 잊지말자!
통계량
혹은 t-검정의 p값과

'AI > Statistics' 카테고리의 다른 글
[통계] logistic regression 예제 - 타이타닉 데이터셋 (0) | 2021.09.06 |
---|---|
[통계] 로지스틱 회귀와 정규화 (0) | 2021.09.06 |
[통계] 다중회귀분석 예제 - Statsmodel을 이용한 고유값, vif 확인 (0) | 2021.09.06 |
[통계] 최소제곱법과 회귀분석의 가정들 (0) | 2021.09.06 |
[통계] 다중선형회귀(Multiple Linear Regression) (0) | 2021.09.04 |