본문 바로가기

AI/Statistics

[통계] 4가지 측정척도, Pearson correlation & Spearman rank correlation

1. 측정척도 (scale of measurement)

측정하고자 하는 대상(사람,사물,현상)의 특성을 수량화하기 위해 체계적인 단위를 가지고 숫자나 기호를 부여한 것. 데이터를 수집하기 위해서는 데이터 항목별로 적절한 측정척도를 결정해야 한다.

 

명목척도 nominal scale

특정 범주(category)만을 가리키는 척도로, 숫자의 크기는 의미가 없으며 속성을 숫자로 식별하기 위한 목적으로 사용한다.

  • 남자(0), 여자(1)로 표현
  • 전공구분: 상경계열(0), 공학계열(1), 인문계열(2), 자연과학계열(3) 등

서열척도 ordinal scale

측정 대상의 순서를 나타내기 위한 척도로, 크기 순서대로 서열화가 가능하다. 단, 크기나 정도의 차이는 알 수 없다.

  • 과목 등수: 1등, 2등, 3등,... 하지만 1등과 2등 사이의 점수 차이를 알 수 없음
  • 사회 계층의 구분: 상류층(1), 중산층(2), 하류층(3)

등간척도 interval scale

순서를 표현하는 동시에 값 간 간격이 고정된 측정단위로 표현되는 척도. 즉 서열척도에서 측정 대상의 속성의 정도나 크기를 측정할 수 있도록 동일한 간격을 부여한 것이다. 임의의 '0'가 부여될 수 있지만 '0'가 꼭 '없음(無)'을 나타내지는 않음.

  • 섭씨온도: 1℃와 2℃는 동일한 간격으로 떨어져있고, 2℃와 3℃도 마찬가지
  • 리커트척도: [매우 그렇다]-[그렇다]-[보통이다]-[그렇지 않다]-[전혀 그렇지 않다] ('매우 그렇다'-'그렇다'와 '그렇다'-'보통이다' 사이의 간격이 같다고 보기는 어렵지만 통계적 분석의 편의를 위해 등간척도로 간주)

비율척도 ratio scale

측정 대상간 구분, 크기의 비교, 크기의 차이, 속성 간의 비율계산까지 가능한 척도. 가장 높은 수준의 척도로, 숫자 '0'는 '없음(無)'을 의미한다.

  • 길이, 무게, 시간, 거리, 나이 등
  • 자녀의 수: (없으면 0)

 

 

2. 상관계수

 

 산포도에서 점들의 분포가 타원형의 모습을 띈다고 해보자. 산포도상에 그려진 두 변수간의 관계를 숫자로는 어떻게 표현할 수 있을까? 두 변수간의 관계가 얼마나 강한지 측정할 때 쓰이는 상관계수(corrleation coefficient)에는 대표적으로 Pearson correlation과 Spearman rank correlation이 있다.

 

 Pearson correlation

두 변수간 선형관계의 방향과 강도를 측정하는 데 가장 널리 사용되는 상관계수 통계량이다.

관측개체가 n개 있고, \( x_i \)를 x의 i번째 값, \( y_i \)를 y의 i번째 값이라고 할 때, 피어슨 상관계수 \( \gamma \)는

$$ \gamma  = \frac{\sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i-\overline{x})^{2}}\cdot \sqrt{\sum_{i=1}^{n} (y_i-\overline{y})^{2}}} $$

  • \( \overline{x}  \)와 \( \overline{y}  \) = 표본평균

해당 식의 분모와 분자를 각각 자유도 \( n-1  \)로 나누면 표본 표준편차 \( SD_{x}  \), \( SD_{y}  \)로 나타낼 수 있다.

$$ \gamma  = \frac{\sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y}) / (n-1)}{{SD_x}\cdot {SD_y}} $$

즉,

$$ \gamma  = \frac{Cov(Y,X)}{{SD_x}\cdot {SD_y}} $$

 

 

  • \( -1 \leq \gamma \leq 1 \)
  • 1(또는 -1)에 가까울수록 두 변수는 양의(혹은 음의) 상관관계를 갖고 있는 것이며, 0에 가깝다면 선형 관계성이 거의 없다는 것이다.

예시

- 년 단위로 측정한 나이와 인치 단위로 측정한 키 사이에 통계적으로 유의한 관계가 있는가?

 

- 화씨로 측정되는 온도와 수입 단위로 측정되는 아이스크림 판매 사이에 어떤 관계가 있는가?

 

- JSS(Job Satisfaction Survey)로 측정한 직무만족도와 달러 단위의 소득 사이에 관계가 있는가?

 

가정

피어슨 상관계수를 구하기 위해서는 두 변수 \( x_i \)와 \( y_i \) 모두 정규분포를 따라야한다. 또 선형성과 등분산성 가정을 만족해야 한다. 이 포스트에서 회귀분석의 가정들에 대한 설명을 모아놓았으니 참고

 

연속형 데이터

등간척도 혹은 비율척도를 기반으로 한 데이터를 사용한다. 해당 유형의 데이터는 측정 단위 사이의 크기가 같고 간격이 같다는 특성을 가지고 있다.

 

 

Spearman rank correlation

두 변수 사이의 단조성(monotonicity)을 측정하는 데 사용되는 비모수(non-parametic) 검정이다. 단조성이 좋다는 것은 한 변수의 값의 크기가 커지만(또는 작아지면) 다른 변수의 크기도 커진다(또는 작아진다)는 뜻이다. 

 

(왼)단조성을 만족하는 함수를 단조함수라고 부른다.         (오)반대로 2차함수는 단조성을 띄지 않는다(x가 증가해도 y가 감소하는 구간이 있다)

 

(\ d_i \)를 두 변수값들을 크기 순으로 정렬한 것에서 i번째 값들의 차라고 할 때, 스피어만 상관계수 \( \rho \)는

$$ \rho = 1 - \frac{6}{n(n^2-1)} \sum_{i=1}^nd_i^2 $$

  • \( -1 \leq \rho \leq 1 \)
  • 1(또는 -1)에 가까울수록 두 변수는 높은(또는 낮은) 단조 상관성을 갖고 있는 것이고, 0에 가깝다면 단조 상관성이 거의 없다는 것이다. 

예시

- 참가자의 교육 수준(고등학교, 학사 또는 대학원)과 초봉 사이에 통계적으로 유의한 관계가 있는가?

- 말의 완주 위치와 말의 나이 사이에는 통계적으로 유의한 관계가 있는가?

 

가정

데이터의 분포에 대한 가정을 포함하지 않는다. 대신 사용되는 데이터가 순서가 있는 서열척도('variables are measured on a scale that is at least ordinal', 즉 적어도 순서형)여야 하며 한 변수의 값은 다른 변수와 단조롭게 관련되어 있어야 한다.

 

순서형 데이터(서열척도)

서열척도에서는 한 속성의 수준이 다른 속성의 수준보다 높거나 낮은 것으로 판단될 수 있도록 변수의 수준이 정렬된다. 하지만 수준 간 차이의 크기를 반드시 알 수는 없다.

 

 

 

참고 문헌: https://www.statisticssolutions.com/free-resources/directory-of-statistical-analyses/correlation-pearson-kendall-spearman/

https://bskyvision.com/116