AI/Statistics
2021. 9. 14.
[통계] 정규화(Normalization) vs 표준화(Standardization)
ML을 공부하는 사람이라면 feature scaling이 얼마나 중요한 지 알것이다. scikit-learn에는 많은 스케일링 메서드들이 모듈화 되어있는데, 기본적으로 정규화와 표준화가 무엇인지 이해해야 과제를 수행하기 적합한 방법을 선택할 수 있다. 이 포스트를 기반으로 작성하였다. 정규화 (Normalization) 정규화의 목적은 데이터셋의 numerical value 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 것이다. 기계학습에서 모든 데이터셋이 정규화 될 필요는 없고, 피처의 범위가 다른 경우에만 필요하다. 위의 표에서의 데이터를 가정해보자. 데이터셋은 나이\( (X_1) \)과 월별 소득\( (X_2) \)의 두 개의 피처로 이루어져 있다. 모든 관측개체를 살피지 않았으나 우리는 나이의..