AI/Statistics
2021. 9. 14.
[통계] F-분포와 분산 분석 ANOVA
회귀분석에서도 머신러닝에서도 학습에 사용할 적절한 특성을 찾는 것은 중요하다. 입력되는 데이터에서 적합한 특성을 찾는 과정을 특성 공학(feature engineering)이라고 하며, 여러 가지 특성들 중에서 학습에 필요한 특성 몇 개를 선택하기도 하고, 특성들을 조합해 새로운 특성을 만들기도 한다. 새로운 특성을 만들게 되면 데이터의 차원은 원본 특성의 수 이상으로 증가하기 쉽다. 하지만 자칫하면 모델이 더 복잡해지고 과대적합되는 결과를 불러오기도 한다. 통상적으로 새로운 특성을 추가할 때나 고차원 데이터셋을 사용할 때, 가장 유용한 특성만 선택하고 나머지는 무시해서 특성의 수를 줄이는 것이 좋다. 그래야 모델이 간단해지고, 일반화 성능도 높아지기 때문이다. 이를 위한 전략 중 하나가 일변량 통계이다..