Machine Learning/분류&회귀

[분류] 데이터 가공 후 결과 분석

codingmemory 2022. 8. 12. 23:25

이상치 데이터 제거 후 모델 학습/예측/평가

- 이상치 데이터: 전체 데이터의 패턴에서 벗어난 이상 값을 가진 데이터

- Q1 ~ Q3 지점의 데이터를 제외하고는 이상치로 간주하여 제거

 

로지스틱 회귀 예측 결과값:

정확도: 0.9993, 정밀도: 0.8750, 재현율: 0.6712,    F1: 0.7597, AUC:0.974

LightGBM 예측 결과값:

정확도: 0.9996, 정밀도: 0.9603, 재현율: 0.8288,    F1: 0.8897, AUC:0.9780

이상치 제거했을 때 성능이 크게 향상됨을 파악할 수 있음

( 원본 가공 X)  로지스틱 회귀 - 정밀도 0.87, 재현율 0.60 / LightGBM - 정밀도 0.94, 재현율 0.75

 

SMOTE 클래스를 이용해 간단하게 구현 가능

* 반드시 학습 데이터 세트만 오버 샘플링 해야 함 

데이터가 2배 가까이 증식된 것을 볼 수 있음 

 

정확도: 0.97 , 정밀도: 0.05, 재현율:0.92, F1: 0.01, AUC: 0.97

- 로지스틱 회귀 모델의 경우 SMOTE로 오버 샘플링된 데이터로 학습할 경우 재현율이 92.47%로 크게 증가하지만, 반대로 정밀도가 5.4%로 급격하게 저하 됨.

- 로지스틱 회귀 모델이 오버 샘플링으로 인해 실제 원본 데이터의 유형보다 너무 많은 CLASS=1 데이터를 학습하면서 실제 테스트 데이터 세트에서 예측을 지나치게 CLASS=1 로 하여 정밀도 급격히 떨어짐 

 

SMOTE를 적용하면 재현율은 높아지나, 정밀도가 낮아지는 것이 일반적임

좋은 SMOTE 패키지일수록 재현율 증가율은 높이고 정밀도 감소율은 낮출 수 있도록 효과적인 데이터 증식이 이루어짐

 

반응형