-
[분류]결정트리(DecisionTree)Machine Learning/분류&회귀 2022. 3. 26. 10:05
지도학습의 대표적인 유형인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값 (결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델 생성하고, 모델에 새로운 값이 주어졌을 때 마지막 레이블 값을 예측하는 것.
결정트리(Dt)
가능한 한 적은 결정 노드로 높은 예측 정확도를 가지려면 데이터를 분류할 때 최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록 결정 노드의 규칙이 정해져야 함. 깊이가 깊어질수록 예측 성능 저하도 높아짐.
장:쉽다. 직관적이다, 피처의 스케일링이나 정규화 등 가공 영향도가 크지 않음
단:과적합으로 알고리즘 성능이 떨어진다. 이를 극복하기위해 트리의 크기를 사전에 제한하는 튜닝 필요
데이터 정보의 균일도를 측정하는 대표적인 방법은 엔트로피를 이용한 정보이득지수와 계니지수가 있다.
정보이득지수 = 1 - 엔트로피 지수 (데이터 집합의 혼잡도 )
- 엔트로피 지수는 다른 데이터들이 섞여 있으면 높고, 같은 값이 섞여 있으면 엔트로피 낮다
지니계수는 불평등 지수를 나타내는데, 0이 가장 평등하고, 1로 갈수록 불평등.
지니계수가 낮을수록 데이터 균일도가 높은 것
min_samples_split : 노드를 분할하기 위한 초쇠한의 샘플 데이터 수
min_samples_leaf : 말단 노드가 되기 위한 최소한의 데이터 수
max_features : 최적의 분할을 위해 고려할 최대 피처 개수
max_depth: 트리의 최대 깊이 규정,
max_leaf_nodes: 말단 노드의 최대 개수
dt_clf.feature_importances_ 로 피처별로 중요도 값을 발견할 수 있음
반응형'Machine Learning > 분류&회귀' 카테고리의 다른 글
[분류] 데이터 가공 후 결과 분석 (0) 2022.08.12 [분류] 분류기 정리 (0) 2022.08.12 [분류] 부스팅기법 (0) 2022.03.28 [분류]앙상블(Ensemble) 배깅 기법(랜덤포레스트) (0) 2022.03.28 [분류]앙상블(Ensemble) 보팅기법 (0) 2022.03.28