Machine Learning
-
[회귀] 회귀모델_실습Machine Learning/분류&회귀 2022. 9. 20. 18:02
회귀분석 : 예측값이 숫자값(연속값) 단순선형회귀: 독립변수 하나, 종속변수 하나인 선형회귀 ex) 주택가격이 주택의 크기로만 결정 다중회귀: 독립변수 여러개, 종속변수 하나 ex) 주택가격이 주택의 크기, 위치, 등등..여러가지 변수 존재 독립변수 RIM: 지역별 범죄 발생률 ZN: 25,000평방피트를 초과하는 거주 지역의 비율 NDUS: 비상업 지역 넓이 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 거주할 수 있는 방 개수 AGE: 1940년 이전에 건축된 소유 주택의 비율 DIS: 5개 주요 고용센터까지의 가중 거리 RAD: 고속도로 접근 용이도 TAX: 10,000달러당 재산세율 PTRATIO: 지역의 교사와 학생 수 비율..
-
[회귀] 로지스틱 회귀Machine Learning/분류&회귀 2022. 8. 17. 03:24
로지스틱 회귀: 어떤 사건이 발생할 확률을 예측하는 것 ex) 특정 고객이 휴대폰 2년 약정 종료 후 번호이동으로 타 통신사로 갈 것인지, 기기변경으로 남을 것인지 판단 가능 - 소득이 증가하면 소비도 증가, 어떤 변수가 다른 변수에 영향을 준다면 두 변수 사이에 선형관계가 있다고 할 수 있음 -독립변수 : 범주형 또는 이산형 - 종속변수 : 이산형(0 또는 1) 로지스틱 회귀에서는 데이터가 특정 범주에 속할 확률을 예측하기 위해 아래와 같은 단계를 거친다. 모든 속성(feature)들의 계수(coefficient)와 절편(intercept)을 0으로 초기화한다. 각 속성들의 값(value)에 계수(coefficient)를 곱해서 log-odds를 구한다. log-odds를 sigmoid 함수에 넣어서 ..
-
[회귀] 회귀모델Machine Learning/분류&회귀 2022. 8. 12. 23:57
회귀: 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 독립변수 개수 회귀 계수의 결합 1개 : 단일 회귀 선형: 선형 회귀 여러 개 : 다중 회귀 비선형 : 비선형 회귀 분류 => Category값(이산값) / 회귀 => Rrgression값(연속값) 릿지 : 선형 회귀에 L2 규제 추가한 회귀 모델 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀 계수값을 더 작게 만드는 규제 모델 W의 제곱에 패널티 부여 라쏘: 선형 회귀에 L1 규제 추가한 회귀 모델 예측 영향력이 작은 피청의 회귀 계수를 0으로 만듬 W의 절댓값에 패널티 부여 엘라스틱넷: L2,L1 규제를 함께 결합한 모델 L1 규제로 피처의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기 조정 로지스틱..
-
[분류] 데이터 가공 후 결과 분석Machine Learning/분류&회귀 2022. 8. 12. 23:25
이상치 데이터 제거 후 모델 학습/예측/평가 - 이상치 데이터: 전체 데이터의 패턴에서 벗어난 이상 값을 가진 데이터 - Q1 ~ Q3 지점의 데이터를 제외하고는 이상치로 간주하여 제거 로지스틱 회귀 예측 결과값: 정확도: 0.9993, 정밀도: 0.8750, 재현율: 0.6712, F1: 0.7597, AUC:0.974 LightGBM 예측 결과값: 정확도: 0.9996, 정밀도: 0.9603, 재현율: 0.8288, F1: 0.8897, AUC:0.9780 이상치 제거했을 때 성능이 크게 향상됨을 파악할 수 있음 ( 원본 가공 X) 로지스틱 회귀 - 정밀도 0.87, 재현율 0.60 / LightGBM - 정밀도 0.94, 재현율 0.75 SMOTE 클래스를 이용해 간단하게 구현 가능 * 반드시 학습..
-
[분류] 분류기 정리Machine Learning/분류&회귀 2022. 8. 12. 22:44
분류 : 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 학슴 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주여졌을 때 미지의 레이블 값을 예측하는 것 - 베이즈 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) - 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) - 데이터 균일도에 따른 규칙 기반의 결정 트리( Decision Tree) - 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신( Support Vector Machine) - 근접 거리를 기준으로 하는 최소 근접 (Nearest Neighbor)알고리즘 - 심층..
-
[분류] 부스팅기법Machine Learning/분류&회귀 2022. 3. 28. 02:33
부스팅: 가중치를 활용하여 약 분류기를 강 분류기로 만드는 방법 1. GBM : 가중치 업데이트를 경사하강법 이용 , 오류값은 실제값 - 예측값 2. XGBoost : GBM에 기반하고 있지만, 느린 수행시간 및 과적합 규제 부재 등의 문제를 해결, 조기 중단 가능 3.LightGBM : 균형잡힌 트리를 유지하면서 분할하기 때문에 트리의 깊이 최소화 가능. 즉, 과적합에 효과적 - num_iterations[default=100] =n_estimators -learning_rate[default=0.1] = 0에서 1사이 값을 지정해 부스팅 스텝을 반복적을 수행할 때 업데이트 되는 학습률 , n_estimators를 크게하고 learning_rate를 작게 해 예측성능을 향상시킬 수 있으나, 과적합 이슈..
-
[분류]앙상블(Ensemble) 배깅 기법(랜덤포레스트)Machine Learning/분류&회귀 2022. 3. 28. 01:48
배깅: 같은 알고리즘으로 학습 데이터에서 다른 데이터 샘플링해 개별적으로 학습한 뒤 모든 분류기가 보팅해 최종결정 -> 노이즈 분포를 가진 Bootstrap들을 기반으로 개별 모델을 학습하고 또 결합함으로써 노이즈의 변동으로 인한 영향력을 줄일 수 있음 n_estimators = 랜덤 포레스트에서 결정 트리 개수 지정,디폴트는 10개. 많이 설정할수록 좋은 성능을 기대할 수 있지만 계속 증가한다고 성능이 무조건 좋은 것은 아님 max_features = RandomFrestClassifier의 기본 max_features는 'None'이 아니라 'auto', 즉 'sqrt'와 같다 (랜덤 포레스트 트리를 분할하는 피처를 참조할 때 전체가 아니라 sqrt(전체 피처개수) ,전체가 16개 피처라면 분할을 위..
-
[분류]앙상블(Ensemble) 보팅기법Machine Learning/분류&회귀 2022. 3. 28. 01:43
앙상블 학습: 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도측해내는 기법 -> 각 개별 모델이 전체 데이터에 대한 성능은 조금 떨어지더라도 이들을 결합함으로써 전체 성능 향상 -> 어려운 문제의 결론을 내기 위해 여러 명의 전문가로 위원회를 구성해 다양한 의견을 수렴하고 결정하듯이 앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것 입니다. - 정형 데이터 분류시 앙상블이 뛰어난 성능을 지니고 있음(랜덤포레스트와 그래디언트 부스팅) 앙상블 학습의 유형은 보팅, 배깅(랜덤포레스트 모델), 부스팅(그래디언트 부스팅,Xgboost,LigthGBM) 세가지로 나눌 수 있습니다. - 보팅 : 서로 다..