ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [회귀] 회귀모델
    Machine Learning/분류&회귀 2022. 8. 12. 23:57

    회귀: 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법

     

    독립변수 개수 회귀 계수의 결합
    1개 : 단일 회귀 선형: 선형 회귀
    여러 개 : 다중 회귀 비선형 : 비선형 회귀

     

    분류 => Category값(이산값)  /  회귀 => Rrgression값(연속값)

     

    • 릿지 : 선형 회귀에 L2 규제 추가한 회귀 모델
      •  상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀 계수값을 더 작게 만드는 규제 모델
      • W의 제곱에 패널티 부여
    • 라쏘: 선형 회귀에 L1 규제 추가한 회귀 모델
      • 예측 영향력이 작은 피청의 회귀 계수를 0으로 만듬
      • W의 절댓값에 패널티 부여
    • 엘라스틱넷: L2,L1 규제를 함께 결합한 모델
      •  L1 규제로 피처의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기 조정

     

    • 로지스틱 회귀: 매우 강력한 분류 알고리즘
      • 이진 분류 뿐만 아니라 회귀 영역의 분류, 텍스트 분류와 같은 영역에서 뛰어난 예측 성능 보임

     

    단순 선형 회귀: 독립변수 하나, 종속변수도 하나인 선형 회귀

    ex) 주택 가격이 주택 크기로만 결정된다고 가정 -> 선형 관계

    기울기 베타1과 절편 베타0를 회귀계수라 칭함(절편= intercept)

     실제 주택 값을 구하게 되면 (b1*X + b0 +오류값) 오류값 더하거나 빼거나

    • 실제 값과 회귀 모델 차이에 따른 오류 값을 잔차라고 부름
    • 최적의 회귀 모델을 만든다는 것은 전체 데이터의 잔차(오류 값) 합이 최소가 되는 모델을 만드는 것  = 오류 값 합이 최소가 될 수 있는 최적의 회귀 계수를 찾는다

     

    오류 값은 + 나 - 가 될 수 있음. 전체 데이터의 오류 합을 구하기 위해 단순 더했다가 의도치 않게 오류 합이 커질 수 있다. 따라서 절댓값을 취하거나, 제곱을 구해서 더하는 방식을 사용한다. 미분 등의 계산 편리 위해 Error의 제곱 = RSS을 빈번히 사용

     

    => RSS(오류의 제곱) 를 최소로 하는 B1,B0 회귀 계수를 학습을 통해 찾는 것이 머신러닝 기반 회귀의 핵심 사항

     

    RSS는 비용(Cost)이며 회귀 계수로 구성되는 RSS를 비용함수(=손실 함수)라 함

    오류의 값을 지속해서 감소시키고 최종적으로 더 이상 감소하지 않는 최소의 오류 값을 구함

     

    실제 값과 예측값의 차이 최소화만 고려하다보면 학습 데이터에 지나치게 맞추게 되고, 회귀 계수가 쉽게 커짐

    • 변동성이 오히려 심해져서 테스트 데이터 세트에서는 예측 성능 저하 우려
    • RSS 최소화 방법과 과적합 방지를 위한 회귀 계수 값이 커지지 않도록 하는 방법이 서로 균형 이뤄야 함
    • alpha 값을 크게 하면 비용 함수는 회귀 계수 W 값을 작게 해 과적합 개선할 수 있으며 alpha 값을 작게 하면 회귀 계수 W 값이 커져도 어느 정도 상쇄 가능해 학습 데이터 적합을 더 개선할 수 있음

     

    비용 최소화 하기 - 경사하강법

    : 오류 값이 더 이상 작아지지 않으면 그 오류 값을 최소 비용으로 판단하고 최적의 W값 파라미터 반환

     

    비용 함수 목표 =  alpha 값을 크게 하면 비용 함수는 회귀 계수 w의 값을 작게 해 과적합을 개선할 수 있으며 alpha 값을 작게 하면 회귀 계수 W 값이 커져도 어느 정도 상쇄 가능하므로 학습 데이터 적합 더 개선 가능

     

    선형 회귀 모델을 위한 데이터 변환

    - 피처값과 타깃값의 분포가 정규분포 형태를 선호함

    - 왜곡된 형태의 분포도일 경우 예측 성능에 부정적인 영향을 미칠 가능성이 높음

    - 선형 회귀 모델 적용하기 전에 데이터 스케일링/정규화 작업 수행하는 것이 일반적

     

    평가

    • MAE: 실제값과 예측값의 차이를 절대값으로 변환해 평균한 것
    • MSE(mean squared error): 실제값과 오차값의 차이를 제곱해 평균한 것
    • RMSE(route mean squared error): MSE에 루트를 씌운 것(실제 오류 평균보다 커지는 것을 보정)
    • R square : 분산 기반으로 예측 성능을 평가, 실제값의 분산 대비 예측값의 분산 비율을 지표로 함
    • 1에 가까울수록 예측 정확도가 높음. 예측값 Variance / 실제값 Variance

     

    회귀 평가 지표의 경우 값이 커지면 오히려 나쁜 모델이라는 의미

    -1을 원래 평가 지표 값에 곱해 음수를 만들어 작은 오류값이 더 큰 숫자로 인식하게끔 함

    ex) 10 > 1 =>  -1 > -10

     

    반응형

    'Machine Learning > 분류&회귀' 카테고리의 다른 글

    [회귀] 회귀모델_실습  (1) 2022.09.20
    [회귀] 로지스틱 회귀  (0) 2022.08.17
    [분류] 데이터 가공 후 결과 분석  (0) 2022.08.12
    [분류] 분류기 정리  (0) 2022.08.12
    [분류] 부스팅기법  (0) 2022.03.28
Designed by Tistory.