[회귀] 회귀모델

Machine Learning/분류&회귀 2022. 8. 12. 23:57

회귀: 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법

분류 => Category값(이산값) / 회귀 => Rrgression값(연속값)

릿지 : 선형 회귀에 L2 규제 추가한 회귀 모델
- 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀 계수값을 더 작게 만드는 규제 모델
- W의 제곱에 패널티 부여

라쏘: 선형 회귀에 L1 규제 추가한 회귀 모델
- 예측 영향력이 작은 피청의 회귀 계수를 0으로 만듬
- W의 절댓값에 패널티 부여

단순 선형 회귀: 독립변수 하나, 종속변수도 하나인 선형 회귀

ex) 주택 가격이 주택 크기로만 결정된다고 가정 -> 선형 관계

기울기 베타1과 절편 베타0를 회귀계수라 칭함(절편= intercept)

실제 주택 값을 구하게 되면 (b1*X + b0 +오류값) 오류값 더하거나 빼거나

실제 값과 회귀 모델 차이에 따른 오류 값을 잔차라고 부름
최적의 회귀 모델을 만든다는 것은 전체 데이터의 잔차(오류 값) 합이 최소가 되는 모델을 만드는 것 = 오류 값 합이 최소가 될 수 있는 최적의 회귀 계수를 찾는다

오류 값은 + 나 - 가 될 수 있음. 전체 데이터의 오류 합을 구하기 위해 단순 더했다가 의도치 않게 오류 합이 커질 수 있다. 따라서 절댓값을 취하거나, 제곱을 구해서 더하는 방식을 사용한다. 미분 등의 계산 편리 위해 Error의 제곱 = RSS을 빈번히 사용

=> RSS(오류의 제곱) 를 최소로 하는 B1,B0 회귀 계수를 학습을 통해 찾는 것이 머신러닝 기반 회귀의 핵심 사항

RSS는 비용(Cost)이며 회귀 계수로 구성되는 RSS를 비용함수(=손실 함수)라 함

오류의 값을 지속해서 감소시키고 최종적으로 더 이상 감소하지 않는 최소의 오류 값을 구함

실제 값과 예측값의 차이 최소화만 고려하다보면 학습 데이터에 지나치게 맞추게 되고, 회귀 계수가 쉽게 커짐

변동성이 오히려 심해져서 테스트 데이터 세트에서는 예측 성능 저하 우려
RSS 최소화 방법과 과적합 방지를 위한 회귀 계수 값이 커지지 않도록 하는 방법이 서로 균형 이뤄야 함
alpha 값을 크게 하면 비용 함수는 회귀 계수 W 값을 작게 해 과적합 개선할 수 있으며 alpha 값을 작게 하면 회귀 계수 W 값이 커져도 어느 정도 상쇄 가능해 학습 데이터 적합을 더 개선할 수 있음

비용 최소화 하기 - 경사하강법

: 오류 값이 더 이상 작아지지 않으면 그 오류 값을 최소 비용으로 판단하고 최적의 W값 파라미터 반환

비용 함수 목표 = alpha 값을 크게 하면 비용 함수는 회귀 계수 w의 값을 작게 해 과적합을 개선할 수 있으며 alpha 값을 작게 하면 회귀 계수 W 값이 커져도 어느 정도 상쇄 가능하므로 학습 데이터 적합 더 개선 가능

선형 회귀 모델을 위한 데이터 변환

- 피처값과 타깃값의 분포가 정규분포 형태를 선호함

- 왜곡된 형태의 분포도일 경우 예측 성능에 부정적인 영향을 미칠 가능성이 높음

- 선형 회귀 모델 적용하기 전에 데이터 스케일링/정규화 작업 수행하는 것이 일반적

평가

회귀 평가 지표의 경우 값이 커지면 오히려 나쁜 모델이라는 의미

-1을 원래 평가 지표 값에 곱해 음수를 만들어 작은 오류값이 더 큰 숫자로 인식하게끔 함

ex) 10 > 1 => -1 > -10

hyunjungscoding hyunjungscoding