-
[분석]데이터 마이닝 분석빅데이터 분석 2022. 7. 2. 20:35
데이터 마이닝이란?
- 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
- 통계분석과의 차이
- 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출
- 활용분야
- 분류
- 데이터가 어떤 그룹에 속하는지 예측하는데 사용, 범주형 속성의 값 예측
ex) 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것
카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것
고객들의 속성을 이용해 이탈일자를 예측
-
- 예측
- 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측, 연속형 속성의 값 예측
ex)카드회사 회원들의 가입정보를 통해 연 매출액을 알아 맞히는 것
-
- 군집화
- 시각화
- 방법론
- 인공지능
- 의사결정나무
- K-평균군집화
- 연관분석
- 회귀분석
- 로짓(Logit) 분석
- 최근접이웃법
지도학습
- 분류분석
- 정답이 존재하고 이를 분류
- 데이터가 어떤 그룹에 속하는지 예측하는데 사용
- 회귀분석
- 독립변수에 따라 종속변수가 어떻게 변하는지 예측
- 강남,강북 지역의 아파트값 예측
의사결정나무/인공신경망/로지스틱회귀분석/최근접이웃법(KNN)/앙상블분석(배깅,부스팅,랜덤포레스트)
비지도학습
- 정답을 알려주지 않고 데이터 들을 군집화
- 데이터의 숨겨진 특징이나 구조를 발견하는데 사용
- 연관성 분석
- 상품 배치
- 연속규칙
- 군집분석(clustering)
- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것
OLAP/ 연관규칙분석/ K-군집분석/ SOM(Self-Organizing Map)
데이터 분석 과정
- 목적설정
- 데이터준비
- 데이터가공
- 모델링의 목적에 따라 목적 변수를 정의
- 기법적용
- 검증
- 과적합/과대적합/overfitting
- 모형이 학습용 데이터를 과하게 학습하여, 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상
- 과소적합/underfitting
- 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우
데이터 양이 충분하지 않거나 입력변수에 대한 설명이 충분한 경우 검증방법
- 홀드아웃 방법
- 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법
- 구축용과 시험용으로 분리
- 교차확인 방법
- 주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단 검증용으로 설정하여 학습
- k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용
추정지
-
- 정분류율/Accuracy
- TN+TP / ALL
- 오분류율/Error Rate
- 1-Accuracy = FN+FP/ALL
- 특이도/Specificicy
- TN/TN+FP
- 불량을 불량으로 판정하는 정도
- 민감도/Sensitivity
- TP=TP+FN
- 우량을 우량으로 판정하는 정도
- 정확도/Precisison
- TP/TP+FP
- 재현율/Recall = 민감도
- 실제값이 True인 관측치 중에 예측치가 맞는 정도를 나타내어 모형의 완전성을 평가하는 지표
- F1 Score
- 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 이러한 효과를 보정하여 하나의 지표로 생성
- 2 * (정확도*민감도 / 정확도+민감도)
- 정분류율/Accuracy
ROC 추정치
- ROC Curve란 가로축을 FPR(False Positive Rate = 1-특이도) 값으로 두고, 세로축을 TPR(True Positive Rate, 민감도)로 두어 시각화한 그래프
반응형'빅데이터 분석' 카테고리의 다른 글
[빅분기] 빅데이터 이해(2) (0) 2022.07.03 [빅분기]빅데이터 이해 (0) 2022.07.03 [분석]회귀분석 (0) 2022.07.02 [분석] 기초통계 표본추출법 (0) 2022.07.02 [분석] 데이터 분석 방법 (0) 2022.07.01