ABOUT ME

Today
Yesterday
Total
  • [분석]데이터 마이닝 분석
    빅데이터 분석 2022. 7. 2. 20:35

    데이터 마이닝이란?

    • 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
    • 통계분석과의 차이
      • 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출
    • 활용분야
      • 분류

                      - 데이터가 어떤 그룹에 속하는지 예측하는데 사용, 범주형 속성의 값 예측

                      ex) 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것

                            카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것

                            고객들의 속성을 이용해 이탈일자를 예측

     

      • 예측

                      - 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측, 연속형 속성의 값 예측

                     ex)카드회사 회원들의 가입정보를 통해 연 매출액을 알아 맞히는 것

     

      • 군집화
      • 시각화
    • 방법론
      • 인공지능
      • 의사결정나무
      • K-평균군집화
      • 연관분석
      • 회귀분석
      • 로짓(Logit) 분석
      • 최근접이웃법

    지도학습

    • 분류분석
      • 정답이 존재하고 이를 분류
      • 데이터가 어떤 그룹에 속하는지 예측하는데 사용
    • 회귀분석
      • 독립변수에 따라 종속변수가 어떻게 변하는지 예측
      • 강남,강북 지역의 아파트값 예측

      의사결정나무/인공신경망/로지스틱회귀분석/최근접이웃법(KNN)/앙상블분석(배깅,부스팅,랜덤포레스트)

    •  

    비지도학습

    • 정답을 알려주지 않고 데이터 들을 군집화
    • 데이터의 숨겨진 특징이나 구조를 발견하는데 사용
    • 연관성 분석
      • 상품 배치
    • 연속규칙
    • 군집분석(clustering)
      • 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것

    OLAP/ 연관규칙분석/ K-군집분석/ SOM(Self-Organizing Map)

     

    데이터 분석 과정

    1. 목적설정
    2. 데이터준비
    3. 데이터가공
      • 모델링의 목적에 따라 목적 변수를 정의
    4. 기법적용
    5. 검증

     

    • 과적합/과대적합/overfitting
      • 모형이 학습용 데이터를 과하게 학습하여, 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상
    • 과소적합/underfitting
      • 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우

    데이터 양이 충분하지 않거나 입력변수에 대한 설명이 충분한 경우 검증방법

    1. 홀드아웃 방법
      • 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법
      • 구축용과 시험용으로 분리
    2. 교차확인 방법
      • 주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단 검증용으로 설정하여 학습
      • k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용

    추정지

      • 정분류율/Accuracy
        • TN+TP / ALL
      • 오분류율/Error Rate
        • 1-Accuracy = FN+FP/ALL
      • 특이도/Specificicy
        • TN/TN+FP
        • 불량을 불량으로 판정하는 정도
      • 민감도/Sensitivity
        • TP=TP+FN
        • 우량을 우량으로 판정하는 정도
      • 정확도/Precisison
        • TP/TP+FP
      • 재현율/Recall = 민감도
        • 실제값이 True인 관측치 중에 예측치가 맞는 정도를 나타내어 모형의 완전성을 평가하는 지표
      • F1 Score
        • 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 이러한 효과를 보정하여 하나의 지표로 생성
        • 2 * (정확도*민감도 / 정확도+민감도)

    ROC 추정치

    • ROC Curve란 가로축을 FPR(False Positive Rate = 1-특이도) 값으로 두고, 세로축을 TPR(True Positive Rate, 민감도)로 두어 시각화한 그래프
    반응형

    '빅데이터 분석' 카테고리의 다른 글

    [빅분기] 빅데이터 이해(2)  (0) 2022.07.03
    [빅분기]빅데이터 이해  (0) 2022.07.03
    [분석]회귀분석  (0) 2022.07.02
    [분석] 기초통계 표본추출법  (0) 2022.07.02
    [분석] 데이터 분석 방법  (0) 2022.07.01
Designed by Tistory.