빅데이터 분석
-
[ADsP]_1빅데이터 분석/Study 2023. 5. 1. 18:00
다차원척도법(MDS) > 객체간 근접성을 시각화하는 통계기법 > 계랑적 MDS 비율척도, 구간척도 데이터 활용 > 비계량적 MDS 순서척도 데이터 활용 주성분분석(Principal Component Analysis) > 여러 변수들의 상관관계, 연관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소하는 것 > 데이터를 이해하기 쉽고 관리하기 쉽게 해줌 > 회귀분석이나 의사결정나무 등의 모형 개발 시 입력변수들 간의 상관관계가 높은 다중공산성이 존재할 경우 모형이 잘못만들어지고 해석에도 문제가 생김 > 다중공선성이 존재할 경우 해결 방법 중 하나가 바로 상관도 높은 변수들을 하나의 주성분 혹은 축소하여 모형 개발에 활용하는 것 > 가장 폭 넓다는 것을 통계량으로 표현하자면 분산이 가장 크게 되는 축 (분..
-
[실무 데이터 분석]왜 우리 동네에는 스타벅스가 없을까?빅데이터 분석 2023. 2. 2. 11:02
직장인을 위한 데이터 분석 실무 with 파이썬 교재 학습 현재(2023년 1월 기준) 서울시 25개 시군구에는 599개의 스타벅스 매장이 있습니다. 그렇다면 어떤 시군구에 스타벅스 매장이 주로 많이 입점해 있을까요? 인구가 많은 시군구에 더 많은 스타벅스 매장이 입점해 있을까요? 우리가 알지 못하는 스타벅스만의 특별한 입지 전략을 가지고 있는 것은 아닐까요? 데이터가설 1. 거주 인구가 많은 지역에 스타벅스 매장이 많이 입지해 있을 것이다. 2. 직장인이 많은 지역에 스타벅스 매장이 많이 입지해 있을 것이다. 데이터 수집 - 크롤링을 활용해 서울시 스타벅스 매장 목록 데이터 생성 스타벅스 매장 리스트 데이터 프레임 완성 서울열린데이터광장에서 시군구 목록 데이터와 주민등록인구통계를 가져와서 인구가 많은 ..
-
[데이터분석]RFM 기반 분석빅데이터 분석 2022. 9. 19. 01:14
고객을 세분화한다 - segment: 성별, 연령, 거주지 등의 속성을 기반으로 집단 분류 - cohort : 특정 기간, 특정 이벤트(behavior)를 공통적으로 수행한 동질 그룹 cohort 분석 예 ) 서울 지역에서 지난 1/4분기 동안 화장품을 10만 원 이상 구매한 20대 수도권 지역 여성 RFM 기초 데이터-최근 구매일, 구매 횟수, 구매 총합 대부분의 현업에서 5분위 혹은 10분위 사용 F와 M이 높은데 R이 낮아 이탈할 가능성이 높은 VIP 고객에게 come-back 메일을 보낸다거나 R이 높고 F와 M이 낮은 신규 고객에게는 wellcome 쿠폰을 발행하여 구매를 유도하는 식의 객단가를 높이는 전략 구상 가능 고객 등급별 매출, ARPPU (Average Revenue Per Paid ..
-
[데이터분석]실무에서 많이 쓰이는 SQL문빅데이터 분석 2022. 9. 19. 00:38
1.Array형태로 이루어진 칼럼에 like절 cardinality(filter(Col, x -> x like 'a')) > 0 2. Json 형태로 이루어진 칼럼을 scalar 형태로 추출 json_extract_scalar(Col,'$.A') 3. 복수의 like절 regexp_like(Col, 'A|B|C|D|E') 4. Varchar -> timestamp date_parse(Varchar,'%Y-%m-%d %H:%i:%s') 5. timestamp -> varchar date_format(timestamp,'%Y%m%d') 6. timestamp에서 특정 unit 추출 extract(day from timestamp) 7. 특정 week 추출 week_of_year(to_timestamp(yyy..
-
[데이터분석]데이터 분석가가 하는 일빅데이터 분석 2022. 9. 19. 00:35
1. 데이터 추출 다른 부서 혹은 회사에서 궁금해하는 지표 또는 비즈니스 결정에 도움되기 위한 지표를 추출하기 위하여 SQL활용한 데이터 추출 역량 , 처리하고 가공하는 능력 2. 데이터 전처리 결측치나 이상치 제거, 혹은 가공 -> 개인적으로 가장 많은 시간을 쏟고 , 탐구하는 부분이 전처리였던 것 같다. 전처리 과정에 따라 결과물이 다르게 나오고, 그에 따른 인사이트가 달라졌던 것 같다. 3. 데이터 분석 예를 들어 전사가 기획한 이벤트가 효과적이였다면 수치적으로 얼만큼의 효과가 있었는지, 그 이유는 뭘지, 어떤 특성 고객에서 효과가 있었던건지 , 왜 상품을 구매했는지 등 A/B 테스트를 설계하고 분석하는 것 또한 수행 통계지식과 더불어 Python 다루는 역량도 필요 가설 설정부터 실험 설계, 실험..
-
[빅분기] 빅데이터 이해(2)빅데이터 분석 2022. 7. 3. 23:36
1. 개인정보 보호법 - 개인 정보 자기 결정권: 자신에 관한 정보가 언제 , 어떻게, 어느 범위까지 타인에게 전달 및 이용될 수 있는지 정보 주체가 스스로 결정할 수 있는 권리 - 개인 정보: 살아있는 개인에 대한 정보/ 개인을 알아볼 수 있는 개인정보 비식별 조치 방법 (1) 가명처리 ex) 이몽룡군 (2) 총계처리 ex) 통계 값 이용 , 평균 키는 160cm (3) 데이터 삭제 ex) 주민등록 번호 -> 90년대 여성 (4) 데이터 범주화 ex) 20대 여성 (5)데이터 마스킹 ex) 이 ○●, ◇◇대학
-
[빅분기]빅데이터 이해빅데이터 분석 2022. 7. 3. 21:29
1. DATA(데이터): 객간적 사실, 다른 데이터와 상관관계 없음 ex) A 문방구의 연필 가격은 500원, B 문방구의 연필 가격은 300원 2. INFORMATION(정보): 가공, 처리하여 의미를 도출한 데이터, 데이터 간 연관관계 포함 ex) B 문방구의 연필 가격은 A 문방구 보다 싸다 3. KNOWLEDGE(지식): 획득한 정보 구조화-> 유의미한 정보, 정보에 기반한 규칙 --> 일반화 ex) B 문방구의 연필 가격이 더 싸게 판매 됨으로 B 문방구에서 구매 4. WISDOM(지혜): 깊은 이해를 바탕으로 창의적 아이디어 도출 ex) B 문방구의 다른 잡화도 A 문방구보다 쌀 것이다 (1) 빅데이터의 가치 경제적 자산/ 불확실성 제거/ 리스크 감소/ 스마트한 경쟁력/ 타 분야 융합 (2) ..
-
[분석]데이터 마이닝 분석빅데이터 분석 2022. 7. 2. 20:35
데이터 마이닝이란? 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 통계분석과의 차이 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출 활용분야 분류 - 데이터가 어떤 그룹에 속하는지 예측하는데 사용, 범주형 속성의 값 예측 ex) 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것 카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것 고객들의 속성을 이용해 이탈일자를 예측 예측 - 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측, 연속형 속성의 값 예측 ex)카드회사 회원들의 가입정보를 통해 연 매출..