빅데이터 분석

[빅분기]빅데이터 이해

codingmemory 2022. 7. 3. 21:29

 

1. DATA(데이터): 객간적 사실, 다른 데이터와 상관관계 없음 

  • ex) A 문방구의 연필 가격은 500원, B 문방구의 연필 가격은 300원

 

2. INFORMATION(정보): 가공, 처리하여 의미를 도출한 데이터, 데이터 간 연관관계 포함

  • ex) B 문방구의 연필 가격은 A 문방구 보다 싸다

 

3. KNOWLEDGE(지식): 획득한 정보 구조화-> 유의미한 정보, 정보에 기반한 규칙 --> 일반화

  • ex)  B 문방구의 연필 가격이 더 싸게 판매 됨으로 B 문방구에서 구매

 

4. WISDOM(지혜): 깊은 이해를 바탕으로 창의적 아이디어 도출

  • ex) B 문방구의 다른 잡화도 A 문방구보다 쌀 것이다

 

 

(1) 빅데이터의 가치

  • 경제적 자산/ 불확실성 제거/ 리스크 감소/ 스마트한 경쟁력/ 타 분야 융합

(2) 빅데이터 가치 산정이 어려운 이유 

  • 데이터 활용 방식의 다양화: 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음/ 기존에 풀 수 없던 문제해결
  • 새로운 가치 창출: 기존에 없던 가치를 창출
  • 분석기술의 급속한 발전: 분석 비용이 저렴해지면서 활용도가 증가함

(3) 빅데이터 영향

  • 기업: 비즈니스 모델 혁신/ 신사업 발굴/ 경쟁우위 확보/ 생산성 향상
  • 정보: 사회변화 추정/ 환경 탐색/ 상황 분석/ 미래 의제 도출 및 대응
  • 개인: 빅데이터 서비스를 저렴하게 활용/ 적시에 필요한 정보 획득

(4) 빅데이터의 위험

  • 데이터 오용
  • 사생활 침해
  • 책임원칙 훼손

데이터 크기

빅데이터 플랫폼 구성요소

  • 수집: ETL(Extract Transform Load), 크롤러(Crawler), EAI(Enterprise Architecture Integration) 등
    저장: RDBMS(Relational DBMS, 관계형 데이터베이스), NoSQL(Not Only SQL)- 고정된 테이블 스키마 X, 조인연산X, 수평적 확산X 등
  • 분석: 텍스트 마이닝, 머신러닝, 통계, 데이터 마이닝, SNS 분석, 예측 분석 등
  • 활용: 데이터 가시화, 비즈니스 인텔리전스(BI), Open API 연계, 히스토그램, 인포그래픽 등

 

DB: 대량의 데이터를 다수의 사용자가 동시 처리, 고비용

File 기반 처리 : 저비용으로 정보 저장 가능, 대량의 데이터 처리 시간 매우 느림

-> HaDoop 기반 처리 : 대량의 데이터 분산 저장하고 병렬처리 가능 , 저비용으로도 대량의 데이터를 빠르게 처리 가능

 

 

Q. 기존의 RDB ( R/W, OLTP -누구든 수정 가능 )를 하둡으로 대체 가능하냐? X

A. 하둡은 읽기 전용 (OLAP- 분석하는 용도)

 

빅데이터 플랫폼 구축 소프트웨어

- 대용량 처리에는 RDBMS 가 비효율적이라 하둡 사용

 

하둡 에코 시스템

  • Nutch : 데이터 수집 도구, web 데이터 수집

데이터 수집 했는데 구글은 어디다 데이터 저장할까? 구글은 GFS , 참고해서 만든 게 HDFS

  • HDFS(하둡 분산 파일 시스템): 분산 저장 시스템, 여러 대의 컴퓨터에 데이터 분산 저장
  • MapReduce :   자바 기반 어플리케이션 만들 수 있는 프레임 워크, 빅데이터 병렬 처리, 분산 프로그래밍 가능하게 해줌

HDFS+ MapReduce 를 두니깐 너무 커져서 하둡으로 독립 시켜놈, 분석 할 데이터를 옮겨주면 좋겠지 

  • 척화, 플롬( 로그 수집기) : 비정형 데이터 수집하는 도구, 실시간으로 하둡에 옮겨 줌
  • 스쿱,히호: 정형데이터 하둡으로 옮겨줌  
  • 하이브, 피그, 스파크 , 임팔라 : 쉽게 데이터 분석 가능/  스파크 : 실시간 스트리밍 가능, 여러 언어 사용 가능
  • OOZIE(스케줄링 시스템): 배치처리란 - 주어진 시간이 되면 일정한 작업을 하게끔 , 실시간이 아닌 정해진 시간에 돌림. 배치 처리 도구
  • ZooKeeper, avro: 하둡은 시스템이 네임노드에 데이터노드가 연결 된 형태. 네임노드가 죽어보면 데이터 노드 자체가 안됨. 시스템 가용성 높이기 위해 ( 안정성 높이기 위해) , 네임노드를 두대로 두면 네임 노드가 죽어도 하나는 서비스를 진행할 수 있음/  분산, 코디네이션 주키퍼 서버가 있다면 어디든 쓰고 읽을 수 있음. 이중화-> 고가용성을 위하여

-> 하나의 서버에만 집중 되지 않도록  서비스를 알맞게 분산하여 동시에 처리하게 해줌, 분산 환경을 구성하는 서버들의 환경설정을 통합적으로 관리

  • Avro : 이기종 간에 데이터 직렬화 , 다른 이기종으로 전송시킬 수 있다
  • HBASE(분산 데이터 베이스): NoSQL, 저장, 수정 (입력,삭제 포함) OLTP

 

 

수집: Flume, Avro, Sqoop , Nutch,

저장 : HDFS , DAS/NAS/SAN (스토리지) , OPENsTACK Swift( 클라우드 오픈 소스, 저장도구)

일괄 처리 : Hive,Pig, MapReduce 

실시간 처리: Spark, Storm,ElasticSearch

 

※데이터 사이언티스트의 역량

  • 소프트스킬 : 분석, 통찰력, 협업 능력, 설득력/ 전달력
  • 하드스킬: 빅데이터 이론 지식,분석기술 숙련도

 

 

 

출처: https://sy-log.tistory.com/3?category=992358 [서윤로그:티스토리]
반응형