[빅분기]빅데이터 이해

빅데이터 분석

codingmemory 2022. 7. 3. 21:29

1. DATA(데이터): 객간적 사실, 다른 데이터와 상관관계 없음

2. INFORMATION(정보): 가공, 처리하여 의미를 도출한 데이터, 데이터 간 연관관계 포함

3. KNOWLEDGE(지식): 획득한 정보 구조화-> 유의미한 정보, 정보에 기반한 규칙 --> 일반화

4. WISDOM(지혜): 깊은 이해를 바탕으로 창의적 아이디어 도출

(1) 빅데이터의 가치

(2) 빅데이터 가치 산정이 어려운 이유

(3) 빅데이터 영향

(4) 빅데이터의 위험

데이터 크기

수집: ETL(Extract Transform Load), 크롤러(Crawler), EAI(Enterprise Architecture Integration) 등
저장: RDBMS(Relational DBMS, 관계형 데이터베이스), NoSQL(Not Only SQL)- 고정된 테이블 스키마 X, 조인연산X, 수평적 확산X 등
분석: 텍스트 마이닝, 머신러닝, 통계, 데이터 마이닝, SNS 분석, 예측 분석 등
활용: 데이터 가시화, 비즈니스 인텔리전스(BI), Open API 연계, 히스토그램, 인포그래픽 등

DB: 대량의 데이터를 다수의 사용자가 동시 처리, 고비용

File 기반 처리 : 저비용으로 정보 저장 가능, 대량의 데이터 처리 시간 매우 느림

-> HaDoop 기반 처리 : 대량의 데이터 분산 저장하고 병렬처리 가능 , 저비용으로도 대량의 데이터를 빠르게 처리 가능

Q. 기존의 RDB ( R/W, OLTP -누구든 수정 가능 )를 하둡으로 대체 가능하냐? X

A. 하둡은 읽기 전용 (OLAP- 분석하는 용도)

- 대용량 처리에는 RDBMS 가 비효율적이라 하둡 사용

하둡 에코 시스템

데이터 수집 했는데 구글은 어디다 데이터 저장할까? 구글은 GFS , 참고해서 만든 게 HDFS

HDFS+ MapReduce 를 두니깐 너무 커져서 하둡으로 독립 시켜놈, 분석 할 데이터를 옮겨주면 좋겠지

척화, 플롬( 로그 수집기) : 비정형 데이터 수집하는 도구, 실시간으로 하둡에 옮겨 줌
스쿱,히호: 정형데이터 하둡으로 옮겨줌
하이브, 피그, 스파크 , 임팔라 : 쉽게 데이터 분석 가능/ 스파크 : 실시간 스트리밍 가능, 여러 언어 사용 가능
OOZIE(스케줄링 시스템): 배치처리란 - 주어진 시간이 되면 일정한 작업을 하게끔 , 실시간이 아닌 정해진 시간에 돌림. 배치 처리 도구
ZooKeeper, avro: 하둡은 시스템이 네임노드에 데이터노드가 연결 된 형태. 네임노드가 죽어보면 데이터 노드 자체가 안됨. 시스템 가용성 높이기 위해 ( 안정성 높이기 위해) , 네임노드를 두대로 두면 네임 노드가 죽어도 하나는 서비스를 진행할 수 있음/ 분산, 코디네이션 주키퍼 서버가 있다면 어디든 쓰고 읽을 수 있음. 이중화-> 고가용성을 위하여

-> 하나의 서버에만 집중 되지 않도록 서비스를 알맞게 분산하여 동시에 처리하게 해줌, 분산 환경을 구성하는 서버들의 환경설정을 통합적으로 관리

수집: Flume, Avro, Sqoop , Nutch,

저장 : HDFS , DAS/NAS/SAN (스토리지) , OPENsTACK Swift( 클라우드 오픈 소스, 저장도구)

일괄 처리 : Hive,Pig, MapReduce

실시간 처리: Spark, Storm,ElasticSearch

※데이터 사이언티스트의 역량

출처: https://sy-log.tistory.com/3?category=992358 [서윤로그:티스토리]