본문 바로가기
자격증/빅데이터분석기사-필기

빅데이터분석기사필기- 1과목 요약

by jinny-log 2024. 9. 4.

1.1 빅데이터분석기획

1.1.1 빅데이터이해

DIKW(디카) 

  • Data데이터 : 객관적 사실 ex. 대형마트는 컵라면을 2,000원, 편의점은 컵라면을 1200원에 판다.
  • Information정보 : 데이터 가공 및 처리를 통해 도출된 현상 ex. 편의점의 컵라면 가격이 대형마트보다 비싸다
  • Knowledge지식 : 정보의 구조화를 통해 도출된 아이디어 ex.편의점보다 저렴하게 컵라면을 팔고 있는 대형마트에서 사야겠다.
  • Wisdom지혜 : 지식의 축적과 아이디어가 결합된 창의적 산출물 ex. 대형마트가 편의점보다 다른 물건도 싸게 팔것이다. (공통화/표준화)

암묵지/형식지 (공표연내. 그영화 공포였내)

  • 암묵지 : 개인의 내면화 지식
  • 형식지 : 언어나 문서로 표준화된 지식
    • 공통화 : 개인이 경험을 공유함으로 지식이 공유 (암묵지->암묵지)
    • 표출화 : 개인의 지식을 문서나 매체로 표현 (암묵지->형식지)
    • 연결화 : 개인/집단이 형식지를 상호 결합하면서 지식을 창조 (형식지->형식지) 
    • 내면화 : 교육/훈련을 통해 지식을 암묵지로 체득 (형식지->암묵지)

데이터유형

  • 정형 :  
  • 반정형 : JSON, HTML, XML, RDF
  • 비정형
    • cf. 데이터레이크 : 정형/반정형/비정형 모두, 데이터웨어하우스 : 정형데이터

 

빅데이터 특징

  • 3V : Volum, Velocity, Variety (규모, 속도, 다양성)
  • 5V : Value, Veracity (가치, 신뢰성)
  • 규모, 다양성, 속도, 가치, 신뢰성, 정확성, 휘발성
    cf. 데이터웨어하우스 : 비휘발성(소멸성), 데이터를 저장하는 것인 비휘발성, 그러나 빅데이터의 특징은 휘발성

빅데이터가 만든 변화

  • 사전처리 -> 사후처리 : 데이터 양을 많이 처리할 수 있기때문에 데이터 쌓아두고 나중에 처리함
  • 표본조사 -> 전수조사 : 데이터분산시스템, 컴퓨팅 기술 발전으로 앞과 같은 맥락에서 통계분석이 아닌 전수조사
  • 질->양 : 이제는 양으로 승부한다.
  • 과관계 -> 관관계 : 

데이터크기 단위 : 페에지요(PEZY)

  • KB MB GB TB / PB EB ZB YB
  • 2^10, 20, 30, 40 / 50, 60, 70, 80

빅데이터플랫폼구조 (3계층)

  • 소프트웨어 계층 : 데이터 수집, 처리, 분석 업무의 응용SW가 처리되는 영역
  • 플랫폼계층 : 작업관리, 데이터 및 자원 할당, 관리, 빅데이터 어플리케이션 실행 계층 
  • 인프라스트럭쳐 계층 : 네트워크, 스토리지 등의 자원을 제공하고 관리하는 영역
    • cf. 소프트웨어/플랫폼/인프라스트럭쳐/하드웨어 계층이 존재한다 (X) -> 하드웨어는 없다. *기출

 

개인정보 

  • 데이터 3법 : 인정보 보호법, 보통신, 용정보법 (개정신/개망신)

개인정보 비식별화

가명처리 식별이 가능한 데이터를 다른값으로 대체
* 암호화, 휴리스틱 가명화, 교환 방법 ex. 홍길동 -> 임꺽정
총계처리 개인정보에 통계 값을 적용해 개인을 특정할 수 없게함
* 총합, 부분합, 라운딩, 재배열 -> 그룹/전체평균
데이터값삭제 특정 데이터의 값의 부분 또는 전체 삭제
데이터범주화 식별 값의 해당 그룹의 대푯값이나 구간값으로 변환
ex. 김철수,39세,대학원생-> 김씨, 30대, 학생
데이터마스킹 식별값의 전체 또는 부분을 대체값으로 변환
임의 잡음 추가, 공백과 대체 (*, 공백 등으로 치환)
  • 데이터 마스킹 : 개인 식별에 중요한 데이터 값을 삭제하는 것 (X) 마스킹은 삭제가 아니라 *와 같이 값을 가리는 방법
  • 개인정보 차등보호 : 데이터에 수학적인 노이즈를 추가하는 기술로, 차등보호는 마스킹 기법 중 하나이다(O)
  • 비식별 정보는 제 3자 제공이 가능하며 (O), 원칙적으로 불특정 다수에게 공개 또한 가능하다. (X)원칙적인 것은 아님
  • 비식별화 방법으로 옳지 않은것은? '값대체' --> 이런 용어는 없다...(내신같은 문제)

데이터 수집 기술

 

 

데이터 적재 

ETL : 수집한 원천데이터를 저장한 상태로 데이터의 추출, 변환, 적재의 과정을 거치며 ETL 작업이라고 한다.

 

빅데이터 저장**자주출제

저장할 데이터 유형에 따르 저장관리에 유리한 저장 방식을 선정

  • 정형 데이터 > RDBS > MS SQL, MySQL, Oracle
  • 반/비정형 데이터 > No SQL 저장소 (Not SQL) > MongoDB, Cassandra, HBase
  • 비정형 데이터 > 분산파일 시스템 활용 >
    HDFS(하둡분산파일시스템), GFS(구글파일시스템) >중복분산저장
  • cf.
    • MS SQL, MySQL vs No SQL (SQL이라고 다같은 SQL아님)
    • HBases No SQL계열, HDFS는 분산 파일 시스템
    • 분산파일 시스템은 컴퓨터 네트워크를 통해 공유되는 여러 호스트 컴퓨터의 파일에 접근할 수 있다. (O)
    • HDFS는 구글에서 만든 GFS를 기반으로 만들었다. (O)
    • HDFS는 GFS와 동일한 소스코드를 사용한다. (O)
    • NoSQL은 NotOnlySQL의 약어로 HBASE, Cassandr와 같은 빅데이터 저장소를 통칭하는 말이다. (O)
    • HDFS는 중복 분산 저장하는 시스템이다.
    • 하둡분산파이리스템HDFS에 저장된 빅데이터를 ETL 작업 가능한 시스템은? 타조! Tajo

하둡분산파일

  • 분산파일 시스템 구조와 기능 HDFS 아키텍처
    • 1개의 네임노드와 다수의 데이터 노드로 구성
  •  

병렬 DBMS

  • 데이터 중복 저장의 단점이 있다->(X) , 병렬 DBMS와 분산파일시스템은 다른것
  • 데이터를 중복하지 않는다.
  • 데이터 처리가 신속하다는 장점이 있다.

 

1.2 데이터분석계획

 

기업분석 수준진단 항목(기출2회)

  • 1) 준비도 6가지 (분석문화, 인프라)
  • 2) 성숙도 (도입/활용/확산/최적화)

 

분석문제 정의

상향식 문제를 정의할 수 없는 경우, 데이터를 기반으로 정의하고 해결방안 탐색(Bottom Up)
하향식 문제 정의가 주어지고, 이에 대한 해결 방안을 단계적 업무 실행
* 문제 탐색 > 분석 문제 정의 > 해결 방안 탐색 > 타당성 평가 및 과제 선정(Top-Down)

 

 

분석문제해결방안 도식표

방법\대상 알고있을때 모를때
알고있을떄 최적화 통찰(Insight)
모를때 솔루션 발견(Discovery)

 

데이터분석조직  

  • 집중형(분석전담조직O) : 각 부서별로 분석을 진행하며(사업), 전사 분석 업무를 별도의 분석 전담 조직에서 담당. 분석 업무 이중화
  • 분산형(분석전담조직O,파견배치) : 분석 전문 인력을 현업부서에 배치하여 분석 업무를 신속하게 수행한다. (TF발령같은..)
  • 기능형(분석전담조직X) : 각 부서별로 분석을 진행. 별도 전사 분석 조직이 없어 전사적 핵심 분석이 어려움.
    • 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성이 높다. (사업부서 밑에 있는 개발인력)

 

 

빅데이터분석 기획 (위험관리는 맨 마지막)

* 비즈니스 이해 및 범위 설정 > 프로젝트 정의 > 프로젝트 수행 계획 수립 > 프로젝트 위험관리 계획 수립

 

빅데이터분석 방법론

* 분석기획>데이터준비>데이터분석>시스템구현>평가및전개

 

데이터분석절차(2/3회기출) : 시스템구현이 앞에 있고, 평가 및 전개가 뒷단계

* 분석기획>데이터준비>데이터분석>시스템구현> 평가 및 전개

 

빅데이터분석 절차 (문제인식이 먼저 시작된다!)

* 문제인식 > 현황 분석 > 모형화 > 데이터 수집 > 데이터 분석 > 분석 결과 활용

 

CRISP-DM (업무 이해 > 데이터 이해 > 데이터 준비) **다수출제

  • 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행으로 구성
  • 업무 이해 > 데이터 이해 > 데이터 준비 > 모델링 > 평가 > 전개 (6단계)

 

**전개가 뒷단계다

  • CRISP DM - 업무이해>데이터이해>데이터준비>모델링>평가>전개
  • 데이터분석절차 : 분석기획>데이터준비>데이터분석>시스템구현>평가 및 전개

 

데이터분석 수준 진단

 x 가로축:준비도, y 세로축: 성숙도

  • 확산
  • 준비
  • 정착
  • 도입 : 분석을 시작해 환경과 시스템을 구축하는 단계
정착 확산
준비 도입

 

데이터거버넌스 구성요소 : 원칙, 프로세스, 조직 (3개), (IT인프라는 아님)

 

 

 

 

참고자료 

https://youtu.be/8zMNnQcCSpo?si=-Mp7FOgWulaZiiK_

https://youtu.be/9_TwX-xD1Qg?si=NVBTIllAEoTpoWWj

 

https://youtube.com/playlist?list=PL6i7rGeEmTvqIv1WAV3HnyaPmOFT04ou2&si=G6G3so79Aeh_GlS0

 

빅데이터분석기사 필기 기본서(2024년)

이 동영상은 [이기적 빅데이터분석기사 필기] 도서 내용을 바탕으로 제작되었습니다. 🔹 도서 자세히 보기 : https://www.yes24.com/Product/Goods/121770604 🔹 모르는 문제? [이기적 스터디 카페] 질문하기

www.youtube.com

https://youtu.be/oqO2N8mbpNI?si=M0zQm-MFxhzSAtEe