본문 바로가기
자격증/빅데이터분석기사-필기

빅데이터분석기사필기 2과목 요약

by jinny-log 2024. 9. 4.

빅데이터 탐색

2.1 데이터 전처리

데이터 종류

이산형(범주형)명목형단순구분, 순서차이없음구분
순서척도(서열척도)순서를 말할 수 있음
- 상/중/하
구분+순서
연속형구간척도(등간척도)원점이 없는 데이터
- 온도,지수
구분+순서+차이
비율척도비율존재, 절대적 원점 존재
(사칙연산가능)
- 무게, 길이 등
구분+순서+차이+비율

 
데이터 전처리 주요작업

데이터 정제결측 데이터, 이상치 파악 및 제거하고 정합성이 맞도록 교정하는 작업
데이터 통합여러 개의 데이터베이스, 데이터 집합 또는 파일을 통합하는 작업
데이터 축소샘플링, 차원축소 변수선택 및 추출을 통해 차원을 줄이는 작업
데이터 변환데이터를 정규화, 이산화, 파생변수 등으로 변환하는 작업

 
변수선택

  • 분산변수선택 : 분산이 기준치보다 낮은 데이터 제거
    (데이터가 평균 근처에 모여 있어, 데이터 간의 차이가 크지 않다는 의미)
  • 래퍼방법
    • 전진선택법 : 변수가 없는 상태에서 하나씩 추가하며 더이상 성능 향상이 없을때까지 추가한다. 한번 변수 추가되면 제거할 수 없다.
    • 후진제거법 : 모든 변수를 선택하여 시작하면서, 덜 중요한 변수를 하나씩 제거하며 성능을 향상시킨다. 
  • 임베디드 메소드 : Embedded Metod  회귀계수의 패널티
    • Lasso 라쏘 회귀모형 L1 : 절대값, 변수선택 기능이 있다. |맨하탄거리| 차이의 절대값
    • Ridge 릿지 회귀모형 L2 : 제곱, 변수선택 기능이 없다. |유클리드거리| 차이의 제곱합의 루트
  • 단일변수선택 : 분류 성능 높은 혹은 상관관계 높은 특성만 선택
  • 모델기반변수선택 : 랜덤포레스트 등 특정 중요도 정확도 높은 특성 선택
  • 반복적변수선택 : 반복해서 수행하며 가장 좋은 변수를 선택

분석변수처리

  • 변수선택 vs 변수추출 개념
  • 차원축소 문제점과 차원의 저주
  • PCA 기준으로, SVD, LDA, FA 차이점

 
변수변환

  • 수치형자료변환
    • Z-Score 정규화 : 평균 0, 표준편차 1로 변환,
      Z= X-평균/표준편차(수식)
      ex. 시험의 평균점수가 80이며, 분산은 36이다.
      시험에서 75점 받은 학생의 Z-Score는 얼마인가? 75-80/6
    • Min-Max Scale : 0과 1 사이로 변환
      • x = x-xmin/ xmax-xmin (수식도 암기)
    • Box-Cox변환 : 데이터가 정규분포를 따르지 않을때, 정규분포를 따를 수 있게 변환
      • 틀린설명 : 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 해석이 쉬어진다. (X)
        제곱근을 통해 '정규분포화' 대칭성을 만드는 것.
    • 로그변환 : 로그를 취한 값으로 변환
      데이터가 쏠려있을 때, 로그변환하면 정규분포에 적합 (유사하게 제곱근 변환이 있음, 제곱 변환 아님)
    • Binning(구간화) : 연속형 데이터를 특정 구간으로 나누어 범주형으로 변환!
      • ex. 다음중 스케일링 방법에 해당하지 않는 것은? (스케일링과 자료변환은 다른 개념)
        최대최소정규화, z스코어, 변수범주화, 로버스트 스케일링
  • 데이터인코딩
    • 레이블인코딩 : 데이터를 정수로 변환 (ex. TV1, 공기청정기2, 세탁기3)
    • 원핫인코딩 : 고유값에 해당하는 컬럼만 1로 표기 (컬럼이 많이 확장됨..)
      Dummy Variable(더미변수) : 범주형 변수를 연속형 변수로 변환 = 머신러닝에서는 원핫인코딩이라고 함.
      원핫 인코딩을 적용하면 sparse (드문,희박한) 데이터가 된다. (O)
    • 타깃인코딩 : 타깃 변수를 평균값으로 변환, 데이터가 적으면 적을수록 좋은방법은 아니다
      타깃 변수를 표준편차를 활용한다 (X)
    • 오디널인코딩Ordinal Encoding: 변수의 순서를 유지하는 인코딩, 레이블인코딩과 유사하지만 순서가 있음.

불균형 데이터 처리

  • 언더샘플링 : 다수 데이터의 일부만 선택, 정보의 손실 발생
  • 오버샘플링 : 소수 데이터를 복사하거나 유사한 데이터로 생성. 정보 손실을 피할 수 있으나 과대 적합을 초래할 수 있다.
  • 임계값이동(Threshold-moving) : threshold 0.5를 이동해나가면서 불균형 데이터 처리
  • 불균형 데이터에서 정확도가 높게 나타난다면, 좋은 성능의 모델로 평가한다 -> (X)
    #재현율을 봐야함. 불균형이기 때문에 정확도 지표만 보는 것은 치명적임

2.2 데이터 탐색

EDA 

  • EDA 4가지 주제 : 저잔재현
    • 저항성의 강조 : 이상값에 민감한 평균보다 중앙값 사용 선호, 저항성은 데이터 일부가 파손되었을때 영향을 적게 받는 성질
    • 잔차 계산 : 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지 알려주는 지표
    • 자료변수의 재표현 : 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료를 변환하는 것
    • 그래프를 통한 현시성 :  

상관관계 : 두 변수간의 '선형적' 관계가 존재하는지 분석

  • 피어슨 상관분석(모수적검정) : 양적 척도, 연속형 변수, 선형관계 측정 (-1<= Corr <=1)
  • 피어만 상관분석(비모수적검정) : 열 척도, 순서형 변수, 선형/비선형 관계 (-1<=Corr<=1)

공분산 vs 상관계수 차이점

  • 공분산 : 두 변수 사이의 상관성을 나타내는 지표, 공분산의 값으로만 두 변수 사이의 관계성을 알 수 없다.
    • Cov(a,b)가 0이 아니면, 변수간의 상관관계를 가진다.
    • 변수 a,b가 독립이면 항상 Cov(a,b)=0이다 (O)
    • Cov(a,b)가 0이면, 변수 a,b는 항상 상호독립이다. (X)
  • 상관계수 : 두 변수 사이의 공분산을 '표준화'한 값이 상관계수

편상관분석
 
왜도 (평균과 중앙값 비교)*평균에서 최빈값을 뺀 다음 표준편차로 나눈값이기 때문에. 

  • 왜도 > 0 오른쪽으로 꼬리가 긴 분포 : 평 > 중 > 최
  • 왜도 < 0 왼쪽으로 꼬리가 긴 분포 : 최 < 중 < 평

주성분 분석

  • 데이터를 한개의 축으로 사상 시켰을 때, 그 분산이 가장 커지는 축을 첫번째 주성분,
  • 두번째로 커지는 축을 두번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형 변환
  • 선형 결합하여 새로운 변수를 만든다.
  • 분산이 커지도록 한다. O (작아지도록 X)
  • 직관적으로 이해할수 있다. (X)

상자그림

  • 이상치가 있을때와 없을때 구분할 수 있어야 함. (max값을 넘어감)
  • 1사분위수 : 25백분율 (75백분율 아님)
  • 수염보다 바깥쪽에 있는 데이터들은 이상치이다 ->(X) 항상 그런 것은 아니므로 오답보기

기술통계

데이터의 중심도데이터의 산포데이터의 퍼진 모양
평균
중앙값
최빈값
분산
표준편차
사분위범위
범위
변동계수
왜도(비대칭,퍼진정도)
첨도(뾰족한정도)

 

2.3 통계기법 이해

  • 중심화 경향과 분산에 사용되는 기초 통계량 구분
  • 모수 통계분석과 비모수 통계분석 차이점 구분

 

  • 확률적 표본 추출 방법 (추출할때, 랜덤이어야함. 결론은 추출하는 단위가 이질적이어야 함)
    • 단순무작위 추출
    • 계통추출 : 모집단으로부터 첫번째 추출단위를 임의추출하고, 두번째 추출단위부터는 일정 간격으로 표본을 추출하는 방법
      (1부터 10까지 랜덤으로 할당한 요인이 있는 5,000명, 일정한 간격k를 표집간격으로 추출)
    • 층화추출 : 모집단을 여러 층으로 구분하고 계층별 무작위 추출. 내부적으로는 동질적이고 외부적으로는 이질적이어야 함
      (조사지역 도별로 나누고, 각 도에서 무작위 100명 추출)
      • 장점 : 단순 임의추출보다 자료의 분산을 축소한다. 표본이 크지 않아도 모집단의 대표성이 보장된다
      • 단점 : 모집단의 각 층에 대한 정확한 정보를 필요로 한다. 표본추출 과정에서 시간/비용이 증가.
    • 군집추출 : 집단을 여러 집단으로 나누고 무작위로 선출된 군집의 모든 개체를 측정하는 방식.
      내부적으로는 이질적이고 집단간 차이가 동질적이다.
  • 척도의 종류
    • 명목척도 : 단순히 측정 대상의 특성을 분류, 확인하기 위한 목적으로 숫자 부여 (성별, 0/1, 연산가능 같다.같지않다)
    • 서열척도 : 대소, 높고 낮음 등의 순위만 제공. 양적 비교 불가 ex. 매우 불만족, 불만족, 보통, 만족, 매우만족 등 연산가능 (<>)
    • 등간척도 : 순위를 부여하되, 순위 사이의 간격이 동일하여 양적 비교 가능 (절대적 영점 존재하지 않음. 온도계 수치 물가지수,)
    • 비율척도 (절대적 영점존재, 모든 연산 가능) ex.몸무게
  • 확률분포
    • 조건부 확률 계산문제
    • 베이즈정리 개념 및 계산문제
    • 이항분포와 포아송 분포, 초기하분포 차이점
    • 카이제곱분포와 F분포의 검정 용도
    • 확률변수의 기댓값과 분산 계산 문제

 
참고
https://youtu.be/8tB_C6LjWWA?si=cnTizGHfN5tF0UbC

https://youtu.be/su-fxzbvccI?si=fA0sWwiuDvCLgK-F

https://youtu.be/dptx-hicx3Q?si=gkurhSPnzDJmHN5G

https://youtu.be/uVuN3BFEvF4?si=4U4iZ3FrVuXr90bW

https://youtu.be/08qyJDa12LU?si=v_VcmhT1c9q09dbX