본문 바로가기
자격증/빅데이터분석기사-필기

빅데이터분석기사 필기 3/4과목 요약

by jinny-log 2024. 9. 6.

회귀분석

 

회귀분석의 가정

  • 선형성 : 독립변수와 종속변수의 선형성을 만족한다. (O)
  • 독립성 : 잔차와 독립변수의 값이 서로 독립, 독립변수 간에 상관성 없이 독립
  • 잔차
    • 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정
    • 정규성 : 잔차항의 평균은 0, 분산이 일정함 (분산이 일정해야하는 것인지, 분산이 1이어야하는 것은 아님-오답보기)
    • 잔차의 자유도는 n-k(회귀계수)-1
  • 모형의 통계적 유의성 : F검정을 통해 확인, 0.05보다 작으면 유의하다고봄
  • 회귀계수의 유의성 : T통계량을 확인
  • 회귀계수 추정 -> 독립변수 검정 -> 회귀모델 유의성 검정

회귀모형분류

 

ROC커브

  • x축은 1-특이도, y축은 민감도(재현율) : 슈퍼주니어의 이특생각해서 일특! (일마이너스 특이도다!)
  • 틀린보기 : 특이도가 증가하는 그래프다 (X) 특이도가 감소하는 그래프다! (x축이 1-특이도기 때문에)

 

의사결정 나무

    • 노드분리기준
    • 종속변수기준
종속변수 알고리즘 분류기준 
이산형
(범주형)
CHAID 카이제곱통계량 : p-value가 작아지도록
CART 지니지수 : 작을수록 불순도가 낮아진다
C4.5 엔트로피지수 : 작을수록 불순도 낮아진다.
연속형 CHAID ANOVA,F-통계량: p-value가 작아지도록
CART 분산감소량 : 분산감소량이 
  • 알고리즘기준
    •  
알고리즘 이산형(범주형) 연속형
CHAID 카이제곱통계량 ANOVA, F통계량
CART 지니지수 분산감소량
CA4.5 엔트로피  

 

연관성분석

  • 지지도(교집합) = A와 B모두 포함하는 거래수/전체거래수
  • 신뢰도= A와 B모두 포함하는 거래수/A포함하는 거래수
  • 향상도=(A와 B모두 포함하는 거래수*전체거래수)/A포함거래수*B포함거래수 
    • image화
      제일 복잡한 수식은 향상도다. 향상도는 교집합 건수 x 전체건수 / 교집합건수
      전체에서 바라보는 수식 지표는 지지도이다. 지지도 말그대로 전체관점에서 지지하는 비율 : 교집한 건수/전체거래건수

 

적합도검증 : 관측치의 분포를 가정한 후, 그 가정이 맞는지 검증하는 과정

  • 가정된 확률 정해진 경우 => 카이제곱 검정
  • 가정된 확률 없는 경우 => 정규성 검정 : 샤피로 / 콜모고로프/qqplot

 

정규성 검정의 종류

  • 샤피로-윌크검정 : 데이터의 정규성을 검정하기 위해 사용하는 방법
    p-value가 0.05보다 커야 정규성을 따름!
  • 콜모고로프 스미르노프 검정 (비모수검정통계량, 두개의 집단 사이 비교 가능)
    예상되는 분포에 얼마나 잘 맞는지 검정, 데이터의 누적분포함수와 예상 분포의 누적분포 함수를 비교
    비교하는 두개의 집단사이의 최대 거리
  • qq-plot 검정 : 

 

표본분산 구하는 식 :
(확률변수-평균빼고) 제곱한 값을/ n-1한 값!!  

 

하이퍼파라미터 vs 파라미터

 

 

하이퍼파라미터 최적화 기법

  • Manual Search : 사용자 사전 지식 기반
  • Grid Search : 
  • Random Search : 무작위 탐색은, 다양한 조합등을 통해 예상치 못한 결과를 얻을 수 있다. O
  • Bayesian Optimization : 새로운 하이퍼파라미터 값에 대한 조사를 수행할때 사전지식을 반영 (사전확률)

파라미터 최적화 기법

  • 경사하강법
  • 모멘텀
  • 아담 

 

랜덤포레스트

  • 변수의 다양성 x 데이터 다양성 x 배깅 x 앙상블
  • 전체 데이터 셋으로 학습한다. --> (X)

 

보팅 배깅 부스팅 앙상블
  데이터를 랜덤 샘플링해서, 각각의 모형을 학습    
  훈련 데이터셋으로부터 부트스트랩을 통해 각각의 부분집합을 생성한 후, 독립적인 모델을 학습. 
데이터를 샘플링해서 가져옴! = 부트스트랩
약한 분석 모형을 여러개 학습
정답에는 낮은 가중치, 오답에는 높은 가중치를 둬서 오답을 더 잘 맞출 수 있도록
순차로 학습 (O)
병렬로 학습 (X)
대표적인 예. 랜덤포레스트
      앙상블 모형은 직관적으로 이해하기 쉽다 (X)

 

 

분석결과 그래프

 

관계시각화 : 변수 간에 존재하는 연관성 및 분포, 패턴을 찾기 위해 사용

산점도 산점도행렬 버블차트 히스토그램

군집모델을 시각화하는 방법중하나 (O)
     
  • 관계시각화 기법과 가장 거리가 먼것은? : 산점도/히트맵/누적막대그래프/버블차트

 

 

비교시각화 : 여러 변수값들을 비교하고 싶을 때 사용!

히트맵 스타차트 체르노프 페이스 평행좌표 그래프
  레이더차트,방사형차트    
  • 비교시각화 도구로 가장 거리가 먼것은? 산점도!