빅데이터분석기사 필기 3/4과목 요약

회귀분석

회귀분석의 가정

선형성 : 독립변수와 종속변수의 선형성을 만족한다. (O)
독립성 : 잔차와 독립변수의 값이 서로 독립, 독립변수 간에 상관성 없이 독립
잔차
- 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정
- 정규성 : 잔차항의 평균은 0, 분산이 일정함 (분산이 일정해야하는 것인지, 분산이 1이어야하는 것은 아님-오답보기)
- 잔차의 자유도는 n-k(회귀계수)-1
모형의 통계적 유의성 : F검정을 통해 확인, 0.05보다 작으면 유의하다고봄
회귀계수의 유의성 : T통계량을 확인
회귀계수 추정 -> 독립변수 검정 -> 회귀모델 유의성 검정

회귀모형분류

ROC커브

의사결정 나무

연관성분석

지지도(교집합) = A와 B모두 포함하는 거래수/전체거래수
신뢰도= A와 B모두 포함하는 거래수/A포함하는 거래수
향상도=(A와 B모두 포함하는 거래수*전체거래수)/A포함거래수*B포함거래수
- image화
  제일 복잡한 수식은 향상도다. 향상도는 교집합 건수 x 전체건수 / 교집합건수
  전체에서 바라보는 수식 지표는 지지도이다. 지지도 말그대로 전체관점에서 지지하는 비율 : 교집한 건수/전체거래건수

적합도검증 : 관측치의 분포를 가정한 후, 그 가정이 맞는지 검증하는 과정

정규성 검정의 종류

샤피로-윌크검정 : 데이터의 정규성을 검정하기 위해 사용하는 방법
p-value가 0.05보다 커야 정규성을 따름!
콜모고로프 스미르노프 검정 (비모수검정통계량, 두개의 집단 사이 비교 가능)
예상되는 분포에 얼마나 잘 맞는지 검정, 데이터의 누적분포함수와 예상 분포의 누적분포 함수를 비교
비교하는 두개의 집단사이의 최대 거리
qq-plot 검정 :

표본분산 구하는 식 :
(확률변수-평균빼고) 제곱한 값을/ n-1한 값!!

하이퍼파라미터 vs 파라미터

하이퍼파라미터 최적화 기법

파라미터 최적화 기법

랜덤포레스트

보팅	배깅	부스팅	앙상블
	데이터를 랜덤 샘플링해서, 각각의 모형을 학습
	훈련 데이터셋으로부터 부트스트랩을 통해 각각의 부분집합을 생성한 후, 독립적인 모델을 학습. 데이터를 샘플링해서 가져옴! = 부트스트랩	약한 분석 모형을 여러개 학습 정답에는 낮은 가중치, 오답에는 높은 가중치를 둬서 오답을 더 잘 맞출 수 있도록 순차로 학습 (O) 병렬로 학습 (X)	대표적인 예. 랜덤포레스트
			앙상블 모형은 직관적으로 이해하기 쉽다 (X)

분석결과 그래프

관계시각화 : 변수 간에 존재하는 연관성 및 분포, 패턴을 찾기 위해 사용

산점도	산점도행렬	버블차트	히스토그램
군집모델을 시각화하는 방법중하나 (O)

비교시각화 : 여러 변수값들을 비교하고 싶을 때 사용!

히트맵	스타차트	체르노프 페이스	평행좌표 그래프
	레이더차트,방사형차트

jinny-log