회귀분석
회귀분석의 가정
- 선형성 : 독립변수와 종속변수의 선형성을 만족한다. (O)
- 독립성 : 잔차와 독립변수의 값이 서로 독립, 독립변수 간에 상관성 없이 독립
- 잔차
- 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정
- 정규성 : 잔차항의 평균은 0, 분산이 일정함 (분산이 일정해야하는 것인지, 분산이 1이어야하는 것은 아님-오답보기)
- 잔차의 자유도는 n-k(회귀계수)-1
- 모형의 통계적 유의성 : F검정을 통해 확인, 0.05보다 작으면 유의하다고봄
- 회귀계수의 유의성 : T통계량을 확인
- 회귀계수 추정 -> 독립변수 검정 -> 회귀모델 유의성 검정
회귀모형분류
ROC커브
- x축은 1-특이도, y축은 민감도(재현율) : 슈퍼주니어의 이특생각해서 일특! (일마이너스 특이도다!)
- 틀린보기 : 특이도가 증가하는 그래프다 (X) 특이도가 감소하는 그래프다! (x축이 1-특이도기 때문에)
의사결정 나무
- 노드분리기준
- 종속변수기준
종속변수 | 알고리즘 | 분류기준 |
이산형 (범주형) |
CHAID | 카이제곱통계량 : p-value가 작아지도록 |
CART | 지니지수 : 작을수록 불순도가 낮아진다 | |
C4.5 | 엔트로피지수 : 작을수록 불순도 낮아진다. | |
연속형 | CHAID | ANOVA,F-통계량: p-value가 작아지도록 |
CART | 분산감소량 : 분산감소량이 |
- 알고리즘기준
알고리즘 | 이산형(범주형) | 연속형 |
CHAID | 카이제곱통계량 | ANOVA, F통계량 |
CART | 지니지수 | 분산감소량 |
CA4.5 | 엔트로피 |
연관성분석
- 지지도(교집합) = A와 B모두 포함하는 거래수/전체거래수
- 신뢰도= A와 B모두 포함하는 거래수/A포함하는 거래수
- 향상도=(A와 B모두 포함하는 거래수*전체거래수)/A포함거래수*B포함거래수
- image화
제일 복잡한 수식은 향상도다. 향상도는 교집합 건수 x 전체건수 / 교집합건수
전체에서 바라보는 수식 지표는 지지도이다. 지지도 말그대로 전체관점에서 지지하는 비율 : 교집한 건수/전체거래건수
- image화
적합도검증 : 관측치의 분포를 가정한 후, 그 가정이 맞는지 검증하는 과정
- 가정된 확률 정해진 경우 => 카이제곱 검정
- 가정된 확률 없는 경우 => 정규성 검정 : 샤피로 / 콜모고로프/qqplot
정규성 검정의 종류
- 샤피로-윌크검정 : 데이터의 정규성을 검정하기 위해 사용하는 방법
p-value가 0.05보다 커야 정규성을 따름! - 콜모고로프 스미르노프 검정 (비모수검정통계량, 두개의 집단 사이 비교 가능)
예상되는 분포에 얼마나 잘 맞는지 검정, 데이터의 누적분포함수와 예상 분포의 누적분포 함수를 비교
비교하는 두개의 집단사이의 최대 거리 - qq-plot 검정 :
표본분산 구하는 식 :
(확률변수-평균빼고) 제곱한 값을/ n-1한 값!!
하이퍼파라미터 vs 파라미터
하이퍼파라미터 최적화 기법
- Manual Search : 사용자 사전 지식 기반
- Grid Search :
- Random Search : 무작위 탐색은, 다양한 조합등을 통해 예상치 못한 결과를 얻을 수 있다. O
- Bayesian Optimization : 새로운 하이퍼파라미터 값에 대한 조사를 수행할때 사전지식을 반영 (사전확률)
파라미터 최적화 기법
- 경사하강법
- 모멘텀
- 아담
랜덤포레스트
- 변수의 다양성 x 데이터 다양성 x 배깅 x 앙상블
- 전체 데이터 셋으로 학습한다. --> (X)
보팅 | 배깅 | 부스팅 | 앙상블 |
데이터를 랜덤 샘플링해서, 각각의 모형을 학습 | |||
훈련 데이터셋으로부터 부트스트랩을 통해 각각의 부분집합을 생성한 후, 독립적인 모델을 학습. 데이터를 샘플링해서 가져옴! = 부트스트랩 |
약한 분석 모형을 여러개 학습 정답에는 낮은 가중치, 오답에는 높은 가중치를 둬서 오답을 더 잘 맞출 수 있도록 순차로 학습 (O) 병렬로 학습 (X) |
대표적인 예. 랜덤포레스트 | |
앙상블 모형은 직관적으로 이해하기 쉽다 (X) |
분석결과 그래프
관계시각화 : 변수 간에 존재하는 연관성 및 분포, 패턴을 찾기 위해 사용
산점도 | 산점도행렬 | 버블차트 | 히스토그램 |
군집모델을 시각화하는 방법중하나 (O) |
- 관계시각화 기법과 가장 거리가 먼것은? : 산점도/히트맵/누적막대그래프/버블차트
비교시각화 : 여러 변수값들을 비교하고 싶을 때 사용!
히트맵 | 스타차트 | 체르노프 페이스 | 평행좌표 그래프 |
레이더차트,방사형차트 |
- 비교시각화 도구로 가장 거리가 먼것은? 산점도!
'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
빅데이터분석기사 9회 필기 합격 후기 - 전공자 5일 준비 후기 (4) | 2024.09.28 |
---|---|
20240906_직장인의 빅데이터분석기사 5일 준비후기 (전공자? 기준) (0) | 2024.09.09 |
빅데이터분석기사필기 2과목 요약 (0) | 2024.09.04 |
빅데이터분석기사필기- 1과목 요약 (5) | 2024.09.04 |