빅데이터 탐색
2.1 데이터 전처리
데이터 종류
이산형(범주형) | 명목형 | 단순구분, 순서차이없음 | 구분 |
순서척도(서열척도) | 순서를 말할 수 있음 - 상/중/하 | 구분+순서 | |
연속형 | 구간척도(등간척도) | 원점이 없는 데이터 - 온도,지수 | 구분+순서+차이 |
비율척도 | 비율존재, 절대적 원점 존재 (사칙연산가능) - 무게, 길이 등 | 구분+순서+차이+비율 |
데이터 전처리 주요작업
데이터 정제 | 결측 데이터, 이상치 파악 및 제거하고 정합성이 맞도록 교정하는 작업 |
데이터 통합 | 여러 개의 데이터베이스, 데이터 집합 또는 파일을 통합하는 작업 |
데이터 축소 | 샘플링, 차원축소 변수선택 및 추출을 통해 차원을 줄이는 작업 |
데이터 변환 | 데이터를 정규화, 이산화, 파생변수 등으로 변환하는 작업 |
변수선택
- 분산변수선택 : 분산이 기준치보다 낮은 데이터 제거
(데이터가 평균 근처에 모여 있어, 데이터 간의 차이가 크지 않다는 의미) - 래퍼방법
- 전진선택법 : 변수가 없는 상태에서 하나씩 추가하며 더이상 성능 향상이 없을때까지 추가한다. 한번 변수 추가되면 제거할 수 없다.
- 후진제거법 : 모든 변수를 선택하여 시작하면서, 덜 중요한 변수를 하나씩 제거하며 성능을 향상시킨다.
- 임베디드 메소드 : Embedded Metod 회귀계수의 패널티
- Lasso 라쏘 회귀모형 L1 : 절대값, 변수선택 기능이 있다. |맨하탄거리| 차이의 절대값
- Ridge 릿지 회귀모형 L2 : 제곱, 변수선택 기능이 없다. |유클리드거리| 차이의 제곱합의 루트
- 단일변수선택 : 분류 성능 높은 혹은 상관관계 높은 특성만 선택
- 모델기반변수선택 : 랜덤포레스트 등 특정 중요도 정확도 높은 특성 선택
- 반복적변수선택 : 반복해서 수행하며 가장 좋은 변수를 선택
분석변수처리
- 변수선택 vs 변수추출 개념
- 차원축소 문제점과 차원의 저주
- PCA 기준으로, SVD, LDA, FA 차이점
변수변환
- 수치형자료변환
- Z-Score 정규화 : 평균 0, 표준편차 1로 변환,
Z= X-평균/표준편차(수식)
ex. 시험의 평균점수가 80이며, 분산은 36이다.
시험에서 75점 받은 학생의 Z-Score는 얼마인가? 75-80/6 - Min-Max Scale : 0과 1 사이로 변환
- x = x-xmin/ xmax-xmin (수식도 암기)
- Box-Cox변환 : 데이터가 정규분포를 따르지 않을때, 정규분포를 따를 수 있게 변환
- 틀린설명 : 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 해석이 쉬어진다. (X)
제곱근을 통해 '정규분포화' 대칭성을 만드는 것.
- 틀린설명 : 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 해석이 쉬어진다. (X)
- 로그변환 : 로그를 취한 값으로 변환
데이터가 쏠려있을 때, 로그변환하면 정규분포에 적합 (유사하게 제곱근 변환이 있음, 제곱 변환 아님) - Binning(구간화) : 연속형 데이터를 특정 구간으로 나누어 범주형으로 변환!
- ex. 다음중 스케일링 방법에 해당하지 않는 것은? (스케일링과 자료변환은 다른 개념)
최대최소정규화, z스코어, 변수범주화, 로버스트 스케일링
- ex. 다음중 스케일링 방법에 해당하지 않는 것은? (스케일링과 자료변환은 다른 개념)
- Z-Score 정규화 : 평균 0, 표준편차 1로 변환,
- 데이터인코딩 :
- 레이블인코딩 : 데이터를 정수로 변환 (ex. TV1, 공기청정기2, 세탁기3)
- 원핫인코딩 : 고유값에 해당하는 컬럼만 1로 표기 (컬럼이 많이 확장됨..)
Dummy Variable(더미변수) : 범주형 변수를 연속형 변수로 변환 = 머신러닝에서는 원핫인코딩이라고 함.
원핫 인코딩을 적용하면 sparse (드문,희박한) 데이터가 된다. (O) - 타깃인코딩 : 타깃 변수를 평균값으로 변환, 데이터가 적으면 적을수록 좋은방법은 아니다
타깃 변수를 표준편차를 활용한다 (X) - 오디널인코딩Ordinal Encoding: 변수의 순서를 유지하는 인코딩, 레이블인코딩과 유사하지만 순서가 있음.
불균형 데이터 처리
- 언더샘플링 : 다수 데이터의 일부만 선택, 정보의 손실 발생
- 오버샘플링 : 소수 데이터를 복사하거나 유사한 데이터로 생성. 정보 손실을 피할 수 있으나 과대 적합을 초래할 수 있다.
- 임계값이동(Threshold-moving) : threshold 0.5를 이동해나가면서 불균형 데이터 처리
- 불균형 데이터에서
정확도가 높게 나타난다면, 좋은 성능의 모델로 평가한다 -> (X)
#재현율을 봐야함. 불균형이기 때문에 정확도 지표만 보는 것은 치명적임
2.2 데이터 탐색
EDA
- EDA 4가지 주제 : 저잔재현
- 저항성의 강조 : 이상값에 민감한 평균보다 중앙값 사용 선호, 저항성은 데이터 일부가 파손되었을때 영향을 적게 받는 성질
- 잔차 계산 : 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지 알려주는 지표
- 자료변수의 재표현 : 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료를 변환하는 것
- 그래프를 통한 현시성 :
상관관계 : 두 변수간의 '선형적' 관계가 존재하는지 분석
- 피어슨 상관분석(모수적검정) : 양적 척도, 연속형 변수, 선형관계 측정 (-1<= Corr <=1)
- 스피어만 상관분석(비모수적검정) : 서열 척도, 순서형 변수, 선형/비선형 관계 (-1<=Corr<=1)
공분산 vs 상관계수 차이점
- 공분산 : 두 변수 사이의 상관성을 나타내는 지표, 공분산의 값으로만 두 변수 사이의 관계성을 알 수 없다.
- Cov(a,b)가 0이 아니면, 변수간의 상관관계를 가진다.
- 변수 a,b가 독립이면 항상 Cov(a,b)=0이다 (O)
- Cov(a,b)가 0이면, 변수 a,b는 항상 상호독립이다. (X)
- 상관계수 : 두 변수 사이의 공분산을 '표준화'한 값이 상관계수
편상관분석
왜도 (평균과 중앙값 비교)*평균에서 최빈값을 뺀 다음 표준편차로 나눈값이기 때문에.
- 왜도 > 0 오른쪽으로 꼬리가 긴 분포 : 평 > 중 > 최
- 왜도 < 0 왼쪽으로 꼬리가 긴 분포 : 최 < 중 < 평
주성분 분석
- 데이터를 한개의 축으로 사상 시켰을 때, 그 분산이 가장 커지는 축을 첫번째 주성분,
- 두번째로 커지는 축을 두번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형 변환
- 선형 결합하여 새로운 변수를 만든다.
- 분산이 커지도록 한다. O (작아지도록 X)
- 직관적으로 이해할수 있다. (X)
상자그림
- 이상치가 있을때와 없을때 구분할 수 있어야 함. (max값을 넘어감)
- 1사분위수 : 25백분율 (75백분율 아님)
- 수염보다 바깥쪽에 있는 데이터들은 이상치이다 ->(X) 항상 그런 것은 아니므로 오답보기
기술통계
데이터의 중심도 | 데이터의 산포 | 데이터의 퍼진 모양 |
평균 중앙값 최빈값 | 분산 표준편차 사분위범위 범위 변동계수 | 왜도(비대칭,퍼진정도) 첨도(뾰족한정도) |
2.3 통계기법 이해
- 중심화 경향과 분산에 사용되는 기초 통계량 구분
- 모수 통계분석과 비모수 통계분석 차이점 구분
- 확률적 표본 추출 방법 (추출할때, 랜덤이어야함. 결론은 추출하는 단위가 이질적이어야 함)
- 단순무작위 추출
- 계통추출 : 모집단으로부터 첫번째 추출단위를 임의추출하고, 두번째 추출단위부터는 일정 간격으로 표본을 추출하는 방법
(1부터 10까지 랜덤으로 할당한 요인이 있는 5,000명, 일정한 간격k를 표집간격으로 추출) - 층화추출 : 모집단을 여러 층으로 구분하고 계층별 무작위 추출. 내부적으로는 동질적이고 외부적으로는 이질적이어야 함
(조사지역 도별로 나누고, 각 도에서 무작위 100명 추출)- 장점 : 단순 임의추출보다 자료의 분산을 축소한다. 표본이 크지 않아도 모집단의 대표성이 보장된다
- 단점 : 모집단의 각 층에 대한 정확한 정보를 필요로 한다. 표본추출 과정에서 시간/비용이 증가.
- 군집추출 : 집단을 여러 집단으로 나누고 무작위로 선출된 군집의 모든 개체를 측정하는 방식.
내부적으로는 이질적이고 집단간 차이가 동질적이다.
- 척도의 종류
- 명목척도 : 단순히 측정 대상의 특성을 분류, 확인하기 위한 목적으로 숫자 부여 (성별, 0/1, 연산가능 같다.같지않다)
- 서열척도 : 대소, 높고 낮음 등의 순위만 제공. 양적 비교 불가 ex. 매우 불만족, 불만족, 보통, 만족, 매우만족 등 연산가능 (<>)
- 등간척도 : 순위를 부여하되, 순위 사이의 간격이 동일하여 양적 비교 가능 (절대적 영점 존재하지 않음. 온도계 수치 물가지수,)
- 비율척도 (절대적 영점존재, 모든 연산 가능) ex.몸무게
- 확률분포
- 조건부 확률 계산문제
- 베이즈정리 개념 및 계산문제
- 이항분포와 포아송 분포, 초기하분포 차이점
- 카이제곱분포와 F분포의 검정 용도
- 확률변수의 기댓값과 분산 계산 문제
참고
https://youtu.be/8tB_C6LjWWA?si=cnTizGHfN5tF0UbC
https://youtu.be/su-fxzbvccI?si=fA0sWwiuDvCLgK-F
https://youtu.be/dptx-hicx3Q?si=gkurhSPnzDJmHN5G
https://youtu.be/uVuN3BFEvF4?si=4U4iZ3FrVuXr90bW
https://youtu.be/08qyJDa12LU?si=v_VcmhT1c9q09dbX
'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
빅데이터분석기사 9회 필기 합격 후기 - 전공자 5일 준비 후기 (4) | 2024.09.28 |
---|---|
20240906_직장인의 빅데이터분석기사 5일 준비후기 (전공자? 기준) (0) | 2024.09.09 |
빅데이터분석기사 필기 3/4과목 요약 (1) | 2024.09.06 |
빅데이터분석기사필기- 1과목 요약 (5) | 2024.09.04 |