빅데이터분석기사필기 2과목 요약

빅데이터 탐색

2.1 데이터 전처리

데이터 종류

이산형(범주형)	명목형	단순구분, 순서차이없음	구분
이산형(범주형)	순서척도(서열척도)	순서를 말할 수 있음 - 상/중/하	구분+순서
연속형	구간척도(등간척도)	원점이 없는 데이터 - 온도,지수	구분+순서+차이
연속형	비율척도	비율존재, 절대적 원점 존재 (사칙연산가능) - 무게, 길이 등	구분+순서+차이+비율

데이터 전처리 주요작업

데이터 정제	결측 데이터, 이상치 파악 및 제거하고 정합성이 맞도록 교정하는 작업
데이터 통합	여러 개의 데이터베이스, 데이터 집합 또는 파일을 통합하는 작업
데이터 축소	샘플링, 차원축소 변수선택 및 추출을 통해 차원을 줄이는 작업
데이터 변환	데이터를 정규화, 이산화, 파생변수 등으로 변환하는 작업

변수선택

분산변수선택 : 분산이 기준치보다 낮은 데이터 제거
(데이터가 평균 근처에 모여 있어, 데이터 간의 차이가 크지 않다는 의미)
래퍼방법
- 전진선택법 : 변수가 없는 상태에서 하나씩 추가하며 더이상 성능 향상이 없을때까지 추가한다. 한번 변수 추가되면 제거할 수 없다.
- 후진제거법 : 모든 변수를 선택하여 시작하면서, 덜 중요한 변수를 하나씩 제거하며 성능을 향상시킨다.
임베디드 메소드 : Embedded Metod 회귀계수의 패널티
- Lasso 라쏘 회귀모형 L1 : 절대값, 변수선택 기능이 있다. |맨하탄거리| 차이의 절대값
- Ridge 릿지 회귀모형 L2 : 제곱, 변수선택 기능이 없다. |유클리드거리| 차이의 제곱합의 루트
단일변수선택 : 분류 성능 높은 혹은 상관관계 높은 특성만 선택
모델기반변수선택 : 랜덤포레스트 등 특정 중요도 정확도 높은 특성 선택
반복적변수선택 : 반복해서 수행하며 가장 좋은 변수를 선택

분석변수처리

변수선택 vs 변수추출 개념
차원축소 문제점과 차원의 저주
PCA 기준으로, SVD, LDA, FA 차이점

변수변환

수치형자료변환
- Z-Score 정규화 : 평균 0, 표준편차 1로 변환,
  Z= X-평균/표준편차(수식)
  ex. 시험의 평균점수가 80이며, 분산은 36이다.
  시험에서 75점 받은 학생의 Z-Score는 얼마인가? 75-80/6
- Min-Max Scale : 0과 1 사이로 변환
  - x = x-xmin/ xmax-xmin (수식도 암기)
- Box-Cox변환 : 데이터가 정규분포를 따르지 않을때, 정규분포를 따를 수 있게 변환
  - 틀린설명 : 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 해석이 쉬어진다. (X)
    제곱근을 통해 '정규분포화' 대칭성을 만드는 것.
- 로그변환 : 로그를 취한 값으로 변환
  데이터가 쏠려있을 때, 로그변환하면 정규분포에 적합 (유사하게 제곱근 변환이 있음, 제곱 변환 아님)
- Binning(구간화) : 연속형 데이터를 특정 구간으로 나누어 범주형으로 변환!
  - ex. 다음중 스케일링 방법에 해당하지 않는 것은? (스케일링과 자료변환은 다른 개념)
    최대최소정규화, z스코어, 변수범주화, 로버스트 스케일링
데이터인코딩 :
- 레이블인코딩 : 데이터를 정수로 변환 (ex. TV1, 공기청정기2, 세탁기3)
- 원핫인코딩 : 고유값에 해당하는 컬럼만 1로 표기 (컬럼이 많이 확장됨..)
  Dummy Variable(더미변수) : 범주형 변수를 연속형 변수로 변환 = 머신러닝에서는 원핫인코딩이라고 함.
  원핫 인코딩을 적용하면 sparse (드문,희박한) 데이터가 된다. (O)
- 타깃인코딩 : 타깃 변수를 평균값으로 변환, 데이터가 적으면 적을수록 좋은방법은 아니다
  타깃 변수를 표준편차를 활용한다 (X)
- 오디널인코딩Ordinal Encoding: 변수의 순서를 유지하는 인코딩, 레이블인코딩과 유사하지만 순서가 있음.

불균형 데이터 처리

언더샘플링 : 다수 데이터의 일부만 선택, 정보의 손실 발생
오버샘플링 : 소수 데이터를 복사하거나 유사한 데이터로 생성. 정보 손실을 피할 수 있으나 과대 적합을 초래할 수 있다.
임계값이동(Threshold-moving) : threshold 0.5를 이동해나가면서 불균형 데이터 처리
불균형 데이터에서 ~~정확도~~가 높게 나타난다면, 좋은 성능의 모델로 평가한다 -> (X)
#재현율을 봐야함. 불균형이기 때문에 정확도 지표만 보는 것은 치명적임

2.2 데이터 탐색

EDA

EDA 4가지 주제 : 저잔재현
- 저항성의 강조 : 이상값에 민감한 평균보다 중앙값 사용 선호, 저항성은 데이터 일부가 파손되었을때 영향을 적게 받는 성질
- 잔차 계산 : 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지 알려주는 지표
- 자료변수의 재표현 : 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료를 변환하는 것
- 그래프를 통한 현시성 :

상관관계 : 두 변수간의 '선형적' 관계가 존재하는지 분석

피어슨 상관분석(모수적검정) : 양적 척도, 연속형 변수, 선형관계 측정 (-1<= Corr <=1)
스피어만 상관분석(비모수적검정) : 서열 척도, 순서형 변수, 선형/비선형 관계 (-1<=Corr<=1)

공분산 vs 상관계수 차이점

공분산 : 두 변수 사이의 상관성을 나타내는 지표, 공분산의 값으로만 두 변수 사이의 관계성을 알 수 없다.
- Cov(a,b)가 0이 아니면, 변수간의 상관관계를 가진다.
- 변수 a,b가 독립이면 항상 Cov(a,b)=0이다 (O)
- Cov(a,b)가 0이면, 변수 a,b는 항상 상호독립이다. (X)
상관계수 : 두 변수 사이의 공분산을 '표준화'한 값이 상관계수

편상관분석

왜도 (평균과 중앙값 비교)*평균에서 최빈값을 뺀 다음 표준편차로 나눈값이기 때문에.

왜도 > 0 오른쪽으로 꼬리가 긴 분포 : 평 > 중 > 최
왜도 < 0 왼쪽으로 꼬리가 긴 분포 : 최 < 중 < 평

주성분 분석

데이터를 한개의 축으로 사상 시켰을 때, 그 분산이 가장 커지는 축을 첫번째 주성분,
두번째로 커지는 축을 두번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형 변환
선형 결합하여 새로운 변수를 만든다.
분산이 커지도록 한다. O (작아지도록 X)
직관적으로 이해할수 있다. (X)

상자그림

이상치가 있을때와 없을때 구분할 수 있어야 함. (max값을 넘어감)
1사분위수 : 25백분율 (75백분율 아님)
수염보다 바깥쪽에 있는 데이터들은 이상치이다 ->(X) 항상 그런 것은 아니므로 오답보기

기술통계

데이터의 중심도	데이터의 산포	데이터의 퍼진 모양
평균 중앙값 최빈값	분산 표준편차 사분위범위 범위 변동계수	왜도(비대칭,퍼진정도) 첨도(뾰족한정도)

2.3 통계기법 이해

중심화 경향과 분산에 사용되는 기초 통계량 구분
모수 통계분석과 비모수 통계분석 차이점 구분

확률적 표본 추출 방법 (추출할때, 랜덤이어야함. 결론은 추출하는 단위가 이질적이어야 함)
- 단순무작위 추출
- 계통추출 : 모집단으로부터 첫번째 추출단위를 임의추출하고, 두번째 추출단위부터는 일정 간격으로 표본을 추출하는 방법
  (1부터 10까지 랜덤으로 할당한 요인이 있는 5,000명, 일정한 간격k를 표집간격으로 추출)
- 층화추출 : 모집단을 여러 층으로 구분하고 계층별 무작위 추출. 내부적으로는 동질적이고 외부적으로는 이질적이어야 함
  (조사지역 도별로 나누고, 각 도에서 무작위 100명 추출)
  - 장점 : 단순 임의추출보다 자료의 분산을 축소한다. 표본이 크지 않아도 모집단의 대표성이 보장된다
  - 단점 : 모집단의 각 층에 대한 정확한 정보를 필요로 한다. 표본추출 과정에서 시간/비용이 증가.
- 군집추출 : 집단을 여러 집단으로 나누고 무작위로 선출된 군집의 모든 개체를 측정하는 방식.
  내부적으로는 이질적이고 집단간 차이가 동질적이다.
척도의 종류
- 명목척도 : 단순히 측정 대상의 특성을 분류, 확인하기 위한 목적으로 숫자 부여 (성별, 0/1, 연산가능 같다.같지않다)
- 서열척도 : 대소, 높고 낮음 등의 순위만 제공. 양적 비교 불가 ex. 매우 불만족, 불만족, 보통, 만족, 매우만족 등 연산가능 (<>)
- 등간척도 : 순위를 부여하되, 순위 사이의 간격이 동일하여 양적 비교 가능 (절대적 영점 존재하지 않음. 온도계 수치 물가지수,)
- 비율척도 (절대적 영점존재, 모든 연산 가능) ex.몸무게
확률분포
- 조건부 확률 계산문제
- 베이즈정리 개념 및 계산문제
- 이항분포와 포아송 분포, 초기하분포 차이점
- 카이제곱분포와 F분포의 검정 용도
- 확률변수의 기댓값과 분산 계산 문제

참고
https://youtu.be/8tB_C6LjWWA?si=cnTizGHfN5tF0UbC

https://youtu.be/su-fxzbvccI?si=fA0sWwiuDvCLgK-F

https://youtu.be/dptx-hicx3Q?si=gkurhSPnzDJmHN5G

https://youtu.be/uVuN3BFEvF4?si=4U4iZ3FrVuXr90bW

https://youtu.be/08qyJDa12LU?si=v_VcmhT1c9q09dbX

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

빅데이터분석기사 9회 필기 합격 후기 - 전공자 5일 준비 후기 (4)	2024.09.28
20240906_직장인의 빅데이터분석기사 5일 준비후기 (전공자? 기준) (0)	2024.09.09
빅데이터분석기사 필기 3/4과목 요약 (1)	2024.09.06
빅데이터분석기사필기- 1과목 요약 (5)	2024.09.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

jinny-log

빅데이터분석기사필기 2과목 요약

빅데이터 탐색

2.1 데이터 전처리

2.2 데이터 탐색

2.3 통계기법 이해

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

빅데이터분석기사필기 2과목 요약

빅데이터 탐색

2.1 데이터 전처리

2.2 데이터 탐색

2.3 통계기법 이해

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역