본문 바로가기

python2

데이터 전처리 - 피처 스케일링과 정규화 ✅ 피처 스케일링 (Feature Scaling)피처 스케일링은 머신러닝서 사용되는 feature 범위를 조정하는 과정.피처마다 다른 범위를 가지는 경우 머신러닝 알고리즘 성능에 이슈가 발생할 수 있음.피처의 범위가 다르다는 것의 예제는 어떤 제품의 가격(A)이 1원~1억원이고, 해당 제품의 수명(B)이 1년~10년일대. A는 범위가 1~1억, B는 1~10으로 range가 다름.✅ 피처 스케일링은 왜 필요하나요?모델 성능 향상 : 일부 모델은 입력 데이터 간의 거리를 기반으로 동작하여, 피처 스케일 여부에 따라 예측에 영향을 미칠 수 있음.모델의 해석성 향상 : 스케일이 조절된 피처는 모델의 해석이 더 쉽습니다. 피처의 스케일을 일정하게 조절하면 어떤 피처가 더 중요한지를 더 쉽게 판단할 수 있습니다... 2023. 12. 13.
데이터 전처리 - 데이터 인코딩 (Data Encoding) 데이터 인코딩 (Data Encoding) ✅ 데이터 인코딩은 왜 하나요? 데이터 인코딩은 주로 머신 러닝 및 통계 분석 모델에서 범주형 데이터를 처리할 때 필요한데, 특히 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않기 때문에 모든 문자열 값은 숫자로 변환 필요함. ✅ 데이터 인코딩 대표적 두가지 방법 1. 레이블 인코딩 (Lable Encoding) 레이블 인코딩은 각 범주형 값에 고유한 정수 레이블 할당하는 방법 각 범주형 변수에 대해 정렬된 숫자로 맵핑하여 데이터 변환 주의점 숫자의 대소관계가 의미 없기 때문에 회귀분석과 같이 숫자 순서 중요한 모델에서는 사용하지 않아야 함. 트리 계열의 ML 알고리즘은 숫자의 이러한 특성을반영하지 않으므로 레이블 인코딩 문제 없음. 사이킷런의.. 2023. 12. 13.