분류 전체보기144 데이터 전처리 - 피처 스케일링과 정규화 ✅ 피처 스케일링 (Feature Scaling)피처 스케일링은 머신러닝서 사용되는 feature 범위를 조정하는 과정.피처마다 다른 범위를 가지는 경우 머신러닝 알고리즘 성능에 이슈가 발생할 수 있음.피처의 범위가 다르다는 것의 예제는 어떤 제품의 가격(A)이 1원~1억원이고, 해당 제품의 수명(B)이 1년~10년일대. A는 범위가 1~1억, B는 1~10으로 range가 다름.✅ 피처 스케일링은 왜 필요하나요?모델 성능 향상 : 일부 모델은 입력 데이터 간의 거리를 기반으로 동작하여, 피처 스케일 여부에 따라 예측에 영향을 미칠 수 있음.모델의 해석성 향상 : 스케일이 조절된 피처는 모델의 해석이 더 쉽습니다. 피처의 스케일을 일정하게 조절하면 어떤 피처가 더 중요한지를 더 쉽게 판단할 수 있습니다... 2023. 12. 13. 231213_Hello DX, Hello jinny 직장생활 만 5년차를 넘어가며..'어떤 커리어를 쌓고 싶은가?' 질문에 대한 나의 대답을 생각해보면,결론은 어떠한 회사 또는 도메인, 역량에 국한되어 있지는 않았다. (1) 문제의 본질을 이해하고 (pain-point)(2) 해결할 수 있는 방법을 모색하며 (3) 협업을 통해 프로젝트를 완성하는 전 과정에 기여하는 사람이 되고 싶었다. 이 중(1) 문제의 본질을 이해하고,(2) 해결방법을 모색하는 수단으로써, 데이터를 이해하고 분석하며 모델을 개발하는 역량은 기본이라 생각되었고통계학부생으로 한때는 익숙했지만 익숙한듯 익숙하지 않은 익숙한 데이터/통계/AI 공부를 다시 시작하기로 했다. 🌝🌝 24년도에는 지금보다 더 지혜롭고 현명하며 '배움'을 가까이하는 한 해가 되었으면 좋겠다. 2023. 12. 13. 데이터 전처리 - 데이터 인코딩 (Data Encoding) 데이터 인코딩 (Data Encoding) ✅ 데이터 인코딩은 왜 하나요? 데이터 인코딩은 주로 머신 러닝 및 통계 분석 모델에서 범주형 데이터를 처리할 때 필요한데, 특히 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않기 때문에 모든 문자열 값은 숫자로 변환 필요함. ✅ 데이터 인코딩 대표적 두가지 방법 1. 레이블 인코딩 (Lable Encoding) 레이블 인코딩은 각 범주형 값에 고유한 정수 레이블 할당하는 방법 각 범주형 변수에 대해 정렬된 숫자로 맵핑하여 데이터 변환 주의점 숫자의 대소관계가 의미 없기 때문에 회귀분석과 같이 숫자 순서 중요한 모델에서는 사용하지 않아야 함. 트리 계열의 ML 알고리즘은 숫자의 이러한 특성을반영하지 않으므로 레이블 인코딩 문제 없음. 사이킷런의.. 2023. 12. 13. python 데이터 인코딩 기법 (원-핫 인코딩) 원핫 인코딩 (One-Hot Encoding) ✅ 개념 원핫 인코딩(One-Hot Encoding)은 범주형 데이터를 수치형 데이터로 표현하는 방법 각 범주(category)를 고유한 이진 벡터로 표현하는 기술 ✅ 기능 기계 학습 및 자연어 처리와 같은 분야에서 범주형 데이터를 처리하는 데 사용 from sklearn.preprocessing import OneHotEncoder # 범주형 데이터 예시: 색상 colors = ['빨강', '파랑', '초록'] # OneHotEncoder 객체 생성 encoder = OneHotEncoder(sparse=False) # 데이터를 2D 배열 형태로 변환 colors_2d = [[color] for color in colors] # 원핫 인코딩 적용 one_h.. 2023. 12. 11. 이전 1 ··· 33 34 35 36 다음