본문 바로가기

전체 글140

250317_딥러닝기초 Nearsest Neighbor -> K-Nearest Neighbor > Linear Classifier (대푯값을 이용하자) -> 그렇다면 W가중치는?data-driven approach! 기계학습은 데이터 기반으로 '기계가' 룰을 찾게하는 것data space 데이터 공간 CIFAR dataset의 차원 : 32 x 32 x 3 = 3072 차원Nearsest Neighbor란? distance가 가장 짧은 것을 학습해나가는 것 (근데 성능이 좋지 않음)거리를 측정하는 방법에는 유클리드, 맨하탄 방법, 코사인 similarity 있음단점 : Nearest는 테스트할 때 시간이 많이 소요됨   K-neareast Nearest Neighbor를 noise를 보완할 수 있음  차원의 저주란?데이터의 차.. 2025. 3. 17.
250312_딥러닝 모델 상용화 시 고려할 점 문제점 : 데이터 로드 및 전처리 작업에 많은 시간 소요해결책 : 데이터를 병렬 처리하자! concurrent.futures.ProcessPoolExecutor 라이브러리를 활용하자 딥러닝 모델을 상용하려면 제일 중요한 것은 inference가 아니라 데이터 전처리다. 데이터전처리 작업이 압도적으로 시간이 많이 소요되고, 서비스 및 데이터양이 많을수록 더욱이!  GPU보다 CPU가 더 많이 필요한 것 같기도 하고 실제 딥러닝 inference 결과 도출하는데 많은 시간이 걸리지 않고, DISK에서 RAM에 DB를 업로드하는데 너무나 많은 시간이 소요됨 GPT 선생님이 CPU 할당 pandas가 아닌, GPU로 로드하는 cudf를 추천하길래 컴공출신 개발자에게 물어봤는데 DISK에서 RAM으로 넘길때는 무.. 2025. 3. 12.
pandas GPU 서버에서 데이터 전처리 속도 높이는 법 Pandas 기반으로 DataFrame을 읽고 전처리하는 과정에서 서버가 과부하되는 문제를 해결하려면 GPU를 활용한 병렬 처리와 메모리 최적화가 필요합니다.현재 문제를 해결할 수 있는 효율적인 GPU 기반 데이터 처리 방법 4가지를 소개합니다.✅ 1. CuDF (Pandas의 GPU 버전)로 변환하여 처리 속도 향상Pandas는 기본적으로 CPU 기반이므로, GPU 최적화된 CuDF를 사용하면 10배 이상 빠르게 처리할 수 있습니다.import cudf# Pandas DataFrame을 CuDF로 변환 (GPU 메모리로 로드)df = pd.read_csv("data.csv") # 기존 방식 (CPU)gdf = cudf.DataFrame.from_pandas(df) # GPU 변환# GPU에서 데이터.. 2025. 3. 11.
250311_텐서플로우기초 인공지능 역사- XOR Problem : Linear 문제를 해결하지 못함. --> 해결방안 : 3차원에서 공간을 구부려서(접어서) 해결 2025. 3. 11.