- 문제점 : 데이터 로드 및 전처리 작업에 많은 시간 소요
- 해결책 : 데이터를 병렬 처리하자!
- concurrent.futures.ProcessPoolExecutor 라이브러리를 활용하자
딥러닝 모델을 상용하려면 제일 중요한 것은 inference가 아니라 데이터 전처리다. 데이터전처리 작업이 압도적으로 시간이 많이 소요되고, 서비스 및 데이터양이 많을수록 더욱이!
GPU보다 CPU가 더 많이 필요한 것 같기도 하고 실제 딥러닝 inference 결과 도출하는데 많은 시간이 걸리지 않고, DISK에서 RAM에 DB를 업로드하는데 너무나 많은 시간이 소요됨
GPT 선생님이 CPU 할당 pandas가 아닌, GPU로 로드하는 cudf를 추천하길래 컴공출신 개발자에게 물어봤는데 DISK에서 RAM으로 넘길때는 무조건 CPU라고.. GPU로 읽어도 궁극적으로 해결을 못할거라고... OS 체제 기본 지식이 부족해서 어떤 피드백을 준 것인지 잘 모르겠지만ㅠ
상용에서 데이터 로드 및 전처리할때 무조건 병렬처리 라이브러리 써야함!
'jinny-log' 카테고리의 다른 글
250307_딥러닝 상용화 시 고려할 점 (0) | 2025.03.07 |
---|---|
241126_구매한 전자피아노 도착한 날 (0) | 2024.11.26 |
241124_대청소의 날 (0) | 2024.11.24 |
241123_대학원 면접 (1) | 2024.11.23 |
241121 (1) | 2024.11.21 |