본문 바로가기
대학원

250317_딥러닝기초

by jinny-log 2025. 3. 17.
  • Nearsest Neighbor -> K-Nearest Neighbor > Linear Classifier (대푯값을 이용하자) -> 그렇다면 W가중치는?
    • data-driven approach! 기계학습은 데이터 기반으로 '기계가' 룰을 찾게하는 것
    • data space 데이터 공간 
    • CIFAR dataset의 차원 : 32 x 32 x 3 = 3072 차원
  • Nearsest Neighbor란? distance가 가장 짧은 것을 학습해나가는 것 (근데 성능이 좋지 않음)
    • 거리를 측정하는 방법에는 유클리드, 맨하탄 방법, 코사인 similarity 있음
    • 단점 : Nearest는 테스트할 때 시간이 많이 소요됨

  •  

 

 

  • K-neareast 
    • Nearest Neighbor를 noise를 보완할 수 있음 

 

  • 차원의 저주란?
    • 데이터의 차원이 높아질수록 필요한 데이터의 개수가 기하급수적으로 늘어난다. 근데 우리가 갖고 있는 데이터는 그만큼 갖고 있지 않고 있기때문에 기계학습 성능 떨어진다. 
    • 따라서 기계학습에서는 고차원 데이터를 저차원 데이터로 변환해서 학습한다. (PCA or Feature Extraction)
    • 고차원 -> 저차원으로 축소할 때는 manifold Hypothesis를 가정하고 있다.

  • 차원축소 feature extraction/PCA : 고차원 -> 저차원 데이터로 줄인다음에 기계학습 (manifold를 가정)
  • Manifold 가정 : 이 세상에 있는 모든 데이터들은 고차원이라고 할지라도 실제적으로 저차원 공간에 분포되어있다. 즉, 우리가 다루는 데이터가 수백, 수천 개의 차원을 가지더라도, 이 데이터들이 실질적으로는 더 낮은 차원의 구조 위에 놓여 있다는 가정

 

  • inner product : 비슷한 클래스면 score가 가장 크다
  • x는 3072차원의 데이터, W는 class 10개 x 3072, Linear Classifiaction
  • 입력에 대해 1차원 함수 : Nearest할때 100만번해야했지만, Linear는 대표이미지로 10번만 하면된다.