https://youtu.be/VrqkXrwpohw?si=1u-Vp-IOCTEj_vhC
TSF(TimeSeries Forecasting) Task 내 딥러닝 모델 한계점
- Vanila-Transformer
- Vanila-Transformer는 long sequence에서 sematic correlation을 추출하는데 효과적이나, self-attention구조상 permutaion-invariant 특성을 가지기 때문에 temporal loss가 발생
- permutaion-invariant 특성은 input의 순서가 바뀌어도 output이 동일한 것을 의미.
- 시계열 데이터는 데이터 순서가 중요한 정보인데, self-attention을 통해 input과 output 의미가 퇴색
- RNN
- RNN 기반 시계열 예측의 문제 : Gradient Vanishing/Explosion, Fixed Context Vector를 사용하여 성능면에서 한계가 있음
TSF 연구 방향
- LTSF-Linear (문제제기) : Transformer는 시계열 예측 문제에서 최적의 모델이 아니다
-
- Are Transformers Effective for TIme Series Forecasting? (AAI2023)
- Transformer 모델이 시계열 데이터에 적합한가?라는 논문에서는 LTSF (Long Term Series Forecasting Linear) Task를 수행하는데 Transformer 기반 모델보다 단순한 선형 모델을 제안하고 Transformer보다 성능이 우수한 것을 입증을 통해 시계열 데이터에서 Transformer 성능의 한계점을 지적하였다.
-
- PatchTST (반박) : Channel Independent Strategy와 결합하면 시계열 예측에서 Transformer는 최적의 모델이다.
-
- A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers (ICLR 2023)
- 그러나, 금번 논문에서는 기존 연구 결과와 다르게 Transformer가 LTSF Task에 효과적인 것을 증명하였다.
- PatchTST의 주요 특징으로는 Patching과 Channel independence가 있다.
- 첫번째, Patching은 Visual Transformer 모델의 아이디어를 착안하여 시계열 데이터를 Patch로 받아 Transformer의 locality를 반영하는 개념이다.
- 두번째, Channel Independence는 다변량 시계열 데이터(multivariate time sereis)의 각 채널을 분리하여 여러개의 단변량 시계열 데이터(univariate time series)로 만들어 독립적으로 처리하는 개념이다.
-
- The Capacity and Robustness Trade-off (원인분석) : 그렇다면 앞선 PatchTST의 Channel Independent Strategy는 시계열 예측에서 뛰어난 성능을 발휘하는가?
PatchTST 아키텍쳐
- Patching 장점
- Point-Wise time series보다 많은 local semantic information 반영
- input token 개수의 감소로 인한 Transformer의 연산량과 메모리 사용량 감소
- 동일한 GPU와 학습시간 내 더 긴 길이의 sequence 활용 가능
Appendix
[논문 리뷰] A Time Series is Worth 64 Words:Long-Term Forecasting With Transformers
요약: transformer 기반의 시계열 예측 모델 PatchTST를 개발했다. PatchTST는 두 가지 특징을 가진다: 1. Channel-independence; 2. Patching. Channel-independence라는 것은 다변량 시계열 데이터(multivariate time series)의
insoo-hwang.tistory.com
[Paper Review] A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers
[ 발표 요약 ] 1. Topic A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers 2. Overview 이번 세미나 시간에는 ICLR 2023에 accept 된 long-term time series forecasting(LTSF) 방법론 PatchTST를 공유하고자 한다.
dsba.snu.ac.kr
230406_PatchTST_최희정_배포용.pdf
6.22MB
고려대학교 DMQA 연구실
고려대학교 산업경영공학부 데이터마이닝 및 품질애널리틱스 연구실
dmqa.korea.ac.kr
[241011]Channel Independent Strategy for Time Series Forecasting.pdf
4.65MB
'AI > Abnormal Detection' 카테고리의 다른 글
[Transformer] Time Series Classification model based on Transformer (0) | 2024.12.17 |
---|---|
[keras] multivariate time series - CNN Conv2D- LSTM (1) | 2024.12.12 |
Time Series Clustering - K-Means + Dynamic Time Warping (비지도 기반 시계열 데이터 군집 시각화) (1) | 2024.12.04 |
Anomaly Detection in Time Series - LSTM+AE, LSTM+CNN (0) | 2024.12.02 |
LSTM-AE (AutoEncoder) for Anomaly Detectioin 비지도 학습 (0) | 2024.11.27 |