2023. 4. 2. 22:37ใ๐ง๐ป๐ซ Ideas/(Advanced) Time-Series
*์์ํ๊ธฐ์ ์์, ๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ์ ๊ตฌ์กฐ์ ๊ทธ ๋ณํ๋ค์ ๋ํ ๋ฐฐ๊ฒฝ์ง์์ด ์๋ ๋ถ๋ค์ ์ด ๋ ผ๋ฌธ์ ์คํ๋ง ์ดํด๋ณด์ ๋ ๋ฌด๋ฐฉํฉ๋๋ค.
1. Introduction
์๊ณ์ด ์์ธก(Time Series Forecasting)์ ์ค์ํ์ ๋ค์ํ ๋๋ฉ์ธ์์ ๋๋ฆฌ ์์ฉ๋๊ณ ์๋ค.
์ง๋ ์ธ์๋์ ์ด๋ฌํ TSF์ ์์ด์ ARIMA์ ๊ฐ์ ์ ํต์ ์ธ ํต๊ณ ๋ชจํ, GBRT์ ๊ฐ์ ๋จธ์ ๋ฌ๋, RNN ๊ธฐ๋ฐ/CNN ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฐ์ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์ ์ฉ๋์ด ์๋ค. ๊ทธ๋ฐ๋ฐ ๋น๊ต์ ์ต๊ทผ์ ๋ฑ์ฅํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ธ "ํธ๋์คํฌ๋จธ"๋ sequential task์์ ๋งค์ฐ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ฐํ์ผ๋ก NLP, CV ๋ถ์ผ์์ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์๋ํ๊ณ ์๋๋ฐ, ์ด์ ๋ฐ๋ผ ๊ฐ์ sequential task์ธ ์๊ณ์ด ๋ถ์ ๋ถ์ผ์๋ ์ด๋ฌํ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ฉํ๋ ค๋ ๋ ธ๋ ฅ๋ค์ด ์ด์ด์ ธ์๋ค.
๊ทธ ๊ฒฐ๊ณผ, LogTrans(NeurIPS 2019), Informer(AAAI 2021 Best paper), Autoformer(NeurIPS 2021), Pyraformer(ICLR 2022 Oral), Triformer(IJCAI 2022), FED-former(ICML 2022) ๋ฑ๊ณผ ๊ฐ์ ๋ณํ ๋ชจ๋ธ๋ค์ด ์ ์๋์๋ค.
์ด๋ค์ ํนํ ํธ๋์คํฌ๋จธ์ ์ดํ ์ ๋งค์ปค๋์ฆ์ ๋ฐํ์ผ๋ก ๊ทธ๋์์ challenge์๋ ์ฅ๊ธฐ์๊ณ์ด ์์ธก ๋ฌธ์ (LTSF)์๋ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ณด์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ(Vanilla Transformer)๋ฅผ ํฌํจํ ํธ๋์คํฌ๋จธ ๋ณํ๋ชจ๋ธ๋ค์ด ๊ทธ๋ฌํ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์๋ ์ด์ ๊ฐ ๋ฐ๋ก "์ ํ - ์ดํ ์ ๋งค์ปค๋์ฆ" ๋๋ถ์ด์๋ค๊ณ ๋งํ๋ค.
(๋ชจ๋ ๋ณํ๋ชจ๋ธ๋ค์ด ์ดํ ์ ๋งค์ปค๋์ฆ์ ๊ทธ๋๋ก ์ด์ฉํ๊ณ ์๋ ๊ฒ์ ์๋๋ค. Autoformer์ FED-former๋ ๋ค๋ฅธ ๋งค์ปค๋์ฆ์ ์ด์ฉํ๋ค.)
๊ทธ๋ฌ๋, ๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ค์ ์ด๋ฌํ ์ ํ - ์ดํ ์ ๋งค์ปค๋์ฆ์ด TSF๋ฌธ์ ์ ์์ด์ ๊ทธ ์ ํฉ์ฑ๊ณผ ํจ๊ณผ์ฑ์ ๊ฐ์ง๋ ์ง์ ๋ํด ๋ฐ๋ก ์ ์ ๊ธฐํ๋ค.
๊ทธ๊ฒ์ ๋ฐ๋ก ์ ํ - ์ดํ ์ ์ ์ฅ์ ์ธ sementic meaning(์๋ฏธ๋ก ์ ๋ด์ง๋ ์ด๋ ํ ๋งฅ๋ฝ์ ์ธ ์๋ฏธ๋ฅผ)์ ์ถ์ถํ๋ ๋ฅ๋ ฅ์ด ์๊ณ์ด ๋ฐ์ดํฐ์์ ํฐ ํจ๊ณผ๋ฅผ ๋ณด๊ธฐ ์ด๋ ต๊ณ , ์คํ๋ ค ์๊ณ์ด ๋ฐ์ดํฐ์ ํต์ฌ์ธ ์๊ฐ, ๊ทธ order์ ๋ํ ์ ๋ณด๋ฅผ ์๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค.
์ ์๋ค์ ์ ํ - ์ดํ ์ ์ด "permutation- invariant(์์ด ๋ถ๋ณ์ ์ด๊ณ )"ํ๊ณ , “anti-order”(์์์ ๋ฐํ๋ค.)ํ๋ค๊ณ ์ฃผ์ฅํ๋ค.
์ด๋ ์ฝ๊ฒ ๋งํด์ ์ ํ-์ดํ ์ ์ด ๊ทธ order๋ sequence์ ๋ฌด๊ดํ๊ฒ ๋์ํ๋ค๋ ๊ฒ์ธ๋ฐ, ์ด๋ ํ์ต์ ์์ด์ ์๊ณ์ด ๋ฐ์ดํฐ์ ์์์ ๋ณด๋ฅผ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๋ค๋ ๊ฒ์ด๋ค.
์๊ณ์ด ๋ถ์์์๋ ํ ๋ถ์ผ์ ๋ฌ๋ฆฌ ๋ฐ์ดํฐ์ order, sequence๊ฐ ๊ทธ ์์ฒด๋ก ๋งค์ฐ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค.
๋ฐ๋ผ์ ์๊ณ์ด ๋ถ์์์๋ ๊ทธ ์์น์ ๋ณด๋ฅผ ์์ง ์๊ธฐ ์ํด์ postition์ ๋ฐ๋ก ๋ฃ์ด์ฃผ๋ ์ฌ๋ฌ ํ ํฌ๋์ ์ ์ฉํ์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฌํ positional encoding ์ ๋ต์๋ ๋ถ๊ตฌํ๊ณ ordering information์ ์๊ฒ ๋๋ ๊ฒ์ ๋ถ๊ฐํผํ๋ค๊ณ ๋งํ๋ค.
์ ์๋ค์ ์ด๋ฌํ ์ด์ ๋ก ์
ํ-์ดํ
์
์ด ์๊ณ์ด ๋ถ์์ ๋นํด ์์์ ํฐ ์ํฅ์ ๋ฐ์ง ์๊ณ sementic meaning์ด ํ๋ถํ NLP์์ ๋ ํฐ ํ์ฝ์ ํ ์ ์์ผ๋ฉฐ ์ค์ ๋ก๋ ๊ทธ๋ ๊ฒ ํ๊ณ ์๋ค๊ณ ๋งํ๋ค. ์ด์ ๋ฐ๋๋ก ์๊ณ์ด ๋ฐ์ดํฐ๋ ์ธ์ด๊ฐ ์๋ ์ซ์ ๊ทธ ์์ฒด์ด๊ธฐ ๋๋ฌธ์ ๊ทธ sementic meaning์ด ๋ถ์กฑํ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ฉฐ, ๋ถ์์ ์์ด์ ์๊ณ์ด ํ๋ฆ ๊ทธ ์์ฒด์ธ order๊ฐ ๋งค์ฐ ์ค์ํ ์ญํ ์ ํ๋ค.
์ด์ ์ ์๋ค์ ๋ณธ ๋ ผ๋ฌธ์ ์ฃผ์ ๋ฅผ ๊ดํตํ๋ ์ง๋ฌธ์ ๋์ง๋ฉฐ ๊ทธ๊ฒ์ ๋ํ ๋๋ต์ผ๋ก ์ฌ๋ฌ ์คํ๋ค์ ์ ์ํ๋ค.
"Are Transformers Effective for Time Series Forecasting?"
๊ทธ๋ค์ ์คํ์ ๋งค์ฐ ํฅ๋ฏธ๋ก์ด ๊ฒฐ๊ณผ๋ค์ ๋์ถํ๋๋ฐ, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๋ด๋ฆฐ ๊ฒฐ๋ก ์ ๋ค์๊ณผ ๊ฐ๋ค.
"The temporal modeling capabilities of Transformers for time series are exaggerated, at least for the existing LTSF benchmarks"
(์ ์ด๋ LTSF(์ฅ๊ธฐ์๊ณ์ด ์์ธก๋ฌธ์ )์ ์ฐ์ธ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๋ค์์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๋ฅ๋ ฅ์ ๊ณผ์ฅ๋์๋ค.)
*LTSF ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ: ์ฌ๋ฌ ํธ๋์คํฌ๋จธ ๋ณํ๋ชจ๋ธ์ ์ฑ๋ฅํ๊ฐ์ ์ฐ์ธ ๋ฐ์ดํฐ (๋๋ฉ์ธ: traffic, energy, economics, weather, disease)
๊ทธ๋ค์ ์คํ์ ๋ค์๊ณผ ๊ฐ์ด ๋์์ธ ๋์๋ค.
- DMS(Direct-Multi-Step)์ ์ง์คํ๋ค.
๊ทธ๋์ ์ฑ๋ฅ์ ํ๊ฐํ ๋ ์ฐ์ธ baseline ๋ชจ๋ธ์ธ ARIMA ๋ฑ์ ํ ์์ ์ฉ ๋ฐ๋ณตํ์ฌ ์์ธกํ๋ IMS(Iterated-Multi-Step)๋ฐฉ์์ผ๋ก ์์ธก์ ์ํํ๋ ๋ชจ๋ธ์ด์๋ค. ๊ทธ๋ฐ๋ฐ, ๊ทธ๋ฌํ IMS ๋ฐฉ์์ ์๋ฌด๋ฆฌ ์์ ์ค๋ฅ๋ผ๊ณ ํ ์ง๋ผ๋ ๊ทธ๊ฒ์ด ์ถ์ ๋์ด ๊ฒฐ๊ตญ์ ์ฅ๊ธฐ ์๊ณ์ด ์์ธก์์์ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋ํ๊ธฐ ์ด๋ ต๋ค. ์ด์ ๋ณธ ๋ ผ๋ฌธ์์ ์งํ๋ ์คํ์์๋ baseline ๋ชจ๋ธ ๋ํ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก DMS ๋ฐฉ์์ ์์ธก์ ์ํํ๋๋ก ํ์๋ค.
- ์๋ก์ด Baseline ๋ชจ๋ธ๋ก LTSF-Linear์ ์ ์ฉํ๋ค.
LTSF-Linear๋ ๋งค์ฐ ๋จ์ํ๊ฒ ํ๋์ ๋ ์ด์ด๋ฅผ ๋ฐฐ์นํจ์ผ๋ก์จ timestep์ ๋ฐ๋ผ ํ๊ท๋ฅผ ์ํํ๋๋ก ํ ๋ชจ๋ธ์ด๋ค.
๋ ผ๋ฌธ์์๋ ํํํ๊ธธ ์ด๋ ๋จ์ํ ๋ ์ด์ด ํ๋๋ฅผ ๊ฐ์ง, ๋นํฉ์ค๋ฌ์ธ ์ ๋๋ก ๋งค์ฐ ๋จ์ํ ๋ชจ๋ธ์ด๋ค. (A set of embarrassingly simple one-layer linear model)
๊ฐ๋จํ๊ฒ ์์ฝํ ์คํ์ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋งค์ฐ ๋จ์ํ Baseline๋ชจ๋ธ์ธ LTSF-L ๋ชจ๋ธ์ด ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๋ฅผ ์ ์ฉํ ์คํ์์ ๊ธฐ์กด ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ์๋ํ์๋ค.
์ด ๋๋ผ์ด ๊ฒฐ๊ณผ๋ ๋ชจ๋ ๋๋ฉ์ธ๊ณผ ์กฐ์ ๋ ํ๋ผ๋ฏธํฐ๋ค์์ ๊ณตํต์ ์ผ๋ก ์ผ์ด๋ฌ์ผ๋ฉฐ, ์ฌ์ง์ด 20%~50% ์ ๋๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ผ์ด์ค๋ ์กด์ฌํ์๋ค.
- ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ ์ํ ๋ ผ๋ฌธ์์์ ์ฃผ์ฅ๊ณผ ๋ฌ๋ฆฌ, ๋๋ถ๋ถ์ ๋ชจ๋ธ๋ค์ด ์ฅ๊ธฐ์๊ณ์ด์์ temporal relation์ ์ถ์ถํ๋ ๋ฐ ์คํจํ๋ค.
์คํ์ ์งํํ ์ฐ๊ตฌ์๋ค์ ์ฑ๋ฅ์ ๋น๊ต/ํ๊ฐํ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ ๊ทธ๋ค์ ํจ์จ์ฑ, ํจ๊ณผ์ฑ์ ์์๋ณผ ์ ์๋๋ก ๋ค์ํ ablation test๋ฅผ ์งํํ์๋๋ฐ, ๊ทธ ๊ฒฐ๊ณผ ์ฌ๋ฌ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๊ธ์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชปํ์๋ค.
๊ทธ๋ฐ๋ฐ ์ฃผ๋ชฉํ ๊ฒ์ ์ฌ๊ธฐ์ ์ ์ํ LTSF-L ๋ชจ๋ธ์ ๊ทธ์ ์ฑ๋ฅ์ ๋น๊ตํ๋ Baseline๋ชจ๋ธ์ ์ง๋์ง ์์ผ๋ฉฐ, ๋ฒค์น๋งํฌ๊ฐ ์๋ ๋ค๋ฅธ ๋ฐ์ดํฐ ์ ์๋ ์ ์ฉ์ ํ๋ฉด์ ๋ ๋ค์ํ๊ณ ์ฌ๋์๋ ์์ฌ์ ์ ๋์ถํ๋ ๊ฒ์ด ํ์ํ๋ค.
๊ทธ๋ฌ๋ ์ด ๋ ผ๋ฌธ์์ ์งํํ ์คํ๋ค์ ๊ฒฐ๊ณผ๋ "ํธ๋์คํฌ๋จธ์ ์ฑ๋ฅ๊ณผ ํจ์จ์ด ๊ณผ์ฅ๋์๋ค"๋ผ๋ ์ฃผ์ฅ์ ํฐ ํ์ ์ค์ด์ฃผ๊ณ ์์ผ๋ฉฐ, ์ด์ฉ๋ฉด ์ง๋์น ์ ๋๋ก ๊ณผ์ด๋ ํธ๋์คํฌ๋จธ ์๊ณ์ด ์ฐ๊ตฌ๋ฐฉํฅ์ ์๋ฏธ์๋ ์์ฌ์ ์ ๋์ ธ์ฃผ๊ณ ์๋ค.
2. Preliminaries: TSF Problem Formulation
TSF๋ฅผ ์์์ผ๋ก ๊ฐ๋จํ๊ฒ ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
variates(๋ณ์ ์), C / window size, L / future time steps, T
$$X = [X_{1}^{t},,,X_{C}^{t}]_{t=1}^L$$
$$\hat{X} = [X_{1}^{t},,,X_{C}^{t}]_{t=L+1}^{L+T}$$
์ฌ๊ธฐ์ T>1์ผ ๋, IMS๋ ํ๋์ฉ ๋ฐ๋ณตํ๋ฉฐ T๊น์ง ์์ธก์ ์ด์ด๋๊ฐ๊ณ , DMS๋ ํ ๋ฒ์ T๊น์ง ์์ธก์น๋ฅผ ์ฐ์ถํ๋ค.
IMS๋ ์๋ฌ๊ฐ ์ถ์ ๋๋ ๋ฌธ์ ๊ฐ ์๊ธฐ์ ์๋์ ์ผ๋ก ์์ ๋ ๋ณ๋์ด ์๋ ์๊ณ์ด์์, ํน์ ์์ธก ๊ธธ์ด์ธ T๊ฐ ์์ ๋ ์ ๋ฆฌํ๋ค.
DMS๋ ๋ฐ๋๋ก unbiased single-step์ ๊ตฌํ๊ธฐ ์ด๋ ค์ธ ๋, ํน์ T๊ฐ ๊ธด ์ฅ๊ธฐ ์๊ณ์ด ์์ธก์์ ์ ๋ฆฌํ๋ค๊ณ ํ ์ ์๋ค.
3. Transformer-Based LTSF Solutions
ํธ๋์คํฌ๋จธ๋ self-attention ๋งค์ปค๋์ฆ์ ํตํด ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋นํด ์ฅ๊ธฐ ์์กด์ฑ(long dependene)๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
์ด์ ์๊ณ์ด์์ ๋ํ ์ฅ๊ธฐ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถํด์ผ ํ๋ LTSF์ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ฉํ๋ ค๋ ๋ ธ๋ ฅ์ด ์ด์ด์ ธ ์๋ค.
์ฌ๋ฌ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์๊ณ์ด ๋ชจ๋ธ ์ฐ๊ตฌ๋ค์ vanilla ํธ๋์คํฌ๋จธ์ ์์ธก์ฑ๋ฅ์ ๋์ด๋ ๊ฒ๊ณผ ๋๋ถ์ด, quadratic complexity๋ผ๋ ๋งค์ฐ ๋์ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ ํ๋ ๊ฒ์ ์ง์คํด์๋ค.
๊ทธ ๊ฒฐ๊ณผ, ์ฌ๋ฌ ์ฐ๊ตฌ์์ vanilla ํธ๋์คํฌ๋จธ์ ๋ด๋ถ ๋ชจ๋๊ณผ ์ ์ฒด ์ํคํ ์ฒ๋ฅผ ์์ ํ ๋ณํ ๋ชจ๋ธ๋ค์ด ๋ง์ด ์ ์๋์๋ค.
์ฌ๋ฌ ๋ณํ๋ชจ๋ธ๋ค์ ์ ๊ฐ๊ธฐ ๋ค๋ฅธ ์์ด๋์ด๋ฅผ ๋ฐํ์ผ๋ก ํธ๋์คํฌ๋จธ์ ๋ค์ํ ์์๋ฅผ ์ ์ฉํ์๋ค.
1. Time series decomposition
์๊ณ์ด ์์๋ถํด๋ ์๊ณ์ด ๋ถ์์ ์์ด์ standardํ ๋ฐฉ๋ฒ์ผ๋ก ์๊ณ์ด์ด ๊ฐ์ง๋ ๋ณ๋์ ๋ถํดํจ์ผ๋ก์จ ๋ณต์กํ ๋ณ๋์ ์์ธ๋ค์ ์์๋ณผ ์ ์๋๋ก ํ๋ค.
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ ์ค์์ "Autoformer"๊ฐ ์ฒ์์ผ๋ก ์ด ์์๋ถํด๋ฅผ ๋์ ํ์๋๋ฐ, ๊ทธ๋ค์ seasonal-trend decomposition ๋ธ๋ก์ ๋ชจ๋ ๋ด๋ถ์ ๋ฐฐ์นํ์ฌ ์๊ณ์ด์ ์ธ๋ถ์ ์ธ ๋ณ๋๋ค์ ๋ ๊น์ด ํ์ ํ ์ ์๋๋ก ํ์๋ค.
๊ทธ๋ค์ ์ด๋ํ๊ท (moving averaging) ์ปค๋์ ํตํด ๋ณ๋์ ํํํํ์ฌ ์ถ์ธ ๋ณ๋์ ๋ฝ์๋ธ ๋ค, ์ ์ฒด ๋ณ๋์์ ์ด๋ฅผ ๋นผ์ ๊ณ์ ๋ณ๋์ ์ป๋๋ค. ์ด๋ฌํ ์์๋ถํด๋ฅผ ํตํด ๊ฐ ์ธ๋ถ ๋ณ๋๋ค์ ์ง์คํ๋ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ์คํ์ ํตํด ์์ธก ์ฑ๋ฅ์ ์ฌ๋ฆด ์ ์๋ค๋ ๊ฒ์ ์ฆ๋ช ํ์๋๋ฐ, ์ต๊ทผ "FED-former"์์๋ ์ด๋ฌํ scheme๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ์ปค๋ ์ฌ์ด์ฆ๋ฅผ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋ค.
2. Input embedding strategies
ํธ๋์คํฌ๋จธ์ ์ ํ-์ดํ ์ ๋ ์ด์ด๋ ๊ทธ ์ธํ ์๋ฆฌ์ฆ์ ์์น์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ํ๋๋ค.
๊ทธ๋ฐ๋ฐ ์๊ณ์ด ๋ฐ์ดํฐ์์๋ ์์ธก์ ์ ์ฉํ๋ timestamp์ localํ ์ ๋ณด๊ฐ ๋งค์ฐ ์ค์ํ๋ฉฐ, hierarchical timestamps (week, month, year)์ agnostic timestamps (holidays and events)๊ฐ์ globalํ ์ ๋ณด๋ค ๋ํ ๋ถ์์ ์์ด์ ๋งค์ฐ ์ ์ฉํ๋ค.
์ด์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ด๋ฌํ ์์น์ ๋ณด๋ค์ ๋ณด์ ํ๊ธฐ ์ํด ์ธํ ์๋ฒ ๋ฉ์ ์์ด์ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ๊ณ ์๋ค.
๊ทธ ๋ฐฉ๋ฒ๋ค์๋ ๋จผ์ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ณ ์ ๋ ์์น ์ ๋ณด๋ฅผ ๋ฃ์ด์ฃผ๋ ๋ฐฉ์์ธ fixed positional encoding๊ณผ channel projection, ํ์ต๊ฐ๋ฅํ ๋ ์ด์ด๋ฅผ ๋ฐฐ์นํ ์๋ฒ ๋ฉ, ๋์๊ฐ convolution layer๋ฅผ ๋ฐฐ์นํ๋ ๋ฐฉ์ ๋ฑ ๋งค์ฐ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ธํ ์๋ฆฌ์ฆ์ ์์น์ ๋ณด๋ฅผ ๋ฃ์ด์ฃผ๊ณ ์๋ค.
3. Self-attention schemes
ํธ๋์คํฌ๋จธ์ ํต์ฌ์ธ ์ด self-attention์ ์ผ๋ จ์ ๊ฐ๋ค ์ฌ์ด์ sementicํ dependency๋ฅผ ๋ฝ์๋ด๋ ๊ธฐ๋ฅ์ ํ๋ค.
๊ทธ๋ฐ๋ฐ, ์ด๋ฌํ ๋ฐฉ์์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ธํ๊ธธ์ด์ 2๋ฐฐ์ ์ด๋ฅด๋ ๋ณต์ก๋๋ฅผ ๊ฐ๋ ๋ถ์์ฉ์ด ์๋ค.
์ด์ ๋ง์ ์ฐ๊ตฌ์๋ค์ ๊ทธ๋ฌํ quadratic complexity๋ฅผ ํด์ํ๊ณ ํจ์จ์ฑ์ ๊ฐ์ ํ๊ณ ์ ์ฌ๋ฌ ์์ด๋์ด๋ฅผ ๊ตฌ์ฒดํ์์ผฐ๋ค.
- Introduce Sparsity Bias
LogTrans, Logsparse mask๋ฅผ ํตํด ์ ํ ์ดํ ์ ์ ๋์์ ์ถ์ํ์ฌ ๋ณต์ก๋๋ฅผ ๋ฎ์ท๋ค.
Pyraformer, ํผ๋ผ๋ฏธ๋ ํํ๋ก ์ดํ ์ ์ ์ํํ์ฌ ๊ณ์ธต์ ์ผ๋ก multi-scale temporal dependencies๋ฅผ ์ถ์ถํ์ฌ ๋ณต์ก๋๋ฅผ ๋ฎ์ท๋ค.
- Introduce the low-rank property
Informer, ์ค์๋๊ฐ ๋์ ํฌ์ธํธ๋ค์ ๊ณ์ฐํ์ฌ ์ด๋ค์ ๋์์ผ๋ก ์ดํ ์ ์ ์งํํ๋ ProbSparse self-attention์ ๋์ ํ์๋ค.
FEDformer, random-selection๊ณผ ํจ๊ป, Fourier enhanced block, a wavelet enhanced block์ ๋์์ธ ํ์๋ค.
(#์ด ๋ ผ๋ฌธ์์๋ ์ด์ ๋๋ก ๋ชจ๋ธ์ ๋งค์ปค๋์ฆ์ ๊ฐ๋จํ "์๊ฐ"๋ง ํ๊ณ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ฐพ์๋ณด์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค. ์ฐจํ์ ๋ ๋ ผ๋ฌธ ๋ํ ๋ฆฌ๋ทฐํ ์์ ์ ๋๋ค.)
์ถ๊ฐ๋ก Autoformer๋ ๊ธฐ์กด self-attention์์์ point-wise๋ฅผ ๋์ฒดํ series-wiseํ ๋ฐฉ์์ผ๋ก dependency๋ฅผ ๋ฝ์๋ด๋ Auto-Correlation ๋งค์ปค๋์ฆ์ ๋์์ธ ํ์๋ค.
- Decoders
Vanilla ํธ๋์คํฌ๋จธ์ ๋์ฝ๋๋ ๊ฒน๊ฒน์ด ์์ธ ๋ ์ด์ด ์ธต์ ์ง๋ autoregressiveํ ๋ฐฉ์์ผ๋ก ์์ํ ๊ฐ์ ํ๋์ฉ ์ฐ์ถํ๋ค.
์ด๋ฌํ IMS ๋ฐฉ์์ ์์ ์ธ๊ธํ๋๋ก ์ค๋ฅ๊ฐ ์ถ์ ๋๋ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ฉฐ ์๋ ๋ํ ๋๋ ค์ง๋ ๋ฌธ์ ๊ฐ ์๋ค.
์ด์ ์ฌ๋ฌ ๋ณํ ๋ชจ๋ธ๋ค์ IMS๊ฐ ์๋ DMS ๋ฐฉ์์ผ๋ก LTSF๋ฅผ ๋ค๋ฃจ๋๋ก ํ์๋ค.
์๋ฅผ ๋ค์ด, Autoformer๋ ์๊ณ์ด์ ์ถ์ธ์ ๊ณ์ ๋ณ๋์ผ๋ก ๋ถํดํ๊ณ ๊ณ์ ๋ณ๋์ dependency๋ฅผ auto-correlation ๋งค์ปค๋์ฆ์ ํตํด ๋ฝ์๋ธ ๋ค, ๋ง์ง๋ง ์ต์ข ์์ธก์ ์์ด์ ์ถ์ธ์ ๊ณ์ ๋ณ๋์ ํฉ์น๋ ์์ผ๋ก ๋ฏธ๋์ ์์ธก๊ฐ์ ํ๋ฒ์ ์ฐ์ถํ๋ค.
ํธ๋์คํฌ๋จธ์ ์ ์ ๋ ์ธํ ์๋ฆฌ์ฆ ๊ฐ์ sementicํ ์๊ด๊ด๊ณ๊ฐ ์์ด์ผ ํ๋ค๋ ๊ฒ์ด๋ค.
๊ฒ๋ค๊ฐ ๊ทธ ๊ด๊ณ๋ฅผ ๋ฝ์๋ด๋ ์ ํ ์ดํ ์ ์ permutation- invariant(์์ด๋ถ๋ณ์ )ํ๊ธฐ ๋๋ฌธ์, ์ธํ์ ์ถ๊ฐ๋ก ๋ฃ์ด์ค positional encoding ๊ฐ์ ์ ์ ์ผ๋ก ์์กดํ๊ฒ ๋๋ค.
๊ทธ๋ฐ๋ฐ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃจ๋ ์๊ณ์ด์ raw ๋ฐ์ดํฐ๋ฅผ ์๊ฐํด๋ณธ๋ค๋ฉด ๊ทธ ๋ฐ์ดํฐ๋ค ์ฌ์ด์ ์ด๋ ํ sementicํ ํ๋ฆ์ด๋ ํน์ ๋ฐ๋ณต๋๋ ๋ฌธ๋งฅ์ ์ฐพ์๋ณด๊ธฐ๊ฐ ์ด๋ ต๋ค. ๋ํ, ์๋ฌด๋ฆฌ ๊ธฐ์ ์ ์ธ positional encoding์ ์ ์ฉํ๋ค๊ณ ํ ์ง๋ผ๋ ์์์ ์๊ด์์ด ๋์ํ๋ ์ ํ ์ดํ ์ ์ ๊ทธ ์๊ฐ์ ์ธ ์ ๋ณด๋ฅผ ์๊ฒ ๋๋ค.
๊ฒฐ๊ตญ ์๊ณ์ด ๋ฐ์ดํฐ์์ ๊ฐ์ฅ ์ค์ํ ์์ฑ ๋ด์ง๋ ์ ๋ณด๋ ์๊ณ์ด์ด ์๋ ๊ฐ์ง๊ณ ์๋, ๋ฐ์ดํฐ๊ฐ ์์ฑ๋ order ๊ทธ ์์ฒด๋ผ๊ณ ํ ์ ์๋ค.
์ฐธ์กฐ)
https://seollane22.tistory.com/20
[Paper Review] Attention Is All You Need(2017) #Transformer
"Attention is all you need", ์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด seq to seq ๋ชจ๋ธ์ ํ๊ณ์ ์ ๋ณด์ํ๊ณ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ Transformer ๋ชจ๋ธ์ ๋ฑ์ฅ์ ์๋ฆฐ ๊ธฐ๋ ๋น์ ์ธ ๋ ผ๋ฌธ์ด๋ค. ํ์ฌ NLP์ ๊ฐ์ด seq to seq ํํ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ
seollane22.tistory.com
https://seollane22.tistory.com/21
[Paper Review] Transformers in Time Series: A Survey (2022)
์ด ๋ ผ๋ฌธ์ ์๊ณ์ด ๋ถ์์ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ฉํด์จ ์ฐ๊ตฌ๋ค์ ์ ๋ฆฌํ ๋ ผ๋ฌธ์ด๋ค. ์๊ณ์ด ๋ถ์์ NLP์ ํจ๊ป sequential task์ ๋ํ์ ์ธ ๋ถ์ผ ์ค ํ๋๋ก, ๊ธ์ต, ์ ์กฐ์ , ๋ง์ผํ ๋ฑ ๋ค์ํ ๋น์ฆ๋์ค ๋๋ฉ์ธ
seollane22.tistory.com
4. An Embarrassingly Simple Baseline
์ด ๋ ผ๋ฌธ์ ์ ์๋ค์ ์์ ๋ ผ์ํ๊ณ ์ฃผ์ฅํ ์์ ๋ค์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ฌ๋ฌ ์คํ์ ์งํํ์๋ค.
๋จผ์ ์ ์๋ค์ ๊ทธ๋์์ baseline๋ชจ๋ธ๋ค์ด IMS์ ์ํ ์์ธก์ ์ํํ๊ธฐ ๋๋ฌธ์ LTSF์์ ํธ๋์คํฌ๋จธ์ ์ฑ๋ฅ์ ์ ๋๋ก ๋น๊ตํด๋ณผ ์ ์์๋ค๋ ๊ฐ์ค์ ์ ์ํ๋ฉฐ DMS ๋ฐฉ์์ ์ ์ฉํ ์คํ์ ์งํํ ํ์์ฑ์ ์ฃผ์ฅํ๋ค. (IMS๋ LTSF์์ DMS๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๋ค.)
์ด์ ๊ทธ๋ค์ ์๋ก์ด baseline ๋ชจ๋ธ์ ์ ์ํ๋๋ฐ, ๊ทธ ๊ตฌ์กฐ๋ ์๋์์ ํ์ธํ ์ ์๋ฏ์ด ๋ค๋ฅธ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ๋นํด ํฐ๋ฌด๋ ์์ด ๋ณด์ผ ์ ๋๋ก ๋จ์ํ๋ค.
์๋ก์ด baseline ๋ชจ๋ธ์ธ LTSF-L์ ์ ๋ฌ ๋จ์ํ ๋ ์ด์ด๋ฅผ ํ๋๋ง ๋ฐฐ์นํ ๋ชจ๋ธ์ด๋ค.
์ด๋ vanilla ANN๊ณผ ์ ์ฌํ ๊ตฌ์กฐ๋ก, ๊ณผ๊ฑฐ ์๊ณ์ด์ ํตํด ์ง์ ์ ์ผ๋ก ๋ฏธ๋๋ฅผ ์์ธกํ๋ ๊ฐ๋จํ ํ๊ท๋ชจํ์ด๋ค.
์ด ๋ชจ๋ธ์ ๋ค๋ณ๋ ์์ธก์ ์์ด์ ๋ณ์๊ฐ ๊ฐ์ค์น๋ฅผ ๊ณต์ (share)ํ ๋ฟ, ์ด๋ ํ spatial correlation(๊ณต๊ฐ์ ์๊ด๊ด๊ณ)์ ๋ชจ๋ธ๋งํ์ง ์์๋ค.
๋จ, ์ด ๋ชจ๋ธ์ ์ค์ํ์ ๋ค์ํ ๋ณ๋์ ํฌํจํ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ(์๋์ง, ์ ๋์ธ๊ตฌ, ํ์จ ๋ฑ)์ ์ ์ ํ ์ ์ฉํ๊ธฐ ์ํด ์ด ๋ชจ๋ธ์ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ๋ ์ข ๋ฅ๋ก ๋ณํํ์๋ค.
- DLinear
์ด ๋ชจ๋ธ์ Decomposition์ ์ด์ฉํ๋ค. Decomposition์ ๋งค์ปค๋์ฆ์ autoformer์์ ์ ์๋ ๊ฒ๊ณผ ๊ฐ์๋ฐ, ๋จผ์ raw ๋ฐ์ดํฐ๋ฅผ ์์๋ถํด๋ฅผ ํตํด trend์ reminder(seasonal) ๋ณ๋์ผ๋ก ๋ถ๋ฆฌํ๋ค. ์ดํ ๊ฐ ์์์ ๋ ์ด์ด๋ฅผ ํ๋์ฉ ๋ฐฐ์นํ์ฌ ๊ฐ ๋ณ๋์ ๋ฐ๋ก ํ์ตํ ๋ค ๋ง์ง๋ง์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํฉ์น๋ค. ์ด๊ฒ์ ๋ถ๋ช ํ ํธ๋ ๋๊ฐ ์์ ๋ ๊ทธ ์ฑ๋ฅ์ ๊ฐํํ ์ ์๋๋ก ์ค๊ณํ ๊ฒ์ด๋ค.
- NLinear
์ด ๋ชจ๋ธ์ ์ธํ ์๋ฆฌ์ฆ๋ฅผ ๊ทธ ์ธํ์ ๋ง์ง๋ง ๊ฐ์ผ๋ก ๋ชจ๋ ๋นผ์ค๋ค. ๊ทธ๋ ๊ฒ ์ผ์ข ์ ์ฐจ๋ถ์ ์งํํ ํ ๋ ์ด์ด๋ฅผ ํต๊ณผ์ํค๋ฉฐ ๋ง์ง๋ง ์ต์ข ์์ธก๋จ๊ณ์์ ๋ค์ ๋ง์ง๋ง ๊ฐ์ผ๋ก ๋ํด์ฃผ์ด ์์ํ์ ์์ฑํ๋ค.์ด๋ฌํ ๊ณผ์ ์ ์ธํ ์๋ฆฌ์ฆ/์ํ์ค์ ๋ํ ๊ฐ๋จํ ํ์คํ(์ ๊ทํ)์ด๋ฉฐ, ์ด๋ ์ธํ์ด ๋ฐ์ดํฐ ์ ์์์ ๋ถํฌ๊ฐ ๊ธ๊ฒฉํ๊ฒ ๋ณํ๋ ์ง์ ์ ์ ์ ํฉํ๋๋ก ํ๊ธฐ ์ํจ์ด๋ค.
5. Experiments
- Experimental Settings
๋ฐ์ดํฐ๋ ์ค์ํ์ ์ฌ๋ฌ ๋๋ฉ์ธ์์ ๋ค์ํ ๋ณ๋์ ๊ฐ์ง ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๋ค์ด๋ค. ์ด๋ค์ ๋ชจ๋ ๋ค๋ณ๋ ์๊ณ์ด๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
{ETT (Electricity Transformer Temperature)(ETTh1, ETTh2, ETTm1, ETTm2)} / Traffic / Electricity / Weather / ILI / Exchange Rate / *h=hour, m=minute
ํ๊ฐ์งํ๋ MAE, MSE๋ฅผ ์ด์ฉํ์๋ค.
๋น๊ต ๋ชจ๋ธ๋ก๋ SOTA๋ฅผ ๋ฌ์ฑํ๋ ํธ๋์คํฌ๋จธ ๋ณํ ๋ชจ๋ธ๋ค์ ์ด์ฉํ์๊ณ , baseline ๋ชจ๋ธ๋ก๋ LTSF-L ๋ชจ๋ธ๊ณผ naive DMS ๋ฐฉ๋ฒ์ธ "Closest Repeat (Repeat)"์ ์๋กญ๊ฒ ์ถ๊ฐํ์๋ค. "Closest Repeat (Repeat)"์ look-back window(์ธํ ์๋ฆฌ์ฆ)์ ๋ง์ง๋ง ๊ฐ์ ๋จ์ํ๊ฒ ๋ฐ๋ณตํ๋ ๋์ด๋ธํ DMS ๋ฐฉ์์ด๋ค.
*FED-former๋ ๋ ๊ฐ์ง ๋ณํ์ด ์๋๋ฐ, ๊ทธ ์ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ FEDformer-f via Fourier transform์ ์ด์ฉํ์๋ค.
- Comparison with Transformers
multivariate forecasting
๋ค๋ณ๋ ์์ธก์ ์์ด์, ๋๋๊ฒ๋ LTSF-Linear ๋ชจ๋ธ์ด SOTA์ ์ฑ๋ฅ์ ๋ณด์ด๋ FEDformer๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ๊ทธ ์ฆ๊ฐํญ์ 20%~50%์ด๋ฉฐ ๊ฑฐ์ ๋๋ถ๋ถ์ ์ํฉ์์ ๋ชจ๋ ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์๋ค. (์ฌ์ง์ด LTSF-Linear์๋ ๋ณ์๊ฐ ์๊ด๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ์ง ์์๋ค.)
์ ๊ฒฐ๊ณผ๋ ๊ฐ์ ๋ค์ํ ๋ณ๋๋ค์ ๋ด๊ณ ์๋ ๋ชจ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์์ ์ผ์ด๋ ๊ฒฐ๊ณผ์ด๊ธฐ ๋๋ฌธ์ LTSF-Linear ๋ชจ๋ธ์ด distribution shift๋ ์ถ์ธ, ๊ณ์ ์์์ ํน์ง์ ๋ ์ ํฌ์ฐฉํ๊ณ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
์ด์ ๋ง์ฐฌ๊ฐ์ง๋ก, ๋ ผ๋ฌธ์ appendix์ ํฌํจ๋ ๋จ๋ณ๋ ์์ธก์์๋ LTSF-Linear ๋ชจ๋ธ์ด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋ฐ์ด๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.
์ ๋ฆฌํ์๋ฉด, ํ์กดํ๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ๊ทธ ์ฑ๋ฅ๊ณผ ํจ์จ์ ์ํด ๋งค์ฐ ๋ณต์กํ ๊ตฌ์กฐ๋ก ๋ณํ๋์์ง๋ง ์ ์คํ๊ฒฐ๊ณผ๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ด ๋ถ๋ช ํ ํ๊ณ์ ์ ๊ฐ์ง๊ณ ์์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ถ๊ฐ๋ก, ์ ์คํ์ ๋ ํ๋์ ๋งค์ฐ ํฅ๋ฏธ๋ก์ด ์์ฌ์ ์ ์ ์ํ๊ณ ์๋ค.
Exchange-rate ๋ฐ์ดํฐ์์ naive repeat๋ชจ๋ธ์ด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋ฌด๋ ค 45% ์ ๋์ ์ฆ๊ฐํญ์ผ๋ก ์๋ํ์๋ค.
์ด๋ ์ฌ๋ ๊ฒฝ์ ์งํ์ ๋ง์ฐฌ๊ฐ์ง๋ก ํ์จ์ด seasonalํ ๋ณ๋๋ณด๋ค ๋ถ๋ช ํ trend์ ํฌ๊ฒ ์ํฅ์ ๋ฐ๋๋ค๋ ๊ฒ์ ๊ฐ์ํ์ ๋,
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ํฐ trend๊ฐ ์๋๋ผ ์ง์ฝ์ ์ธ ๋ณ๋(์ด์ฉ๋ฉด ์ฝํ ๊ณ์ ์์ธ ํน์ ๋ ธ์ด์ฆ)์ ๊ณผ์ ํฉ ๋์๋ค๊ณ ๋ณผ ์ ์๋ค.
์ด๋ ์์ธกํ๋ฆ์ ์๊ฐํํ ๊ทธ๋ํ์์ ๋ถ๋ช ํ๊ฒ ๋๋ฌ๋ฌ๋ค.
![](https://blog.kakaocdn.net/dn/leaNm/btr7fl4SQF0/QpZbYzJqQ6efoNfw7ZqeM1/img.png)
(b)๋ฅผ ๋ณด๋ฉด, ๋นจ๊ฐ์ ์ค์ ๊ฐ์ ๋นํด ๋ค๋ฅธ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ์ ํ ์ด๋ ํ ์ถ์ธ๋ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ๊ณ ์๋ค. DLinear ๋ํ ์๋ฒฝํ๊ฒ ์ค์ ๋ณ๋์ ๋ฐ๋ผ์ก๊ณ ์์ง๋ ์์ง๋ง, ์ค์ ์ ๊ฐ์ฅ ์ ์ฌํ ์ถ์ธ๋ฅผ ๊ทธ๋ ค๋๋ค. (200์์ 250์ฌ์ด์ ์ค์ ์คํ์ดํฌ๋ฅผ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ ๊ฒ์ DLinear๊ฐ ๊ณผ์์ ํฉ๋์์ ๊ฐ๋ฅ์ฑ ๋ํ ์์ฌํ๊ณ ์๋ ๊ฒ์ด๋ค.)
๋ง์ฐฌ๊ฐ์ง๋ก ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋น๋จ (b)๋ฟ๋ง์ด ์๋๋ผ ๊ฐ๊ฐ ๋ค๋ฅธ temporal pattern์ ๋ณด์ด๋ (a),(c)์์๋ ๋๋ฌ๋ฌ๋๋ฐ, ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ์ค์ ๋ณ๋์ scale๊ณผ bias๋ฅผ ์ ํ ๋ฐ๋ผ์ก์ง ๋ชปํ๊ณ ์์๋ค.
- More Analyses on LTSF-Transformers
๋ ผ๋ฌธ์ ์ ์๋ค์ ์์ ์์ , ์ง์ ์คํ๊ณผ ๋๋ถ์ด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ํจ๊ณผ์ฑ๊ณผ ํจ์จ์ฑ์ ๋ ๋ฉด๋ฉธํ ๊ฒ์ฆํ๊ณ ์ ์ถ๊ฐ์ ์ธ ์คํ๋ค์ ์งํํ์๋ค. ์ด๋ค์ ๊ฐ ์คํ์ ์ฃผ์ ๋ก์ ํธ๋์คํฌ๋จธ์ LTSF์ ๋ํ ์๋ฌธ์ ๋์ง๊ณ ๊ทธ์ ๋ํ ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๋ ์์ผ๋ก ์ด์ผ๊ธฐ๋ฅผ ์ด์ด๊ฐ๋ค.
1. Can existing LTSF-Transformers extract temporal relations well from longer input sequences?
(ํ์ฌ๊น์ง ์ ์๋ ํธ๋์คํฌ๋จธ๊ฐ ๊ธด ์ธํ ์ํ์ค์ ์๊ฐ์ ๊ด๊ณ๋ฅผ ์ ์ถ์ถํ ์ ์์๊น?)
์ฅ๊ธฐ์ ์ธ ๋ณ๋์ ๋ฐ๋ผ๊ฐ์ผ ํ๋ LTSF์์ ๊ทธ ์ ํ๋๋ Look-Back Window(์๋์ฐ)์ ์ฌ์ด์ฆ๊ฐ ๋งค์ฐ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํ๋ค.
์ด๋ ํ์ต์ ์์ด์ ์ผ๋ง๋ ๋จผ ์์ ์ ์ ๋ณด๋ฅผ ํ์ตํ ์ง๋ฅผ ๊ฒฐ์ ํ๋๋ฐ, ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๊ธธ๊ฒ, ๋ง์ด ๋ฐฐ์ด๋งํผ LTSF๋ฅผ ์ ์ํํด์ผ ํ๋ ๊ฒ์ด ์์์ ์ด๋ค. (๋จผ ์์ ์ ์์ธกํ๋ ค๋ฉด ๋น์ฐํ ๋จผ ๊ณผ๊ฑฐ๋ฅผ ํ์ตํด์ผ ํ ๊ฒ์ด๋ค.)
๊ทธ๋ฌํ ๋งฅ๋ฝ์์ ์ ์คํ๊ฒฐ๊ณผ๋ 720step์ ์์ธกํ๋ ๋ฐ ์์ด์ ๊ทธ Look-Back Window๋ฅผ ์กฐ๊ธ์ฉ ๋๋ ค๊ฐ๋ฉฐ MSE์ ๋ณ๋์ ์๊ฐํํ ๊ฒฐ๊ณผ์ด๋ค. ๋์ ๋๋ ๊ฒฐ๊ณผ๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ๊ทธ Look-Back Window์ ํฌ๊ธฐ์ ๊ด๊ณ์์ด ์ผ์ ํ ์ฑ๋ฅ์ ๋ณด์๋ค๋ ๊ฒ์ด๋ค. (Informer๋ ์คํ๋ ค ๋จผ ๊ณผ๊ฑฐ๋ฅผ ๋ฐฐ์ธ์๋ก ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค.) ๊ทธ์ ๋ฐํด LTSF-L๋ชจ๋ธ๋ค์ ๋ชจ๋ ๋ฉ๋ฆฌ ๋ฐฐ์ธ์๋ก ๋ ์ ์์ธกํ๋ค๋ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค.
์ ๋ฆฌํ์๋ฉด
1. ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ์ด๋ ํ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณ๋์ ์ ์ฐํ๊ฒ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ ๋ ธ์ด์ฆ์ ๊ณผ์ ํฉ๋์๋ค.
2. LTSF-L ๋ชจ๋ธ๋ค์ ๊ธธ๊ฒ ๋ฐฐ์ธ์๋ก ๊ธธ๊ฒ ์ ์์ธกํ๋ค.
2. What can be learned for long-term forecasting?
(๊ธด ์์ธก์์ ๋ฌด์์ ํ์ตํ๋ ๊ฐ)
๋ ผ๋ฌธ์ ์ ์๋ค์ ํธ๋์คํฌ๋จธ๊ฐ long-term์ ์์ธก์ ์์ด์ ๋ฌด์์ ํ์ตํ๋ ์ง, ๋ ์ข์ ์ฑ๋ฅ์ ์ํด ๋ฌด์์ ํ์ตํด์ผ ํ๋ ์ง๋ฅผ ํ์ธํ๊ณ ์ ํ์๋ค.
์์์ ๋์จ ๊ฒฐ๊ณผ ๊ทธ๋ํ๋ฅผ ์ดํด๋ณด๋ฉด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ด ์๋์ฐ ์ฌ์ด์ฆ์ ๋ฌด๊ดํ๊ฒ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
์ด์ ์ ์๋ค์ ์๋์ฐ ์ฌ์ด์ฆ๊ฐ ๋จ๊ธฐ์์ธก์์ ํฐ ์ญํ ์ ํ ์ง๋ ๋ชฐ๋ผ๋, "์ฅ๊ธฐ์์ธก์ ์์ด์๋ ์๋์ฐ ์ฌ์ด์ฆ๊ฐ ์๋ ์ด๋ ํ ์ถ์ธ(trend)๋ ์ฃผ๊ธฐ(periodicity)๋ฅผ ์ ๋๋ก ํ์ ํด์ผ ํ๋ค"๋ ๊ฐ์ค์ ์ธ์ ๋ค.
![](https://blog.kakaocdn.net/dn/leI5s/btr7pTHX84w/KXfOGEwhpYCxBCcDkgphsK/img.png)
๊ทธ๋ค์ ํ์ฌ SOTA ํธ๋์คํฌ๋จธ๋ค์ FEDformer์ Autoformer๋ฅผ ๋๊ณ ์์ธก ์์ ์์ ๊ฐ์ฅ ๊ฐ๊น์ด 96 time step์ ์ธํ์ผ๋ก ๋ Close์ ๊ทธ 96์์ ๋ณด๋ค ๋ ๋ค์ ์๋ 96์์ ์ ์ธํ์ผ๋ก ๋ Far๋ผ๋ ์กฐ๊ฑด์ ์ค์ ํ์ฌ ์ฑ๋ฅ์ ํ ์คํธํ๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๋ ๋ชจ๋ธ์ ๊ทธ "์ธํ, ์ฆ, ์๋์ฐ๊ฐ ์ด๋์์ ์ ์๋ ์ง", "์ต๊ทผ ๊ฐ์ ๋ฐ์ํ๋ ์ง ์๋ ์ง(์ต๊ทผ์ ํธ๋ ๋๋ฅผ ๋ฐ์ํ๋ ์ง)" ์ ๋ฌด๊ดํ๊ฒ ์ด๋์ ๋ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ค์ ๋ก ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด Close์ Far์ ์ฐจ์ด๊ฐ ํฌ์ง ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
์ด๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ด ์์ ์ ๋ฐ๋ฅธ ํธ๋ ๋๋ฅผ ๋ฐ์ํ์ง ์๊ณ ๊ทธ์ ์๋์ฐ์์ ์ ์ฌํ series๋ง์ ๋ฝ์๋ด๋ ๊ฒ์ ๊ทธ์น๋ค๋ ๊ฒ์ ์์ฌํ๋ค.
์ ์๋ค์ ํธ๋์คํฌ๋จธ์ ๋๋ฌด ๋ง์ ๋ชจ์๊ฐ ์คํ๋ ค ๊ณผ์ ํฉ์ ์ผ์ผ์ผ Trend์ Periodicity์ ํฐ ํ๋ฆ์ ์ก์ง ๋ชปํ๋ค๊ณ ์ด์ผ๊ธฐํ๋ค.
3. Are the self-attention scheme effective for LTSF?
(ํธ๋์คํฌ๋จธ์ ์ ํ-์ดํ ์ ๊ตฌ์กฐ๊ฐ ๊ณผ์ฐ LTSF์์ ํจ๊ณผ์ ์ผ๊น?)
์ด๋ฒ์๋ ๊ณผ์ฐ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ด ๊ฐ์ง๋ ์ ํ-์ดํ ์ ๊ณผ ๊ทธ ๋ณต์กํ ๋์์ธ๋ค์ด LTSF์์ ํจ๊ณผ์ ์ธ ์ง, ๊ทธ๊ฒ์ ๊ฒ์ฆํ๋ค.
์ด๋ฅผ ์ํด ์ ์๋ค์ ํฅ๋ฏธ๋ก์ด ์คํ์ ๋์์ธํ์๋๋ฐ, ๊ทธ๊ฒ์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ ์ค ํ๋์ธ Informer์ ๊ตฌ์กฐ๋ฅผ ๋์ฑ ๊ฐ๋จํ๊ฒ ์์ ํด๋๊ฐ๋ฉฐ ์์ธก ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒ์ด๋ค.
์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ ์ปฌ๋ผ์ผ๋ก ๊ฐ์๋ก ๋ชจ๋ธ์ด ๋์ฑ ๋จ์ํด์ง๋๋ฐ, ๋๋ฒ์งธ ์ปฌ๋ผ์ธ Att.-Linear ํํ๋ ๋จ์ํ ์ดํ ์ ๋ ์ด์ด๋ฅผ Linear ๋ ์ด์ด๋ก ๋์ฒดํ ๊ฒ์ด๊ณ , ๊ทธ ์ ์ปฌ๋ผ์ ์๋ฒ ๋ฉ ๋ ์ด์ด์ Linear ๋ ์ด์ด๋ง ๋จ๊ฒจ๋๊ณ FFN ๋ฑ ๋ค๋ฅธ ๋์์ธ์ ๋ชจ๋ ์ง์๋ฒ๋ฆฐ ๋จ์ํ ๋ชจ๋ธ์ด๋ค.
๊ทธ๋ฆฌ๊ณ ์ ๋ง ๋๋๊ฒ๋ ๊ทธ ๊ฒฐ๊ณผ๋ ๋์ฑ ๋จ์ํด์ง์๋ก ๋์ฑ ์ ํํด์ง๋ค๊ณ ๋งํ๋ค.
์ด์ ํธ๋์คํฌ๋จธ์ ํต์ฌ์ด๋ผ๊ณ ํ ์ ์๋ self - attention ๋ ์ด์ด๋ ๋ฌผ๋ก , ์ฌ๋ฌ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๋ณต์กํ ๋์์ธ์ ํจ๊ณผ์ ์ด์ง ์๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์๋ค.
4. Can existing LTSF-Transformers preserve temporal order well?
(๊ณผ์ฐ ํธ๋์คํฌ๋จธ๊ฐ ์๊ฐ์ ์ธ ์์๋ฅผ ์ ๋ณด์ ํ ์ ์์๊น?)
์๊ณ์ด์์ temporal order์ ์ค์์ฑ์ ์ค๋ช ์ด ํ์์์ ์ ๋์ด๋ค.
๊ทธ๋ฐ๋ฐ, self-attention์ ๊ทธ ์์ด ๋ถ๋ณ์ ์ด๊ณ ์์์ ๊ด๊ณ์์ด ๋์ํ๋๋ฐ, ์ด์ ์ ์๋ค์ ์๋ฌด๋ฆฌ positional encoding์ ํตํ ์๋ฒ ๋ฉ์ผ๋ก ์์น์ ๋ณด๋ฅผ ๋ฃ์ด์ค๋ค๊ณ ํ ์ง๋ผ๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ทผ๋ณธ์ ์ผ๋ก ๊ทธ temporal information์ ์์ ์ ๋ฐ์ ์๋ค๊ณ ๋งํ๋ค.
์ ๊ฒฐ๊ณผ๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ด ๊ทธ ์ธํ์ ์์์ ๋ฌด๊ดํ๊ฒ ๋์ํ๋ฉฐ temporal order๋ฅผ ์ ๋ณด์ ํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
shuf๋ ์ธํ ์๋ฆฌ์ฆ ์ ์ฒด๋ฅผ ๋๋คํ๊ฒ ์์ ๊ฒ์ด๊ณ , half-ex๋ ์ธํ์ ์ ๋ฐ์ผ๋ก ๋๋๊ณ ๊ทธ ์๊ณผ ๋ค๋ฅผ ๋๋คํ๊ฒ ๋ฐ๊พผ ๊ฒ์ ์๋ฏธํ๋ค.
์คํ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, Exchange ๋ฐ์ดํฐ ์ ์์ Linear ๋ชจ๋ธ์ ์๋ ๊ฐ์ง๊ณ ์๋ ์์๊ฐ ํผ์๋ ๋ ๊ฝค ํฐ ์ฑ๋ฅ ๊ฐ์๋ฅผ ๋ณด์๋ค. ๊ทธ์ ๋ฐํด ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๊ทธ ์ฑ๋ฅ์ ๋ณํ๊ฐ ๋งค์ฐ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ, ๋ ๋ถ๋ช ํ ์ฃผ๊ธฐ์ ๊ณ์ ์ ์ธ ๋ณ๋์ ๊ฐ์ง๋ ETTh1 ์ ์์๋ FED, Autoformer ๋ํ ํฐ ์ฑ๋ฅ๊ฐ์๋ฅผ ๋ณด์๋๋ฐ, ์ด๋ ์ ์ฌํ ์ฃผ๊ธฐ, ๊ณ์ ๋ณ๋์ ๊ฐ์ง๋ series๋ฅผ ์ถ์ถํ์ฌ ํฉ์น๋ ๋ ๋ชจ๋ธ์ ํน์ฑ์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ์ด๋ค. (๋ฐ์ดํฐ๋ฅผ ์์ผ๋ฉด ๊ทธ ์ฃผ๊ธฐ๋ ๊ณ์ ์ฑ์ด ์์ ํ ๋ฐ๋๊ฒ ๋๋ค.)
4. How effective are different embedding strategies?
(๊ฐ๊ฐ์ ๋ค๋ฅธ ์๋ฒ ๋ฉ ์ ๋ต๋ค์ ์ผ๋ง๋ ํจ๊ณผ๊ฐ ์์๊น?)
์ ์๋ค์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ๊ณตํต์์์ธ position, timestamp embedding๋ค์ ํจ๊ณผ๋ฅผ ํ์ธํ๊ณ ์ ํ์๋ค.
์คํ์ํฉ์ ๊ฐ ๋ชจ๋ธ์ Embedding์ ๊ฐ๊ฐ ๋ค๋ฅด๊ฒ ์ ์ฉํ์ฌ ๊ทธ ์์ธก ์ฑ๋ฅ์ ํ ์คํธํ๋ ๊ฒ์ผ๋ก ๋์์ธํ๋ค.
์กฐ๊ฑด ์ค wo๋ without์ ์ฝ์๋ก position๊ณผ timestamp๋ฅผ ๊ฐ๊ฐ ์ ์ธํ ์๋ฒ ๋ฉ๊ณผ ์ด ๋์ ํจ๊ป ์ ์ธํ ์๋ฒ ๋ฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
Informer๋ ํนํ position์ด ์๋ ์๋ฒ ๋ฉ์์ ๊ทธ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ก๊ณ , timestamp๊ฐ ์๋ ์๋ฒ ๋ฉ์์๋ ๊ทธ ์ธํ์ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ์ ์ง์ ์ผ๋ก ์ฑ๋ฅ์ด ๊ฐ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๊ฒฐ๊ณผ๋ฅผ ๋๊ณ Informer๊ฐ ํ๋์ time step์ ํ๋์ ํ ํฐ์ผ๋ก ์ด์ฉํ๊ธฐ ๋๋ฌธ์ ๊ทธ temporalํ ์ ๋ณด๋ฅผ ๋ฃ์ด์ฃผ๋ ๊ฒ์ด ํ์์ธ ๊ฒ์ ๊ธฐ์ธํ ๊ฒฐ๊ณผ๋ผ๊ณ ์ธ๊ธํ๋ค.
๋ฐ๋ฉด FED, Autoformer๋ ๋ชจ๋ ํ๋์ time step์ด ์๋ ์ผ๋ จ์ timestemp๋ฅผ ์ ๋ ฅํ๊ธฐ ๋๋ฌธ์ postition ์ ๋ณด๊ฐ ์์ด๋ ์ฑ๋ฅ์ ๋ณํ๊ฐ ํฌ๊ฒ ๋จ์ด์ง์ง ์์๋ค.
5. Is training data size a limiting factor for existing LTSF- Transformers?
(ํ์ต ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์ ๋ง๋ก ํธ๋์คํฌ๋จธ์ LTSF์ ํ๊ณ์ ์ผ๊น?)
ํน์๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๋ฎ์ ์ฑ๋ฅ์ ํ์ต ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์ถฉ๋ถํ ํฌ์ง ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋งํ๋ค.
์ฌ์ค ํ์ต๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ ๋น์ฐํ ํ์ต์ ํตํ ์์ธก ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ด ์ฌ์ค์ด๋ค.
๊ทธ๋ฌ๋ NLP์ CV ๋ถ์ผ์ ๋ฌ๋ฆฌ ์๊ณ์ด ๋ฌธ์ ๋ ๊ทธ ์๊ฐ์ ๋ฐ๋ฅธ ์ผ๋ จ์ ๊ธฐ๋ก์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ๋งค์ฐ ์ ํ์ ์ด๋ค.
![](https://blog.kakaocdn.net/dn/bE6o2Z/btr7R4NBIwu/HsQHMdOPSwmrO69bGSX750/img.png)
์ด์ ์ ์๋ค์ ์์ ๊ฐ์ ์คํ์ ํตํด traffic ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ฅผ ๋ฌ๋ฆฌํ์ฌ ์์ธก ์ฑ๋ฅ์ ๋น๊ตํ์๋ค.
๋จผ์ , ori๋ ๊ธฐ์กด traffic ๋ฐ์ดํฐ์ full set์ผ๋ก, ์ด 17,544๊ฐ์ timestep(hour)์ ๊ฐ์ก๋ค. ๋ฐ๋ฉด, ๋์กฐ๊ตฐ์ธ short๋ ์ ์ฒด timestep์ 1๋ ์ ์๊ฐ์ธ 8,760์ผ๋ก ์ค์๋ค.
๊ทธ ๊ฒฐ๊ณผ๋ ์ธ์์ ์ด๊ฒ๋ ์คํ๋ ค timestep์ ์ค์ธ short๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๊ฒฐ๊ณผ๊ฐ 1๋ ์น ๋ฐ์ดํฐ๊ฐ ๋ ๋ถ๋ช ํ ํจํด ๋ฑ์ ํน์ง๋ค์ ๊ฐ์ก๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณด์๋ค. ์ด์ ์ ์๋ค์ ์ ์ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ํค๋๊ฒ ์คํ๋ ค ๋ ์ข๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ ์ ์ด๋ LTSF์์ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ํํ๋ ์์๋ ์๋๋ผ๊ณ ๊ฒฐ๋ก ์ ๋ด๋ฆฐ๋ค.
6. Is efficiency really a top-level priority?
(์ ๋ง๋ก "ํจ์จ์ฑ"์ด ๊ฐ์ฅ ๋์ ์ฐ์ ์์์ธ ๊ฒ์ด ๋ง๋๊ฐ?)
์ด๋ ๋ง์ง๋ง ์คํ์ผ๋ก ๊ทธ๋์์ ํธ๋์คํฌ๋จธ ๋ณํ ๋ชจ๋ธ๋ค์ด ์ ๋ง๋ก ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ์ง๋ฅผ ๊ฒ์ฆํ๋ค.
๋ณํ ๋ชจ๋ธ๋ค์ vanilla transformer์ quadratic complexity๋ฅผ ๊ฐ์ ํด์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๋ฉด์ ์ฌ๋ฌ ์์ด๋์ด๋ฅผ ์ ์ฉํด์๋ค.
์ด์ ์ฌ๋ฌ ๋ชจ๋ธ์ด ์ด๋ก ์ ์ผ๋ก ๊ทธ ์๊ฐ, ๋ฉ๋ชจ๋ฆฌ์ ๋ณต์ก๋๋ฅผ ๊ฐ์ ํ ๊ฒ์ ์ฆ๋ช ํ์๋๋ฐ, ๊ณผ์ฐ ์ค์ ๋ก ๋ถ๋ช ํ๊ฒ ์ด๋ฌํ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง๋ ์ง๋ฅผ ํ์ธํ ํ์๊ฐ ์๋ค.
1. ์ค์ ๋ก ๊ทธ ์ด๋ก ์ ์ธ ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ด ๊ตฌํ๋๋๊ฐ
2. ์ฑ๋ฅ์ด ํฌ๊ฒ ์ข์์ง ์ค๋๋ ์ GPU์์ ๊ทธ ๋ฉ๋ชจ๋ฆฌ ๋ณต์ก๋๊ฐ ์ ๋ง ์ค์ํ ์ด์์ธ๊ฐ
![](https://blog.kakaocdn.net/dn/dttftZ/btr7MWcdYej/kMpM6SP18kj6ZYxPuGM1H1/img.png)
์ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ์์ ๋ ๊ฐ์ง ์๋ฌธ์ ๋ํ ๋ต์ ๋ค์๊ณผ ๊ฐ๋ค.
1. ์ค์ ๋ก ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์๊ฐ, ํจ์จ์ฑ ์ธก๋ฉด์์ ํฐ ๊ฐ์ ์ ์ด๋ฃจ์ง ๋ชปํ๋ค. Vanilla Transformer์ธ "TransformerX"์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํด๋ณด๋ฉด ํฐ ์ฐจ์ด๋ฅผ ๊ด์ธกํ ์ ์์ผ๋ฉฐ ์คํ๋ ค ๋ ํฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด ๊ด์ฐฐ๋๋ค. ์ฆ, ์ฌ๋ฌ ๋ณํ ๋ชจ๋ธ๋ค์ด ๋์ ํ ์ถ๊ฐ์ ์ธ ๋์์ธ ์์๋ค์ด ์คํ๋ ค ๋ ํฐ ๋น์ฉ์ ์น๋ฃจ๊ณ ์์์ ์ ์ ์๋ค.
2. ์ฌ๋ฌ ์ฐ๋ ค์ ๋ฌ๋ฆฌ Vanilla Transformer์ ๋ฉ๋ชจ๋ฆฌ ๋ณต์ก๋๋ ์์ฉ๊ฐ๋ฅํ ์ ๋์ด๋ค. ์ด๋ ์ค์ ๋ก ๊ฐ์ฅ ๊ธด ์ธํ์ธ 720๊ฐ์ ์คํ ์์๋ ์์ฉ๊ฐ๋ฅํ ์ ๋์๋ค.
- ๋ง์น๋ฉฐ
ํ์ฐฝ ํธ๋์คํฌ๋จธ ๋ณํ๋ชจ๋ธ์ ์ดํด๋ณด๊ณ ์๋ ์ํฉ์์ ์ด ๋ ผ๋ฌธ์ ์ ๋ง ์ ์ ํ ์ถฉ๊ฒฉ์ผ๋ก ๋ค๊ฐ์๋ค.
์ฌ์ค ํธ๋์คํฌ๋จธ๊ฐ ๋ค๋ฅธ ๋ถ์ผ์์ ๋๋ฌด๋๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์๊ธฐ ๋๋ฌธ์ ์๊ณ์ด์์๋ ๊ทธ๋ฌํ ๊ธฐ๋๋ฅผ ๋ฐ์ ๊ฒ์ ๋น์ฐํ๋ค.
์ค์ ๋ก๋ ํธ๋์คํฌ๋จธ๋ RNN๊ณผ ๋ฌ๋ฆฌ LTSF๋ผ๋ ๋งค์ฐ ์ด๋ ค์ ๋ ๋ฌธ์ ๋ฅผ ์ ํ์ด๋๊ณ , ๊ทธ ํ๊ณ์ ๋ํ ์ฌ๋ฌ ์์ด๋์ด๋ค์ด ์ ์ฉ๋๋ฉด์ ์ ์ฐจ ์งํํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ ์์๋ค. ๋ํ ์ด๋ฐ๊ณผ ๋ฌ๋ฆฌ ์ ์ฐจ ์ฐ๊ตฌ๊ฐ ์งํ๋ ์๋ก ํธ๋์คํฌ๋จธ๊ฐ ์๊ณ์ด ๋ถ์์ ๋ง๋ ๋ชจ์ต์ผ๋ก ๊ฐ์กฐ๋๋ ํ๋ฆ์ ์ดํด๋ณด๋ ๊ฒ์ด ์ ๋ง ํฅ๋ฏธ๋ก์ ๋ค.
ํ์ง๋ง ์ฌ๋ฌ ๋ณํ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ณด๋ฉด์ ๊ณตํต์ ์ผ๋ก ๋๋ ๊ฒ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ๊ฐ ๋ง์ด ๋ณต์กํ๋ค๋ ๊ฒ์ด์๋ค. ๋ฌด์ธ๊ฐ ๋ฌธ์ ํด๊ฒฐ์ ์ํด ์ ๋๋๊ณ ๋ถ๋ช ํ ํด๋ฒ์ ๋ด๋๋ ๊ฒ์ด ์๋๋ผ(๋น์ฐํ ์ด๊ฒ ๊ฐ์ฅ ์ด๋ ต์ง๋ง...) ์ฌ๋ฌ ์์ด๋์ด๋ค์ ๊ทธ์ ํ๋์ฉ ์น์ด๋๊ฐ๋ ๋๋์ด ๋ค์๋ค.
๊ฒฐ๊ตญ์ ์ด ๋ ผ๋ฌธ์ ์ด์ฉ๋ฉด ์กฐ๊ธ ๊ณผ์ด๋ ํธ๋์คํฌ๋จธ ์ฐ๊ตฌ์ refresh๋ฅผ ์ฃผ๋ ์ญํ ์ ํ์ง์์๊น ์ถ๋ค.
์์ผ๋ก ํธ๋์คํฌ๋จธ์ ํจ์จ, ํจ๊ณผ๋ฅผ ๊ฐ์ ํด๋๊ฐ๋ ๊ฒ๋ ์ค์ํ์ง๋ง ๊ฒฐ๊ตญ์๋ ์ด๋ ํ ํน์ ๋๋ฉ์ธ์ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ๊ฐ์ง๋ ํน์ง, ์ฐ๋ฆฌ๊ฐ ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ๋ณธ์ง, ์ด๊ฒ์ ๋์ฑ ์ง์คํด๋ณธ๋ค๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค์๋ค.
์ด ์คํ๊ฒฐ๊ณผ๋ค์ ์์ผ๋ก ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ๊ฐ์กฐํ๋ ๋ฐ ์์ด์ ์ข์ ์์ฌ์ ์ ์ ๊ณตํด์ฃผ๊ณ ์์ผ๋ฉฐ ๋์๊ฐ "์๊ณ์ด Forecastiong"์ด๋ผ๋๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋ ๋ฐ ์์ด์ ๊ทธ ๋ฐฉํฅ์ ์ฌ์ค์ ํด์ค ์ ์์ ๊ฒ ๊ฐ๋ค.
์๋ฌธ
https://arxiv.org/abs/2205.13504
Are Transformers Effective for Time Series Forecasting?
Recently, there has been a surge of Transformer-based solutions for the long-term time series forecasting (LTSF) task. Despite the growing performance over the past few years, we question the validity of this line of research in this work. Specifically, Tr
arxiv.org