2023. 3. 27. 23:11ใ๐ง๐ป๐ซ Ideas/(Advanced) Time-Series
1. Introduction
์๊ณ์ด ๋ถ์, ํนํ ์์ธก ๋ฌธ์ (Forecasting)๋ ์ ๋์ง ์๋น, ํธ๋ํฝ, ๊ฒฝ์ ์งํ, ๋ ์จ, ์ง๋ณ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์์ ํ์ฉ๋๊ณ ์๋ค.
์ค์ํ์ ์ฌ๋ฌ ์์ฉ๋ถ์ผ์ ์์ด์ ๋๋ก๋ ์๊ณ์ด ์์ธก์ ๋ฒ์๋ฅผ ๋ ํฌ๊ฒ, ๋ฉ๋ฆฌ ํ๋ํ ํ์์ฑ์ด ์๋๋ฐ, ์ด๋ ๊ฒฐ๊ตญ ์ฅ๊ธฐ ์๊ณ์ด์ ๋ค๋ฃจ๋ ๋ฌธ์ ์ ์ง๊ฒฐ๋ ์ ๋ฐ์ ์๋ค.
์ด๋ฌํ ์ํฉ์์ "ํธ๋์คํฌ๋จธ"๋ long-range dependence"๋ฌธ์ , ์ฆ, ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ ๋ฅผ self-attention ๋งค์ปค๋์ฆ์ ํตํด ํด๊ฒฐํ์ฌ ์ด๋ฌํ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ์๊ณ , ์ค์ ๋ก ๋ง์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ์ฌ๋ฌ ์ฐ๊ตฌ์์ ํฐ ์ง์ ์ ์ด๋ฃจ์ด๋๋ค.
๊ทธ๋ฐ๋ฐ, ๊ทธ๋ฌํ ์ฐ๊ตฌ์ฑ๊ณผ์๋ ๋ถ๊ตฌํ๊ณ long-term ๊ธฐ๋ฐ์ ์์ธก ๋ฌธ์ ๋ ์ฌ์ ํ ๋งค์ฐ ์ด๋ ค์ด ์ผ๋ก ๋จ์์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๊ทธ ์ด์ ๋ก 2๊ฐ์ง๋ฅผ ์ ์ํ๋ค.
1. ์ฅ๊ธฐ ์๊ณ์ด์ dependencies๋ ๋งค์ฐ "๋ณต์กํ ๋ณ๋๋ค"์ ์ํด ๊ฐ๋ ค์ ธ ์๊ธฐ์ ๊ทธ Temporal Dependency(์๊ฐ ์์กด์ฑ)์ ํจ๊ณผ์ ์ผ๋ก ํ์ ํ๊ธฐ ์ด๋ ต๋ค.
2. ๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ์ self-attention ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๊ทธ ๊ณ์ฐ ๋ณต์ก๋(quadratic complexity)์ ์ํด ์ฅ๊ธฐ ์๊ณ์ด์ ๊ณ์ฐ์์ ํฐ ํ๊ณ์ ์ ๊ฐ์ง๋ค.
๊ทธ๋ฐ๋ฐ 2๋ฒ ์์ธ ๊ฐ์ ๊ฒฝ์ฐ, ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ํํ๋ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค๊ณผ ๊ทธ ๋ณํ๋ชจ๋ธ๋ค๋ก ์ธํด ์๋น๋ถ๋ถ ์ง์ ์ด ์์๋ค.
ํ์ง๋ง, ๊ทธ๋ฌํ ๋ณํ๋ชจ๋ธ๋ค์ ๋๋ถ๋ถ "Sparse"ํ bias๋ฅผ ํตํด attention์ ํจ์จ์ฑ๋ง์ ๋์ด๋ ์ผ์ ์น์ค๋์ด ์์๋ค.
(๋ณธ ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฌํ ๋ชจ๋ธ๋ค์ point-wise representation aggregation์ด๋ผ๊ณ ํ๋ค.)
๊ทธ๋ค์ ํ๊ณ์ ์ ๊ณ์ฐ ํจ์จ์ฑ๋ง ๋ฌ์ฑํ ๋ฟ, spars-point-wise connection์ผ๋ก ์ธํด ์๊ณ์ด์ ์ ๋ณด๋ฅผ ์๊ฒ๋๋ ๋ฌธ์ ๊ฐ ์๋ค.
๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์ "Temporal Dependency"์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๋ฉด์ "๊ณ์ฐ ํจ์จ์ฑ"๊น์ง ๋์์ ์ด๋ฃจ์ด ๋ด๋ ๋ชจ๋ธ์ ์ฐ๊ตฌํ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ชจ๋ธ์ธ "Autoformer"๋ ๋จผ์ ์๊ณ์ด ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ํ์ฉํ๊ธฐ ์ํด ์๊ณ์ด ๋ถ์์ ์ ํต์ ๋ฐฉ๋ฒ์ธ "Decompose"(์์๋ถํด)์ ์์ด๋์ด๋ฅผ ํ์ฉํ๋ค.
์ฌ๊ธฐ์ decomposition์ ๋จ์ํ ์ ์ฒ๋ฆฌ ๊ณผ์ ์๋ง ์ฐ์ด๋ ๊ฒ์ด ์๋๋ผ, ์ต์ข ์ ์ธ ์์ธก์ ์์ด์๋ ๊ทธ ํจ๊ณผ๊ฐ ์ถฉ๋ถํ ๋ฐํ๋ ์ ์๋๋ก Architecture์ ์ด๋ฅผ ๊น์ด ๋ฐ์ํ์๋ค.
๋ํ, ์ด ๋ชจ๋ธ์ self-attention์ ์์ด์๋ point-wiseํ ๋ฐฉ๋ฒ์ด ์๋ "์ ์ฌํ ์ฃผ๊ธฐ"๋ฅผ ๊ฐ์ง๋ "sub-series"๋ฅผ ํ์ฉํ๋ "series-wise"ํ ๋ฐฉ๋ฒ์ ํฌํจํ๋ค. ๊ทธ๊ฒ์ด ๋ฐ๋ก "Auto-Correlation" ๋งค์ปค๋์ฆ์ผ๋ก, ์ ์ฌํ ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ง๋ sub-series๋ฅผ ์๊ธฐ์๊ด์ฑ์ ํตํด ํฌ์ฐฉํ์ฌ ํตํฉ(aggregate)ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋ ผ๋ฌธ์ ์ ์๋ ์ด๋ฌํ Architecture์ series-wise mechanism์ด ๊ทธ ๋ณต์ก๋์ ์ ๋ณดํ์ฉ ์ธก๋ฉด์์ ๋ ์ข์ ๊ตฌ์กฐ๋ฅผ ์ง๋ ๋ค๊ณ ๋งํ๋ฉฐ, "SOTA"์ ์ ํ๋ ๋ฑ ์คํ์ ํตํด ์ด๋ฅผ ์ ์ฆํ์๋ค.
*ํธ๋์คํฌ๋จธ ์ฐธ์กฐ
https://seollane22.tistory.com/20?category=1012181
Attention Is All You Need(2017) #Transformer
"Attention is all you need", ์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด seq to seq ๋ชจ๋ธ์ ํ๊ณ์ ์ ๋ณด์ํ๊ณ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ Transformer ๋ชจ๋ธ์ ๋ฑ์ฅ์ ์๋ฆฐ ๊ธฐ๋ ๋น์ ์ธ ๋ ผ๋ฌธ์ด๋ค. ํ์ฌ NLP์ ๊ฐ์ด seq to seq ํํ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ
seollane22.tistory.com
2. Related Work
2-1) Models for Time Series Forecasting
์ด ๋จ๋ฝ์์๋ ๋จผ์ TS Forecasting์ ์ ์ฉ๋์ด ์จ ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๊ฐ๋ตํ๊ฒ ์ค๋ช ํ๊ณ ์๋ค.
1. ARIMA: ๊ณ ์ ์ ์ธ ํต๊ณ๋ชจ๋ธ๋ก, ๋น์ ์์๊ณ์ด์ "์ฐจ๋ถ"ํ์ฌ ์ ์์๊ณ์ด๋ก ๋ง๋ค์ด ๋ชจ๋ธ๋งํ๋ค.
2. RNNs: ๊ณ ์ ์ ์ธ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ก, ์์ฐจ์ ์ผ๋ก ์ธํ์ ํฌ์ ํ์ฌ ์ด์ ์์ ์ ์ ๋ณด๋ฅผ ๋ค์ ์์ ์ ์์ฐจ์ ์ผ๋ก ๋ฐ์ํ๋ค.
3. DeepAR: RNNs์ Auto-correlation์ ๊ฒฐํฉํ์๋ค.
4. LSTNet: reccurent-skip connections: CNN์ ๊ฒฐํฉํ์๋ค.
5. Attention-based RNNs: RNN base์ ์ฅ๊ธฐ ์ข ์์ฑ์ ํ์งํ๊ธฐ ์ํด temporal attention์ ๋์ ํ์๋ค.
6. TCN: causal convolution์ผ๋ก ์๊ฐ์ ์ธ๊ณผ์ฑ์ ๋ชจ๋ธ๋งํ๋ค.
7. Transformer based models :
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ self-attention ๋งค์ปค๋์ฆ์ sequential task์ ์ข์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
๊ทธ๋ฌ๋, ์ฅ๊ธฐ ์๊ณ์ด์ ์์ธกํ๋ ๋ฌธ์ ์ ์์ด์๋ ๊ทธ ๋ณต์ก๋๊ฐ ์ธํ ๊ธธ์ด(์๊ณ์ด ํฌ๊ธฐ)์ ์ ๊ณฑ์ด๋ผ๋ quadratic complexity๋ฅผ ๋ณด์ธ๋ค. ์ด๋ฌํ ๋ฉ๋ชจ๋ฆฌ, ์๊ฐ์ ์ธ ๋นํจ์จ์ฑ์ ์๊ณ์ด ํธ๋์คํฌ๋จธ ์ฐ๊ตฌ์๋ค์ ์ฃผ๋ ๊ด์ฌ์ฌ์๊ณ ๋ง์ ์ฐ๊ตฌ์์ ์ด๋ฅผ ๊ฐ์ ํ ๋ชจ๋ธ์ ์ ์ํ๊ธฐ๋ ํ์๋ค.
- Logformer, ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ interval์ ๋๊ณ time step์ ์ค์ ํ์ฌ attention์ ์ํํ๋ LogSparse attention์ ์ ์ํ๋ค.
- Reformer, local-sensitive hashing (LSH) attention์ ์ทจํ์ฌ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์๋ค.
- Informer, time step ๊ฐ์ ์ค์๋๋ฅผ ์ฐ์ถํ์ฌ ๊ทธ ์ค์๋๊ฐ ๋์ ๊ฒ์ attention์ ์ํํ๋ ProbSparse attention์ ์ ์ํ๋ค.
์ฌ๊ธฐ์ ์ฃผ๋ชฉํด์ผ ํ ๊ฒ์ ์ด๋ค์ ๋ชจ๋ ๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ด์ฉํ๊ณ ์์ผ๋ฉฐ(Informer๋ ์ ์ธ), point-wiseํ ๊ธฐ๋ฒ์ด๋ผ๋ ๊ฒ์ด๋ค. ์์ ์ค๋ช ํ๋ฏ์ด, ์ด๋ฌํ ๊ธฐ๋ฒ๋ค์ ์๊ณ์ด์ ๋ณต์กํ ๋ณ๋๋ค์ ์ถ๋ ค๋ด์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ depedency๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ ํ๋ ๋ฐ ์ด๋ ค์์ด ์๋ค.
์ด์ Autoformer์์๋ ์ฅ๊ธฐ ์๊ณ์ด์ dependency๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ ํ๊ณ ์ point-wise๊ฐ ์๋ ๊ฐ์ periodicity๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ series-wise ๊ธฐ๋ฒ์ ์ ์ฉํ๋ค. (Auto-Correlation ๋งค์ปค๋์ฆ)
2-2) Decomposition of Time Series
์๊ณ์ด ๋ถ์์ standardํ ๋ถ์๋ฐฉ๋ฒ์ธ Decomposition(์์๋ถํด)์ ์๊ณ์ด์ ๋ณ๋์ ์ฌ๋ฌ ์์๋ก ๋ถํดํ๋ ๋ถ์๋ฐฉ๋ฒ์ ๋งํ๋ค.
๊ทธ ์์๋ค์ ํฌ๊ฒ Trend(์ถ์ธ), Seasonality(๊ณ์ ), Cycle(์ํ), Random(๋ฌด์์) ๋ณ๋์ด ์๋๋ฐ, ์ด ๋ณ๋๋ค์ ์๊ณ์ด์ด ํ์ฑ๋์ด ์จ ๊ณผ์ ์ ๋ ์ ๋ณด์ฌ์ฃผ๋ฏ๋ก ์์ธก์ ์์ด์๋ ํฐ ๋์์ด ๋ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ด๋ฌํ ์์๋ถํด๋ ๊ณผ๊ฑฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์์๋ง ์ด์ฉ๋์ด์๋ค. ์ด๋ฌํ ์ ํ์ ์ธ ์ด์ฉ์ ๋จผ ์์ ์ ๋ฏธ๋๋ฅผ ์์ธกํ๋ ๋ฐ ์์ด์ ๊ทธ ๋ณ๋ ๊ฐ์ "๊ณ์ธต์ ์ธ ์ํธ์์ฉ"์ ๊ฐ๊ณผํ๊ฒ ๋๋ค. (์ด๋ ์ฅ๊ธฐ ์๊ณ์ด ์์ธก์ ์ด๋ ต๊ฒ ํ๋ค.)
๋ฐ๋ผ์ Autoformer์์๋ ์์๋ถํด์ ํจ๊ณผ๋ฅผ ์ถฉ๋ถํ ์ด์ฉํ๊ณ ์ ์ด๊ฒ์ด ๋ชจ๋ธ์ ๋ด๋ถ์์ ๊ธฐ๋ฅํ๋๋ก ์ฌ๋ฌ ๋ธ๋ก์ ๋ฐฐ์นํ์๊ณ , ์ด๋ฅผ ํตํด ๋ด๋ถ์์ hidden series๋ฅผ ์ ์ง์ ์ผ๋ก ๋ถํดํ๋๋ก ์ค๊ณํ์๋ค.
์ด๋ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ๋ฟ๋ง ์๋๋ผ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํด๋๊ฐ๋ ์ ์ฒด ๊ณผ์ ์์ ์์๋ถํด๊ฐ ํจ๊ณผ์ ์ผ๋ก ์ด์ฉ๋๋๋ก ํ ๊ฒ์ด๋ค.
3. Autoformer
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด ๋จ๋ฝ๋ถํฐ ๋ณธ๊ฒฉ์ ์ผ๋ก Autoformer์ ๋งค์ปค๋์ฆ๊ณผ ๊ทธ ๊ตฌ์กฐ๋ฅผ ํ๋ํ๋ ์์ธํ ์ค๋ช ํ๊ณ ์๋ค.
Time-series forecasting์ I ๋งํผ์ ์๋ฆฌ์ฆ๊ฐ ์ฃผ์ด์ก์ ๋, O ๋งํผ์ ๋ฏธ๋ ์๋ฆฌ์ฆ๋ฅผ ์์ธกํ๋ ๋ฌธ์ ๋ก ์ ์ํ ์ ์๋ค. (input(I)-predict(O))
๊ทธ๋ฐ๋ฐ, ์ฌ๊ธฐ์ ์ฅ๊ธฐ ์๊ณ์ด ์์ธก ๋ฌธ์ ๋ O๊ฐ ํฐ ๊ฒ์ ๋งํ๋๋ฐ, ์์ ์ธ๊ธํ๋ฏ์ด ์ด๊ฒ์๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฌธ์ ๊ฐ ์๋ค.
1. ๋ณต์กํ ์๊ฐ์ ํจํด์ ์ฒ๋ฆฌํ๊ธฐ ํ๋ค๋ค.
2. ๊ณ์ฐ์ ๋นํจ์จ์ฑ์ ๊ฐ์ง๊ณ ์๊ณ์ด ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๋ค.
๋ฐ๋ผ์ ์ด๋ฅผ ๊ฐ์ ํ๋ Autoformer์ ์ฐจ๋ณ์ ์ธ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค.
Autoformer์ ์ฐจ๋ณ์ ์ธ ์์
1. Decomposition์ ์ ์ฒ๋ฆฌ ๋ฟ๋ง ์๋๋ผ Forecasting ๊ณผ์ ๊ณณ๊ณณ์ ๋ฐฐ์นํ Architeture๋ฅผ ๋์์ธํ์๋ค.
2.Sparseํ time-step์ ํตํฉ(aggregate)ํ๋ point-wiseํ ๊ธฐ๋ฒ์ด ์๋, Auto-correlation์ ํตํด ๊ฐ์ ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ง๋ time-step์ ํตํฉํ๋ series-wise ๊ธฐ๋ฒ์ ์ ์ฉํ๋ค.
(๋งค์ปค๋์ฆ์ ๋ณํ, Attention -> Auto-correlation)
3-1) Decomposition Architecture
Decomposition์ ์๊ณ์ด์ ์ถ์ธ/์ฃผ๊ธฐ ๋ณ๋๊ณผ ๊ณ์ ๋ณ๋์ผ๋ก ๋ถ๋ฆฌํ๋๋ฐ, ๊ฐ๊ฐ์ ์๊ณ์ด์ ์ฅ๊ธฐ์ ์ธ ์ถ์ธ ๋ณ๋๊ณผ ์๋์ ์ผ๋ก ๋จ๊ธฐ์ ๊ณ ์ ๋ ์ฃผ๊ธฐ(๋ณดํต 1๋ )๋ก ์์ง์ด๋ ๊ณ์ ์ ์ธ ๋ณ๋์ ๋ํ๋ธ๋ค.
Autoformer๋ ์ธํ์ ๊ตฌ์ฑํ๋ ์ ์ฒ๋ฆฌ๋ฟ๋ง ์๋๋ผ ๋ด๋ถ์ series - decomposition ๋ธ๋ก์ ๊ฐ์ง๊ณ ์๋ค.
๋ฐ์ ๊ทธ๋ฆผ์์ ํ๋์ ๋ธ๋ก์ด ์ด๋ฅผ ๋ํ๋ด๊ณ ์๋๋ฐ, ์ด๋ ๋ชจ๋ธ ๋ด์์ hidden series๋ฅผ ์ ์ง์ ์ผ๋ก ๋ถํดํ๋ ์ญํ ์ ํ๋ค.
์ด๋ ์ธ์ฝ๋์ ๋์ฝ๋ ๋ด๋ถ์ ๊ฒฐ๊ณผ๊ฐ๋ค์ ๋ถํดํจ์ผ๋ก์จ ๊ฒฐ๊ณผ์ ์ผ๋ก "the long-term stationary trend"(์ฅ๊ธฐ์ ์ผ๋ก ๋ฐ๋ณต๋๋ ์ถ์ธ)๋ฅผ ๋ ์์ธํ ์ถ์ถํ๋ ๊ธฐ๋ฅ์ ํ๋ค. (์์ธํ ๊ณผ์ ์ ์๋์์ ์ค๋ช )
๊ตฌ์ฒด์ ์ผ๋ก Decomposition ๊ณผ์ ์ ์ดํด๋ณด๋ ค๋ฉด ์ด ๋ชจ๋ธ์ ๋ค์ด๊ฐ๋ input์ ๋จผ์ ์ดํด๋ด์ผ ํ๋ค.
Model inputs
Autoformer์ ์ธ์ฝ๋, ๋์ฝ๋์ ๋ค์ด๊ฐ๋ ์ธํ๋ค์ ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ํ์ฑ๋๋ค.
* seq_len(input series) : ์ธํ์ ์ ์ฒด ํฌ๊ธฐ (๋
ผ๋ฌธ์์ I)
* label_len(start token series) : seq_len์์ ๋ ์ด๋ธ์ ํฌ๊ธฐ (seq_len์ ์ ๋ฐ)
* pred_len(padding) : ์์ธกํ๋ ์์ ์ ํฌ๊ธฐ(๋
ผ๋ฌธ์์ O)
์ฌ๊ธฐ์ ์ธ์ฝ๋์ ์ธํ์ผ๋ก๋ seq_len์ด ๋ค์ด๊ฐ๋๋ฐ, ๊ทธ ์ธํ ์๋ฆฌ์ฆ๋ฅผ ์ ๋ฐ์ผ๋ก ๋๋ ๋ค ๋ ์ต๊ทผ ์์ ์ ์ ๋ฐ(1/2)์ label๋ก ํ์ตํ๋ค.
ํํธ ๋์ฝ๋์ ์ธํ์ ์์์ ์๋ฅธ label_len๋ฅผ ์์๋ถํด(Series Decompose)ํ์ฌ ํ์ฑ๋๋๋ฐ, ์ฌ๊ธฐ์ ์ฃผ๋ชฉํด์ผ ํ ๊ฒ์ ๋ฐ๋ก Series Decompose์ padding์ด๋ค.
๋์ฝ๋๋ lable_len์ Series Decomposeํ Trend์ Seasonality๋ฅผ ์ธํ์ผ๋ก ๋ฐ๋๋ค. ๊ทธ๋ฐ๋ฐ, lable_len์ seq_len์ ์ ๋ฐ์ด๊ธฐ ๋๋ฌธ์, ๊ทธ ๊ธธ์ด๋ฅผ ๋ง์ถ๊ธฐ ์ํ์ฌ padding์ ์ ์ฉํ๋ค.
์ด๋ Trend๋ ์ธ์ฝ๋ ์ธํ์ Mean(ํ๊ท )๊ฐ์ ํจ๋ฉํ๊ณ , ์ธ์ฝ๋์ ์ ๋ณด์ ๊ฒฐํฉํ๋ Seasonality๋ ์์ธก์ ์ํด 0์ผ๋ก ํจ๋ฉํ๋ค.
(์ ๊ทธ๋ฆผ ์ฐธ์กฐ)
๊ตฌ์ฒด์ ์ผ๋ก Decomposition ๊ณผ์ ์ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
$$X_{t} = \mathbf{AvgPool}(\mathbf{Padding(X)})$$
$$X_{s} = X - X_{t}$$
$$X_{t}:์ถ์ธ๋ณ๋$$ $$X_{s}:๊ณ์ ๋ณ๋$$
์ ์์ ์ด ๋ชจ๋ธ์ ํต์ฌ์์์ธ Decomposing์ ๊ณผ์ ์ด๋ ์ ๊ธฐ์ตํด๋ ํ์๊ฐ ์๋ค.
๋จผ์ , ์ด ๋ชจ๋ธ์์๋ ์ฃผ๊ธฐ์ ์ธ ๋ณ๋์ ํํํํ๊ณ ์ฅ๊ธฐ์ ์ธ ์ถ์ธ๋ฅผ ๊ฐ์กฐํ๊ธฐ ์ํด MA๊ธฐ๋ฒ์ธ AvgPooling์ ์ฌ์ฉํ๋ฉฐ, ์๊ณ์ด์ ๊ธธ์ด๊ฐ ๋ฐ๋๋ ๊ฒ์ ๋ง๊ธฐ ์ํด padding์ ์ด์ฉํ๋ค.
(์ดํ์๋ ์ ๊ณผ์ ์ ์์ฝํ์ฌ ๋ค์๊ณผ ๊ฐ์ ํจ์๋ก ํ๊ธฐํ๋ค.) $$SeriesDecomposition(X)$$
์ ๊ณผ์ ์ ๊ฑฐ์ณ, Autoformer๋ ๋ค์๊ณผ ๊ฐ์ด ๋์ฝ๋์ ์ธํ์ ํ์ฑํ๋ค.
$$X_{en_s}, X_{en_t} = SeriesDecomposition(X_{en_\frac{1}{2}:i})$$
$$X_{de_s} = Concat(X_{en_s},X_{o})$$
$$X_{de_t} = Concat(X_{en_t},X_{mean})$$
์ ์ค๋ช ๊ณผ ์์์ ์ดํดํ ๋ค์ ์ํคํ ์ฒ๋ฅผ ๋ณด๋ฉด ์ด ๋ชจ๋ธ์ decomposition๊ณผ ๊ทธ ์ ์ฒด์ ์ธ ํ๋ฆ์ ์ ํ์ ํ ์ ์๋ค.
Encoder
์ธ์ฝ๋๋ input series ์ ์ฒด๋ฅผ ๋ฐ์ Auto-Correlation ๋ ์ด์ด๋ฅผ ํต๊ณผ์ํค๋๋ฐ, ๊ทธ ๋ด๋ถ์์ ์ ์ฌํ ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ง๋ sub-series๋ฅผ ํตํฉํ๋ค. (Auto-Correlation์ ๊ตฌํ ๋ค, sofmax ํจ์๋ฅผ ํตํด ์ค์ฝ์ด๋ฅผ ์ฐ์ถํ์ฌ sub-series๋ฅผ ๊ฐ์คํฉ)
๊ทธ ๋ค์ Series Decomposition์ ์งํํ๋๋ฐ, ์ธ์ฝ๋์ Series Decomposition์ Seasonal ๋ณ๋๋ง์ ๋จ๊ธฐ๊ณ ๋๋จธ์ง Trend(+Cyclical)๋ณ๋์ ์ ๊ฑฐํ๋ค.
Seasonal, ์ฆ, ๊ณ์ ๋ณ๋์ ์๋์ ์ผ๋ก ์งง์ ์ฃผ๊ธฐ๋ก(ํต์ 1๋ ) ๋ฐ๋ณต๋๋ ๋ณ๋์ ๋งํ๋๋ฐ, ์ด๋ ์์ ์ธ๊ธํ "the long-term stationary trend"(์ฅ๊ธฐ์ ์ผ๋ก ๋ฐ๋ณต๋๋ ์ถ์ธ)์ ์ง์คํ๊ธฐ ์ํจ์ด๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์์๋ถํด๋ฅผ ํตํด ๋จ์ ๊ณ์ ๋ณ๋์ FFlayer์ ํต๊ณผ์ํจ ๋ค ๋ค์ ํ๋ฒ ์์๋ถํด๋ฅผ ์งํํ์ฌ ํ๋์ ์ธ์ฝ๋์์ ๋ง๋ค์ด๋ด๋ ์ต์ข output์ ์ฐ์ถํ๋ค. (Encoder N๊ฐ์ ์ค์ฒฉ by ํ์ดํผ ํ๋ผ๋ฏธํฐ N)
Decoder
๋์ฝ๋๋ ์์ ์ค๋ช ํ๋๋ก input series์ ์ ๋ฐ์ธ label_len์ ๋ฐ์ Series Decomposition์ ๋จผ์ ์งํํ๋ค.
์ดํ ๋ง์ฐฌ๊ฐ์ง๋ก Seasonal ๋ณ๋์ Auto-Correlation ๋ ์ด์ด๋ฅผ ํต๊ณผ์ํค๋๋ฐ, ์ธ์ฝ๋์๋ ๋ค๋ฅด๊ฒ Trend(+Cyclical)๋ณ๋์ ๋ฒ๋ฆฌ์ง ์๊ณ Series Decomposition ๋ธ๋ก์ ํต๊ณผํ ๋๋ง๋ค ๋ถ๋ฆฌ๋๋ Trend(+Cyclical)๋ณ๋๋ค์ ๋ํด์ค๋ค.
์ดํ ํ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ Encoder-Decoder Attention์ฒ๋ผ, ์ธ์ฝ๋์ ์ต์ข ์์ํ(Seasonal ๋ณ๋)์ ๋ฐ์ ๋์ฝ๋๊ฐ ์ฐ์ถํ ์ค๊ฐ ์์ํ(Seasonal ๋ณ๋)์ ๋ฐ์ ๋์ ๋งตํํ๋ Auto-Correlation ๋ ์ด์ด๋ฅผ ํต๊ณผ์ํจ๋ค.
์ดํ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ทธ ๊ฒฐ๊ณผ๊ฐ์ Decompose ํ, FFlayer์ ํต๊ณผ์ํจ ๋ค ๋ค์ ํ๋ฒ ์์๋ถํด๋ฅผ ์งํํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ต์ข ์ ์ผ๋ก ๊ณ์ ๋ํด์ฃผ๋ Trend(+Cyclical)๋ณ๋์ ํฉ์ณ ํ๋์ ๋์ฝ๋์์ ๋ง๋ค์ด๋ด๋ ์ต์ข output์ ์ฐ์ถํ๋ค. (Decoder M๊ฐ์ ์ค์ฒฉ by ํ์ดํผ ํ๋ผ๋ฏธํฐ M)
+ Positional Encoding
๋ค๋ฅธ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ์ด ๋ชจ๋ธ ๋ํ ์์น์ ๋ณด๋ฅผ ๋ฃ์ด์ฃผ๋ Positional Encoding์ด ํ์ํ๋ค.
๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ(Vanilla)๋ localํ ์ ๋ณด๋ง์ ์ถ๊ฐํ๋ ๊ฒ์ ๊ทธ์น๋๋ฐ, ํจ๊ณผ์ ์ธ ์ฅ๊ธฐ์๊ณ์ด ์์ธก์ ์ํด์๋ ๋ globalํ time-stamp๋ฅผ ๋ฃ์ด์ค ํ์๊ฐ ์๋ค.
๊ทธ๋ฌํ time-stamp์๋ hierarchical time stamps (week, month and year)์ agnostic time stamps (holidays, events)๊ฐ ํฌํจ๋๋ค.
์ด๋ "Informer"์์ ์ ์๋ ๊ฒ๊ณผ ๊ฐ์ ๊ฒ์ผ๋ก, ๋จผ์ ์ธํ ์๋ฆฌ์ฆ๋ฅผ d_model์ ๋ง๊ฒ project ํ์ฌ u๋ฅผ ๋ง๋ ๋ค.
๊ทธ ํ Local Time Stamps๋ sin, cosํจ์์ ๋ฐ๋ผ "fixed" position์ embaddingํ๋ฉฐ, Global Time Stamps๋ ๊ฐ ์์น์ ๋ณด๋ฅผ "learnable embadding"์ ํตํด ๋ฃ์ด์ค๋ค.
3-2) Auto-Correlation Mechanism
Autoformer๊ฐ ๊ฐ์ง๋ ๋ ๋ค๋ฅธ ์ฐจ๋ณ์ ์ธ ์์๋ "Auto-Correlation"๋งค์ปค๋์ฆ์ด๋ค.
๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ attention ๋งค์ปค๋์ฆ์ ํตํด ๊ณผ๊ฑฐ ํฌ์ธํธ๊ฐ์ ์ ์ฌ์ฑ์ ๊ตฌํ๋ ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ Autoformer๋ ๊ธฐ์กด์ ์ดํ ์ ์ ์๊ธฐ์๊ด์ฑ์ ์ด์ฉํ ๋งค์ปค๋์ฆ์ผ๋ก ๋์ฒดํ๋ค.
์ด๋ฌํ ๋ฐฉ์์ ๋ ผ๋ฌธ์์ ํํํ๊ธธ, ๊ธฐ์กด์ "point-wise"๊ฐ ์๋ "series-wise"ํ ๋ฐฉ๋ฒ์ด๋ค.
์ ๊ทธ๋ฆผ์์์ฒ๋ผ, (d)๋ฅผ ์ ์ธํ ์ ํต์ ์ธ ์ดํ ์ (a)์ด๋, sparseํ ๋ฐฉ๋ฒ์ ๋์ ํ(b),(c)๋ค๊ณผ ๋ฌ๋ฆฌ (d)๋ ์ด๋ ํ ์ง์ ์ ๊ธฐ์ค์ผ๋ก dependence๋ฅผ ๋ฝ์๋ด๋ ๊ฒ์ด ์๋๋ผ ์ ์ฌํ ํ๋ฆ์ ๋ณด์ด๋ series๋ฅผ ๊ธฐ์ค์ผ๋ก Period-based dependence๋ฅผ ๋ฝ์๋ธ๋ค.
์ด๋ ๊ทธ ์ ์ฌํ series๋ฅผ ํ๋จํ๋ ๋งค์ปค๋์ฆ์ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ๊ฐ์ง๋ ์์ฑ์ธ ์๊ธฐ์๊ด์ฑ(Auto Correlation)์ ์ด์ฉํ๋ ๊ฒ์ด๋ค.
์๊ณ์ด ๋ฐ์ดํฐ์ ํน์ฑ์, ๊ธฐ๋ณธ์ ์ผ๋ก ๋ณ์์ ๋ณํ์ ๋ฐ๋ฅด๋ ๊ฒ์ด ์๋๋ผ ์๊ฐ์ ๋ฐ๋ฅธ ์๊ธฐ ์์ ์ ํ๋ฆ์ ์ํด ์๊ณ์ด์ด ์งํ๋๊ธฐ ๋๋ฌธ์ ๊ณผ๊ฑฐ์ ์๊ธฐ ์์ ๊ณผ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋ค. ๋ํ ์๊ณ์ด์ด๋, ๋ง ๊ทธ๋๋ก ์๊ฐ์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ์ ํ๋ฆ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ ํ ํฌ์ธํธ๋ฅผ ๋ฑ ์๋ผ์ ๋ณด๋ ๊ฒ์ ๊ทธ period์ ๋ํ ์ ๋ณด๋ฅผ ์๊ฒ๋๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ ํ ์์ ๊ณผ ๋์ ์๊ธฐ์๊ด์ฑ์ ๊ฐ์ง๋ "sub-series"๋ฅผ ํ์ ํ์ฌ ์ฐ๊ฒฐํจ์ผ๋ก์จ ์๊ณ์ด์ด ๊ฐ์ง๋ ์ ๋ณด๋ค์ ๋ ํญ๋๊ฒ ์ด์ฉํ ์ ์๊ฒ ๋๋ค๊ณ ๋งํ๋ค. (expand information utilization)
์ ๊ทธ๋ฆผ์ Auto-Correlation ๋งค์ปค๋์ฆ์ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ผ์ชฝ์ ๊ทธ ์ ์ฒด๊ณผ์ ์, ์ค๋ฅธ์ชฝ์ Time Delay Aggregation ๋ธ๋ก์ ๋ํ๋ธ๋ค. ๊ทธ ๊ณผ์ ์ ๊ฐ๋จํ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
1. ๋จผ์ encoder-decoder auto-correlation ๊ธฐ์ค, decoder์์ Q๋ฅผ ์ป๊ณ encoder์์ K,V๋ฅผ ์ป๋๋ค.
2. ์ดํ, Q(de),K(en)๋ฅผ FFT(Fast Furier Transformation)๋ฅผ ํตํด ๋น๋์๋ก ๋ณํํ ๋ค ๊ทธ ๋(์ผค๋ ๋ณต์์)์ ๋ด์ ํ๋ค.
3. ๊ทธ๋ฌํ ๊ฒฐ๊ณผ๊ฐ์ ๋ค์ inverse FFT๋ฅผ ํตํด ๋ค์ ํ์ ๋๋ฉ์ธ์ผ๋ก ๋ณํํ๋ค. (2์ 3๊ณผ์ ์ ๊ฑฐ์น๋ฉด Auto-Correlation์ ๊ตฌํ ์ ์๋ค.)
4. ์์ ๊ตฌํ Auto-Correlation ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์ ์ฌํ series TOP k๊ฐ๋ฅผ ์ ์ ํ๋ค.
5. ๋ง์ง๋ง์ผ๋ก Time Delay Aggregation ๋ธ๋ก์ ํตํด, ์์ธก๊ธธ์ด์์ ์ธํ๊ธธ์ด๋ก(S->L) Resizeํ V(en)๋ฅผ "τ"๋งํผ delay๋ฅผ ๋กค๋งํ์ฌ(k๊ฐ) ์์ฑํ sub-series์, Auto- Correlation ๊ฒฐ๊ณผ๋ค์ softmaxํจ์์ ํต๊ณผ์์ผ ์์ฑํ ๊ฐ์ค์น๋ฅผ ๊ณฑํ๋ค.
Period-based dependencies
๋ด๋ถ์ ์ผ๋ก ๋์ผํ phase position, ์ฆ, ๊ฐ์ ์๊ธฐ์๊ด์ ๋ณด์ด๋ sub series๋, ๊ฐ์ ๊ณผ์ , ํ๋ฆ์ ๊ฐ์ง๊ณ ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ์ period๋ฅผ ๋ณด์ธ๋ค.
๊ฒฐ๊ตญ ์ ๋งค์ปค๋์ฆ์ ๋ชฉ์ ์ ๊ทธ๋ฌํ ๊ฐ์ Period์ ๊ธฐ๋ฐํ dependencies์ ๋ฝ์๋ด๊ธฐ ์ํ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๋ค.
์ด์ Period-based dependencies๋ฅผ ๋ฝ์๋ด๋ auto-correlation์ ์์์ ๋ค์๊ณผ ๊ฐ๋ค.

Time Delay Aggregation
auto-correlation์ด ๋๋ค๋ ๊ฒ์ ์๊ณ์ด ์ ์ฒด๋ฅผ ๋ดค์ ๋ ๊ฐ์ ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค๊ณ ๋ณผ ์ ์๋ค.
(๊ฒฐ๊ณผ์ ์ผ๋ก auto-correlation์ ๊ฐ์ period๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด๋ค.)
๊ฒฐ๊ตญ ๊ทธ dependence๋ฅผ ๋ฝ์๋ด๊ธฐ ์ํด์ ์ ์์์ ๋์ถ๋ R(auto-correlation)์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ ์ฃผ๊ธฐ(period)๋ฅผ ๊ฐ์ง๋ sub-series(by τ)๋ฅผ ์ฐ๊ฒฐํ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ์์ ์ด ๋ค๋ฅธ time delay๋ฅผ ๊ฐ์ง sub-series๋ฅผ ์ฐ๊ฒฐ/ํตํฉํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ์์์ ์ ์ํ๋ค.

$$TimeSeries X, Length L$$
$$Topk(), top k๊ฐ์ auto corrlation. k = c*logL (c=hyperparameter)$$
$$R_{Q,K}= Q,K๊ฐ์ auto correlation$$
$$Roll{(X,\tau)}= ์๋ฆฌ์ฆ X์ \tau๋งํผ์ delay. (์ด๋ \tau๋งํผ์ ๋ท ์์ ์ ๋งจ ์์ผ๋ก shiftํ๋ค. = sub series)$$
์ต์ข ์ ์ผ๋ก ์ ๋ฆฌํ์๋ฉด,
1. Q์ K์ ๋ํด Auto-Correlation์ ๊ตฌํ๊ณ , ๋์ ์๊ธฐ์๊ด์ฑ์ ๊ฐ์ง๋(=๊ฐ์ ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ง๋) sub-series๋ฅผ k๊ฐ ๋ฝ๋๋ค.
2. ์ด๋ค์ softmax๋ฅผ ํตํด Q,K์ ์ ์ฌ๋๋ฅผ ๊ฐ์ค์น๋ก ์ฐ์ถํ๋ค.
3. ๊ทธ๋ฌํ ๊ฐ์ค์น๋ฅผ V์ sub-series(by τ)๋ค์ ๊ณฑํ๊ณ ํตํฉ(concat)ํ๋ค.
์ต์ข ์ ์ผ๋ก ์ด๋ฌํ ๊ณผ์ ์ ๊ฒฐ๊ณผ๋ฌผ์ ํ๋์ head๋ก, ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ์ง์ ํ head์ ๊ฐ์๋งํผ ์งํ๋์ด ๋ง์ง๋ง์ผ๋ก concatํ ๋ค ๊ฐ ๋ธ๋ก์ ๊ฐ์ค์น๋ฅผ ๊ณฑํด ๋ค์์ผ๋ก ๋๊ฒจ์ง๋ค. ์ด๋ ๊ธฐ๋ณธ transformer์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ํฌํจํ ๊ทธ ๊ณผ์ ๊ณผ ๋์ผํ๋ค.
Efficient computation
๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ๊ฐ ๊ฐ์ง๋ L(O^2)์ ๋ณต์ก๋์ ๊ณ์ฐ ๋นํจ์จ์ฑ์ ์ฌ๋ฌ ๋ ผ๋ฌธ์์ ์ง์ ๋ฐ๊ณ ์๋ ํ๊ณ์ ์ด๋ค.
๋ฐ๋ผ์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ํจ์จํ๋ ์ฌ๋ฌ ๋ณํ ๋ชจ๋ธ๋ค์ ํฌํจํ ๋ค์ํ ์ฐ๊ตฌ์์ ์ฐ๊ตฌ๋๊ณ ์๋ ์ค์ํ ๋ฐฉํฅ ์ค ํ๋์ด๋ค.
์ด์ ์ด ๋ชจ๋ธ์์๋ forecasting ์ฑ๋ฅ๊ณผ ๋๋ถ์ด Auto-Correlation์ ๋ณต์ก๋๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ ๋ํ ์ ์ํ๊ณ ์๋ค.
Autoformer๋ ๋ชจ๋ธ์ ๋ณต์ก๋, ๊ณ์ฐ์ ํจ์จ์ฑ์ ์ํด "FFT(Fast Furier Transformation)"๋ฅผ ์ด์ฉํ๋ค.

์ฒซ๋ฒ์งธ ํจ์ S๋ Furier series์ ์ ๊ณฑ, ์ ํํ๋ ์ผค๋ ๋ณต์์ ๋ด์ (๊ทธ๋ฆผ์์ Conjugate)์ ์๋ฏธํ๋ฉฐ ๋๋ฒ์งธ ํจ์๋ FT( Furier Transformation)๋ก ๋น๋์ ๋๋ฉ์ธ์ผ๋ก ๋ณํ๋ series๋ฅผ ๋ค์ ์๊ฐ ๋๋ฉ์ธ์ผ๋ก ๋ณํํด์ฃผ๋ inverse transformer์ด๋ค. ์์ ๋ด์ ์ํ์ ์ธ ๊ณผ์ ์ ๋ณต์กํ์ง๋ง ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ์ฒด ๊ณผ์ ์ Auto-Correlation๊ณผ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค. ๊ฐ์ฅ ์ฃผ๋ชฉํด์ผ ํ๋ ๊ฒ์ ์ด๋ฌํ ๋ณํ๋ค์ ํตํด ๋ณต์ก๋๊ฐ O(LlogL)๋ก ์ค์ด๋ ๋ค๋ ๊ฒ์ด๋ค.
*FT(Furier Transformation), FFT(Fast Furier Transformation)์ ๊ด๋ จ๋ ๋ด์ฉ์ ๋ค๋ฅธ ํฌ์คํธ์์ ๋ค์ ์ ๋ฆฌํ ์์ ์ด๋ค.
4. Experiments
4-1) Main Results
๋ง์ง๋ง ๋จ๋ฝ์ธ Experiments์์๋ Autoformer์ ์ฑ๋ฅ๊ณผ ๊ธฐํ ์ฅ์ ์ ํ์ธํ๊ธฐ ์ํด ์ฌ๋ฌ ์คํ์ ์งํํ๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์คํ์๋ 6 ๊ฐ์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๊ฐ ์ฐ์๋ค. ๋ฐ์ดํฐ์ ๊ฐ ๋๋ฉ์ธ์ energy, traffic, economics, weather and disease์ด๋ค.
(with L2 loss function, ADAM optimizer, an initial learning rate of 10^-4, Batch size is set to 32, The training process is early stopped within 10 epochs)
Multivariate results with different prediction lengths(96, 192, 336, 720)
Multivariate test ๊ฒฐ๊ณผ, ๋ชจ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์์ Autoformer๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋ฐ์ด๋๋ "sota"์ ์ฑ๋ฅ์ ๋๋ค. ์ด๋ ์ฝ 38%์ MSE ๊ฐ์๋ก, ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ํ์ ๊ธธ์ด์์ ์ฑ๋ฅํฅ์์ ๋ณด์๋ค(long-term robustness). ํํธ, ๋ ๋์ ๋๋ ๊ฒฐ๊ณผ๋ ํน๋ณํ ์ฃผ๊ธฐ์ฑ์ด ์๋ ๋ฐ์ดํฐ์ธ exchange(ํ์จ) ๋ฐ์ดํฐ์์๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋๋ค๋ ๊ฒ์ด๋ค.
์ด๋ ๊ธด ์ธํ์์๋, ๋ค์ํ ์ฃผ๊ธฐ ๋ฑ ๋ณต์กํ ๋ณ๋์ด ์๋ ์ค์ํ์์๋ ์ด Autoformer๊ฐ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๋ค๋ ๊ฒ์ ์์ฌํ๋ค.
Univariate results with different prediction lengths
์ด ์คํ์ ์ฃผ๊ธฐ์ฑ์ด ๋๋๋ฌ์ง๋ ETT์ ๊ทธ๋ ์ง ์์ Exchange ๋ฐ์ดํฐ๋ก ์งํ๋์๋๋ฐ, ๋ค๋ณ์๋ก ์ข ์๋ณ์๋ฅผ ์์ธกํ๋ Univariate results์๋ Autoformer๊ฐ ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.
๊ทธ๋ฐ๋ฐ, Exchange data์์ ์์ธก ์์ํ์ ๊ธธ์ด๊ฐ ๊ฐ์ฅ ์งง์ ๋ ARIMA๊ฐ ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.
์ด ๋ ผ๋ฌธ์ ์ฐ๊ตฌ์๋ค์ ์ฐจ๋ถ์ ํตํด ๋น์ ์์ ์ธ ๊ฒฝ์ ๋ฐ์ดํฐ์ ๋จ๊ธฐ ๋ณ๋์ ์ ์ก์๋ผ ์ ์๋ ARIMA์ ์ฅ์ ์ด ๋๋ณด์ด์ง๋ง, ๊ธด ์์ ์ ์์ธกํ ์๋ก ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ํ๋ ARIMA์ ํ๊ณ์ ๋ํ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค๊ณ ์ธ๊ธํ๋ค.
4-2) Ablation studies
์ด ์ฐ๊ตฌ์์๋ Autoformer์ ์ฐจ๋ณ์ ์ธ ํน์ง์ธ "Series Decomposition"๊ณผ "Auto-Correlation"์ ํจ๊ณผ๋ฅผ ํ์ธํ์๋ค.
๋งจ ์ ์คํ์์๋ Origin(๊ธฐ๋ณธ), Sep(์ฌ์ ์ ๋ถ๋ฆฌํ์ฌ ๋ ๋ณ๋์ ๊ฐ๊ฐ ์์ธก), Ours(Autoformer์ ์ํคํ ์ฒ)๋ก ์กฐ๊ฑด์ ๋๋์ด ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ์๋๋ฐ, Ours(Autoformer์ ์ํคํ ์ฒ)์ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ฅ ์ฐ์ํ์๋ค.
2๋ฒ์งธ ์คํ์์๋ Autoformer์ ๊ฐ๊ฐ ๋ค๋ฅธ ๋งค์ปค๋์ฆ์ ์ ์ฉํ ๊ฒฐ๊ณผ์ด๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก Auto-Correlation์ ๋งค์ปค๋์ฆ์ด ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, "-"(out of memory), ์ฆ, ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ด๊ณผ๋๋ ๊ฒฐ๊ณผ์์ด ๋งค์ฐ ๊ธด ์ธํ๊ณผ ์์ํ์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.
4-3) Model Analysis
๋ง์ง๋ง์ผ๋ก ์ฐ๊ตฌ์๋ค์ Autoformer๋ชจ๋ธ์ ํน์ฑ๋ค์ ์คํํ์ฌ ๋ค์ํ ์์ฌ์ ์ ๋์ถํ์๋ค.
1. Time series decomposition
(a)๋ฅผ ๋ณด๋ฉด decomposition ๋ธ๋ก์ด ์์ ๋ ์ฆ๊ฐํ๋ trend์ seasonal ๋ณ๋์ peak ์ง์ ์ ์ ๋๋ก ํฌ์ฐฉํ์ง ๋ชปํ์๋ค.
์ดํ ๋ธ๋ก์ ๋๋ ค๊ฐ์๋ก ๋ชจ๋ ๋ณ๋๋ค์ ๋์ฑ ์ ํฌ์ฐฉํ๊ณ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
์ด๋ Autoformer๊ฐ "์ Decomposition ๋ธ๋ก์ ์ธ ๊ฐ ๊ฐ์ง๊ณ ์์ด์ผ ํ๋ ์ง"๋ฅผ ์์ฌํ๊ณ ์๋ค.
2. Dependencies learning
์ด ์คํ์ ๊ฐ ๋งค์ปค๋์ฆ๋ค์ด ๊ฐ์ฅ ๋ง์ง๋ง timestep(๊ฐ์ํ๋ phase)๊ณผ์ Dependency๋ค์ ์ถ์ถํ series(a)๋ point((b),(c),(d))๋ฅผ ๋ณด์ฌ์ค๋ค.
(a)๋ฅผ ๋ณด๋ฉด, Auto-Correlation์ด ๋ค๋ฅธ ์ดํ ์ ๋งค์ปค๋์ฆ๋ค๊ณผ ๋ฌ๋ฆฌ "์ ์ฒด ํ๋ฆ ์์์" dependency๋ฅผ ๋ "ํญ๋๊ฒ", "์ ํํ๊ฒ" ์ฐพ์๋ค.
์ด๋ Auto-Correlation, ์ฆ, series-wiseํ ๋ฐฉ๋ฒ์ด ์ ์ฒด ํ๋ฆ์ ๋์ฑ ์ ํฌ์ฐฉํ๋ฉฐ information utilization ์ธก๋ฉด์์ ๋ ํจ๊ณผ์ ์ธ ๋งค์ปค๋์ฆ์ด๋ผ๋ ๊ฒ์ ์๋ฏธํ๋ค.
3. Complex seasonality modeling
Model Analysis์ ๋ง์ง๋ง์ผ๋ก, ์ฐ๊ตฌ์๋ค์ ํ์ตํ lags์ ๋ฐ๋ฅธ ๋ฐ๋๋ฅผ histogram์ผ๋ก ์๊ฐํํ์๋ค.
lag์ ๋ฐ๋ฅธ ๋ฐ๋๋ฅผ ์๊ฐํํ ๊ฒฐ๊ณผ, ์ด ํ์คํ ๊ทธ๋จ์ ๊ฐ ๋ฐ์ดํฐ์ ์์ ์ ๋ฐ๋ผ ์ค์ํ์ seasonality ๋ณ๋์ ๋ํ๋ด๊ณ ์์๋ค.
์๋ฅผ ๋ค์ด (a)๋ ํ๋ฃจ์ ์๊ฐ์ธ 24 lag๊น์ง ํ๋ฃจ์ ์ฃผ๊ธฐ๋ฅผ ๋ํ๋ด๊ณ , ์ผ์ฃผ์ผ์ ๋ํ๋ด๋ 168lag(24*7)๊น์ง๋ ์ผ์ฃผ์ผ์ ์ฃผ๊ธฐ๋ฅผ ๋ํ๋ด๊ณ ์๋ค.
์ด๋ ์ฆ, Autoformer๊ฐ ๋จ์ํ ์์ธก์ ๊ฒฐ๊ณผ๋ฟ๋ง ์๋๋ผ ๊ทธ ๊ณผ์ ์์์ ๋ณ๋์ ์ฃผ๊ธฐ๋ฅผ ์ ํฌ์ฐฉํ๊ณ ์์ผ๋ฉฐ, ์ด๋ฅผ ์๊ฐํํจ์ผ๋ก์จ ์ธ๊ฐ์ด ํด์ํ ์ ์๋ ์์ธก์ ์คํํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
4. Efficiency analysis
์ด Autoformer๋ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ, ์๊ฐ ํจ์จ์ฑ ์ธก๋ฉด์์ ํ ๋ชจ๋ธ๋ค์ ๋นํด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋๋ค.
์ด๋ O(Output Length)๊ฐ ๋งค์ฐ ๊ธธ์ด์ง๋ ์ฅ๊ธฐ ์๊ณ์ด ์์ธก๋ฌธ์ ์์ Autofomer๊ฐ ๋จ์ํ ์ฑ๋ฅ๋ฟ๋ง ์๋๋ผ ํจ์จ์ฑ ์ธก๋ฉด์์๋ ๋ ๋ฐ์ด๋ ๋ชจ๋ธ์ด๋ผ๋ ๊ฒ์ ์ ์ฆํ๋ ๊ฒฐ๊ณผ์ด๋ค.
๋ง์น๋ฉฐ
์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์๊ณ์ด์ ํน์ง์ ์ถ๊ฐํ ๋ณํ ๋ชจ๋ธ์ธ Autoformer๋ฅผ ์ ์ํ ๋ ผ๋ฌธ์ด๋ค.
ํธ๋์คํฌ๋จธ์ ๋ฑ์ฅ ์ดํ, self-attention์ ์ฅ์ฐฉํ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ธฐ์กด RNN, CNN ๊ธฐ๋ฐ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ๋ณด๋ค ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ค.
์ฌ๋ฌ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ๋ณํ๋ชจ๋ธ๋ค์ ์ฅ๊ธฐ(long-term, long-range) ์๊ณ์ด์ ์์ธก์ฑ๋ฅ์ "ํจ์จ์ ์ผ๋ก" ๋์ด๊ธฐ ์ํด attention module์ด๋ ๊ทธ architecture๋ฅผ ๊ฐ์กฐํ์ฌ ์ข์ ์ฑ๋ฅ์ ์ ์ฆํ์๋ค.
๊ทธ๋ฌ๋, ์ด ๋ ผ๋ฌธ์ ์ง๋ ๋ณํ๋ชจ๋ธ๋ค๊ณผ๋ ๋ค๋ฅด๊ฒ ์ ํต์ ์ธ "์๊ณ์ด ๋ฐ์ดํฐ์ ํน์ง์ ์ ํ", "์๊ณ์ด ๋ถ์์ ๋์ฑ ํนํ๋" ๋ชจ๋ธ์ธ Autoformer๋ฅผ ์ ์ํ๋ค.
Autoformer์ ์ฐจ๋ณ์ ์ธ ์์๋ ๋ฐ๋ก "Decomposition"๊ณผ "Auto-Correlation"์ ๋งค์ปค๋์ฆ์ ์ด์ฉํ๋ค๋ ๊ฒ์ด๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋ชจ๋ธ์ ๋ค๋ฅธ ๋ชจ๋ธ ๋๋น ๊ฐ์ฅ ํํํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ฑ, ์ฅ๊ธฐ ์๊ณ์ด Forecasting์์ "SOTA"์ฑ๋ฅ์ ๋ฌ์ฑํ์๊ณ ์์ผ๋ก ๋ฅ๋ฌ๋์์ ์๊ณ์ด์ด ์ด๋ ํ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ผ ํ ์ง, ๊ทธ ๊ฐ๋ฅ์ฑ๊น์ง ์์ฌํ๊ณ ์๋ ์ค์ํ ๋ ผ๋ฌธ์ด๋ค.
PS. ์ด ๋ ผ๋ฌธ์ ํธ๋์คํฌ๋จธ์์ ์๊ณ์ด ๋ถ์์ด ๋์๊ฐ์ผ ํ ๋ฐฉํฅ์ ์ ์ํด์ค ๋งค์ฐ ์ค์ํ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. ํนํ ์ฌ๊ธฐ์ ์ฒ์ ์ ์ํ Decomposition ์ํคํ ์ฒ๋ ํ์ฌ ์ฐ๊ตฌ ํธ๋ ๋์ ํ ์ถ์ ์ด๋ฃจ๊ณ ์์ ์ ๋์ ๋๋ค. ๋๋ฌด๋๋ ์ข์ ์์ด๋์ด์ ์ค์ํ ๋ด์ฉ๋ค์ด ํฌํจ๋ ๋ ผ๋ฌธ์ด๋ผ ์๊ฐ๋์ด ๋์ฑ ์์ธํ ๋ฆฌ๋ทฐํ๋ค๋ณด๋ ๋ด์ฉ์ด ๊ธธ์ด์ก์ต๋๋ค. ๊ธด ๋ด์ฉ์ ๋๊น์ง ์ฝ์ด์ฃผ์ ๋ถ๋ค๊ป ๊ฐ์ฌ์ ๋ง์์ ๋๋ฆฝ๋๋ค.
Paper ์๋ฌธ
https://arxiv.org/abs/2106.13008
Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting
Extending the forecasting time is a critical demand for real applications, such as extreme weather early warning and long-term energy consumption planning. This paper studies the long-term forecasting problem of time series. Prior Transformer-based models
arxiv.org