2023. 4. 28. 23:13ใ๐ง๐ป๐ซ Ideas/(Advanced) Time-Series
Introduction
๋ค๋ณ๋ ์๊ณ์ด์ ์ฌ๋ฌ ์์ธ, ๋ณ์(variable)์ ๋ณ๋์ ํฌํจํ๋ ์๊ณ์ด์ ์๋ฏธํ๋ค.
์ด๋ฌํ ๋ค๋ณ๋ ์๊ณ์ด์ ์ค์ํ์ ์ฌ๋ฌ ๋๋ฉ์ธ(์์ฉ๋ถ์ผ)์ ์๊ณ์ด ๋ถ์์ ์ ์ฉํ๋ ๋ฐ ์์ด์ ๋งค์ฐ ํต์ฌ์ ์ธ task๊ฐ ๋์ด์๋ค.
๋ค๋ณ๋ ์๊ณ์ด์ ํต์ฌ์ ์๊ณ์ด ๋ณ๋์ด ๊ณผ๊ฑฐ ๊ฐ์ ์ํฅ์ ๋ฐ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ ๋ณ์๋ค ์ฌ์ด์ ์ํธ์์ฉ์๋ ์์กด(dependent)ํ๋ค๋ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ ์ด๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๊ทธ๋ฌํ ๋ ์ํฅ์ ๋ฐํ๋ ๊ฒ์ด ์ค์ํ๋ฐ, ๊ตฌ์ฒด์ ์ผ๋ก 1) ํ๋์ ์๊ณ์ด์ด ๊ฐ์ง๋ localํ ํจํด๊ณผ globalํ ๋ณ๋์ ํฌ์ฐฉํ๋ ๊ฒ๊ณผ, 2) ์ฌ๋ฌ ๋ณ์ ์ฌ์ด์ ์ฐ๊ด๊ด๊ณ(inter-dependency)๋ฅผ ํฌ์ฐฉํ๋ ๊ฒ์ด ํต์ฌ์ด๋ค.
ํํธ Deepํ neural network๋ฅผ ๊ฐ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋งค์ฐ ๋ณต์กํ ํจํด์ ํฌ์ฐฉํ๋ ๋ฐ ๊ฐ์ ์ด ์๊ธฐ ๋๋ฌธ์ ๊ทธ๋์ ๋ค๋ณ๋ ์๊ณ์ด์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ ์ฉํ๋ ค๋ ์๋๊ฐ ์ด์ด์ ธ์๋ค.
์ค์ง์ ์ผ๋ก ์ปดํจํ ์ฑ๋ฅ์ด ๋ฐ์ ํ๊ณ ์ฌ๋ฌ ํ์ ์ ์ธ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ค์ด ์ ์๋๋ฉด์ ๋ง์ ์ฐ๊ตฌ๋ค์ด RNN, GNN, Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๋ค๋ณ๋ ์๊ณ์ด์ ์ ์ฉํด์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ์ ์๋ ์ฌ๋ฌ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ค์ ํน์ ์ํฉ(specific senario)์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ๋ ํ์ง๋ง, ์ฌ๋ฌ ์คํ์ ๊ฑฐ์น๋ฉฐ ๊ทธ๋ค์ ํ์ต์ ํจ์จ์ฑ๊ณผ ํจ๊ณผ์ฑ์ ํ๊ณ์ ์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ผ๋ก ๋๋ฌ๋ฌ๋ค.
๋จผ์ , ๊ทธ๋ค์ ์ ๊ตํ๊ณ ๋ณต์กํ ์ํคํ ์ฒ๋ ๋ชจ๋ธ์ ํ๋ จํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ก ํ๋ ๊ณผ์ ์ ๊ณ์ฐ๋น์ฉ์ด ๋งค์ฐ ํฌ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ ํนํ ์๊ณ์ด ๋ถ์์ ์ฃผ์ challenge์ธ ์ฅ๊ธฐ ์๊ณ์ด ๋ฌธ์ (input๊ธธ์ด๊ฐ ๊ธด)์ ์ฌ๋ฌ ์๊ด๊ด๊ณ๊ฐ ์ฝํ ๋ค๋ณ๋ ์๊ณ์ด์ผ ๋ ๋ ์ฌ๊ฐํด์ง๋ค.
๋ํ, ๊ทธ ๋ชจ๋ธ๋ค์ ์ถ๋ก ํด์ผ ํ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ฌด๋๋ ๋ง๊ธฐ ๋๋ฌธ์ ์ธ์ ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ ์๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ๋ง์ฝ ์ธํ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์๋ค๋ฉด ๊ทธ ํ๋ จ๋ ๋ชจ๋ธ์ robutness(๊ฐ๊ฑดํจ)์ ์๊ฒ ๋ ์๋ ์๋๋ฐ, ๋ง์ฝ ๊ทธ๋ ๊ฒ ๋๋ค๋ฉด ๋งค์ฐ ๋ณต์กํ ์์ธ๊ณผ ๋ถํ์คํ ๋ฏธ๋๊ฐ ๊ธฐ๋ค๋ฆฌ๋ ์ค์ํ์์ ๊ทธ ๋ชจ๋ธ์ ์ ๊ธฐ๋ฅ์ ๋ฐํํ์ง ๋ชปํ ๊ฒ์ด๋ค.
์ด์ ์ด ๋ ผ๋ฌธ์ ์ ์๋ค์ ๋ค์๊ณผ ๊ฐ์ ์๋ฌธ์ ๋์ง๋ฉฐ ๊ทธ์ ๋ํ ํด๋ต์ ์ฐพ์๋๊ฐ๋ค.
"Is it necessary to apply complex and computationally expensive models to achieve state-of-the-art performance in multivariate time series forecasting?"
(๋ค๋ณ๋ ์๊ณ์ด ์์ธก์ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๋ฐ ์์ด์, ๋ณต์กํ๊ณ ๊ณ์ฐ์ ์ผ๋ก ํฐ ๋น์ฉ์ ์น๋ฃจ๋ ๋ชจ๋ธ์ ํ์์ ์ผ๋ก ์ ์ฉํด์ผ ํ ๊น?)
NO.
๊ฒฐ๋ก ์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ ์ ์ง๋ฌธ์ ๋ํด "์๋๋ค"๋ผ๊ณ ๋งํ๋ฉฐ, ๊ทธ ๊ทผ๊ฑฐ๊ฐ ๋๋ ์๋ก์ด ๋ชจ๋ธ๊ณผ ์ฌ๋ฌ ์คํ๋ค์ ์ํํ์๋ค.
๋จผ์ ๋ ผ๋ฌธ์ ์ ์๋ค์ ๋ "๋ค๋ณ๋ ์๊ณ์ด"์ ๋ชจ๋ธ๋งํ๋ ๋ ํจ๊ณผ์ ์ด๊ณ ํจ์จ์ ์ธ ๋ชจ๋ธ์ ๋ชจ๋ธ์ ์ ์ํ๋ ๋ฐ ์์ด์ "MLP(Multi - LayerPerceptron) ๊ตฌ์กฐ"๋ฅผ ๋ค๊ณ ๋์๋ค.
MLP๋ ๋ฅ๋ฌ๋์ ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์กฐ๋ก ๋ค๋ฅธ ๋ณต์กํ ๋ณํ๋ค์ ๋นํด ๋งค์ฐ ๊ฐ๋ฒผ์ด ๊ตฌ์กฐ์ด๋ฉฐ, ์ ์๋ค์ ์ฌ๊ธฐ์ ์ ๋ณด ์์ค์์ด ํต์ฌ์ ์ถ์ฝํ๋downsampling ๋งค์ปค๋์ฆ์ ์ถ๊ฐํ์ฌ ์๋ก์ด ๋ชจ๋ธ์ ๋ง๋ค์๋ค.
๊ทธ ๋ชจ๋ธ์ "LightTS"๋ก, ์ด ๋ชจ๋ธ์ ์์ ์ธ๊ธํ ๋ค๋ณ๋ ์๊ณ์ด ๋ฌธ์ ์ ํต์ฌ ๋ฌธ์ ๋ฅผ ๋ชจ๋ ๋ค๋ฃจ๊ณ ์๋ค.
๋ค๋ณ๋ ์๊ณ์ด์ ํต์ฌ ๋ฌธ์
1) ํ๋์ ์๊ณ์ด์ด ๊ฐ์ง๋ localํ ํจํด๊ณผ globalํ ๋ณ๋์ ํฌ์ฐฉํ๋ ๊ฒ
2) ์ฌ๋ฌ ๋ณ์ ์ฌ์ด์ ์ฐ๊ด๊ด๊ณ(inter-dependency)๋ฅผ ํฌ์ฐฉํ๋ ๊ฒ
LightTS๊ฐ ์ ์ํ๋ ์์ด๋์ด
"๋ณต์กํ ๊ตฌ์กฐ๊ฐ ์๋ ๋จ์ํ MLP์ ๊ตฌ์กฐ๋ฅผ ์ด์ฉํ์ฌ ํจ๊ณผ์ ํจ์จ์ ๋์ผ ์ ์๋ค."
1. ๋ ๊ฐ์ง downsampling ์ ๋ต์ ์ ์ฉํ๋ค.
1-1) interval sampling, ์ด๋ ์ผ์ ํ ๊ฐ๊ฒฉ์ ๋๊ณ ์ํ์ ์ถ์ถํ๋ ๋ฐฉ์์ผ๋ก globalํ(trend) ๋ณ๋์ ํฌ์ฐฉํ๊ธฐ ์ํด ์ฐ์ธ๋ค.
1-2) continuous sampling, ์ด๋ ๊ฐ๊ฒฉ์์ด ์์๋๋ก ์ด์ด์ ์ํ์ ์ถ์ถํ๋ ๋ฐฉ์์ผ๋ก localํ(seasonal) ๋ณ๋์ ํฌ์ฐฉํ๊ธฐ ์ํด ์ฐ์ธ๋ค.
2. ์ ์ฒด ๊ตฌ์กฐ์ Exchange information๋ฅผ ํ์ฑํํ MLP ๊ตฌ์กฐ๋ฅผ ์ถ๊ฐํ์๋ค.
RELATED WORK
*์์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ค๊ณผ ๊ฒน์น๋ ๋ด์ฉ์ด ๋๋ถ๋ถ์ด๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๊ฐ๋ตํ๊ฒ ์์ฝ๋ง ํ์์ต๋๋ค.
1. Statistical Model (ํต๊ณ ๋ชจ๋ธ)
์ ํต์ ์ผ๋ก ์๊ณ์ด ๋ถ์์ ์์ด์ auto-regression (AR), moving average (MA), and auto-regressive moving average (ARMA), auto-regressive integrated moving average model (ARIMA), vector autoregressive model (VAR) ๋ฑ์ด ์ ์๋์๋ค. ๊ทธ๋ฌํ ๋ชจ๋ธ๋ค์ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ์์ธก์ ์ํํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ง๋ง, ์ด๋ค์ ์ ์์ฑ๊ณผ ๊ฐ์ ๋งค์ฐ ์๊ฒฉํ ๊ฐ์ ์ ์ถฉ์กฑํด์ผํ๋ฉฐ, ์ฐจ์์ด ํฐ ๋ค๋ณ๋ ๋ชจ๋ธ์๋ ๋ถ์ ํฉํ๋ค๋ ์น๋ช ์ ์ธ ๋จ์ ์ด ์๋ค.
2. Deep-learning-based Methods
๊ทธ๋์ ์๊ณ์ด ์์ธก, ๋์๊ฐ ์ฅ๊ธฐ ์๊ณ์ด ์์ธก ๋ฌธ์ ์ ๋ํด์ ์ฌ๋ฌ ์์ฉ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ์ ์ฉ๋์์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ ์์ MLP ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ง์คํ๋ค. ๋ ผ๋ฌธ์์ ์ธ๊ธํ๊ธธ, ๋ค๋ณ๋ ์๊ณ์ด ์์ธก ๋ฌธ์ ์์ ์์ MLP ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ ์ฉํ๋ ์ผ๋ถ ์์ด๋์ด๋ N-BEATS์ ์ฐ๊ตฌ์์ ์ป์๋ค๊ณ ํ๋ค.

์์ ๊ฐ์ ๋ชจ๋ธ์ ์ฐธ๊ณ ํ์ฌ ์์ํ MLP๋ก๋ง ๊ตฌ์ฑ๋ ๋ชจ๋ธ์ ์ ์ํ ์ ์์์ผ๋ฉฐ, ์ฌ๊ธฐ์ ๋ํ์ฌ ์ต๊ทผ Computer Vision๋ถ์ผ์์ MLP ๊ตฌ์กฐ๋ฅผ ํตํด ์ ๋ณด์ ๊ตํ์ ํ์ฑํํ๋ฏ, ์ด ๋ชจ๋ธ์๋ ์ ๋ณด ๊ตํ์ ํ์ฑํํ๋ ์ฅ์น๋ฅผ ๊ณ ๋ คํ์๋ค. ๋ค๋ง, ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ชจ๋ธ์ CV์ ๊ทธ๊ฒ๊ณผ ๋ฌ๋ฆฌ Original sequence์ Down-Samplingํ sub sequence์ ๋ชจ๋ ์ ๋ณด ๊ตํ์ ํ์ฑํํ๋ค๋ ์ ์์ ์ฐจ์ด๊ฐ ์๋ค.
OUR MODEL: LIGHTTS
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ชจ๋ธ์ธ Light-TS์ ๊ตฌ์กฐ๋ ์์ ๊ฐ๋ค.
์์ ์ด ๋ชจ๋ธ์์ ์ ์ํ "๋ค๋ณ๋ ์ฅ๊ธฐ ์๊ณ์ด ์์ธก"์ ํต์ฌ ๋ฌธ์ ๋ฅผ ์๊ธฐํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
1) ํ๋์ ์๊ณ์ด์ด ๊ฐ์ง๋ localํ ํจํด๊ณผ globalํ ๋ณ๋์ ํฌ์ฐฉํ๋ ๊ฒ
2) ์ฌ๋ฌ ๋ณ์ ์ฌ์ด์ ์ฐ๊ด๊ด๊ณ(inter-dependency)๋ฅผ ํฌ์ฐฉํ๋ ๊ฒ
์ ๋ชจ๋ธ์์ 1)์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ณ ์๋ ์์๋ ๋ฐ๋ก Continuous sampling๊ณผ Interval sampling, ์ด ๋ ๊ฐ์ง "down samlping"๊ธฐ๋ฒ์ด๋ค. ํํธ 2)์ ๋ฌธ์ ๋ ์ด ์ธ ๊ฐ์ง์ information exchange block์ด ๋ค๋ฃจ๊ณ ์๋ค.
Continuous sampling + Interval sampling
"TimeSeries is a Special Sequence: Forecasting with Sample Convolution and Interaction. arXiv preprint arXiv:2106.09305 (2021)"์ ์ฐ๊ตฌ์์ ์๊ณ์ด์ด ์์ฐ์ด๋ ์์ฑ ๋ฐ์ดํฐ์ ๋ฌ๋ฆฌ ๋ค์ด ์ํ๋ง์ ์ ์ฉํ๋๋ผ๋ ๊ทธ ์ ๋ณด๊ฐ ๋ณด์กด๋๋ค๋ ํน์ง์ด ์๋ค๋ ๊ฒ์ ๋ฐํ๋ด์๋ค. ๊ทธ๋ฐ๋ฐ ๋จ์ํ uniform sampling๊ณผ ๊ฐ์ ๋์ด๋ธํ ๋ค์ด ์ํ๋ง์ ์คํ๋ ค ์ ๋ณด ์์ค์ ์ผ๊ธฐํ ์ ์๋ค.
์ด์ ๋ณธ ๋ ผ๋ฌธ์์๋ ์์ ๊ฐ์ ์ฌ์ค์์ ์ํฅ์ ๋ฐ์ ๋ค์ด ์ํ๋ง ๊ธฐ๋ฒ์ ์ ์ฉํ๋ ๋์ด๋ธํ์ง ์์ ๋ฐฉ์์ธ Continuous, Interval sampling์ ๋์์ธ ํ์๋ค. ์ ์๋ localํ ๋ณ๋์ ํฌ์ฐฉํ๋ฉฐ, ํ์๋ globalํ ๋ณ๋์ ํฌ์ฐฉํ๋ ๊ธฐ๋ฅ์ ํ๋ค.
๋จผ์ ์ ๊ทธ๋ฆผ์ ์ดํด๋ณด๋ฉด ๋ ์ํ๋ง์ ๊ณตํต์ ์ผ๋ก T๋งํผ์ ์๋์ฐ, ์ฆ, ์ธํ ์ํ์ค๋ฅผ C๋งํผ ๋ค์ด ์ํ๋ง ํ๋ค. ๊ทธ๋ ๊ฒ ๋๋ฉด ์ธํ์ ๊ธธ์ด๊ฐ T์์ C๋ก ์ค์ด๋ค๋ฉฐ, ๊ทธ ํ์ ์ํ์ค์ ์ฐจ์์ C x T/C๊ฐ ๋๊ณ ๋ค๋ณ๋ ๋ณ์์ ์์ธ N๋งํผ ์์ฑ๋๋ค. (์ ๊ทธ๋ฆผ ์ฐธ์กฐ)
1. Continuous sampling
์ฐ์ ์ํ๋ง์ ๊ฐ๊ฒฉ์์ด ์ฐ์์ ์ผ๋ก ์ํ๋งํ๋ ๊ฒ์ผ๋ก ์ง์ฝ์ ์ธ(local) ๋ณ๋์ ํฌ์ฐฉํ๋ ๊ธฐ๋ฅ์ ํ๋ค.
์ด๋ฌํ ์ฐ์ ์ํ๋ง์ ๊ฒฐ๊ณผ์ธ ํ์ ์ํ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค. (j ๋ฒ์งธ ์ปฌ๋ผ)

2. Interval sampling
๊ฐ๊ฒฉ ์ํ๋ง์ ์ผ์ ํ ๊ฐ๊ฒฉ์ ๋๊ณ ์ํ๋งํ๋ ๊ฒ์ผ๋ก ํฐ ์ถ์ธ์ (global) ๋ณ๋์ ํฌ์ฐฉํ๋ ๊ธฐ๋ฅ์ ํ๋ค.
์ด๋ฌํ ๊ฐ๊ฒฉ ์ํ๋ง์ ๊ฒฐ๊ณผ์ธ ํ์ ์ํ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค. (j๋ฒ์งธ ์ปฌ๋ผ)

์์ ๊ฐ์ ๋ ๊ฐ์ง ์ํ๋ง ๊ธฐ๋ฒ์ผ๋ก ์ง์ฝ์ ์ธ ๋ณ๋๊ณผ ํฐ ์ถ์ธ์ ๋ณ๋์ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๋ฉฐ, ๋์์ ์ธํ ์ํ์ค๋ฅผ ๋ค์ด ์ํ๋ง์ ํตํด ๊ฐ์ํํ์ฌ ์ฐ์ฐ์ ํจ์จ์ฑ๊น์ง ํ๋ณดํ๋ค.
๋ํ, ๋ ผ๋ฌธ์์ ์ธ๊ธํ๊ธธ ์ด ์ํ๋ง์ ํน๋ณํ ์ ์ ๋์ด๋ธํ ์ํ๋ง๊ณผ ๋ฌ๋ฆฌ ์ด๋ ํ ํ ํฐ๋ ์ ๊ฑฐํ์ง ์๊ณ ๋ชจ๋ ์ธํ์ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ค๋ ๊ฒ์ด๋ค.
Information Exchange Block
์ด ์ธ์ ์ ์์์ ๊ท๋ช ํ ๋ ๊ฐ์ง์ ํต์ฌ ๋ฌธ์ ์ค 2๋ฒ์งธ, ์ฌ๋ฌ ๋ณ์ ์ฌ์ด์ ์ฐ๊ด๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ๊ทธ ๋ฐฉ๋ฒ์ผ๋ก์จ ์ ํํ MLP ๊ธฐ๋ฐ์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํ๋ค.
Information Exchange Block(์ดํ IE ๋ธ๋ก)์ ์ ๊ทธ๋ฆผ์์ ํ์ธํ ์ ์๋ฏ์ด ์ ์ฒด ๋ชจ๋ธ์ ์ํคํ ์ฒ์์ ์ด ์ธ ๋ฒ ์ด์ฉ๋๋๋ฐ, ์ด๋ sampling part์ prediction part์์ ๋ชจ๋ ์ด์ฉ๋๋ฉฐ ๊ทธ ๋ชฉ์ ์ ์๋ก ๋ค๋ฅธ ์ฐจ์์ ๋ฐ๋ผ ์ ๋ณด๋ฅผ ๊ตํํ๊ณ , ๋ค๋ฅธ ์ฐจ์์ผ๋ก ์์ํ์ ํ์ฑํ๋ ๋ฐ ์๋ค.
๋ธ๋ก์ ํ๋ํ ๊ทธ๋ฆผ์ ์๋์ ๊ฐ๋ค.
*์ ๊ทธ๋ฆผ์์ ์ธํ์ ์ฐจ์์ (H x W)๋ก ํํํ ์ด์ ๋ ๋ฐ๋ก ์ด H,W๊ฐ ์ํ๋ง ๊ณผ์ ์ part1๊ณผ ์์ธก ๊ณผ์ ์ part2์์ ๊ฐ๊ฐ ๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
1. ์ํ๋ง (part1)
์ฌ๊ธฐ์ H๋ ๋ค์ด ์ํ๋ง์ ๊ฒฐ๊ณผ์ธ sub-sequence C๋ฅผ ์๋ฏธํ๊ณ , W๋ ์๋ input ๊ธธ์ด T๋ฅผ C๋ก ๋๋ T/C๋ฅผ ์๋ฏธํ๋ค.
(H = C, W = T/C)
2. ์์ธก (part2)
์ฌ๊ธฐ์ H๋ part1์ ๊ฒฐ๊ณผ๋ก ์ถ์ถ๋ feature์ ์ฐจ์์ด๋ฉฐ, W๋ ๋ณ์์ ๊ฐ์์ธ N์ ์๋ฏธํ๋ค.
(H = part1์ ์์ํ ์ฐจ์, W = N)
์ฃผ๋ชฉํ ์ ์ ์ด IE ๊ณผ์ ์, "MLP๊ฐ (projection) ์ด ์ธ ๋ฒ ์ด์ฉ๋๋ค"๋ ๊ฒ๊ณผ ๋ธ๋ก์ ๊ตฌ์กฐ๊ฐ ์ฒ์๊ณผ ๋๋ณด๋ค "์ค๊ฐ ๊ณผ์ ์ ์ฐจ์์ด ๋ ์์ Bottleneck ๊ตฌ์กฐ"์ธ ๊ฒ์ด๋ค.
- MLP (projection)
์ด ๊ณผ์ ์ ์ธํ์์ ์์ํ์ผ๋ก ๊ฐ๋ ๊ณผ์ ์์์ ์ด ์ธ ๋ฒ ์ด์ฉ๋๋๋ฐ, ๊ณผ์ ์ ๊ฑฐ์น๋ฉฐ ์ฐจ์์ ๋ณํํ์ฌ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ์ญํ (temporal, output projection)๊ณผ ๊ทธ ์ฐจ์์ ๋ฐ๋ผ ์ ๋ณด๋ฅผ ๊ตํํ๋ ์ญํ (channel projection)์ ํ๋ค.
1. temporal projection
์ด projection์ ๊ฐ "column"์ MLP๋ฅผ ์ ์ฉํ๋๋ฐ, (H x W)์ฐจ์์ sub sequence๋ฅผ ์ธํ์ผ๋ก ๋ฐ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ์ธ (F' x W)์ ์ฐจ์์ ์์ํ์ ์ฐ์ถํ๋ค. ์ด ๊ณผ์ ์ temporal dimension, ์ฆ, H๋ฅผ ๋ฐ๋ผ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ์ญํ ์ ํ๋ ๊ฒ์ธ๋ฐ, ๋ชจ๋ column์ด ๊ฐ์ค์น๋ฅผ ๊ณต์ ํ๋๋ก ํ์ฌ ํจ์จ์ฑ์ ํ๋ณดํ๋ค.
2. channel projection
์ด ๊ณผ์ ์ ๊ฐ "row"์ MLP๋ฅผ ์ ์ฉํ๋ฉฐ, ์ฐจ์์ ์ฌ์ ํ (F'xW)๋ก ์ ์งํ ์ฑ W์ฌ์ด์ ์ ๋ณด๊ตํ์ ํ์ฑํํ๋ค. ๋ํ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ชจ๋ row๊ฐ ๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ณ ๋ คํ์ฌ ํจ์จ์ฑ์ ํ๋ณดํ์๋ค. ํนํ ์ด ๋จ๊ณ๋ ์ฌ๋ฌ ๋ณ์๊ฐ ๊ฒน์ณ์๋ row, ์ฆ, ํ์ ์ธํ์ผ๋ก ๋ฐ์ ๊ฐ ๋ณ์๊ฐ์ ์ํธ์์ฉ์ ๋ฐ์ํ๋ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์ฃผ๋ชฉํด์ผ ํ๋ค.
3. output projection
์ด ๊ณผ์ ์ ๋ค์ ๊ฐ "column"์ MLP๋ฅผ ์ ์ฉํ์ฌ ์ต์ข ์์ํ์ ์ฐจ์์ธ (F x W)์ ์ฐจ์์ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํ๋ค. (F = ํ์ดํผ ํ๋ผ๋ฏธํฐ)
- Bottleneck Design
IE๋ธ๋ก์ ์ ๊ทธ๋ฆผ์์ ์ดํด๋ณผ ์ ์๋ฏ์ด ์ฒ์๊ณผ ๋์ ์ฐจ์๋ณด๋ค ์ค๊ฐ์ ์ฐจ์์ด ๋ ์์ ๋ณดํ๋ฅ ๊ตฌ์กฐ๋ฅผ ์ง๋๋ค.
๋ ผ๋ฌธ์์ ์ธ๊ธํ๊ธธ ์ด๋ฌํ ๋์์ธ์ "๊ณ์ฐ ํจ์จ์ฑ"์ ํ๋ณดํ๊ธฐ ์ํจ์ด๋ค. ์ MLP์ ๊ณผ์ ์ค 2๋ฒ์งธ์ธ channel projection์ด ๋ชจ๋ row์ ๋ํด ์ ์ฉ๋๋๋ฐ, ์ธํ ์๋ฆฌ์ฆ๊ฐ ๊ธธ์ด์ง์๋ก ๊ณ์ฐ๋น์ฉ์ด ๋งค์ฐ ์ปค์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์ ๋์์ธ์ฒ๋ผ projection์ ํตํด ์ฐจ์์ ์ค์ฌ์ค๋ค๋ฉด ๊ณ์ฐ ๋น์ฉ์ ๋ฎ์ถ ์ ์๋ค.
Experiment
๋ง์ง๋ง์ผ๋ก ๋ณธ ๋ ผ๋ฌธ์์๋ Light - TS์ ์ฑ๋ฅ์ ๋น๊ต, ํ๊ฐํ๊ธฐ ์ํด ์คํ์ ์งํํ์๋ค.
์คํ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค.
๋ชฉ์ : Light - TS์ accuracy, efficiency, and robustness๋ฅผ ํ๊ฐํ๋ค.
๋ฐ์ดํฐ: ๊ธฐ์กด ํธ๋์คํฌ๋จธ ์ฐ๊ตฌ์ ์ฐ์ธ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ(Long sequence, "multivariate")
ํ๊ฐ๋ฐฉ์: Long sequence forecasting, Shor sequence forecasting
ํ๊ฐ๊ธฐ์ค: MSE, MAE (for long) / Root Relative Squared Error (RSE) and Empirical Correlation Coefficient (CORR) (for short)
Long sequence forecasting
์ฅ๊ธฐ ์๊ณ์ด ์์ธก ์คํ์ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค.
LightTS๋ weather๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ฐ์ดํฐ ์ ์์ state-of-the-art์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค.
ํนํ ๊ทธ ์ฆ๊ฐํญ์ ํ๊ท ์ ์ผ๋ก ์ฝ 20%๋ก, ๊ฝค ๋์ ์ง์ ์ ๋ณด์ธ ๊ฒฐ๊ณผ๋ผ๊ณ ํ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ ์ด ์ฑ๊ณผ์ ๋ํด continuous์ interval ๋ ์ํ๋ง์ด localํ ๋ณ๋๊ณผ globalํ ๋ณ๋์ ์ ์ก์๋ธ ๋๋ถ์ด๋ผ๊ณ ๋งํ๋ค. ๋ฟ๋ง ์๋๋ผ ์ด๋ ๋ค์ด ์ํ๋ง์ ํตํ ํจ์จ์ ํ์ต ๋ํ ๋ฌ์ฑํ ๊ฒฐ๊ณผ๋ผ๋ ๊ฒ์ด ๋์ฑ ์๋ฏธ๊ฐ ์๋ค.
*weather ๋ฐ์ดํฐ ์ ์์๋ Autoformer๊ฐ ๊ฐ์ฅ ์ข์ ์ ํ๋๋ฅผ ๋ณด์๋ค. ํ์๊ฐ ์ถ์ธกํ๊ธธ, ์ด๋ ์์๋ถํด๋ฅผ ํตํด ์ป์ด๋ธ ๊ณ์ ๋ณ๋์ Auto-correlation ๋งค์ปค๋์ฆ์ ์ ์ฉํ์ฌ ์ ์ฌํ sub-series๋ฅผ ์ถ์ถํ๋ Autoformer์ ์ฅ์ ๋๋ถ์ด๋ค. ๋ ์จ๋ ๋งค๋ ์ถ์ธ๊ฐ ์กฐ๊ธ์ฉ ๋ณํ์ง๋ง ๊ณ์ ์ฑ์ด ๊ฐ์ฅ ์ง๋ฐฐ์ ์ด๋ผ๊ณ ์๋ ค์ ธ ์๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ๊ณ์ ๋ณ๋์ Autoformer๊ฐ ์ ํฌ์ฐฉํ์๋ค๊ณ ํด์ํด๋ณผ ์ ์๋ค.
Short sequence forecasting
LightTS๋ Solar-Energy ๋ฐ์ดํฐ ์ ์์ SOTA์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค.
๊ทธ๋ฐ๋ฐ, ๋๋จธ์ง ๋ฐ์ดํฐ ์ ์์๋ ๊ทธ ์ฑ๋ฅ์ด SOTA์ธ ๊ฒ๋ ์์ผ๋ ์ผ๊ด๋์ง ๋ชปํ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค.
Traffic, Electricity, Exchange-Rate ๋ฐ์ดํฐ ์ ์์๋ ์ด๋ ํ ๋ชจ๋ธ๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ์๋ํ๋ ์ฑ๋ฅ์ ๋ณด์ด์ง ๋ชปํ์๋๋ฐ, ๊ทธ ๋์ LightTS๋ ๋ฌ๋ ํ์ ๋ฑ ํจ์จ์ฑ ์ธก๋ฉด์์ ์๋์ ์ด๋ผ๋ ํ์คํ ๋น๊ต์ฐ์๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
Efficiency
์ ์คํ ๊ฒฐ๊ณผ๋ ์์ ์ ์ํ ์ฅ๊ธฐ ์๊ณ์ด ์์ธก์์ ๊ฐ์ฅ ๊ธด horizon(์์์ 720 ์์ )์ ์์ธกํ๋ ์ํฉ์ ๋ฌ๋ ํ์์ ์ธก์ ํ ๊ฒ์ด๋ค. ์ ๊ฒฐ๊ณผ๋ ๊ตฌ์ฒด์ ์ผ๋ก 1 epoch์ ๊ฑธ๋ฆฐ ๋ฌ๋ ํ์์ ์ด ๋จ์๋ก ๊ธฐ๋กํ ๊ฒ์ธ๋ฐ, LightTS๊ฐ ์ ๋ง ์๋์ ์ผ๋ก ์งง์ ์๊ฐ์ ๊ธฐ๋กํ์๋ค.
Robustness Analysis
๋ณธ ๋ ผ๋ฌธ์์ ์ฃผ์ฅํ๊ธธ, ๊ฐ๊ฑด์ฑ์ ์ฅ๊ธฐ ์๊ณ์ด ๋ฌธ์ ์ ์์ด์ ๋งค์ฐ ์ค์ํ๋ค. ์๋ํ๋ฉด, ์๋ชป๋ ์ถ์ธ์ ๊ณ์ ์ฑ์ ์์ธก์ ๊ณ์ ๋์ ๋์ด ๊ฒฐ๊ตญ์๋ ์ฌ๊ฐํ ์ค๋ฅ๋ฅผ ๋ณ์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๊ฒฐ๊ณผ๋ Random-Seed๋ฅผ ํตํ ๋ฌด์์ ํ์ต์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ์ฃผํฉ์ ๊ตฌ๊ฐ์ ๊ฐ๊ฐ ๋ค๋ฅธ 5๋ฒ์ random-seed๋ฅผ ํตํ ์์ธก ๊ฒฐ๊ณผ์ ๋ฒ์๋ฅผ ์๊ฐํํ ๊ฒ์ธ๋ฐ, (a)LightTS์ ์์ธก ๋ฒ์๊ฐ ๊ฐ์ฅ ํญ์ด ์ข์ผ๋ฉฐ ์ค์ ์ ์ ์ฌํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก random-seed๋ฅผ ํตํ ํ์ต ์ ํ๋์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ์ง๊ณํ ๊ฒฐ๊ณผ LightTS๊ฐ ๊ฐ์ฅ Variance๊ฐ ๋ฎ์ ๊ฐ๊ฑดํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.
๋ง์น๋ฉฐ
ํ์๋ ์ฒ์์ ์ด ๋ ผ๋ฌธ์ ํ์ด๋ณด๋ฉฐ LightTS๊ฐ ์ด๋ป๊ฒ ๋์ ํจ์จ์ฑ์ ์ด๋ฃจ์ด๋๋ ์ง์ ๋ํด ๊ด์ฌ์ด ๋ง์ด ๊ฐ๋ค. ๋ฐ๋ผ์ ์ด๋ฆ์ฒ๋ผ ์ด๋ป๊ฒ ๊ฐ๋ฒผ์ด ๋ชจ๋ธ์ ๊ตฌํํด๋ผ๊น๋ฅผ ๋จผ์ ์์ธํ ์ดํด๋ณด์๊ณ , ๋ค์ด ์ํ๋ง์ ํตํด ํจ์จ์ฑ์ ๋์๋ค๋ ๊ฒ์ ๊ณ ๊ฐ๋ฅผ ๋๋์์ง๋ง ๋ฌด์๋ณด๋ค ์ด ๋ชจ๋ธ์ด global, local ๋ณ๋์ ๋ชจ๋ ์ก์๋ด์ด ํจ๊ณผ์ฑ๊น์ง ์ป์ด๋๋ค๋ ๊ฒ์ด ๋งค์ฐ ์ธ์์ ์ด์๋ค.
๋ํ ์ด ๋ ผ๋ฌธ์์ ํ์๊ฐ ๊ด์ฌ์ ๊ฐ์ก๋ ๋ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ฐ๋ก ๋ค๋ณ๋ ์๊ณ์ด ์์ธก ๋ฌธ์ ์์ ๋ณ์๊ฐ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํด๋ด๋ ๋งค์ปค๋์ฆ์ ์ง์ ์ค๋ช ํ๊ณ ์๋ ๋ถ๋ถ์ด์๋ค. ์ด ๋ชจ๋ธ์์๋ IE ๋ธ๋ก ๋ด๋ถ์ channel projection ๊ณผ์ ์์ ์ด๋ฅผ ํฌ์ฐฉํ๊ณ ์๋๋ฐ, ์์ผ๋ก๋ ์๊ณ์ด์ Temporal Dependency๋ฅผ ํฌ์ฐฉํ๋ ๋ฐฉ์ ์ด์ธ์๋ ๋ค๋ณ๋ ์ธํ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ก์๋ด๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ด ๋ง์ด ์ ์๋์์ผ๋ฉด ์ข๊ฒ ๋ค๋ ์๊ฐ์ด ๋ค์๋ค. ๋ฌผ๋ก ํ์ ๋ํ ์ด๊ฒ์ ์ข์ ์ฐ๊ตฌ๊ธฐํ๋ก ์ผ์๋ณด๋ ค๊ณ ํ๋ค.
์์ผ๋ก๋ ์ด๋ฌํ anti-transformer ๋ชจ๋ธ๋ค์ด ๋ง์ด ์ ์๋ ๊ฒ ๊ฐ์ ๋ถ์๊ธฐ๋ค. ํ์ ๋ํ ๊ทธ๋ฌํ ๊ธฐ์กฐ๋ก ๋ ผ๋ฌธ์ ์์ฑํ๊ณ ์๋๋ฐ, ์์ผ๋ก ๋์ฌ ํธ๋์คํฌ๋จธ์ ๋ฐ๋ก ๊ณผ ๋ ์ด๋ ํ ์ฐฝ์์ ์ธ ๋ฐฉ์์ผ๋ก time dependency์ ๋ค๋ณ๋ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๋ ๋ฐฉ๋ฒ๋ก ์ด ์ ์๋ ์ง ๊ด์ฌ์๊ฒ ์ง์ผ๋ณผ ํ์๊ฐ ์์ ๊ฒ ๊ฐ๋ค.