[Paper Review] Are Transformers Effective for Time Series Forecasting?(2022)

2023. 4. 2. 22:37ใ†๐Ÿง‘๐Ÿป‍๐Ÿซ Ideas/(Advanced) Time-Series

*์‹œ์ž‘ํ•˜๊ธฐ์— ์•ž์„œ, ๊ธฐ๋ณธ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ตฌ์กฐ์™€ ๊ทธ ๋ณ€ํ˜•๋“ค์— ๋Œ€ํ•œ ๋ฐฐ๊ฒฝ์ง€์‹์ด ์žˆ๋Š” ๋ถ„๋“ค์€ ์ด ๋…ผ๋ฌธ์˜ ์‹คํ—˜๋งŒ ์‚ดํŽด๋ณด์…”๋„ ๋ฌด๋ฐฉํ•ฉ๋‹ˆ๋‹ค.

 

1. Introduction

์‹œ๊ณ„์—ด ์˜ˆ์ธก(Time Series Forecasting)์€ ์‹ค์ƒํ™œ์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๋„๋ฆฌ ์‘์šฉ๋˜๊ณ  ์žˆ๋‹ค.

์ง€๋‚œ ์„ธ์›”๋™์•ˆ ์ด๋Ÿฌํ•œ TSF์— ์žˆ์–ด์„œ ARIMA์™€ ๊ฐ™์€ ์ „ํ†ต์ ์ธ ํ†ต๊ณ„ ๋ชจํ˜•, GBRT์™€ ๊ฐ™์€ ๋จธ์‹ ๋Ÿฌ๋‹, RNN ๊ธฐ๋ฐ˜/CNN ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ฐ™์€ ๋”ฅ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ ์šฉ๋˜์–ด ์™”๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋น„๊ต์  ์ตœ๊ทผ์— ๋“ฑ์žฅํ•œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ธ "ํŠธ๋žœ์Šคํฌ๋จธ"๋Š” sequential task์—์„œ ๋งค์šฐ ํ›Œ๋ฅญํ•œ ์„ฑ๋Šฅ์„ ๋ฐ”ํƒ•์œผ๋กœ NLP, CV ๋ถ„์•ผ์—์„œ ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์„ ์••๋„ํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ์ด์— ๋”ฐ๋ผ ๊ฐ™์€ sequential task์ธ ์‹œ๊ณ„์—ด ๋ถ„์„ ๋ถ„์•ผ์—๋„ ์ด๋Ÿฌํ•œ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ ์šฉํ•˜๋ ค๋Š” ๋…ธ๋ ฅ๋“ค์ด ์ด์–ด์ ธ์™”๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, LogTrans(NeurIPS 2019), Informer(AAAI 2021 Best paper), Autoformer(NeurIPS 2021), Pyraformer(ICLR 2022 Oral), Triformer(IJCAI 2022), FED-former(ICML 2022) ๋“ฑ๊ณผ ๊ฐ™์€ ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์ด ์ œ์•ˆ๋˜์—ˆ๋‹ค.

์ด๋“ค์€ ํŠนํžˆ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์–ดํ…์…˜ ๋งค์ปค๋‹ˆ์ฆ˜์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ทธ๋™์•ˆ์˜ challenge์˜€๋˜ ์žฅ๊ธฐ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฌธ์ œ(LTSF)์—๋„ ํ›Œ๋ฅญํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ธฐ๋ณธ ํŠธ๋žœ์Šคํฌ๋จธ(Vanilla Transformer)๋ฅผ ํฌํ•จํ•œ ํŠธ๋žœ์Šคํฌ๋จธ ๋ณ€ํ˜•๋ชจ๋ธ๋“ค์ด ๊ทธ๋Ÿฌํ•œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์—ˆ๋˜ ์ด์œ ๊ฐ€ ๋ฐ”๋กœ "์…€ํ”„ - ์–ดํ…์…˜ ๋งค์ปค๋‹ˆ์ฆ˜" ๋•๋ถ„์ด์—ˆ๋‹ค๊ณ  ๋งํ•œ๋‹ค.

(๋ชจ๋“  ๋ณ€ํ˜•๋ชจ๋ธ๋“ค์ด ์–ดํ…์…˜ ๋งค์ปค๋‹ˆ์ฆ˜์„ ๊ทธ๋Œ€๋กœ ์ด์šฉํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. Autoformer์™€ FED-former๋Š” ๋‹ค๋ฅธ ๋งค์ปค๋‹ˆ์ฆ˜์„ ์ด์šฉํ•œ๋‹ค.)

 

๊ทธ๋Ÿฌ๋‚˜, ๋ณธ ๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ์…€ํ”„ - ์–ดํ…์…˜ ๋งค์ปค๋‹ˆ์ฆ˜์ด TSF๋ฌธ์ œ์— ์žˆ์–ด์„œ ๊ทธ ์ ํ•ฉ์„ฑ๊ณผ ํšจ๊ณผ์„ฑ์„ ๊ฐ€์ง€๋Š” ์ง€์— ๋Œ€ํ•ด ๋ฐ˜๋ก ์„ ์ œ๊ธฐํ•œ๋‹ค.

๊ทธ๊ฒƒ์€ ๋ฐ”๋กœ ์…€ํ”„ - ์–ดํ…์…˜์˜ ์žฅ์ ์ธ sementic meaning(์˜๋ฏธ๋ก ์  ๋‚ด์ง€๋Š” ์–ด๋– ํ•œ ๋งฅ๋ฝ์ ์ธ ์˜๋ฏธ๋ฅผ)์„ ์ถ”์ถœํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์—์„œ ํฐ ํšจ๊ณผ๋ฅผ ๋ณด๊ธฐ ์–ด๋ ต๊ณ , ์˜คํžˆ๋ ค ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ํ•ต์‹ฌ์ธ ์‹œ๊ฐ„, ๊ทธ order์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์žƒ๊ฒŒ ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ €์ž๋“ค์€ ์…€ํ”„ - ์–ดํ…์…˜์ด "permutation- invariant(์ˆœ์—ด ๋ถˆ๋ณ€์ ์ด๊ณ )"ํ•˜๊ณ , “anti-order”(์ˆœ์„œ์— ๋ฐ˜ํ•œ๋‹ค.)ํ•˜๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.

์ด๋Š” ์‰ฝ๊ฒŒ ๋งํ•ด์„œ ์…€ํ”„-์–ดํ…์…˜์ด ๊ทธ order๋‚˜ sequence์— ๋ฌด๊ด€ํ•˜๊ฒŒ ๋™์ž‘ํ•œ๋‹ค๋Š” ๊ฒƒ์ธ๋ฐ, ์ด๋Š” ํ•™์Šต์— ์žˆ์–ด์„œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ์ˆœ์„œ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์‹œ๊ณ„์—ด ๋ถ„์„์—์„œ๋Š” ํƒ€ ๋ถ„์•ผ์™€ ๋‹ฌ๋ฆฌ ๋ฐ์ดํ„ฐ์˜ order, sequence๊ฐ€ ๊ทธ ์ž์ฒด๋กœ ๋งค์šฐ ์ค‘์š”ํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„๋‹ค.

๋”ฐ๋ผ์„œ ์‹œ๊ณ„์—ด ๋ถ„์„์—์„œ๋Š” ๊ทธ ์œ„์น˜์ •๋ณด๋ฅผ ์žƒ์ง€ ์•Š๊ธฐ ์œ„ํ•ด์„œ postition์„ ๋”ฐ๋กœ ๋„ฃ์–ด์ฃผ๋Š” ์—ฌ๋Ÿฌ ํ…Œํฌ๋‹‰์„ ์ ์šฉํ•˜์ง€๋งŒ, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ทธ๋Ÿฌํ•œ positional encoding ์ „๋žต์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ordering information์„ ์žƒ๊ฒŒ ๋˜๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€ํ”ผํ•˜๋‹ค๊ณ  ๋งํ•œ๋‹ค.

 

์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ์ด์œ ๋กœ ์…€ํ”„-์–ดํ…์…˜์ด ์‹œ๊ณ„์—ด ๋ถ„์„์— ๋น„ํ•ด ์ˆœ์„œ์— ํฐ ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๊ณ  sementic meaning์ด ํ’๋ถ€ํ•œ NLP์—์„œ ๋” ํฐ ํ™œ์•ฝ์„ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์‹ค์ œ๋กœ๋„ ๊ทธ๋ ‡๊ฒŒ ํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ๋งํ•œ๋‹ค. ์ด์™€ ๋ฐ˜๋Œ€๋กœ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” ์–ธ์–ด๊ฐ€ ์•„๋‹Œ ์ˆซ์ž ๊ทธ ์ž์ฒด์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ sementic meaning์ด ๋ถ€์กฑํ•œ ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด๋ฉฐ, ๋ถ„์„์— ์žˆ์–ด์„œ ์‹œ๊ณ„์—ด ํ๋ฆ„ ๊ทธ ์ž์ฒด์ธ order๊ฐ€ ๋งค์šฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค. 

 

์ด์— ์ €์ž๋“ค์€ ๋ณธ ๋…ผ๋ฌธ์˜ ์ฃผ์ œ๋ฅผ ๊ด€ํ†ตํ•˜๋Š” ์งˆ๋ฌธ์„ ๋˜์ง€๋ฉฐ ๊ทธ๊ฒƒ์— ๋Œ€ํ•œ ๋Œ€๋‹ต์œผ๋กœ ์—ฌ๋Ÿฌ ์‹คํ—˜๋“ค์„ ์ œ์‹œํ•œ๋‹ค.

"Are Transformers Effective for Time Series Forecasting?"

 

๊ทธ๋“ค์˜ ์‹คํ—˜์€ ๋งค์šฐ ํฅ๋ฏธ๋กœ์šด ๊ฒฐ๊ณผ๋“ค์„ ๋„์ถœํ–ˆ๋Š”๋ฐ, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ๋‚ด๋ฆฐ ๊ฒฐ๋ก ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

"The temporal modeling capabilities of Transformers for time series are exaggerated, at least for the existing LTSF benchmarks"

(์ ์–ด๋„ LTSF(์žฅ๊ธฐ์‹œ๊ณ„์—ด ์˜ˆ์ธก๋ฌธ์ œ)์— ์“ฐ์ธ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ๋“ค์—์„œ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์˜ ๋Šฅ๋ ฅ์€ ๊ณผ์žฅ๋˜์—ˆ๋‹ค.)

 

*LTSF ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ: ์—ฌ๋Ÿฌ ํŠธ๋žœ์Šคํฌ๋จธ ๋ณ€ํ˜•๋ชจ๋ธ์˜ ์„ฑ๋Šฅํ‰๊ฐ€์— ์“ฐ์ธ ๋ฐ์ดํ„ฐ (๋„๋ฉ”์ธ: traffic, energy, economics, weather, disease) 

 

๊ทธ๋“ค์˜ ์‹คํ—˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋””์ž์ธ ๋˜์—ˆ๋‹ค.

 

- DMS(Direct-Multi-Step)์— ์ง‘์ค‘ํ•œ๋‹ค.

๊ทธ๋™์•ˆ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•  ๋•Œ ์“ฐ์ธ baseline ๋ชจ๋ธ์ธ ARIMA ๋“ฑ์€ ํ•œ ์‹œ์ ์”ฉ ๋ฐ˜๋ณตํ•˜์—ฌ ์˜ˆ์ธกํ•˜๋Š” IMS(Iterated-Multi-Step)๋ฐฉ์‹์œผ๋กœ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ์ด์—ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, ๊ทธ๋Ÿฌํ•œ IMS ๋ฐฉ์‹์€ ์•„๋ฌด๋ฆฌ ์ž‘์€ ์˜ค๋ฅ˜๋ผ๊ณ  ํ•  ์ง€๋ผ๋„ ๊ทธ๊ฒƒ์ด ์ถ•์ ๋˜์–ด ๊ฒฐ๊ตญ์—” ์žฅ๊ธฐ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์—์„œ์˜ ์ข‹์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋Œ€ํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ์ด์— ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ง„ํ–‰๋œ ์‹คํ—˜์—์„œ๋Š” baseline ๋ชจ๋ธ ๋˜ํ•œ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ DMS ๋ฐฉ์‹์˜ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•˜์˜€๋‹ค.

 

- ์ƒˆ๋กœ์šด Baseline ๋ชจ๋ธ๋กœ LTSF-Linear์„ ์ ์šฉํ•œ๋‹ค.

LTSF-Linear๋Š” ๋งค์šฐ ๋‹จ์ˆœํ•˜๊ฒŒ ํ•˜๋‚˜์˜ ๋ ˆ์ด์–ด๋ฅผ ๋ฐฐ์น˜ํ•จ์œผ๋กœ์จ timestep์— ๋”ฐ๋ผ ํšŒ๊ท€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•œ ๋ชจ๋ธ์ด๋‹ค.

๋…ผ๋ฌธ์—์„œ๋„ ํ‘œํ˜„ํ•˜๊ธธ ์ด๋Š” ๋‹จ์ˆœํžˆ ๋ ˆ์ด์–ด ํ•˜๋‚˜๋ฅผ ๊ฐ€์ง„, ๋‹นํ™ฉ์Šค๋Ÿฌ์šธ ์ •๋„๋กœ ๋งค์šฐ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์ด๋‹ค. (A set of embarrassingly simple one-layer linear model)

 

๊ฐ„๋‹จํ•˜๊ฒŒ ์š”์•ฝํ•œ ์‹คํ—˜์˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

- ๋งค์šฐ ๋‹จ์ˆœํ•œ Baseline๋ชจ๋ธ์ธ LTSF-L ๋ชจ๋ธ์ด ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ ์šฉํ•œ ์‹คํ—˜์—์„œ ๊ธฐ์กด ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์„ ์••๋„ํ•˜์˜€๋‹ค. 

์ด ๋†€๋ผ์šด ๊ฒฐ๊ณผ๋Š” ๋ชจ๋“  ๋„๋ฉ”์ธ๊ณผ ์กฐ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ์ผ์–ด๋‚ฌ์œผ๋ฉฐ, ์‹ฌ์ง€์–ด 20%~50% ์ •๋„๋กœ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ์ผ€์ด์Šค๋„ ์กด์žฌํ•˜์˜€๋‹ค. 

 

- ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์„ ์ œ์•ˆํ•œ ๋…ผ๋ฌธ์—์„œ์˜ ์ฃผ์žฅ๊ณผ ๋‹ฌ๋ฆฌ, ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ๋“ค์ด ์žฅ๊ธฐ์‹œ๊ณ„์—ด์—์„œ temporal relation์„ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์‹คํŒจํ–ˆ๋‹ค.

์‹คํ—˜์„ ์ง„ํ–‰ํ•œ ์—ฐ๊ตฌ์ž๋“ค์€ ์„ฑ๋Šฅ์„ ๋น„๊ต/ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ทธ๋“ค์˜ ํšจ์œจ์„ฑ, ํšจ๊ณผ์„ฑ์„ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋„๋ก ๋‹ค์–‘ํ•œ ablation test๋ฅผ ์ง„ํ–‰ํ•˜์˜€๋Š”๋ฐ, ๊ทธ ๊ฒฐ๊ณผ ์—ฌ๋Ÿฌ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ ๊ธ์ •์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์–ป์ง€ ๋ชปํ•˜์˜€๋‹ค.

 

๊ทธ๋Ÿฐ๋ฐ ์ฃผ๋ชฉํ•  ๊ฒƒ์€ ์—ฌ๊ธฐ์„œ ์ œ์•ˆํ•œ LTSF-L ๋ชจ๋ธ์€ ๊ทธ์ € ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜๋Š” Baseline๋ชจ๋ธ์— ์ง€๋‚˜์ง€ ์•Š์œผ๋ฉฐ, ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์•„๋‹Œ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ์…‹์—๋„ ์ ์šฉ์„ ํ•˜๋ฉด์„œ ๋” ๋‹ค์–‘ํ•˜๊ณ  ์‹ฌ๋„์žˆ๋Š” ์‹œ์‚ฌ์ ์„ ๋„์ถœํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด ๋…ผ๋ฌธ์—์„œ ์ง„ํ–‰ํ•œ ์‹คํ—˜๋“ค์˜ ๊ฒฐ๊ณผ๋Š” "ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์ด ๊ณผ์žฅ๋˜์—ˆ๋‹ค"๋ผ๋Š” ์ฃผ์žฅ์— ํฐ ํž˜์„ ์‹ค์–ด์ฃผ๊ณ  ์žˆ์œผ๋ฉฐ, ์–ด์ฉŒ๋ฉด ์ง€๋‚˜์น  ์ •๋„๋กœ ๊ณผ์—ด๋œ ํŠธ๋žœ์Šคํฌ๋จธ ์‹œ๊ณ„์—ด ์—ฐ๊ตฌ๋ฐฉํ–ฅ์— ์˜๋ฏธ์žˆ๋Š” ์‹œ์‚ฌ์ ์„ ๋˜์ ธ์ฃผ๊ณ  ์žˆ๋‹ค.

 

2. Preliminaries: TSF Problem Formulation

 

 

TSF๋ฅผ ์ˆ˜์‹์œผ๋กœ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

variates(๋ณ€์ˆ˜ ์ˆ˜), / window size, L / future time steps, T

 

$$X = [X_{1}^{t},,,X_{C}^{t}]_{t=1}^L$$


$$\hat{X} = [X_{1}^{t},,,X_{C}^{t}]_{t=L+1}^{L+T}$$

์—ฌ๊ธฐ์„œ T>1์ผ ๋•Œ, IMS๋Š” ํ•˜๋‚˜์”ฉ ๋ฐ˜๋ณตํ•˜๋ฉฐ T๊นŒ์ง€ ์˜ˆ์ธก์„ ์ด์–ด๋‚˜๊ฐ€๊ณ , DMS๋Š” ํ•œ ๋ฒˆ์— T๊นŒ์ง€ ์˜ˆ์ธก์น˜๋ฅผ ์‚ฐ์ถœํ•œ๋‹ค.

IMS๋Š” ์—๋Ÿฌ๊ฐ€ ์ถ•์ ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๊ธฐ์— ์ƒ๋Œ€์ ์œผ๋กœ ์•ˆ์ •๋œ ๋ณ€๋™์ด ์žˆ๋Š” ์‹œ๊ณ„์—ด์—์„œ, ํ˜น์€ ์˜ˆ์ธก ๊ธธ์ด์ธ T๊ฐ€ ์ž‘์„ ๋•Œ ์œ ๋ฆฌํ•˜๋‹ค.

DMS๋Š” ๋ฐ˜๋Œ€๋กœ unbiased single-step์„ ๊ตฌํ•˜๊ธฐ ์–ด๋ ค์šธ ๋•Œ, ํ˜น์€ T๊ฐ€ ๊ธด ์žฅ๊ธฐ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์—์„œ ์œ ๋ฆฌํ•˜๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 
3. Transformer-Based LTSF Solutions


ํŠธ๋žœ์Šคํฌ๋จธ๋Š” self-attention ๋งค์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๊ธฐ์กด ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ์žฅ๊ธฐ ์˜์กด์„ฑ(long dependene)๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.

์ด์— ์‹œ๊ณ„์—ด์—์„œ ๋˜ํ•œ ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ถ”์ถœํ•ด์•ผ ํ•˜๋Š” LTSF์— ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ ์šฉํ•˜๋ ค๋Š” ๋…ธ๋ ฅ์ด ์ด์–ด์ ธ ์™”๋‹ค.

์—ฌ๋Ÿฌ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์‹œ๊ณ„์—ด ๋ชจ๋ธ ์—ฐ๊ตฌ๋“ค์€ vanilla ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์˜ˆ์ธก์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ฒƒ๊ณผ ๋”๋ถˆ์–ด, quadratic complexity๋ผ๋Š” ๋งค์šฐ ๋†’์€ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์— ์ง‘์ค‘ํ•ด์™”๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ์—์„œ vanilla ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋‚ด๋ถ€ ๋ชจ๋“ˆ๊ณผ ์ „์ฒด ์•„ํ‚คํ…Œ์ฒ˜๋ฅผ ์ˆ˜์ •ํ•œ ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์ด ๋งŽ์ด ์ œ์•ˆ๋˜์—ˆ๋‹ค. 

์—ฌ๋Ÿฌ ๋ณ€ํ˜•๋ชจ๋ธ๋“ค์€ ์ œ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์•„์ด๋””์–ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ์— ๋‹ค์–‘ํ•œ ์š”์†Œ๋ฅผ ์ ์šฉํ•˜์˜€๋‹ค.

 

1. Time series decomposition

์‹œ๊ณ„์—ด ์š”์†Œ๋ถ„ํ•ด๋Š” ์‹œ๊ณ„์—ด ๋ถ„์„์— ์žˆ์–ด์„œ standardํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์‹œ๊ณ„์—ด์ด ๊ฐ€์ง€๋Š” ๋ณ€๋™์„ ๋ถ„ํ•ดํ•จ์œผ๋กœ์จ ๋ณต์žกํ•œ ๋ณ€๋™์˜ ์š”์ธ๋“ค์„ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. 

ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์ค‘์—์„œ "Autoformer"๊ฐ€ ์ฒ˜์Œ์œผ๋กœ ์ด ์š”์†Œ๋ถ„ํ•ด๋ฅผ ๋„์ž…ํ•˜์˜€๋Š”๋ฐ, ๊ทธ๋“ค์€ seasonal-trend decomposition ๋ธ”๋ก์„ ๋ชจ๋“ˆ ๋‚ด๋ถ€์— ๋ฐฐ์น˜ํ•˜์—ฌ ์‹œ๊ณ„์—ด์˜ ์„ธ๋ถ€์ ์ธ ๋ณ€๋™๋“ค์„ ๋” ๊นŠ์ด ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€๋‹ค. 

๊ทธ๋“ค์€ ์ด๋™ํ‰๊ท (moving averaging) ์ปค๋„์„ ํ†ตํ•ด ๋ณ€๋™์„ ํ‰ํ™œํ™”ํ•˜์—ฌ ์ถ”์„ธ ๋ณ€๋™์„ ๋ฝ‘์•„๋‚ธ ๋’ค, ์ „์ฒด ๋ณ€๋™์—์„œ ์ด๋ฅผ ๋นผ์„œ ๊ณ„์ ˆ๋ณ€๋™์„ ์–ป๋Š”๋‹ค. ์ด๋Ÿฌํ•œ ์š”์†Œ๋ถ„ํ•ด๋ฅผ ํ†ตํ•ด ๊ฐ ์„ธ๋ถ€ ๋ณ€๋™๋“ค์— ์ง‘์ค‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์—ฌ๋Ÿฌ ์‹คํ—˜์„ ํ†ตํ•ด ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•˜์˜€๋Š”๋ฐ, ์ตœ๊ทผ "FED-former"์—์„œ๋„ ์ด๋Ÿฌํ•œ scheme๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ์ปค๋„ ์‚ฌ์ด์ฆˆ๋ฅผ ์ ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ ธ๋‹ค.

 

2. Input embedding strategies

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์…€ํ”„-์–ดํ…์…˜ ๋ ˆ์ด์–ด๋Š” ๊ทธ ์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ์˜ ์œ„์น˜์ •๋ณด๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ํ›‘๋Š”๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์˜ˆ์ธก์„ ์ ์šฉํ•˜๋Š” timestamp์˜ localํ•œ ์ •๋ณด๊ฐ€ ๋งค์šฐ ์ค‘์š”ํ•˜๋ฉฐ, hierarchical timestamps (week, month, year)์™€ agnostic timestamps (holidays and events)๊ฐ™์€ globalํ•œ ์ •๋ณด๋“ค ๋˜ํ•œ ๋ถ„์„์— ์žˆ์–ด์„œ ๋งค์šฐ ์œ ์šฉํ•˜๋‹ค.

์ด์— ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ ์ด๋Ÿฌํ•œ ์œ„์น˜์ •๋ณด๋“ค์„ ๋ณด์ „ํ•˜๊ธฐ ์œ„ํ•ด ์ธํ’‹ ์ž„๋ฒ ๋”ฉ์— ์žˆ์–ด์„œ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜๊ณ  ์žˆ๋‹ค.

๊ทธ ๋ฐฉ๋ฒ•๋“ค์—๋Š” ๋จผ์ € ๊ธฐ๋ณธ์ ์œผ๋กœ ๊ณ ์ •๋œ ์œ„์น˜ ์ •๋ณด๋ฅผ ๋„ฃ์–ด์ฃผ๋Š” ๋ฐฉ์‹์ธ fixed positional encoding๊ณผ channel projection, ํ•™์Šต๊ฐ€๋Šฅํ•œ ๋ ˆ์ด์–ด๋ฅผ ๋ฐฐ์น˜ํ•œ ์ž„๋ฒ ๋”ฉ, ๋‚˜์•„๊ฐ€ convolution layer๋ฅผ ๋ฐฐ์น˜ํ•˜๋Š” ๋ฐฉ์‹ ๋“ฑ ๋งค์šฐ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ์— ์œ„์น˜์ •๋ณด๋ฅผ ๋„ฃ์–ด์ฃผ๊ณ  ์žˆ๋‹ค.

 

 

 

3. Self-attention schemes

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ•ต์‹ฌ์ธ ์ด self-attention์€ ์ผ๋ จ์˜ ๊ฐ’๋“ค ์‚ฌ์ด์˜ sementicํ•œ dependency๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ๊ธฐ๋Šฅ์„ ํ•œ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ, ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ธํ’‹๊ธธ์ด์˜ 2๋ฐฐ์— ์ด๋ฅด๋Š” ๋ณต์žก๋„๋ฅผ ๊ฐ–๋Š” ๋ถ€์ž‘์šฉ์ด ์žˆ๋‹ค.

์ด์— ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์€ ๊ทธ๋Ÿฌํ•œ quadratic complexity๋ฅผ ํ•ด์†Œํ•˜๊ณ  ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๊ณ ์ž ์—ฌ๋Ÿฌ ์•„์ด๋””์–ด๋ฅผ ๊ตฌ์ฒดํ™”์‹œ์ผฐ๋‹ค.

 

- Introduce Sparsity Bias

LogTrans, Logsparse mask๋ฅผ ํ†ตํ•ด ์…€ํ”„ ์–ดํ…์…˜์˜ ๋Œ€์ƒ์„ ์ถ•์†Œํ•˜์—ฌ ๋ณต์žก๋„๋ฅผ ๋‚ฎ์ท„๋‹ค.

Pyraformer, ํ”ผ๋ผ๋ฏธ๋“œ ํ˜•ํƒœ๋กœ ์–ดํ…์…˜์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๊ณ„์ธต์ ์œผ๋กœ multi-scale temporal dependencies๋ฅผ ์ถ”์ถœํ•˜์—ฌ ๋ณต์žก๋„๋ฅผ ๋‚ฎ์ท„๋‹ค.

 

- Introduce the low-rank property

Informer, ์ค‘์š”๋„๊ฐ€ ๋†’์€ ํฌ์ธํŠธ๋“ค์„ ๊ณ„์‚ฐํ•˜์—ฌ ์ด๋“ค์„ ๋Œ€์ƒ์œผ๋กœ ์–ดํ…์…˜์„ ์ง„ํ–‰ํ•˜๋Š” ProbSparse self-attention์„ ๋„์ž…ํ•˜์˜€๋‹ค.

FEDformer, random-selection๊ณผ ํ•จ๊ป˜, Fourier enhanced block, a wavelet enhanced block์„ ๋””์ž์ธ ํ•˜์˜€๋‹ค.

(#์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ด์ •๋„๋กœ ๋ชจ๋ธ์˜ ๋งค์ปค๋‹ˆ์ฆ˜์„ ๊ฐ„๋‹จํžˆ "์†Œ๊ฐœ"๋งŒ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ ๋…ผ๋ฌธ์„ ์ฐพ์•„๋ณด์‹œ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ฐจํ›„์— ๋‘ ๋…ผ๋ฌธ ๋˜ํ•œ ๋ฆฌ๋ทฐํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.)

 

์ถ”๊ฐ€๋กœ Autoformer๋Š” ๊ธฐ์กด self-attention์—์„œ์˜ point-wise๋ฅผ ๋Œ€์ฒดํ•œ series-wiseํ•œ ๋ฐฉ์‹์œผ๋กœ dependency๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” Auto-Correlation ๋งค์ปค๋‹ˆ์ฆ˜์„ ๋””์ž์ธ ํ•˜์˜€๋‹ค.

 

- Decoders

Vanilla ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋””์ฝ”๋”๋Š” ๊ฒน๊ฒน์ด ์Œ“์ธ ๋ ˆ์ด์–ด ์ธต์„ ์ง€๋‚˜ autoregressiveํ•œ ๋ฐฉ์‹์œผ๋กœ ์•„์›ƒํ’‹ ๊ฐ’์„ ํ•˜๋‚˜์”ฉ ์‚ฐ์ถœํ•œ๋‹ค.

์ด๋Ÿฌํ•œ IMS ๋ฐฉ์‹์€ ์•ž์„œ ์–ธ๊ธ‰ํ•œ๋Œ€๋กœ ์˜ค๋ฅ˜๊ฐ€ ์ถ•์ ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ•˜๋ฉฐ ์†๋„ ๋˜ํ•œ ๋Š๋ ค์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค.

์ด์— ์—ฌ๋Ÿฌ ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์€ IMS๊ฐ€ ์•„๋‹Œ DMS ๋ฐฉ์‹์œผ๋กœ LTSF๋ฅผ ๋‹ค๋ฃจ๋„๋ก ํ•˜์˜€๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, Autoformer๋Š” ์‹œ๊ณ„์—ด์„ ์ถ”์„ธ์™€ ๊ณ„์ ˆ๋ณ€๋™์œผ๋กœ ๋ถ„ํ•ดํ•˜๊ณ  ๊ณ„์ ˆ๋ณ€๋™์˜ dependency๋ฅผ auto-correlation ๋งค์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋ฝ‘์•„๋‚ธ ๋’ค, ๋งˆ์ง€๋ง‰ ์ตœ์ข… ์˜ˆ์ธก์— ์žˆ์–ด์„œ ์ถ”์„ธ์™€ ๊ณ„์ ˆ๋ณ€๋™์„ ํ•ฉ์น˜๋Š” ์‹์œผ๋กœ ๋ฏธ๋ž˜์˜ ์˜ˆ์ธก๊ฐ’์„ ํ•œ๋ฒˆ์— ์‚ฐ์ถœํ•œ๋‹ค.

 

 

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ „์ œ๋Š” ์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ ๊ฐ„์˜ sementicํ•œ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ์–ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ฒŒ๋‹ค๊ฐ€ ๊ทธ ๊ด€๊ณ„๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ์…€ํ”„ ์–ดํ…์…˜์€ permutation- invariant(์ˆœ์—ด๋ถˆ๋ณ€์ )ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ธํ’‹์— ์ถ”๊ฐ€๋กœ ๋„ฃ์–ด์ค€ positional encoding ๊ฐ’์— ์ „์ ์œผ๋กœ ์˜์กดํ•˜๊ฒŒ ๋œ๋‹ค. 

๊ทธ๋Ÿฐ๋ฐ ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃจ๋Š” ์‹œ๊ณ„์—ด์˜ raw ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ๊ฐํ•ด๋ณธ๋‹ค๋ฉด ๊ทธ ๋ฐ์ดํ„ฐ๋“ค ์‚ฌ์ด์— ์–ด๋– ํ•œ sementicํ•œ ํ๋ฆ„์ด๋‚˜ ํŠน์ • ๋ฐ˜๋ณต๋˜๋Š” ๋ฌธ๋งฅ์„ ์ฐพ์•„๋ณด๊ธฐ๊ฐ€ ์–ด๋ ต๋‹ค. ๋˜ํ•œ, ์•„๋ฌด๋ฆฌ ๊ธฐ์ˆ ์ ์ธ positional encoding์„ ์ ์šฉํ•œ๋‹ค๊ณ  ํ•  ์ง€๋ผ๋„ ์ˆœ์„œ์— ์ƒ๊ด€์—†์ด ๋™์ž‘ํ•˜๋Š” ์…€ํ”„ ์–ดํ…์…˜์€ ๊ทธ ์‹œ๊ฐ„์ ์ธ ์ •๋ณด๋ฅผ ์žƒ๊ฒŒ ๋œ๋‹ค. 

๊ฒฐ๊ตญ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์†์„ฑ ๋‚ด์ง€๋Š” ์ •๋ณด๋Š” ์‹œ๊ณ„์—ด์ด ์›๋ž˜ ๊ฐ€์ง€๊ณ  ์žˆ๋˜, ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ์„ฑ๋œ order ๊ทธ ์ž์ฒด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ฐธ์กฐ)

https://seollane22.tistory.com/20

 

[Paper Review] Attention Is All You Need(2017) #Transformer

"Attention is all you need", ์ด ๋…ผ๋ฌธ์€ ๊ธฐ์กด seq to seq ๋ชจ๋ธ์˜ ํ•œ๊ณ„์ ์„ ๋ณด์™„ํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•œ Transformer ๋ชจ๋ธ์˜ ๋“ฑ์žฅ์„ ์•Œ๋ฆฐ ๊ธฐ๋…๋น„์ ์ธ ๋…ผ๋ฌธ์ด๋‹ค. ํ˜„์žฌ NLP์™€ ๊ฐ™์ด seq to seq ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌ

seollane22.tistory.com

https://seollane22.tistory.com/21

 

[Paper Review] Transformers in Time Series: A Survey (2022)

์ด ๋…ผ๋ฌธ์€ ์‹œ๊ณ„์—ด ๋ถ„์„์— ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ ์šฉํ•ด์˜จ ์—ฐ๊ตฌ๋“ค์„ ์ •๋ฆฌํ•œ ๋…ผ๋ฌธ์ด๋‹ค. ์‹œ๊ณ„์—ด ๋ถ„์„์€ NLP์™€ ํ•จ๊ป˜ sequential task์˜ ๋Œ€ํ‘œ์ ์ธ ๋ถ„์•ผ ์ค‘ ํ•˜๋‚˜๋กœ, ๊ธˆ์œต, ์ œ์กฐ์—…, ๋งˆ์ผ€ํŒ… ๋“ฑ ๋‹ค์–‘ํ•œ ๋น„์ฆˆ๋‹ˆ์Šค ๋„๋ฉ”์ธ

seollane22.tistory.com

 

 

4. An Embarrassingly Simple Baseline

 

์ด ๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ์•ž์„œ ๋…ผ์˜ํ•˜๊ณ  ์ฃผ์žฅํ•œ ์Ÿ์ ๋“ค์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค.

๋จผ์ € ์ €์ž๋“ค์€ ๊ทธ๋™์•ˆ์˜ baseline๋ชจ๋ธ๋“ค์ด IMS์— ์˜ํ•œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— LTSF์—์„œ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์„ฑ๋Šฅ์„ ์ œ๋Œ€๋กœ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์—†์—ˆ๋‹ค๋Š” ๊ฐ€์„ค์„ ์ œ์‹œํ•˜๋ฉฐ DMS ๋ฐฉ์‹์„ ์ ์šฉํ•œ ์‹คํ—˜์„ ์ง„ํ–‰ํ•  ํ•„์š”์„ฑ์„ ์ฃผ์žฅํ•œ๋‹ค. (IMS๋Š” LTSF์—์„œ DMS๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ๋‹ค.)

์ด์— ๊ทธ๋“ค์€ ์ƒˆ๋กœ์šด baseline ๋ชจ๋ธ์„ ์ œ์‹œํ•˜๋Š”๋ฐ, ๊ทธ ๊ตฌ์กฐ๋Š” ์•„๋ž˜์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋“ฏ์ด ๋‹ค๋ฅธ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ํ„ฐ๋ฌด๋‹ˆ ์—†์–ด ๋ณด์ผ ์ •๋„๋กœ ๋‹จ์ˆœํ•˜๋‹ค.

 

๋ชจ๋ธ ์•„ํ‚คํ…Œ์ฒ˜ ๋น„๊ต
LTSF

 

์ƒˆ๋กœ์šด baseline ๋ชจ๋ธ์ธ LTSF-L์€ ์ •๋‹ฌ ๋‹จ์ˆœํžˆ ๋ ˆ์ด์–ด๋ฅผ ํ•˜๋‚˜๋งŒ ๋ฐฐ์น˜ํ•œ ๋ชจ๋ธ์ด๋‹ค.

์ด๋Š” vanilla ANN๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ๋กœ, ๊ณผ๊ฑฐ ์‹œ๊ณ„์—ด์„ ํ†ตํ•ด ์ง์ ‘์ ์œผ๋กœ ๋ฏธ๋ž˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฐ„๋‹จํ•œ ํšŒ๊ท€๋ชจํ˜•์ด๋‹ค.

์ด ๋ชจ๋ธ์€ ๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก์— ์žˆ์–ด์„œ ๋ณ€์ˆ˜๊ฐ„ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต์œ (share)ํ•  ๋ฟ, ์–ด๋– ํ•œ spatial correlation(๊ณต๊ฐ„์  ์ƒ๊ด€๊ด€๊ณ„)์„ ๋ชจ๋ธ๋งํ•˜์ง€ ์•Š์•˜๋‹ค.

๋‹จ, ์ด ๋ชจ๋ธ์„ ์‹ค์ƒํ™œ์˜ ๋‹ค์–‘ํ•œ ๋ณ€๋™์„ ํฌํ•จํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ(์—๋„ˆ์ง€, ์œ ๋™์ธ๊ตฌ, ํ™˜์œจ ๋“ฑ)์— ์ ์ ˆํžˆ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ์ด ๋ชจ๋ธ์„ ์ „์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์— ๋”ฐ๋ผ ๋‘ ์ข…๋ฅ˜๋กœ ๋ณ€ํ˜•ํ•˜์˜€๋‹ค.

 

- DLinear

์ด ๋ชจ๋ธ์€ Decomposition์„ ์ด์šฉํ•œ๋‹ค. Decomposition์˜ ๋งค์ปค๋‹ˆ์ฆ˜์€ autoformer์—์„œ ์ œ์•ˆ๋œ ๊ฒƒ๊ณผ ๊ฐ™์€๋ฐ, ๋จผ์ € raw ๋ฐ์ดํ„ฐ๋ฅผ ์š”์†Œ๋ถ„ํ•ด๋ฅผ ํ†ตํ•ด trend์™€ reminder(seasonal) ๋ณ€๋™์œผ๋กœ ๋ถ„๋ฆฌํ•œ๋‹ค. ์ดํ›„ ๊ฐ ์š”์†Œ์— ๋ ˆ์ด์–ด๋ฅผ ํ•˜๋‚˜์”ฉ ๋ฐฐ์น˜ํ•˜์—ฌ ๊ฐ ๋ณ€๋™์„ ๋”ฐ๋กœ ํ•™์Šตํ•œ ๋’ค ๋งˆ์ง€๋ง‰์— ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ•ฉ์นœ๋‹ค. ์ด๊ฒƒ์€ ๋ถ„๋ช…ํ•œ ํŠธ๋ Œ๋“œ๊ฐ€ ์žˆ์„ ๋•Œ ๊ทธ ์„ฑ๋Šฅ์„ ๊ฐ•ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„ํ•œ ๊ฒƒ์ด๋‹ค. 

 

- NLinear

์ด ๋ชจ๋ธ์€ ์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ๋ฅผ ๊ทธ ์ธํ’‹์˜ ๋งˆ์ง€๋ง‰ ๊ฐ’์œผ๋กœ ๋ชจ๋‘ ๋นผ์ค€๋‹ค. ๊ทธ๋ ‡๊ฒŒ ์ผ์ข…์˜ ์ฐจ๋ถ„์„ ์ง„ํ–‰ํ•œ ํ›„ ๋ ˆ์ด์–ด๋ฅผ ํ†ต๊ณผ์‹œํ‚ค๋ฉฐ ๋งˆ์ง€๋ง‰ ์ตœ์ข… ์˜ˆ์ธก๋‹จ๊ณ„์—์„œ ๋‹ค์‹œ ๋งˆ์ง€๋ง‰ ๊ฐ’์œผ๋กœ ๋”ํ•ด์ฃผ์–ด ์•„์›ƒํ’‹์„ ์™„์„ฑํ•œ๋‹ค.์ด๋Ÿฌํ•œ ๊ณผ์ •์€ ์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ/์‹œํ€€์Šค์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ํ‘œ์ค€ํ™”(์ •๊ทœํ™”)์ด๋ฉฐ, ์ด๋Š” ์ธํ’‹์ด ๋ฐ์ดํ„ฐ ์…‹ ์•ˆ์—์„œ ๋ถ„ํฌ๊ฐ€ ๊ธ‰๊ฒฉํ•˜๊ฒŒ ๋ณ€ํ•˜๋Š” ์ง€์ ์— ์ž˜ ์ ํ•ฉํ•˜๋„๋ก ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค. 

 

 

5. Experiments

 

 

- Experimental Settings

 

๋ฐ์ดํ„ฐ๋Š” ์‹ค์ƒํ™œ์˜ ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ์—์„œ ๋‹ค์–‘ํ•œ ๋ณ€๋™์„ ๊ฐ€์ง„ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ๋“ค์ด๋‹ค. ์ด๋“ค์€ ๋ชจ๋‘ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.

{ETT (Electricity Transformer Temperature)(ETTh1, ETTh2, ETTm1, ETTm2)} / Traffic / Electricity / Weather / ILI / Exchange Rate /  *h=hour, m=minute

 

ํ‰๊ฐ€์ง€ํ‘œ๋Š” MAE, MSE๋ฅผ ์ด์šฉํ•˜์˜€๋‹ค.

 

๋น„๊ต ๋ชจ๋ธ๋กœ๋Š” SOTA๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์„ ์ด์šฉํ•˜์˜€๊ณ , baseline ๋ชจ๋ธ๋กœ๋Š” LTSF-L ๋ชจ๋ธ๊ณผ naive DMS ๋ฐฉ๋ฒ•์ธ "Closest Repeat (Repeat)"์„ ์ƒˆ๋กญ๊ฒŒ ์ถ”๊ฐ€ํ•˜์˜€๋‹ค. "Closest Repeat (Repeat)"์€ look-back window(์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ)์˜ ๋งˆ์ง€๋ง‰ ๊ฐ’์„ ๋‹จ์ˆœํ•˜๊ฒŒ ๋ฐ˜๋ณตํ•˜๋Š” ๋‚˜์ด๋ธŒํ•œ DMS ๋ฐฉ์‹์ด๋‹ค.

*FED-former๋Š” ๋‘ ๊ฐ€์ง€ ๋ณ€ํ˜•์ด ์žˆ๋Š”๋ฐ, ๊ทธ ์ค‘ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” FEDformer-f via Fourier transform์„ ์ด์šฉํ•˜์˜€๋‹ค.

 

- Comparison with Transformers

 

multivariate forecasting

Quantitative results

 

๋‹ค๋ณ€๋Ÿ‰ ์˜ˆ์ธก์— ์žˆ์–ด์„œ, ๋†€๋ž๊ฒŒ๋„ LTSF-Linear ๋ชจ๋ธ์ด SOTA์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” FEDformer๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๊ทธ ์ฆ๊ฐ€ํญ์€ 20%~50%์ด๋ฉฐ ๊ฑฐ์˜ ๋Œ€๋ถ€๋ถ„์˜ ์ƒํ™ฉ์—์„œ ๋ชจ๋‘ ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. (์‹ฌ์ง€์–ด LTSF-Linear์—๋Š” ๋ณ€์ˆ˜๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•˜์ง€ ์•Š์•˜๋‹ค.)

์œ„ ๊ฒฐ๊ณผ๋Š” ๊ฐ์ž ๋‹ค์–‘ํ•œ ๋ณ€๋™๋“ค์„ ๋‹ด๊ณ ์žˆ๋Š” ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์—์„œ ์ผ์–ด๋‚œ ๊ฒฐ๊ณผ์ด๊ธฐ ๋•Œ๋ฌธ์— LTSF-Linear ๋ชจ๋ธ์ด distribution shift๋‚˜ ์ถ”์„ธ, ๊ณ„์ ˆ ์š”์†Œ์˜ ํŠน์ง•์„ ๋” ์ž˜ ํฌ์ฐฉํ•˜๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

์ด์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๋…ผ๋ฌธ์˜ appendix์— ํฌํ•จ๋œ ๋‹จ๋ณ€๋Ÿ‰ ์˜ˆ์ธก์—์„œ๋„ LTSF-Linear ๋ชจ๋ธ์ด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

 

์ •๋ฆฌํ•˜์ž๋ฉด, ํ˜„์กดํ•˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์€ ๊ทธ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ ์œ„ํ•ด ๋งค์šฐ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋กœ ๋ณ€ํ˜•๋˜์—ˆ์ง€๋งŒ ์œ„ ์‹คํ—˜๊ฒฐ๊ณผ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์ด ๋ถ„๋ช…ํ•œ ํ•œ๊ณ„์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค.

 

์ถ”๊ฐ€๋กœ, ์œ„ ์‹คํ—˜์€ ๋˜ ํ•˜๋‚˜์˜ ๋งค์šฐ ํฅ๋ฏธ๋กœ์šด ์‹œ์‚ฌ์ ์„ ์ œ์‹œํ•˜๊ณ  ์žˆ๋‹ค.

Exchange-rate ๋ฐ์ดํ„ฐ์—์„œ naive repeat๋ชจ๋ธ์ด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์„ ๋ฌด๋ ค 45% ์ •๋„์˜ ์ฆ๊ฐ€ํญ์œผ๋กœ ์••๋„ํ•˜์˜€๋‹ค.

์ด๋Š” ์—ฌ๋Š ๊ฒฝ์ œ ์ง€ํ‘œ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํ™˜์œจ์ด seasonalํ•œ ๋ณ€๋™๋ณด๋‹ค ๋ถ„๋ช…ํ•œ trend์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ์•ˆํ–ˆ์„ ๋•Œ,

ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์ด ํฐ trend๊ฐ€ ์•„๋‹ˆ๋ผ ์ง€์—ฝ์ ์ธ ๋ณ€๋™(์–ด์ฉŒ๋ฉด ์•ฝํ•œ ๊ณ„์ ˆ์š”์ธ ํ˜น์€ ๋…ธ์ด์ฆˆ)์— ๊ณผ์ ํ•ฉ ๋˜์—ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

์ด๋Š” ์˜ˆ์ธกํ๋ฆ„์„ ์‹œ๊ฐํ™”ํ•œ ๊ทธ๋ž˜ํ”„์—์„œ ๋ถ„๋ช…ํ•˜๊ฒŒ ๋“œ๋Ÿฌ๋‚ฌ๋‹ค.

Qualitative results

 

(b)๋ฅผ ๋ณด๋ฉด, ๋นจ๊ฐ„์ƒ‰ ์‹ค์ œ ๊ฐ’์— ๋น„ํ•ด ๋‹ค๋ฅธ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์€ ์ „ํ˜€ ์–ด๋– ํ•œ ์ถ”์„ธ๋„ ๋”ฐ๋ผ๊ฐ€์ง€ ๋ชปํ•˜๊ณ  ์žˆ๋‹ค. DLinear ๋˜ํ•œ ์™„๋ฒฝํ•˜๊ฒŒ ์‹ค์ œ ๋ณ€๋™์„ ๋”ฐ๋ผ์žก๊ณ  ์žˆ์ง€๋Š” ์•Š์ง€๋งŒ, ์‹ค์ œ์™€ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์ถ”์„ธ๋ฅผ ๊ทธ๋ ค๋ƒˆ๋‹ค. (200์—์„œ 250์‚ฌ์ด์˜ ์‹ค์ œ ์ŠคํŒŒ์ดํฌ๋ฅผ ๋”ฐ๋ผ๊ฐ€์ง€ ๋ชปํ•œ ๊ฒƒ์€ DLinear๊ฐ€ ๊ณผ์†Œ์ ํ•ฉ๋˜์—ˆ์„ ๊ฐ€๋Šฅ์„ฑ ๋˜ํ•œ ์‹œ์‚ฌํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.)

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋น„๋‹จ (b)๋ฟ๋งŒ์ด ์•„๋‹ˆ๋ผ ๊ฐ๊ฐ ๋‹ค๋ฅธ temporal pattern์„ ๋ณด์ด๋Š” (a),(c)์—์„œ๋„ ๋“œ๋Ÿฌ๋‚ฌ๋Š”๋ฐ, ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์€ ์‹ค์ œ ๋ณ€๋™์˜ scale๊ณผ bias๋ฅผ ์ „ํ˜€ ๋”ฐ๋ผ์žก์ง€ ๋ชปํ•˜๊ณ  ์žˆ์—ˆ๋‹ค.

 

 

- More Analyses on LTSF-Transformers

 

๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ์•ž์„  ์–‘์ , ์งˆ์  ์‹คํ—˜๊ณผ ๋”๋ถˆ์–ด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์˜ ํšจ๊ณผ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๋” ๋ฉด๋ฉธํžˆ ๊ฒ€์ฆํ•˜๊ณ ์ž ์ถ”๊ฐ€์ ์ธ ์‹คํ—˜๋“ค์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค. ์ด๋“ค์€ ๊ฐ ์‹คํ—˜์˜ ์ฃผ์ œ๋กœ์„œ ํŠธ๋žœ์Šคํฌ๋จธ์˜ LTSF์— ๋Œ€ํ•œ ์˜๋ฌธ์„ ๋˜์ง€๊ณ  ๊ทธ์— ๋Œ€ํ•œ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฌ๋Š” ์‹์œผ๋กœ ์ด์•ผ๊ธฐ๋ฅผ ์ด์–ด๊ฐ„๋‹ค.

 

 

1. Can existing LTSF-Transformers extract temporal relations well from longer input sequences?

(ํ˜„์žฌ๊นŒ์ง€ ์ œ์•ˆ๋œ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ๊ธด ์ธํ’‹ ์‹œํ€€์Šค์˜ ์‹œ๊ฐ„์  ๊ด€๊ณ„๋ฅผ ์ž˜ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์„๊นŒ?)

 

์žฅ๊ธฐ์ ์ธ ๋ณ€๋™์„ ๋”ฐ๋ผ๊ฐ€์•ผ ํ•˜๋Š” LTSF์—์„œ ๊ทธ ์ •ํ™•๋„๋Š” Look-Back Window(์œˆ๋„์šฐ)์˜ ์‚ฌ์ด์ฆˆ๊ฐ€ ๋งค์šฐ ๊ฒฐ์ •์ ์ธ ์—ญํ• ์„ ํ•œ๋‹ค.

์ด๋Š” ํ•™์Šต์— ์žˆ์–ด์„œ ์–ผ๋งˆ๋‚˜ ๋จผ ์‹œ์ ์˜ ์ •๋ณด๋ฅผ ํ•™์Šตํ•  ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š”๋ฐ, ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์€ ๊ธธ๊ฒŒ, ๋งŽ์ด ๋ฐฐ์šด๋งŒํผ LTSF๋ฅผ ์ž˜ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด ์ƒ์‹์ ์ด๋‹ค. (๋จผ ์‹œ์ ์„ ์˜ˆ์ธกํ•˜๋ ค๋ฉด ๋‹น์—ฐํžˆ ๋จผ ๊ณผ๊ฑฐ๋ฅผ ํ•™์Šตํ•ด์•ผ ํ•  ๊ฒƒ์ด๋‹ค.)

๊ทธ๋Ÿฌํ•œ ๋งฅ๋ฝ์—์„œ ์œ„ ์‹คํ—˜๊ฒฐ๊ณผ๋Š” 720step์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์žˆ์–ด์„œ ๊ทธ Look-Back Window๋ฅผ ์กฐ๊ธˆ์”ฉ ๋Š˜๋ ค๊ฐ€๋ฉฐ MSE์˜ ๋ณ€๋™์„ ์‹œ๊ฐํ™”ํ•œ ๊ฒฐ๊ณผ์ด๋‹ค. ๋ˆˆ์— ๋„๋Š” ๊ฒฐ๊ณผ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์€ ๊ทธ Look-Back Window์˜ ํฌ๊ธฐ์™€ ๊ด€๊ณ„์—†์ด ์ผ์ •ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. (Informer๋Š” ์˜คํžˆ๋ ค ๋จผ ๊ณผ๊ฑฐ๋ฅผ ๋ฐฐ์šธ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง„๋‹ค.) ๊ทธ์— ๋ฐ˜ํ•ด LTSF-L๋ชจ๋ธ๋“ค์€ ๋ชจ๋‘ ๋ฉ€๋ฆฌ ๋ฐฐ์šธ์ˆ˜๋ก ๋” ์ž˜ ์˜ˆ์ธกํ•œ๋‹ค๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”๋‹ค.

 

์ •๋ฆฌํ•˜์ž๋ฉด

1. ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์€ ์–ด๋– ํ•œ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ณ€๋™์„ ์œ ์—ฐํ•˜๊ฒŒ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋…ธ์ด์ฆˆ์— ๊ณผ์ ํ•ฉ๋˜์—ˆ๋‹ค.

2. LTSF-L ๋ชจ๋ธ๋“ค์€ ๊ธธ๊ฒŒ ๋ฐฐ์šธ์ˆ˜๋ก ๊ธธ๊ฒŒ ์ž˜ ์˜ˆ์ธกํ•œ๋‹ค.

 

 

2. What can be learned for long-term forecasting?

(๊ธด ์˜ˆ์ธก์—์„œ ๋ฌด์—‡์„ ํ•™์Šตํ•˜๋Š” ๊ฐ€)

 

๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ long-term์˜ ์˜ˆ์ธก์— ์žˆ์–ด์„œ ๋ฌด์—‡์„ ํ•™์Šตํ•˜๋Š” ์ง€, ๋˜ ์ข‹์€ ์„ฑ๋Šฅ์„ ์œ„ํ•ด ๋ฌด์—‡์„ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ์ง€๋ฅผ ํ™•์ธํ•˜๊ณ ์ž ํ•˜์˜€๋‹ค.

์œ„์—์„œ ๋‚˜์˜จ ๊ฒฐ๊ณผ ๊ทธ๋ž˜ํ”„๋ฅผ ์‚ดํŽด๋ณด๋ฉด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์ด ์œˆ๋„์šฐ ์‚ฌ์ด์ฆˆ์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

์ด์— ์ €์ž๋“ค์€ ์œˆ๋„์šฐ ์‚ฌ์ด์ฆˆ๊ฐ€ ๋‹จ๊ธฐ์˜ˆ์ธก์—์„œ ํฐ ์—ญํ• ์„ ํ•  ์ง€๋Š” ๋ชฐ๋ผ๋„, "์žฅ๊ธฐ์˜ˆ์ธก์— ์žˆ์–ด์„œ๋Š” ์œˆ๋„์šฐ ์‚ฌ์ด์ฆˆ๊ฐ€ ์•„๋‹Œ ์–ด๋– ํ•œ ์ถ”์„ธ(trend)๋‚˜ ์ฃผ๊ธฐ(periodicity)๋ฅผ ์ œ๋Œ€๋กœ ํŒŒ์•…ํ•ด์•ผ ํ•œ๋‹ค"๋Š” ๊ฐ€์„ค์„ ์„ธ์› ๋‹ค.

 

 

๊ทธ๋“ค์€ ํ˜„์žฌ SOTA ํŠธ๋žœ์Šคํฌ๋จธ๋“ค์€ FEDformer์™€ Autoformer๋ฅผ ๋‘๊ณ  ์˜ˆ์ธก ์‹œ์ ์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด 96 time step์„ ์ธํ’‹์œผ๋กœ ๋‘” Close์™€ ๊ทธ 96์‹œ์ ๋ณด๋‹ค ๋” ๋’ค์— ์žˆ๋Š” 96์‹œ์ ์„ ์ธํ’‹์œผ๋กœ ๋‘” Far๋ผ๋Š” ์กฐ๊ฑด์„ ์„ค์ •ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ…Œ์ŠคํŠธํ–ˆ๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, ๋‘ ๋ชจ๋ธ์€ ๊ทธ "์ธํ’‹, ์ฆ‰, ์œˆ๋„์šฐ๊ฐ€ ์–ด๋Š์‹œ์ ์— ์žˆ๋Š” ์ง€", "์ตœ๊ทผ ๊ฐ’์„ ๋ฐ˜์˜ํ•˜๋Š” ์ง€ ์•„๋‹Œ ์ง€(์ตœ๊ทผ์˜ ํŠธ๋ Œ๋“œ๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ์ง€)" ์— ๋ฌด๊ด€ํ•˜๊ฒŒ ์–ด๋Š์ •๋„ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์‹ค์ œ๋กœ ์œ„ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด Close์™€ Far์˜ ์ฐจ์ด๊ฐ€ ํฌ์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

์ด๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์ด ์‹œ์ ์— ๋”ฐ๋ฅธ ํŠธ๋ Œ๋“œ๋ฅผ ๋ฐ˜์˜ํ•˜์ง€ ์•Š๊ณ  ๊ทธ์ € ์œˆ๋„์šฐ์—์„œ ์œ ์‚ฌํ•œ series๋งŒ์„ ๋ฝ‘์•„๋‚ด๋Š” ๊ฒƒ์— ๊ทธ์นœ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค.

์ €์ž๋“ค์€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋„ˆ๋ฌด ๋งŽ์€ ๋ชจ์ˆ˜๊ฐ€ ์˜คํžˆ๋ ค ๊ณผ์ ํ•ฉ์„ ์ผ์œผ์ผœ Trend์™€ Periodicity์˜ ํฐ ํ๋ฆ„์„ ์žก์ง€ ๋ชปํ•œ๋‹ค๊ณ  ์ด์•ผ๊ธฐํ•œ๋‹ค.

 

3. Are the self-attention scheme effective for LTSF?

(ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์…€ํ”„-์–ดํ…์…˜ ๊ตฌ์กฐ๊ฐ€ ๊ณผ์—ฐ LTSF์—์„œ ํšจ๊ณผ์ ์ผ๊นŒ?)

 

์ด๋ฒˆ์—๋Š” ๊ณผ์—ฐ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์ด ๊ฐ€์ง€๋Š” ์…€ํ”„-์–ดํ…์…˜๊ณผ ๊ทธ ๋ณต์žกํ•œ ๋””์ž์ธ๋“ค์ด LTSF์—์„œ ํšจ๊ณผ์ ์ธ ์ง€, ๊ทธ๊ฒƒ์„ ๊ฒ€์ฆํ•œ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด ์ €์ž๋“ค์€ ํฅ๋ฏธ๋กœ์šด ์‹คํ—˜์„ ๋””์ž์ธํ•˜์˜€๋Š”๋ฐ, ๊ทธ๊ฒƒ์€ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜์ธ Informer์˜ ๊ตฌ์กฐ๋ฅผ ๋”์šฑ ๊ฐ„๋‹จํ•˜๊ฒŒ ์ˆ˜์ •ํ•ด๋‚˜๊ฐ€๋ฉฐ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ ๊ฒƒ์ด๋‹ค.

 

์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ ์ปฌ๋Ÿผ์œผ๋กœ ๊ฐˆ์ˆ˜๋ก ๋ชจ๋ธ์ด ๋”์šฑ ๋‹จ์ˆœํ•ด์ง€๋Š”๋ฐ, ๋‘๋ฒˆ์งธ ์ปฌ๋Ÿผ์ธ Att.-Linear ํ˜•ํƒœ๋Š” ๋‹จ์ˆœํžˆ ์–ดํ…์…˜ ๋ ˆ์ด์–ด๋ฅผ Linear ๋ ˆ์ด์–ด๋กœ ๋Œ€์ฒดํ•œ ๊ฒƒ์ด๊ณ , ๊ทธ ์˜† ์ปฌ๋Ÿผ์€ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด์™€ Linear ๋ ˆ์ด์–ด๋งŒ ๋‚จ๊ฒจ๋‘๊ณ  FFN ๋“ฑ ๋‹ค๋ฅธ ๋””์ž์ธ์€ ๋ชจ๋‘ ์ง€์›Œ๋ฒ„๋ฆฐ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์ด๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์ •๋ง ๋†€๋ž๊ฒŒ๋„ ๊ทธ ๊ฒฐ๊ณผ๋Š” ๋”์šฑ ๋‹จ์ˆœํ•ด์งˆ์ˆ˜๋ก ๋”์šฑ ์ •ํ™•ํ•ด์ง„๋‹ค๊ณ  ๋งํ•œ๋‹ค.

์ด์— ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ•ต์‹ฌ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋Š” self - attention ๋ ˆ์ด์–ด๋Š” ๋ฌผ๋ก , ์—ฌ๋Ÿฌ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์˜ ๋ณต์žกํ•œ ๋””์ž์ธ์€ ํšจ๊ณผ์ ์ด์ง€ ์•Š๋‹ค๋Š” ๊ฒฐ๋ก ์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋‹ค.

 

4. Can existing LTSF-Transformers preserve temporal order well?

(๊ณผ์—ฐ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์‹œ๊ฐ„์ ์ธ ์ˆœ์„œ๋ฅผ ์ž˜ ๋ณด์ „ํ•  ์ˆ˜ ์žˆ์„๊นŒ?)

 

์‹œ๊ณ„์—ด์—์„œ temporal order์˜ ์ค‘์š”์„ฑ์€ ์„ค๋ช…์ด ํ•„์š”์—†์„ ์ •๋„์ด๋‹ค. 

๊ทธ๋Ÿฐ๋ฐ, self-attention์€ ๊ทธ ์ˆœ์—ด ๋ถˆ๋ณ€์ ์ด๊ณ  ์ˆœ์„œ์™€ ๊ด€๊ณ„์—†์ด ๋™์ž‘ํ•˜๋Š”๋ฐ, ์ด์— ์ €์ž๋“ค์€ ์•„๋ฌด๋ฆฌ positional encoding์„ ํ†ตํ•œ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์œ„์น˜์ •๋ณด๋ฅผ ๋„ฃ์–ด์ค€๋‹ค๊ณ  ํ•  ์ง€๋ผ๋„ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๊ทผ๋ณธ์ ์œผ๋กœ ๊ทธ temporal information์„ ์žƒ์„ ์ˆ˜ ๋ฐ–์— ์—†๋‹ค๊ณ  ๋งํ•œ๋‹ค.

 

์œ„ ๊ฒฐ๊ณผ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์ด ๊ทธ ์ธํ’‹์˜ ์ˆœ์„œ์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ๋™์ž‘ํ•˜๋ฉฐ temporal order๋ฅผ ์ž˜ ๋ณด์ „ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.

shuf๋Š” ์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ ์ „์ฒด๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ์„ž์€ ๊ฒƒ์ด๊ณ , half-ex๋Š” ์ธํ’‹์„ ์ ˆ๋ฐ˜์œผ๋กœ ๋‚˜๋ˆ„๊ณ  ๊ทธ ์•ž๊ณผ ๋’ค๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ๋ฐ”๊พผ ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

์‹คํ—˜๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณด๋ฉด, Exchange ๋ฐ์ดํ„ฐ ์…‹์—์„œ Linear ๋ชจ๋ธ์€ ์›๋ž˜ ๊ฐ€์ง€๊ณ  ์žˆ๋˜ ์ˆœ์„œ๊ฐ€ ํ›ผ์†๋  ๋•Œ ๊ฝค ํฐ ์„ฑ๋Šฅ ๊ฐ์†Œ๋ฅผ ๋ณด์˜€๋‹ค. ๊ทธ์— ๋ฐ˜ํ•ด ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ ๊ทธ ์„ฑ๋Šฅ์˜ ๋ณ€ํ™”๊ฐ€ ๋งค์šฐ ์ ์—ˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ, ๋” ๋ถ„๋ช…ํ•œ ์ฃผ๊ธฐ์™€ ๊ณ„์ ˆ์ ์ธ ๋ณ€๋™์„ ๊ฐ€์ง€๋Š” ETTh1 ์…‹์—์„œ๋Š” FED, Autoformer ๋˜ํ•œ ํฐ ์„ฑ๋Šฅ๊ฐ์†Œ๋ฅผ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ์œ ์‚ฌํ•œ ์ฃผ๊ธฐ, ๊ณ„์ ˆ๋ณ€๋™์„ ๊ฐ€์ง€๋Š” series๋ฅผ ์ถ”์ถœํ•˜์—ฌ ํ•ฉ์น˜๋Š” ๋‘ ๋ชจ๋ธ์˜ ํŠน์„ฑ์— ๋”ฐ๋ฅธ ๊ฒฐ๊ณผ์ด๋‹ค. (๋ฐ์ดํ„ฐ๋ฅผ ์„ž์œผ๋ฉด ๊ทธ ์ฃผ๊ธฐ๋‚˜ ๊ณ„์ ˆ์„ฑ์ด ์™„์ „ํžˆ ๋ฐ”๋€Œ๊ฒŒ ๋œ๋‹ค.)

 

4. How effective are different embedding strategies?

(๊ฐ๊ฐ์˜ ๋‹ค๋ฅธ ์ž„๋ฒ ๋”ฉ ์ „๋žต๋“ค์€ ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ๊ฐ€ ์žˆ์„๊นŒ?)

 

์ €์ž๋“ค์€ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์˜ ๊ณตํ†ต์š”์†Œ์ธ position, timestamp embedding๋“ค์˜ ํšจ๊ณผ๋ฅผ ํ™•์ธํ•˜๊ณ ์ž ํ•˜์˜€๋‹ค.

 

์‹คํ—˜์ƒํ™ฉ์€ ๊ฐ ๋ชจ๋ธ์— Embedding์„ ๊ฐ๊ฐ ๋‹ค๋ฅด๊ฒŒ ์ ์šฉํ•˜์—ฌ ๊ทธ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋””์ž์ธํ–ˆ๋‹ค. 

์กฐ๊ฑด ์ค‘ wo๋Š” without์˜ ์•ฝ์ž๋กœ position๊ณผ timestamp๋ฅผ ๊ฐ๊ฐ ์ œ์™ธํ•œ ์ž„๋ฒ ๋”ฉ๊ณผ ์ด ๋‘˜์„ ํ•จ๊ป˜ ์ œ์™ธํ•œ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

Informer๋Š” ํŠนํžˆ position์ด ์—†๋Š” ์ž„๋ฒ ๋”ฉ์—์„œ ๊ทธ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์กŒ๊ณ , timestamp๊ฐ€ ์—†๋Š” ์ž„๋ฒ ๋”ฉ์—์„œ๋Š” ๊ทธ ์ธํ’‹์˜ ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ์ ์ง„์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ๊ฐ์†Œํ•˜์˜€๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๊ฒฐ๊ณผ๋ฅผ ๋‘๊ณ  Informer๊ฐ€ ํ•˜๋‚˜์˜ time step์„ ํ•˜๋‚˜์˜ ํ† ํฐ์œผ๋กœ ์ด์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ temporalํ•œ ์ •๋ณด๋ฅผ ๋„ฃ์–ด์ฃผ๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ธ ๊ฒƒ์— ๊ธฐ์ธํ•œ ๊ฒฐ๊ณผ๋ผ๊ณ  ์–ธ๊ธ‰ํ•œ๋‹ค.

๋ฐ˜๋ฉด FED, Autoformer๋Š” ๋ชจ๋‘ ํ•˜๋‚˜์˜ time step์ด ์•„๋‹Œ ์ผ๋ จ์˜ timestemp๋ฅผ ์ž…๋ ฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— postition ์ •๋ณด๊ฐ€ ์—†์–ด๋„ ์„ฑ๋Šฅ์˜ ๋ณ€ํ™”๊ฐ€ ํฌ๊ฒŒ ๋–จ์–ด์ง€์ง€ ์•Š์•˜๋‹ค. 

 

5. Is training data size a limiting factor for existing LTSF- Transformers?

(ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ์ •๋ง๋กœ ํŠธ๋žœ์Šคํฌ๋จธ์˜ LTSF์˜ ํ•œ๊ณ„์ ์ผ๊นŒ?)

 

ํ˜น์ž๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์˜ ๋‚ฎ์€ ์„ฑ๋Šฅ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ์ถฉ๋ถ„ํžˆ ํฌ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ๋งํ•œ๋‹ค.

์‚ฌ์‹ค ํ•™์Šต๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๋Š” ๋‹น์—ฐํžˆ ํ•™์Šต์„ ํ†ตํ•œ ์˜ˆ์ธก ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ฒƒ์ด ์‚ฌ์‹ค์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ NLP์™€ CV ๋ถ„์•ผ์™€ ๋‹ฌ๋ฆฌ ์‹œ๊ณ„์—ด ๋ฌธ์ œ๋Š” ๊ทธ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ผ๋ จ์˜ ๊ธฐ๋ก์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์€ ๋งค์šฐ ์ œํ•œ์ ์ด๋‹ค.

 

์ด์— ์ €์ž๋“ค์€ ์œ„์™€ ๊ฐ™์€ ์‹คํ—˜์„ ํ†ตํ•ด traffic ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๋‹ฌ๋ฆฌํ•˜์—ฌ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜์˜€๋‹ค.

๋จผ์ €, ori๋Š” ๊ธฐ์กด traffic ๋ฐ์ดํ„ฐ์˜ full set์œผ๋กœ, ์ด 17,544๊ฐœ์˜ timestep(hour)์„ ๊ฐ€์กŒ๋‹ค. ๋ฐ˜๋ฉด, ๋Œ€์กฐ๊ตฐ์ธ short๋Š” ์ „์ฒด timestep์„ 1๋…„์˜ ์‹œ๊ฐ„์ธ 8,760์œผ๋กœ ์ค„์˜€๋‹ค.

๊ทธ ๊ฒฐ๊ณผ๋Š” ์ธ์ƒ์ ์ด๊ฒŒ๋„ ์˜คํžˆ๋ ค timestep์„ ์ค„์ธ short๊ฐ€ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๊ฒฐ๊ณผ๊ฐ€ 1๋…„์น˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ๋ถ„๋ช…ํ•œ ํŒจํ„ด ๋“ฑ์˜ ํŠน์ง•๋“ค์„ ๊ฐ€์กŒ๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ๋ณด์•˜๋‹ค. ์ด์— ์ €์ž๋“ค์€ ์ ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š”๊ฒŒ ์˜คํžˆ๋ ค ๋” ์ข‹๋‹ค๋Š” ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฌ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ ์–ด๋„ LTSF์—์„œ ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ œํ•œํ•˜๋Š” ์š”์†Œ๋Š” ์•„๋‹ˆ๋ผ๊ณ  ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฐ๋‹ค.

 

 

6. Is efficiency really a top-level priority?

(์ •๋ง๋กœ "ํšจ์œจ์„ฑ"์ด ๊ฐ€์žฅ ๋†’์€ ์šฐ์„ ์ˆœ์œ„์ธ ๊ฒƒ์ด ๋งž๋Š”๊ฐ€?)

 

์ด๋Š” ๋งˆ์ง€๋ง‰ ์‹คํ—˜์œผ๋กœ ๊ทธ๋™์•ˆ์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์ด ์ •๋ง๋กœ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ–ˆ๋Š” ์ง€๋ฅผ ๊ฒ€์ฆํ•œ๋‹ค.

๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์€ vanilla transformer์˜ quadratic complexity๋ฅผ ๊ฐœ์„ ํ•ด์•ผ ํ•œ๋‹ค๊ณ  ์ฃผ์žฅํ•˜๋ฉด์„œ ์—ฌ๋Ÿฌ ์•„์ด๋””์–ด๋ฅผ ์ ์šฉํ•ด์™”๋‹ค.

์ด์— ์—ฌ๋Ÿฌ ๋ชจ๋ธ์ด ์ด๋ก ์ ์œผ๋กœ ๊ทธ ์‹œ๊ฐ„, ๋ฉ”๋ชจ๋ฆฌ์˜ ๋ณต์žก๋„๋ฅผ ๊ฐœ์„ ํ•œ ๊ฒƒ์„ ์ฆ๋ช…ํ•˜์˜€๋Š”๋ฐ, ๊ณผ์—ฐ ์‹ค์ œ๋กœ ๋ถ„๋ช…ํ•˜๊ฒŒ ์ด๋Ÿฌํ•œ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์ง€๋Š” ์ง€๋ฅผ ํ™•์ธํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

 

1. ์‹ค์ œ๋กœ ๊ทธ ์ด๋ก ์ ์ธ ์‹œ๊ฐ„๊ณผ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์ด ๊ตฌํ˜„๋˜๋Š”๊ฐ€

2. ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ข‹์•„์ง„ ์˜ค๋Š˜๋‚ ์˜ GPU์—์„œ ๊ทธ ๋ฉ”๋ชจ๋ฆฌ ๋ณต์žก๋„๊ฐ€ ์ •๋ง ์ค‘์š”ํ•œ ์ด์Šˆ์ธ๊ฐ€

 

์œ„ ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ์•ž์„  ๋‘ ๊ฐ€์ง€ ์˜๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

1. ์‹ค์ œ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ ์‹œ๊ฐ„, ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ํฐ ๊ฐœ์„ ์„ ์ด๋ฃจ์ง€ ๋ชปํ•œ๋‹ค. Vanilla Transformer์ธ "TransformerX"์™€ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์˜ ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•ด๋ณด๋ฉด ํฐ ์ฐจ์ด๋ฅผ ๊ด€์ธกํ•  ์ˆ˜ ์—†์œผ๋ฉฐ ์˜คํžˆ๋ ค ๋” ํฐ ๋ณต์žก๋„๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒƒ์ด ๊ด€์ฐฐ๋œ๋‹ค. ์ฆ‰, ์—ฌ๋Ÿฌ ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค์ด ๋„์ž…ํ•œ ์ถ”๊ฐ€์ ์ธ ๋””์ž์ธ ์š”์†Œ๋“ค์ด ์˜คํžˆ๋ ค ๋” ํฐ ๋น„์šฉ์„ ์น˜๋ฃจ๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

2. ์—ฌ๋Ÿฌ ์šฐ๋ ค์™€ ๋‹ฌ๋ฆฌ Vanilla Transformer์˜ ๋ฉ”๋ชจ๋ฆฌ ๋ณต์žก๋„๋Š” ์ˆ˜์šฉ๊ฐ€๋Šฅํ•œ ์ •๋„์ด๋‹ค. ์ด๋Š” ์‹ค์ œ๋กœ ๊ฐ€์žฅ ๊ธด ์ธํ’‹์ธ 720๊ฐœ์˜ ์Šคํ…์—์„œ๋„ ์ˆ˜์šฉ๊ฐ€๋Šฅํ•œ ์ •๋„์˜€๋‹ค. 

 

 

- ๋งˆ์น˜๋ฉฐ

 

ํ•œ์ฐฝ ํŠธ๋žœ์Šคํฌ๋จธ ๋ณ€ํ˜•๋ชจ๋ธ์„ ์‚ดํŽด๋ณด๊ณ  ์žˆ๋Š” ์ƒํ™ฉ์—์„œ ์ด ๋…ผ๋ฌธ์€ ์ •๋ง ์‹ ์„ ํ•œ ์ถฉ๊ฒฉ์œผ๋กœ ๋‹ค๊ฐ€์™”๋‹ค.

์‚ฌ์‹ค ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ๋‹ค๋ฅธ ๋ถ„์•ผ์—์„œ ๋„ˆ๋ฌด๋‚˜๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์‹œ๊ณ„์—ด์—์„œ๋„ ๊ทธ๋Ÿฌํ•œ ๊ธฐ๋Œ€๋ฅผ ๋ฐ›์€ ๊ฒƒ์€ ๋‹น์—ฐํ–ˆ๋‹ค.

์‹ค์ œ๋กœ๋„ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” RNN๊ณผ ๋‹ฌ๋ฆฌ LTSF๋ผ๋Š” ๋งค์šฐ ์–ด๋ ค์› ๋˜ ๋ฌธ์ œ๋ฅผ ์ž˜ ํ’€์–ด๋ƒˆ๊ณ , ๊ทธ ํ•œ๊ณ„์  ๋˜ํ•œ ์—ฌ๋Ÿฌ ์•„์ด๋””์–ด๋“ค์ด ์ ์šฉ๋˜๋ฉด์„œ ์ ์ฐจ ์ง„ํ™”ํ•˜๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์—ˆ๋‹ค. ๋˜ํ•œ ์ดˆ๋ฐ˜๊ณผ ๋‹ฌ๋ฆฌ ์ ์ฐจ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋ ์ˆ˜๋ก ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์‹œ๊ณ„์—ด ๋ถ„์„์— ๋งž๋Š” ๋ชจ์Šต์œผ๋กœ ๊ฐœ์กฐ๋˜๋Š” ํ๋ฆ„์„ ์‚ดํŽด๋ณด๋Š” ๊ฒƒ์ด ์ •๋ง ํฅ๋ฏธ๋กœ์› ๋‹ค.

ํ•˜์ง€๋งŒ ์—ฌ๋Ÿฌ ๋ณ€ํ˜•๋ชจ๋ธ์˜ ๊ตฌ์กฐ๋ฅผ ์‚ดํŽด๋ณด๋ฉด์„œ ๊ณตํ†ต์ ์œผ๋กœ ๋Š๋‚€ ๊ฒƒ์€ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ๊ฐ€ ๋งŽ์ด ๋ณต์žกํ•˜๋‹ค๋Š” ๊ฒƒ์ด์—ˆ๋‹ค. ๋ฌด์–ธ๊ฐ€ ๋ฌธ์ œํ•ด๊ฒฐ์„ ์œ„ํ•ด ์ •๋ˆ๋˜๊ณ  ๋ถ„๋ช…ํ•œ ํ•ด๋ฒ•์„ ๋‚ด๋†“๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ(๋‹น์—ฐํžˆ ์ด๊ฒŒ ๊ฐ€์žฅ ์–ด๋ ต์ง€๋งŒ...) ์—ฌ๋Ÿฌ ์•„์ด๋””์–ด๋“ค์„ ๊ทธ์ € ํ•˜๋‚˜์”ฉ ์–น์–ด๋‚˜๊ฐ€๋Š” ๋Š๋‚Œ์ด ๋“ค์—ˆ๋‹ค.

๊ฒฐ๊ตญ์— ์ด ๋…ผ๋ฌธ์€ ์–ด์ฉŒ๋ฉด ์กฐ๊ธˆ ๊ณผ์—ด๋œ ํŠธ๋žœ์Šคํฌ๋จธ ์—ฐ๊ตฌ์— refresh๋ฅผ ์ฃผ๋Š” ์—ญํ• ์„ ํ•˜์ง€์•Š์„๊นŒ ์‹ถ๋‹ค.

์•ž์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํšจ์œจ, ํšจ๊ณผ๋ฅผ ๊ฐœ์„ ํ•ด๋‚˜๊ฐ€๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•˜์ง€๋งŒ ๊ฒฐ๊ตญ์—๋Š” ์–ด๋– ํ•œ ํŠน์ • ๋„๋ฉ”์ธ์˜ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์ง€๋Š” ํŠน์ง•, ์šฐ๋ฆฌ๊ฐ€ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์˜ ๋ณธ์งˆ, ์ด๊ฒƒ์— ๋”์šฑ ์ง‘์ค‘ํ•ด๋ณธ๋‹ค๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ๋‹ค.

์ด ์‹คํ—˜๊ฒฐ๊ณผ๋“ค์€ ์•ž์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์„ ๊ฐœ์กฐํ•˜๋Š” ๋ฐ ์žˆ์–ด์„œ ์ข‹์€ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ด์ฃผ๊ณ  ์žˆ์œผ๋ฉฐ ๋‚˜์•„๊ฐ€ "์‹œ๊ณ„์—ด Forecastiong"์ด๋ผ๋Š”๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์žˆ์–ด์„œ ๊ทธ ๋ฐฉํ–ฅ์„ ์žฌ์„ค์ • ํ•ด์ค„ ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.

 

 

์›๋ฌธ

https://arxiv.org/abs/2205.13504

 

Are Transformers Effective for Time Series Forecasting?

Recently, there has been a surge of Transformer-based solutions for the long-term time series forecasting (LTSF) task. Despite the growing performance over the past few years, we question the validity of this line of research in this work. Specifically, Tr

arxiv.org