[Paper Review] Less Is More - Fast Multivariate Time Series Forecasting with Light Sampling-oriented MLP Structures (2022)

2023. 4. 28. 23:13ใ†๐Ÿง‘๐Ÿป‍๐Ÿซ Ideas/(Advanced) Time-Series

Introduction

 

 

๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์€ ์—ฌ๋Ÿฌ ์š”์ธ, ๋ณ€์ˆ˜(variable)์˜ ๋ณ€๋™์„ ํฌํ•จํ•˜๋Š” ์‹œ๊ณ„์—ด์„ ์˜๋ฏธํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์€ ์‹ค์ƒํ™œ์˜ ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ(์‘์šฉ๋ถ„์•ผ)์— ์‹œ๊ณ„์—ด ๋ถ„์„์„ ์ ์šฉํ•˜๋Š” ๋ฐ ์žˆ์–ด์„œ ๋งค์šฐ ํ•ต์‹ฌ์ ์ธ task๊ฐ€ ๋˜์–ด์™”๋‹ค.

๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์˜ ํ•ต์‹ฌ์€ ์‹œ๊ณ„์—ด ๋ณ€๋™์ด ๊ณผ๊ฑฐ ๊ฐ’์— ์˜ํ–ฅ์„ ๋ฐ›๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ณ€์ˆ˜๋“ค ์‚ฌ์ด์˜ ์ƒํ˜ธ์ž‘์šฉ์—๋„ ์˜์กด(dependent)ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์ด๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์€ ๊ทธ๋Ÿฌํ•œ ๋‘ ์˜ํ–ฅ์„ ๋ฐํ˜€๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ๋ฐ, ๊ตฌ์ฒด์ ์œผ๋กœ 1) ํ•˜๋‚˜์˜ ์‹œ๊ณ„์—ด์ด ๊ฐ€์ง€๋Š” localํ•œ ํŒจํ„ด๊ณผ globalํ•œ ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ๊ณผ, 2) ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ์—ฐ๊ด€๊ด€๊ณ„(inter-dependency)๋ฅผ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ด๋‹ค.

 

ํ•œํŽธ Deepํ•œ neural network๋ฅผ ๊ฐ€์ง„ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ๋งค์šฐ ๋ณต์žกํ•œ ํŒจํ„ด์„ ํฌ์ฐฉํ•˜๋Š” ๋ฐ ๊ฐ•์ ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๋™์•ˆ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์—๋„ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ์ ์šฉํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ์ด์–ด์ ธ์™”๋‹ค.

์‹ค์งˆ์ ์œผ๋กœ ์ปดํ“จํŒ… ์„ฑ๋Šฅ์ด ๋ฐœ์ „ํ•˜๊ณ  ์—ฌ๋Ÿฌ ํ˜์‹ ์ ์ธ ๋”ฅ๋Ÿฌ๋‹ ์•„ํ‚คํ…Œ์ฒ˜๋“ค์ด ์ œ์•ˆ๋˜๋ฉด์„œ ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์ด RNN, GNN, Transformer ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ์„ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์— ์ ์šฉํ•ด์™”๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋กœ ์ œ์•ˆ๋œ ์—ฌ๋Ÿฌ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋“ค์€ ํŠน์ •์ƒํ™ฉ(specific senario)์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ธฐ๋„ ํ–ˆ์ง€๋งŒ, ์—ฌ๋Ÿฌ ์‹คํ—˜์„ ๊ฑฐ์น˜๋ฉฐ ๊ทธ๋“ค์€ ํ•™์Šต์˜ ํšจ์œจ์„ฑ๊ณผ ํšจ๊ณผ์„ฑ์— ํ•œ๊ณ„์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ๋“œ๋Ÿฌ๋‚ฌ๋‹ค.

๋จผ์ €, ๊ทธ๋“ค์˜ ์ •๊ตํ•˜๊ณ  ๋ณต์žกํ•œ ์•„ํ‚คํ…Œ์ฒ˜๋Š” ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๊ณผ์ •์˜ ๊ณ„์‚ฐ๋น„์šฉ์ด ๋งค์šฐ ํฌ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋Š” ํŠนํžˆ ์‹œ๊ณ„์—ด ๋ถ„์„์˜ ์ฃผ์š” challenge์ธ ์žฅ๊ธฐ ์‹œ๊ณ„์—ด ๋ฌธ์ œ(input๊ธธ์ด๊ฐ€ ๊ธด)์™€ ์—ฌ๋Ÿฌ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์–ฝํžŒ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์ผ ๋•Œ ๋” ์‹ฌ๊ฐํ•ด์ง„๋‹ค.

๋˜ํ•œ, ๊ทธ ๋ชจ๋ธ๋“ค์€ ์ถ”๋ก ํ•ด์•ผ ํ•  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋„ˆ๋ฌด๋‚˜๋„ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์–ธ์ œ๋‚˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๋งŒ์•ฝ ์ธํ’‹ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค๋ฉด ๊ทธ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ robutness(๊ฐ•๊ฑดํ•จ)์„ ์žƒ๊ฒŒ ๋  ์ˆ˜๋„ ์žˆ๋Š”๋ฐ, ๋งŒ์•ฝ ๊ทธ๋ ‡๊ฒŒ ๋œ๋‹ค๋ฉด ๋งค์šฐ ๋ณต์žกํ•œ ์š”์ธ๊ณผ ๋ถˆํ™•์‹คํ•œ ๋ฏธ๋ž˜๊ฐ€ ๊ธฐ๋‹ค๋ฆฌ๋Š” ์‹ค์ƒํ™œ์—์„œ ๊ทธ ๋ชจ๋ธ์€ ์ œ ๊ธฐ๋Šฅ์„ ๋ฐœํœ˜ํ•˜์ง€ ๋ชปํ•  ๊ฒƒ์ด๋‹ค.

 

์ด์— ์ด ๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜๋ฌธ์„ ๋˜์ง€๋ฉฐ ๊ทธ์— ๋Œ€ํ•œ ํ•ด๋‹ต์„ ์ฐพ์•„๋‚˜๊ฐ„๋‹ค.

 

"Is it necessary to apply complex and computationally expensive models to achieve state-of-the-art performance in multivariate time series forecasting?"

(๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์˜ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๋ฐ ์žˆ์–ด์„œ, ๋ณต์žกํ•˜๊ณ  ๊ณ„์‚ฐ์ ์œผ๋กœ ํฐ ๋น„์šฉ์„ ์น˜๋ฃจ๋Š” ๋ชจ๋ธ์„ ํ•„์ˆ˜์ ์œผ๋กœ ์ ์šฉํ•ด์•ผ ํ• ๊นŒ?)

 

NO.

 

๊ฒฐ๋ก ์ ์œผ๋กœ ๋…ผ๋ฌธ์—์„œ๋Š” ์œ„ ์งˆ๋ฌธ์— ๋Œ€ํ•ด "์•„๋‹ˆ๋‹ค"๋ผ๊ณ  ๋งํ•˜๋ฉฐ, ๊ทธ ๊ทผ๊ฑฐ๊ฐ€ ๋˜๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ธ๊ณผ ์—ฌ๋Ÿฌ ์‹คํ—˜๋“ค์„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค.

๋จผ์ € ๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ๋” "๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด"์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๋” ํšจ๊ณผ์ ์ด๊ณ  ํšจ์œจ์ ์ธ ๋ชจ๋ธ์„ ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜๋Š” ๋ฐ ์žˆ์–ด์„œ "MLP(Multi -  LayerPerceptron) ๊ตฌ์กฐ"๋ฅผ ๋“ค๊ณ ๋‚˜์™”๋‹ค.

MLP๋Š” ๋”ฅ๋Ÿฌ๋‹์˜ ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์กฐ๋กœ ๋‹ค๋ฅธ ๋ณต์žกํ•œ ๋ณ€ํ˜•๋“ค์— ๋น„ํ•ด ๋งค์šฐ ๊ฐ€๋ฒผ์šด ๊ตฌ์กฐ์ด๋ฉฐ, ์ €์ž๋“ค์€ ์—ฌ๊ธฐ์— ์ •๋ณด ์†์‹ค์—†์ด ํ•ต์‹ฌ์„ ์ถ•์•ฝํ•˜๋Š”downsampling ๋งค์ปค๋‹ˆ์ฆ˜์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค.

 

๊ทธ ๋ชจ๋ธ์€ "LightTS"๋กœ, ์ด ๋ชจ๋ธ์€ ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๋ฌธ์ œ์˜ ํ•ต์‹ฌ ๋ฌธ์ œ๋ฅผ ๋ชจ๋‘ ๋‹ค๋ฃจ๊ณ  ์žˆ๋‹ค.

 

๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์˜ ํ•ต์‹ฌ ๋ฌธ์ œ

1) ํ•˜๋‚˜์˜ ์‹œ๊ณ„์—ด์ด ๊ฐ€์ง€๋Š” localํ•œ ํŒจํ„ด๊ณผ globalํ•œ ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ

2) ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ์—ฐ๊ด€๊ด€๊ณ„(inter-dependency)๋ฅผ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ

 

LightTS๊ฐ€ ์ œ์‹œํ•˜๋Š” ์•„์ด๋””์–ด

"๋ณต์žกํ•œ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹Œ ๋‹จ์ˆœํ•œ MLP์˜ ๊ตฌ์กฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ํšจ๊ณผ์™€ ํšจ์œจ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค."

 

1. ๋‘ ๊ฐ€์ง€ downsampling ์ „๋žต์„ ์ ์šฉํ•œ๋‹ค.

 

1-1) interval sampling, ์ด๋Š” ์ผ์ •ํ•œ ๊ฐ„๊ฒฉ์„ ๋‘๊ณ  ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ globalํ•œ(trend) ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ์“ฐ์ธ๋‹ค.

1-2) continuous sampling, ์ด๋Š” ๊ฐ„๊ฒฉ์—†์ด ์ˆœ์„œ๋Œ€๋กœ ์ด์–ด์„œ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ  localํ•œ(seasonal) ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ์“ฐ์ธ๋‹ค.

 

2. ์ „์ฒด ๊ตฌ์กฐ์— Exchange information๋ฅผ ํ™œ์„ฑํ™”ํ•œ MLP ๊ตฌ์กฐ๋ฅผ ์ถ”๊ฐ€ํ•˜์˜€๋‹ค. 

 

 

RELATED WORK

 

*์•ž์„  ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋“ค๊ณผ ๊ฒน์น˜๋Š” ๋‚ด์šฉ์ด ๋Œ€๋ถ€๋ถ„์ด๊ธฐ ๋•Œ๋ฌธ์— ๋งค์šฐ ๊ฐ„๋žตํ•˜๊ฒŒ ์š”์•ฝ๋งŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

 

1. Statistical Model (ํ†ต๊ณ„ ๋ชจ๋ธ)

์ „ํ†ต์ ์œผ๋กœ ์‹œ๊ณ„์—ด ๋ถ„์„์— ์žˆ์–ด์„œ auto-regression (AR), moving average (MA), and auto-regressive moving average (ARMA), auto-regressive integrated moving average model (ARIMA), vector autoregressive model (VAR) ๋“ฑ์ด ์ œ์•ˆ๋˜์—ˆ๋‹ค. ๊ทธ๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์ง€๋งŒ, ์ด๋“ค์€ ์ •์ƒ์„ฑ๊ณผ ๊ฐ™์€ ๋งค์šฐ ์—„๊ฒฉํ•œ ๊ฐ€์ •์„ ์ถฉ์กฑํ•ด์•ผํ•˜๋ฉฐ, ์ฐจ์›์ด ํฐ ๋‹ค๋ณ€๋Ÿ‰ ๋ชจ๋ธ์—๋Š” ๋ถ€์ ํ•ฉํ•˜๋‹ค๋Š” ์น˜๋ช…์ ์ธ ๋‹จ์ ์ด ์žˆ๋‹ค.

 

2. Deep-learning-based Methods

๊ทธ๋™์•ˆ ์‹œ๊ณ„์—ด ์˜ˆ์ธก, ๋‚˜์•„๊ฐ€ ์žฅ๊ธฐ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฌธ์ œ์— ๋Œ€ํ•ด์„œ ์—ฌ๋Ÿฌ ์‘์šฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด ์ ์šฉ๋˜์—ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ˆœ์ˆ˜ MLP ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ์— ์ง‘์ค‘ํ•œ๋‹ค. ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰ํ•˜๊ธธ, ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฌธ์ œ์—์„œ ์ˆœ์ˆ˜ MLP ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ์„ ์ ์šฉํ•˜๋Š” ์ผ๋ถ€ ์•„์ด๋””์–ด๋Š” N-BEATS์˜ ์—ฐ๊ตฌ์—์„œ ์–ป์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. 

N-BEATS: NEURAL BASIS EXPANSION ANALYSIS FOR INTERPRETABLE TIME SERIES FORECASTING

 

์œ„์™€ ๊ฐ™์€ ๋ชจ๋ธ์„ ์ฐธ๊ณ ํ•˜์—ฌ ์ˆœ์ˆ˜ํ•œ MLP๋กœ๋งŒ ๊ตฌ์„ฑ๋œ ๋ชจ๋ธ์„ ์ œ์•ˆํ•  ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์— ๋”ํ•˜์—ฌ ์ตœ๊ทผ Computer Vision๋ถ„์•ผ์—์„œ MLP ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์ •๋ณด์˜ ๊ตํ™˜์„ ํ™œ์„ฑํ™”ํ•˜๋“ฏ, ์ด ๋ชจ๋ธ์—๋„ ์ •๋ณด ๊ตํ™˜์„ ํ™œ์„ฑํ™”ํ•˜๋Š” ์žฅ์น˜๋ฅผ ๊ณ ๋ คํ•˜์˜€๋‹ค. ๋‹ค๋งŒ, ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๋ชจ๋ธ์€ CV์˜ ๊ทธ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ Original sequence์™€ Down-Samplingํ•œ sub sequence์— ๋ชจ๋‘ ์ •๋ณด ๊ตํ™˜์„ ํ™œ์„ฑํ™”ํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

 

 

 

OUR MODEL: LIGHTTS

 

 

๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๋ชจ๋ธ์ธ Light-TS์˜ ๊ตฌ์กฐ๋Š” ์œ„์™€ ๊ฐ™๋‹ค.

์•ž์„œ ์ด ๋ชจ๋ธ์—์„œ ์ •์˜ํ•œ "๋‹ค๋ณ€๋Ÿ‰ ์žฅ๊ธฐ ์‹œ๊ณ„์—ด ์˜ˆ์ธก"์˜ ํ•ต์‹ฌ ๋ฌธ์ œ๋ฅผ ์ƒ๊ธฐํ•ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

1) ํ•˜๋‚˜์˜ ์‹œ๊ณ„์—ด์ด ๊ฐ€์ง€๋Š” localํ•œ ํŒจํ„ด๊ณผ globalํ•œ ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ

2) ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ์—ฐ๊ด€๊ด€๊ณ„(inter-dependency)๋ฅผ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ

 

์œ„ ๋ชจ๋ธ์—์„œ 1)์˜ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๊ณ  ์žˆ๋Š” ์š”์†Œ๋Š” ๋ฐ”๋กœ Continuous sampling๊ณผ Interval sampling, ์ด ๋‘ ๊ฐ€์ง€ "down samlping"๊ธฐ๋ฒ•์ด๋‹ค. ํ•œํŽธ 2)์˜ ๋ฌธ์ œ๋Š” ์ด ์„ธ ๊ฐ€์ง€์˜ information exchange block์ด ๋‹ค๋ฃจ๊ณ  ์žˆ๋‹ค.

 

 Continuous sampling + Interval sampling

 

"TimeSeries is a Special Sequence: Forecasting with Sample Convolution and Interaction. arXiv preprint arXiv:2106.09305 (2021)"์˜ ์—ฐ๊ตฌ์—์„œ ์‹œ๊ณ„์—ด์ด ์ž์—ฐ์–ด๋‚˜ ์Œ์„ฑ ๋ฐ์ดํ„ฐ์™€ ๋‹ฌ๋ฆฌ ๋‹ค์šด ์ƒ˜ํ”Œ๋ง์„ ์ ์šฉํ•˜๋”๋ผ๋„ ๊ทธ ์ •๋ณด๊ฐ€ ๋ณด์กด๋œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜€๋‚ด์—ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋‹จ์ˆœํ•œ uniform sampling๊ณผ ๊ฐ™์€ ๋‚˜์ด๋ธŒํ•œ ๋‹ค์šด ์ƒ˜ํ”Œ๋ง์€ ์˜คํžˆ๋ ค ์ •๋ณด ์†์‹ค์„ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด์— ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์œ„์™€ ๊ฐ™์€ ์‚ฌ์‹ค์—์„œ ์˜ํ–ฅ์„ ๋ฐ›์•„ ๋‹ค์šด ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜๋˜ ๋‚˜์ด๋ธŒํ•˜์ง€ ์•Š์€ ๋ฐฉ์‹์ธ Continuous, Interval sampling์„ ๋””์ž์ธ ํ•˜์˜€๋‹ค. ์ „์ž๋Š” localํ•œ ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๋ฉฐ, ํ›„์ž๋Š” globalํ•œ ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๋Š” ๊ธฐ๋Šฅ์„ ํ•œ๋‹ค. 

 

๋จผ์ € ์œ„ ๊ทธ๋ฆผ์„ ์‚ดํŽด๋ณด๋ฉด ๋‘ ์ƒ˜ํ”Œ๋ง์€ ๊ณตํ†ต์ ์œผ๋กœ T๋งŒํผ์˜ ์œˆ๋„์šฐ, ์ฆ‰, ์ธํ’‹ ์‹œํ€€์Šค๋ฅผ C๋งŒํผ ๋‹ค์šด ์ƒ˜ํ”Œ๋ง ํ•œ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด ์ธํ’‹์˜ ๊ธธ์ด๊ฐ€ T์—์„œ C๋กœ ์ค„์–ด๋“ค๋ฉฐ, ๊ทธ ํ•˜์œ„ ์‹œํ€€์Šค์˜ ์ฐจ์›์€ C x T/C๊ฐ€ ๋˜๊ณ  ๋‹ค๋ณ€๋Ÿ‰ ๋ณ€์ˆ˜์˜ ์ˆ˜์ธ N๋งŒํผ ์ƒ์„ฑ๋œ๋‹ค. (์œ„ ๊ทธ๋ฆผ ์ฐธ์กฐ) 

 

1. Continuous sampling

 

์—ฐ์† ์ƒ˜ํ”Œ๋ง์€ ๊ฐ„๊ฒฉ์—†์ด ์—ฐ์†์ ์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ง€์—ฝ์ ์ธ(local) ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๋Š” ๊ธฐ๋Šฅ์„ ํ•œ๋‹ค. 

์ด๋Ÿฌํ•œ ์—ฐ์† ์ƒ˜ํ”Œ๋ง์˜ ๊ฒฐ๊ณผ์ธ ํ•˜์œ„ ์‹œํ€€์Šค๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. (j ๋ฒˆ์งธ ์ปฌ๋Ÿผ)

 2. Interval sampling

๊ฐ„๊ฒฉ ์ƒ˜ํ”Œ๋ง์€ ์ผ์ •ํ•œ ๊ฐ„๊ฒฉ์„ ๋‘๊ณ  ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒƒ์œผ๋กœ ํฐ ์ถ”์„ธ์˜ (global) ๋ณ€๋™์„ ํฌ์ฐฉํ•˜๋Š” ๊ธฐ๋Šฅ์„ ํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฐ„๊ฒฉ ์ƒ˜ํ”Œ๋ง์˜ ๊ฒฐ๊ณผ์ธ ํ•˜์œ„ ์‹œํ€€์Šค๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. (j๋ฒˆ์งธ ์ปฌ๋Ÿผ)

 

์œ„์™€ ๊ฐ™์€ ๋‘ ๊ฐ€์ง€ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์œผ๋กœ ์ง€์—ฝ์ ์ธ ๋ณ€๋™๊ณผ ํฐ ์ถ”์„ธ์˜ ๋ณ€๋™์„ ๋ชจ๋‘ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•˜๋ฉฐ, ๋™์‹œ์— ์ธํ’‹ ์‹œํ€€์Šค๋ฅผ ๋‹ค์šด ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ๊ฐ„์†Œํ™”ํ•˜์—ฌ ์—ฐ์‚ฐ์˜ ํšจ์œจ์„ฑ๊นŒ์ง€ ํ™•๋ณดํ•œ๋‹ค.

๋˜ํ•œ, ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰ํ•˜๊ธธ ์ด ์ƒ˜ํ”Œ๋ง์˜ ํŠน๋ณ„ํ•œ ์ ์€ ๋‚˜์ด๋ธŒํ•œ ์ƒ˜ํ”Œ๋ง๊ณผ ๋‹ฌ๋ฆฌ ์–ด๋– ํ•œ ํ† ํฐ๋„ ์ œ๊ฑฐํ•˜์ง€ ์•Š๊ณ  ๋ชจ๋“  ์ธํ’‹์˜ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. 

 

Information Exchange Block

 

์ด ์„ธ์…˜์€ ์œ„์—์„œ ๊ทœ๋ช…ํ•œ ๋‘ ๊ฐ€์ง€์˜ ํ•ต์‹ฌ ๋ฌธ์ œ ์ค‘ 2๋ฒˆ์งธ, ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜ ์‚ฌ์ด์— ์—ฐ๊ด€๊ด€๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, ๊ทธ ๋ฐฉ๋ฒ•์œผ๋กœ์จ ์„ ํƒํ•œ MLP ๊ธฐ๋ฐ˜์˜ ๊ตฌ์กฐ๋ฅผ ์„ค๋ช…ํ•œ๋‹ค. 

Information Exchange Block(์ดํ•˜ IE ๋ธ”๋ก)์€ ์œ„ ๊ทธ๋ฆผ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋“ฏ์ด ์ „์ฒด ๋ชจ๋ธ์˜ ์•„ํ‚คํ…Œ์ฒ˜์—์„œ ์ด ์„ธ ๋ฒˆ ์ด์šฉ๋˜๋Š”๋ฐ, ์ด๋Š” sampling part์™€ prediction part์—์„œ ๋ชจ๋‘ ์ด์šฉ๋˜๋ฉฐ ๊ทธ ๋ชฉ์ ์€ ์„œ๋กœ ๋‹ค๋ฅธ ์ฐจ์›์„ ๋”ฐ๋ผ ์ •๋ณด๋ฅผ ๊ตํ™˜ํ•˜๊ณ , ๋‹ค๋ฅธ ์ฐจ์›์œผ๋กœ ์•„์›ƒํ’‹์„ ํ˜•์„ฑํ•˜๋Š” ๋ฐ ์žˆ๋‹ค.

๋ธ”๋ก์„ ํ™•๋Œ€ํ•œ ๊ทธ๋ฆผ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

 

 

*์œ„ ๊ทธ๋ฆผ์—์„œ ์ธํ’‹์˜ ์ฐจ์›์„ (H x W)๋กœ ํ‘œํ˜„ํ•œ ์ด์œ ๋Š” ๋ฐ”๋กœ ์ด H,W๊ฐ€ ์ƒ˜ํ”Œ๋ง ๊ณผ์ •์˜ part1๊ณผ ์˜ˆ์ธก ๊ณผ์ •์˜ part2์—์„œ ๊ฐ๊ฐ ๋‹ค๋ฅธ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

 

1. ์ƒ˜ํ”Œ๋ง (part1)

์—ฌ๊ธฐ์„œ H๋Š” ๋‹ค์šด ์ƒ˜ํ”Œ๋ง์˜ ๊ฒฐ๊ณผ์ธ sub-sequence C๋ฅผ ์˜๋ฏธํ•˜๊ณ , W๋Š” ์›๋ž˜ input ๊ธธ์ด T๋ฅผ C๋กœ ๋‚˜๋ˆˆ T/C๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

(H = C, W =  T/C)

 

2. ์˜ˆ์ธก (part2)

์—ฌ๊ธฐ์„œ H๋Š” part1์˜ ๊ฒฐ๊ณผ๋กœ ์ถ”์ถœ๋œ feature์˜ ์ฐจ์›์ด๋ฉฐ,  W๋Š” ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜์ธ N์„ ์˜๋ฏธํ•œ๋‹ค.

(H = part1์˜ ์•„์›ƒํ’‹ ์ฐจ์›, W = N)

 

์ฃผ๋ชฉํ•  ์ ์€ ์ด IE ๊ณผ์ • ์†, "MLP๊ฐ€ (projection) ์ด ์„ธ ๋ฒˆ ์ด์šฉ๋œ๋‹ค"๋Š” ๊ฒƒ๊ณผ ๋ธ”๋ก์˜ ๊ตฌ์กฐ๊ฐ€ ์ฒ˜์Œ๊ณผ ๋๋ณด๋‹ค "์ค‘๊ฐ„ ๊ณผ์ •์˜ ์ฐจ์›์ด ๋” ์ž‘์€ Bottleneck ๊ตฌ์กฐ"์ธ ๊ฒƒ์ด๋‹ค.

 

- MLP (projection)

์ด ๊ณผ์ •์€ ์ธํ’‹์—์„œ ์•„์›ƒํ’‹์œผ๋กœ ๊ฐ€๋Š” ๊ณผ์ • ์†์—์„œ ์ด ์„ธ ๋ฒˆ ์ด์šฉ๋˜๋Š”๋ฐ, ๊ณผ์ •์„ ๊ฑฐ์น˜๋ฉฐ ์ฐจ์›์„ ๋ณ€ํ™˜ํ•˜์—ฌ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ์—ญํ• (temporal, output projection)๊ณผ ๊ทธ ์ฐจ์›์„ ๋”ฐ๋ผ ์ •๋ณด๋ฅผ ๊ตํ™˜ํ•˜๋Š” ์—ญํ• (channel projection)์„ ํ•œ๋‹ค. 

 

1. temporal projection

์ด projection์€ ๊ฐ "column"์— MLP๋ฅผ ์ ์šฉํ•˜๋Š”๋ฐ, (H x W)์ฐจ์›์˜ sub sequence๋ฅผ ์ธํ’‹์œผ๋กœ ๋ฐ›์•„ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ์ธ (F' x W)์˜ ์ฐจ์›์˜ ์•„์›ƒํ’‹์„ ์‚ฐ์ถœํ•œ๋‹ค. ์ด ๊ณผ์ •์€ temporal dimension, ์ฆ‰, H๋ฅผ ๋”ฐ๋ผ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ์—ญํ• ์„ ํ•˜๋Š” ๊ฒƒ์ธ๋ฐ, ๋ชจ๋“  column์ด ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต์œ ํ•˜๋„๋ก ํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค.

 

2. channel projection

์ด ๊ณผ์ •์€ ๊ฐ "row"์— MLP๋ฅผ ์ ์šฉํ•˜๋ฉฐ, ์ฐจ์›์€ ์—ฌ์ „ํžˆ (F'xW)๋กœ ์œ ์ง€ํ•œ ์ฑ„ W์‚ฌ์ด์˜ ์ •๋ณด๊ตํ™˜์„ ํ™œ์„ฑํ™”ํ•œ๋‹ค. ๋˜ํ•œ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ชจ๋“  row๊ฐ€ ๊ฐ™์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ํ™•๋ณดํ•˜์˜€๋‹ค. ํŠนํžˆ ์ด ๋‹จ๊ณ„๋Š” ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜๊ฐ€ ๊ฒน์ณ์žˆ๋Š” row, ์ฆ‰, ํ–‰์„ ์ธํ’‹์œผ๋กœ ๋ฐ›์•„ ๊ฐ ๋ณ€์ˆ˜๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ฐ˜์˜ํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์— ์ฃผ๋ชฉํ•ด์•ผ ํ•œ๋‹ค.

 

3. output projection

์ด ๊ณผ์ •์€ ๋‹ค์‹œ ๊ฐ "column"์— MLP๋ฅผ ์ ์šฉํ•˜์—ฌ ์ตœ์ข… ์•„์›ƒํ’‹์˜ ์ฐจ์›์ธ (F x W)์˜ ์ฐจ์›์˜ ๊ฒฐ๊ณผ๋ฅผ ์‚ฐ์ถœํ•œ๋‹ค. (F = ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ)

 

- Bottleneck Design

IE๋ธ”๋ก์€ ์œ„ ๊ทธ๋ฆผ์—์„œ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด ์ฒ˜์Œ๊ณผ ๋์˜ ์ฐจ์›๋ณด๋‹ค ์ค‘๊ฐ„์˜ ์ฐจ์›์ด ๋” ์ž‘์€ ๋ณดํ‹€๋„ฅ ๊ตฌ์กฐ๋ฅผ ์ง€๋‹Œ๋‹ค.

๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰ํ•˜๊ธธ ์ด๋Ÿฌํ•œ ๋””์ž์ธ์€ "๊ณ„์‚ฐ ํšจ์œจ์„ฑ"์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค. ์œ„ MLP์˜ ๊ณผ์ • ์ค‘ 2๋ฒˆ์งธ์ธ channel projection์ด ๋ชจ๋“  row์— ๋Œ€ํ•ด ์ ์šฉ๋˜๋Š”๋ฐ, ์ธํ’‹ ์‹œ๋ฆฌ์ฆˆ๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๊ณ„์‚ฐ๋น„์šฉ์ด ๋งค์šฐ ์ปค์ง€๊ฒŒ ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ์œ„ ๋””์ž์ธ์ฒ˜๋Ÿผ projection์„ ํ†ตํ•ด ์ฐจ์›์„ ์ค„์—ฌ์ค€๋‹ค๋ฉด ๊ณ„์‚ฐ ๋น„์šฉ์„ ๋‚ฎ์ถœ ์ˆ˜ ์žˆ๋‹ค.

 

Experiment

 

๋งˆ์ง€๋ง‰์œผ๋กœ ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” Light - TS์˜ ์„ฑ๋Šฅ์„ ๋น„๊ต, ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค.

์‹คํ—˜์˜ ๊ตฌ์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

๋ชฉ์ : Light - TS์˜ accuracy, efficiency, and robustness๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.

๋ฐ์ดํ„ฐ: ๊ธฐ์กด ํŠธ๋žœ์Šคํฌ๋จธ ์—ฐ๊ตฌ์— ์“ฐ์ธ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ(Long sequence, "multivariate")

ํ‰๊ฐ€๋ฐฉ์‹: Long sequence forecasting, Shor sequence forecasting

ํ‰๊ฐ€๊ธฐ์ค€: MSE, MAE (for long) / Root Relative Squared Error (RSE) and Empirical Correlation Coefficient (CORR) (for short)

 

 

Long sequence forecasting

 

์žฅ๊ธฐ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ์‹คํ—˜์˜ ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

LightTS๋Š” weather๋ฅผ ์ œ์™ธํ•œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์…‹์—์„œ state-of-the-art์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค.

ํŠนํžˆ ๊ทธ ์ฆ๊ฐ€ํญ์€ ํ‰๊ท ์ ์œผ๋กœ ์•ฝ 20%๋กœ, ๊ฝค ๋†’์€ ์ง„์ „์„ ๋ณด์ธ ๊ฒฐ๊ณผ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” ์ด ์„ฑ๊ณผ์— ๋Œ€ํ•ด continuous์™€ interval ๋‘ ์ƒ˜ํ”Œ๋ง์ด localํ•œ ๋ณ€๋™๊ณผ globalํ•œ ๋ณ€๋™์„ ์ž˜ ์žก์•„๋‚ธ ๋•๋ถ„์ด๋ผ๊ณ  ๋งํ•œ๋‹ค. ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋Š” ๋‹ค์šด ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•œ ํšจ์œจ์  ํ•™์Šต ๋˜ํ•œ ๋‹ฌ์„ฑํ•œ ๊ฒฐ๊ณผ๋ผ๋Š” ๊ฒƒ์ด ๋”์šฑ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค.

 

*weather ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” Autoformer๊ฐ€ ๊ฐ€์žฅ ์ข‹์€ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€๋‹ค. ํ•„์ž๊ฐ€ ์ถ”์ธกํ•˜๊ธธ, ์ด๋Š” ์š”์†Œ๋ถ„ํ•ด๋ฅผ ํ†ตํ•ด ์–ป์–ด๋‚ธ ๊ณ„์ ˆ๋ณ€๋™์— Auto-correlation ๋งค์ปค๋‹ˆ์ฆ˜์„ ์ ์šฉํ•˜์—ฌ ์œ ์‚ฌํ•œ sub-series๋ฅผ ์ถ”์ถœํ•˜๋Š” Autoformer์˜ ์žฅ์  ๋•๋ถ„์ด๋‹ค. ๋‚ ์”จ๋Š” ๋งค๋…„ ์ถ”์„ธ๊ฐ€ ์กฐ๊ธˆ์”ฉ ๋ณ€ํ•˜์ง€๋งŒ ๊ณ„์ ˆ์„ฑ์ด ๊ฐ€์žฅ ์ง€๋ฐฐ์ ์ด๋ผ๊ณ  ์•Œ๋ ค์ ธ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋Ÿฌํ•œ ๊ณ„์ ˆ ๋ณ€๋™์„ Autoformer๊ฐ€ ์ž˜ ํฌ์ฐฉํ•˜์˜€๋‹ค๊ณ  ํ•ด์„ํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.   

 

 

 

Short sequence forecasting

 

 

 

LightTS๋Š” Solar-Energy ๋ฐ์ดํ„ฐ ์…‹์—์„œ SOTA์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค.

๊ทธ๋Ÿฐ๋ฐ, ๋‚˜๋จธ์ง€ ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ๊ทธ ์„ฑ๋Šฅ์ด SOTA์ธ ๊ฒƒ๋„ ์žˆ์œผ๋‚˜ ์ผ๊ด€๋˜์ง€ ๋ชปํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”๋‹ค.

Traffic, Electricity, Exchange-Rate ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ์–ด๋– ํ•œ ๋ชจ๋ธ๋„ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ์••๋„ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€ ๋ชปํ•˜์˜€๋Š”๋ฐ, ๊ทธ ๋Œ€์‹  LightTS๋Š” ๋Ÿฌ๋‹ ํƒ€์ž„ ๋“ฑ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ์••๋„์ ์ด๋ผ๋Š” ํ™•์‹คํ•œ ๋น„๊ต์šฐ์œ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

 

 

Efficiency

 

 

์œ„ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์•ž์„œ ์ œ์‹œํ•œ ์žฅ๊ธฐ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์—์„œ ๊ฐ€์žฅ ๊ธด horizon(์œ„์—์„œ 720 ์‹œ์ )์„ ์˜ˆ์ธกํ•˜๋Š” ์ƒํ™ฉ์˜ ๋Ÿฌ๋‹ ํƒ€์ž„์„ ์ธก์ •ํ•œ ๊ฒƒ์ด๋‹ค. ์œ„ ๊ฒฐ๊ณผ๋Š” ๊ตฌ์ฒด์ ์œผ๋กœ 1 epoch์— ๊ฑธ๋ฆฐ ๋Ÿฌ๋‹ ํƒ€์ž„์„ ์ดˆ ๋‹จ์œ„๋กœ ๊ธฐ๋กํ•œ ๊ฒƒ์ธ๋ฐ, LightTS๊ฐ€ ์ •๋ง ์••๋„์ ์œผ๋กœ ์งง์€ ์‹œ๊ฐ„์„ ๊ธฐ๋กํ•˜์˜€๋‹ค. 

 

 

Robustness Analysis

 

๋ณธ ๋…ผ๋ฌธ์—์„œ ์ฃผ์žฅํ•˜๊ธธ, ๊ฐ•๊ฑด์„ฑ์€ ์žฅ๊ธฐ ์‹œ๊ณ„์—ด ๋ฌธ์ œ์— ์žˆ์–ด์„œ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ์™œ๋ƒํ•˜๋ฉด, ์ž˜๋ชป๋œ ์ถ”์„ธ์™€ ๊ณ„์ ˆ์„ฑ์˜ ์˜ˆ์ธก์€ ๊ณ„์† ๋ˆ„์ ๋˜์–ด ๊ฒฐ๊ตญ์—๋Š” ์‹ฌ๊ฐํ•œ ์˜ค๋ฅ˜๋ฅผ ๋‚ณ์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. 

์œ„ ๊ฒฐ๊ณผ๋Š” Random-Seed๋ฅผ ํ†ตํ•œ ๋ฌด์ž‘์œ„ ํ•™์Šต์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ์ฃผํ™ฉ์ƒ‰ ๊ตฌ๊ฐ„์€ ๊ฐ๊ฐ ๋‹ค๋ฅธ 5๋ฒˆ์˜ random-seed๋ฅผ ํ†ตํ•œ ์˜ˆ์ธก ๊ฒฐ๊ณผ์˜ ๋ฒ”์œ„๋ฅผ ์‹œ๊ฐํ™”ํ•œ ๊ฒƒ์ธ๋ฐ, (a)LightTS์˜ ์˜ˆ์ธก ๋ฒ”์œ„๊ฐ€ ๊ฐ€์žฅ ํญ์ด ์ข์œผ๋ฉฐ ์‹ค์ œ์™€ ์œ ์‚ฌํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ random-seed๋ฅผ ํ†ตํ•œ ํ•™์Šต ์ •ํ™•๋„์˜ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์ง‘๊ณ„ํ•œ ๊ฒฐ๊ณผ LightTS๊ฐ€ ๊ฐ€์žฅ Variance๊ฐ€ ๋‚ฎ์€ ๊ฐ•๊ฑดํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

 

 

๋งˆ์น˜๋ฉฐ

 

ํ•„์ž๋Š” ์ฒ˜์Œ์— ์ด ๋…ผ๋ฌธ์„ ํ›‘์–ด๋ณด๋ฉฐ LightTS๊ฐ€ ์–ด๋–ป๊ฒŒ ๋†’์€ ํšจ์œจ์„ฑ์„ ์ด๋ฃจ์–ด๋ƒˆ๋Š” ์ง€์— ๋Œ€ํ•ด ๊ด€์‹ฌ์ด ๋งŽ์ด ๊ฐ”๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฆ„์ฒ˜๋Ÿผ ์–ด๋–ป๊ฒŒ ๊ฐ€๋ฒผ์šด ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•ด๋‚ผ๊นŒ๋ฅผ ๋จผ์ € ์ž์„ธํžˆ ์‚ดํŽด๋ณด์•˜๊ณ , ๋‹ค์šด ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ํšจ์œจ์„ฑ์„ ๋†’์˜€๋‹ค๋Š” ๊ฒƒ์— ๊ณ ๊ฐœ๋ฅผ ๋„๋•์˜€์ง€๋งŒ ๋ฌด์—‡๋ณด๋‹ค ์ด ๋ชจ๋ธ์ด global, local ๋ณ€๋™์„ ๋ชจ๋‘ ์žก์•„๋‚ด์–ด ํšจ๊ณผ์„ฑ๊นŒ์ง€ ์–ป์–ด๋ƒˆ๋‹ค๋Š” ๊ฒƒ์ด ๋งค์šฐ ์ธ์ƒ์ ์ด์—ˆ๋‹ค.

๋˜ํ•œ ์ด ๋…ผ๋ฌธ์—์„œ ํ•„์ž๊ฐ€ ๊ด€์‹ฌ์„ ๊ฐ€์กŒ๋˜ ๋˜ ๋‹ค๋ฅธ ๋ถ€๋ถ„์€ ๋ฐ”๋กœ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฌธ์ œ์—์„œ ๋ณ€์ˆ˜๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•ด๋‚ด๋Š” ๋งค์ปค๋‹ˆ์ฆ˜์„ ์ง์ ‘ ์„ค๋ช…ํ•˜๊ณ  ์žˆ๋Š” ๋ถ€๋ถ„์ด์—ˆ๋‹ค. ์ด ๋ชจ๋ธ์—์„œ๋Š” IE ๋ธ”๋ก ๋‚ด๋ถ€์˜ channel projection ๊ณผ์ •์—์„œ ์ด๋ฅผ ํฌ์ฐฉํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ์•ž์œผ๋กœ๋„ ์‹œ๊ณ„์—ด์˜ Temporal Dependency๋ฅผ ํฌ์ฐฉํ•˜๋Š” ๋ฐฉ์‹ ์ด์™ธ์—๋„ ๋‹ค๋ณ€๋Ÿ‰ ์ธํ’‹ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์žก์•„๋‚ด๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋“ค์ด ๋งŽ์ด ์ œ์•ˆ๋˜์—ˆ์œผ๋ฉด ์ข‹๊ฒ ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ๋‹ค. ๋ฌผ๋ก  ํ•„์ž ๋˜ํ•œ ์ด๊ฒƒ์„ ์ข‹์€ ์—ฐ๊ตฌ๊ธฐํšŒ๋กœ ์‚ผ์•„๋ณด๋ ค๊ณ  ํ•œ๋‹ค.

 

์•ž์œผ๋กœ๋„ ์ด๋Ÿฌํ•œ anti-transformer ๋ชจ๋ธ๋“ค์ด ๋งŽ์ด ์ œ์•ˆ๋  ๊ฒƒ ๊ฐ™์€ ๋ถ„์œ„๊ธฐ๋‹ค. ํ•„์ž ๋˜ํ•œ ๊ทธ๋Ÿฌํ•œ ๊ธฐ์กฐ๋กœ ๋…ผ๋ฌธ์„ ์ž‘์„ฑํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ์•ž์œผ๋กœ ๋‚˜์˜ฌ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋ฐ˜๋ก ๊ณผ ๋˜ ์–ด๋– ํ•œ ์ฐฝ์˜์ ์ธ ๋ฐฉ์‹์œผ๋กœ time dependency์™€ ๋‹ค๋ณ€๋Ÿ‰ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์ด ์ œ์•ˆ๋  ์ง€ ๊ด€์‹ฌ์žˆ๊ฒŒ ์ง€์ผœ๋ณผ ํ•„์š”๊ฐ€ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.