2023. 3. 20. 16:00ใ๐ง๐ป๐ซ Ideas/(Advanced) Time-Series
์ด ๋ ผ๋ฌธ์ ์๊ณ์ด ๋ถ์์ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ฉํด์จ ์ฐ๊ตฌ๋ค์ ์ ๋ฆฌํ ๋ ผ๋ฌธ์ด๋ค.
์๊ณ์ด ๋ถ์์ NLP์ ํจ๊ป sequential task์ ๋ํ์ ์ธ ๋ถ์ผ ์ค ํ๋๋ก, ๊ธ์ต, ์ ์กฐ์ , ๋ง์ผํ ๋ฑ ๋ค์ํ ๋น์ฆ๋์ค ๋๋ฉ์ธ์ ์์ฉ๋๊ณ ์๋ ๋ถ์ ๋ฐฉ๋ฒ๋ก ์ด๋ค.
2017๋ ํธ๋์คํฌ๋จธ์ ๋ฑ์ฅ ์ดํ, NLP ๋ถ์ผ์์ ํธ๋์คํฌ๋จธ ์๊ณ ๋ฆฌ์ฆ์ด ํฐ ์ฑ๊ณต์ ์ด๋ค๋๊ฐ๋ฉด์ ๊ฐ์ sequential task์ธ ์๊ณ์ด ๋ถ์์์๋ ์ด๋ฅผ ์ ์ฉํ๋ ค๋ ์์ง์์ด ์ผ์ด๋ฌ๋ค. ํนํ ํธ๋์คํฌ๋จธ๋ ์ฅ๊ธฐ ์ข ์์ฑ(long dependece)๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ๊ธด sequence์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ด ์ ์ฆ๋์๊ธฐ ๋๋ฌธ์, ์๊ณ์ด ๋ถ์์์๋ ์ฅ๊ธฐ ์๊ณ์ด์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋ ๋์์ผ๋ก ์ฃผ๋ชฉ์ ๋ฐ์๋ค.
๊ทธ๋ฌ๋ ๊ธฐ๋ณธ์ ์ธ ํธ๋์คํฌ๋จธ ์ญ์ ์ฌ๋ฌ๊ฐ์ง ํ๊ณ์ ์ด ์กด์ฌํ์ผ๋ฉฐ, ์๊ณ์ด ๋ถ์์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ๋ชจ๋ธ์ ๊ฐ์กฐํ ํ์์ฑ์ด ๋๋๋์๋ค.
์ด์ attention module๋ถํฐ ์ ์ฒด์ ์ธ architecture๊น์ง ๊ธฐ๋ณธ์ ์ธ ํธ๋์คํฌ๋จธ๋ฅผ ๊ฐ์กฐํ๋ ค๋ ์ฐ๊ตฌ๋ค์ด ํ๋ฐํ๊ฒ ์งํ๋์๋ค.
๊ทธ๋ฌํ ํ๋ฆ์์ ์ด ๋ ผ๋ฌธ์ 2022๋ ๋น์๊น์ง ์งํ๋ ์ฐ๊ตฌ๋ค์ ์ข ํฉ, ์ ๋ฆฌํ๊ณ ํฅํ ์ฐ๊ตฌ์ ๋ฐฉํฅ์ ์ ์ํด์ฃผ๊ณ ์๋ค.
Introduction
๋ฅ๋ฌ๋์์ ํธ๋์คํฌ๋จธ์ ํ์ ์ NLP, CV, Speech processing์์์ ํ๋ฅญํ ํผํฌ๋จผ์ค์ ํ์ ์ด ํ๊ณ์ ํฐ ๊ด์ฌ์ฌ๊ฐ ๋์๋ค.
ํธ๋์คํฌ๋จธ๋ sequential data์์ long- range dependencies์ interactions์ ํฌ์ฐฉํ๋ ๊ฒ์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์๋๋ฐ, ์ด ์ ์ ์๊ณ์ด ๋ชจ๋ธ๋ง ๋ถ์ผ์๋ ํฐ ๋งค๋ ฅ์ผ๋ก ๋ค๊ฐ์๋ค.
์ง๋ ๋ช๋ ๊ฐ, ์๊ณ์ด ๋ถ์์ ์ฌ๋ฌ ๋ฌธ์ ๋ค(challenges)์ ๋ค๋ฃจ๊ธฐ ์ํด, ๋ค์ํ ํธ๋์คํฌ๋จธ์ ๋ณํ๋ค์ด ์ ์๋์๊ณ , ์ด๋ค์ ์์ธก(Forecasting), ๋ถ๋ฅ(Classification), ์ด์ ํ์ง(Anomaly Detection)๋ก ๋ํ๋๋ ์ฌ๋ฌ ์๊ณ์ด task์์ ์ข์ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋๊ธฐ๋ ํ์๋ค.
๊ทธ๋ฌ๋, ์ฌ๋ฌ ์ฐ๊ตฌ๊ฒฐ๊ณผ๋ค์ "ํจ๊ณผ์ ์ผ๋ก" temporal dependency(์๊ฐ ์ข ์์ฑ)์ ํ์ ํ๋ ์ผ๊ณผ "๊ณ์ ์ฑ, ์ถ์ธ์ฑ" ๋ฑ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ๊ฐ์ง๋ ํน์ง์ ๊ณ ๋ คํ ๋ชจ๋ธ๋ง์ ์ฌ์ ํ ๋ฌธ์ (challenge)๋ก ๋จ์์๋ค๊ณ ์ธ๊ธํ๊ณ ์๋ค.
์ด๋ ๊ฒ ํ๊ณ์ ์ ๊ทน๋ณตํด์ค๋ฉฐ ํธ๋์คํฌ๋จธ๋ฅผ ์๊ณ์ด ๋ถ์์ ์ ํฉํ ๋ชจ๋ธ๋ก ๊ฐ์กฐํ๋ ๊ณผ์ ์์, ๋ ผ๋ฌธ์ ์ ์๋ค์ ์ง๊ธ๊น์ง ์์๋ ์์ด๋์ด์ ์ฐ๊ตฌ๊ฒฐ๊ณผ๋ฅผ ํฌ๊ด์ ์ผ๋ก ์ ๋ฆฌํ์ฌ ์์ผ๋ก ์ด์ด์ง ์ฐ๊ตฌ์ ์์ฌ์ ์ ์ ์ํ๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ๋ชฉ์ ์ด๋ผ๊ณ ์ธ๊ธํ๋ค.
์ด์ด์ง ๋ด์ฉ์ ๋ชฉ์ฐจ๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. Brief introduction about vanilla Transformer
2. Taxonomy of variants of TS Transformer
2-1 Network modifications
- Positional Encoding
- Attention Module
- Architecture
2-2 Application domains
- Forecasting
- Anomaly Detection
- Classification
3. Experimental Evaluation and Discussion
4. Future Research Opportunities
1.Brief introduction about vanilla Transformer (Preliminaries of the Transformer)
๋ณธ๊ฒฉ์ ์ผ๋ก ์๊ณ์ด ๋ถ์์์ ํธ๋์คํฌ๋จธ๊ฐ ์ ์ฉ๋์ด ์จ ๊ณผ์ ์ ์ ๋ฆฌํ๊ธฐ ์ ์, ๋ ผ๋ฌธ์์๋ ๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ์ ์์๋ฅผ ๊ฐ๋ตํ๊ฒ ์ค๋ช ํ๊ณ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ง๊ณ ๋์ด๊ฐ๋ ํธ๋์คํฌ๋จธ์ ๊ตฌ์กฐ์ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. Positional Encoding (์ดํ ์ ์ด์ ์ ์์น์ ๋ณด๋ฅผ ๋ฃ์ด์ฃผ๋ ๊ณผ์ )
2. Attention Module (self, multi-head ๋ฑ ์ดํ ์ ์ด ์ผ์ด๋๋ ๋ ์ด์ด์ ๊ตฌ์กฐ)
3. Architecture (Module๋ค์ด ์ฐ๊ฒฐ๋ ๋ชจ์์ด๋ ๊ตฌ์กฐ)
๊ธฐ๋ณธ(vanilla) ํธ๋์คํฌ๋จธ์ ๋ํ ์ค๋ช ์ ์๋ ๋งํฌ์ ์์ธํ ๊ธฐ์ ๋์ด ์๋ค.
ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ ์ฐธ์กฐ
https://seollane22.tistory.com/20
Attention Is All You Need(2017) #Transformer
"Attention is all you need", ์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด seq to seq ๋ชจ๋ธ์ ํ๊ณ์ ์ ๋ณด์ํ๊ณ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ Transformer ๋ชจ๋ธ์ ๋ฑ์ฅ์ ์๋ฆฐ ๊ธฐ๋ ๋น์ ์ธ ๋ ผ๋ฌธ์ด๋ค. ํ์ฌ NLP์ ๊ฐ์ด seq to seq ํํ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ
seollane22.tistory.com
2. Taxonomy of Variants (Transformers in Time Series)
์ด ๋จ๋ฝ๋ถํฐ ๋ณธ๊ฒฉ์ ์ผ๋ก ์๊ณ์ด ํธ๋์คํฌ๋จธ์ ์ฐ๊ตฌ๋ฅผ ์์ฝํ๊ณ ์ ๋ฆฌํ๋ค.
๋ ผ๋ฌธ์ ์ ์๋ค์ ์๊ณ์ด์์์ ํธ๋์คํฌ๋จธ๊ฐ ์ฐ๊ตฌ๋์ด ์จ ๊ณผ์ ์ ์ค๋ช ํ๊ธฐ ์ํด ์์ ๊ฐ์ ๋ถ๋ฅ๋ฅผ ์ ์ํ๋ค.
์ด ๋ ผ๋ฌธ์ ํ๋ฆ ๋ํ ์ด ๋ถ๋ฅ์ ๊ฐ์๋ฐ, ๋จผ์ ํฌ๊ฒ ํธ๋์คํฌ๋จธ์ ๊ตฌ์กฐ(Network)๋ฅผ ์์ ํ๋ ๊ฒ๊ณผ ๊ฐ ๋๋ฉ์ธ์ ๋ฐ๋ผ ์์ฉ๋ ์ธก๋ฉด์ผ๋ก ๋ถ๋ฅ๋๋ค.
2-1. Network Modification
๋จผ์ ์๊ณ์ด ๋ถ์์์ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ฉํ๋ ค๋ ์ฐ๊ตฌ์๋ ๊ทธ ๊ตฌ์กฐ(network)๋ฅผ ์์ , ๊ฐ์กฐํ๋ ๊ด์ ์ด ์๋ค.
์ด๋ ์๊ณ์ด task์ ์ฌ๋ฌ challenge๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด ํธ๋์คํฌ๋จธ์ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ์์ ํ๋ ค๋ ๋ฐ์ ๊ทธ ๋ชฉ์ ์ด ์๋ค.
2-1-1. Positional Encoding
ํธ๋์คํฌ๋จธ๋ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ์ ๋ณด๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌํ์ง ์๊ธฐ ๋๋ฌธ์, ์๊ณ์ด ์ ๋ณด๋ฅผ ํ์ตํ๊ธฐ ์ํด์ ์ธํ์ time order(์์)๋ฅผ ๋ฃ์ด์ฃผ๋ ์์ ์ด ๋ฐ๋์ ํ์ํ๋ค.
์ด๋ฌํ ์์ ์ Positional Encoding์ด๋ผ๊ณ ํ๋๋ฐ, ์ด๋ ์์น ์ ๋ณด๋ฅผ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉํ์ฌ ์๊ณ์ด ๋ถ์์ ์ฐ์ผ ์ธํ์ ๋ํด์ฃผ๋ ๊ณผ์ ์ด๋ค.
๊ทธ๋ฐ๋ฐ ์๊ณ์ด ๋ชจ๋ธ๋ง์ ์์ด์ "์ด๋ป๊ฒ ์์น์ ๋ณด๋ฅผ ์ป๋ ์ง"์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ ์ธ ๊ฐ์ง ๋ถ๋ฅ๊ฐ ์๋ค.
- Vanilla Positional Encoding
Vanilla Positional Encoding์ ๊ธฐ๋ณธ์ ์ธ(vanilla ํ) ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ฐ์ด๋ ์์ ์ ๊ทธ๋๋ก ์ด์ฉํ๋ ๊ฒ์ด๋ค.
์ด๋ ์ด๋ ํ ์๋์ ์ธ ์ ๋ณด๋ Time Event ์ ๋ณด๋ฅผ ํฌํจํ๋ ๊ฒ์ด ์๋๋ผ ์ธํ์ด ์ฐ์ฌ์ง ์์ ๊ทธ๋๋ก๋ฅผ ์ธ์ฝ๋ฉํ์ฌ ์ธํ์ ๋ํด์ฃผ๋ ์์ ์ด๋ค. ์ด๋ ์๊ฐ์ ํ๋ฆ์ ๋ด๊ณ ์๋ ์ ๋ ฌ๋ ๋ฐ์ดํฐ์ ์ ๋ณด๋ฅผ ์ถ์ถํ ์ ์์ง๋ง, ์๊ณ์ด ๋ฐ์ดํฐ์ ์ค์ํ ํน์ง๋ค์ ์ถฉ๋ถํ ๋ฝ์๋ด์ง ๋ชปํ๋ค๊ณ ๋ณผ ์ ์๋ค. (they were unable to fully exploit the important features of time series data)
- Learnable Positional Encoding
์ Vanilla Positional Encoding์ ๋จ์ง ๋ฐ์ดํฐ์ ์์์ ๋ฐ๋ผ ํจ์๋ฅผ ์ ์ฉํ์ฌ ์์น๋ฅผ ์ธ์ฝ๋ฉํด์ฃผ๋๋ฐ, ์ด๋ฌํ "hand-crafted"๋ฐฉ๋ฒ์ ์์น์ ๋ณด์ ํํ๋ ฅ์ด ๋จ์ด์ง๋ค.
์ด์ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ "ํ์ต ๊ฐ๋ฅํ" positional embedding์ด ๋ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๊ธฐ๋ ํ์๋ค.
์ด๋ฌํ ๋ฐฉ์์ ๊ธฐ๋ณธ ๋ฐฉ์๋ณด๋ค ๋ ์ ์ฐํ๋ฉฐ, ํน์ ์ฌ๊ฑด์ด ์ผ์ด๋๋ ์์ ์ ํ์ตํ์ฌ ์์ธกํ๋ ๋ฑ ์ฌ๋ฌ ๋ชฉ์ ์ ๋ง๊ฒ ์ ์ฉํ ์ ์๋ ์ฅ์ ์ด ์๋ค.
์ด์ ๊ด๋ จํด์ ๋ ผ๋ฌธ์์ ์๊ฐํ๋ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ๋ค์ ์๋์ ๊ฐ๋ค.
[Zerveas et al., 2021]์ ์ฐ๊ตฌ๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์์น ์ธ๋ฑ์ค๋ฅผ ํจ๊ป ํ์ตํ ์ ์๋ embedding layer๋ฅผ ๋์ ํ์๋ค.
[Lim et al., 2021]์ ์ฐ๊ตฌ๋ ์๊ณ์ด ๋ฐ์ดํฐ์ sequential order์ ๋ ์ ์ถ์ถํ ์ ์๋ LSTM์ ๋คํธ์ํฌ๋ฅผ ๋์ ํ์๋ค.
- Timestamp Encoding
์ค์ํ์ ์๋๋ฆฌ์ค๋ฅผ ์๊ณ์ด ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ๋ง ํ ๋ ํ์์คํฌํ ์ ๋ณด๊ฐ ๊ฐ์ฅ ์ ๊ทผ, ์ถ์ถํ๊ธฐ ์ฉ์ดํ๋ค.
ํ์์คํฌํ๋ ๋ฌ๋ ฅ์ ๊ธฐ์ ํ๋ ์๊ฐ ์ ๋ณด(์ผ, ์ฃผ๋ง, ์, ์ฐ๋ ๋ฑ)๋ ์ด๋ ํ ํน์ ํ ์ด๋ฒคํธ(๊ฑฐ๋ ๋ง๊ฐ์ผ, ์ธ์ผ ๊ธฐ๊ฐ)์ ๊ฐ์ด ์๊ณ์ด์์์ ์ฃผ๊ธฐ์ ์ธ ํฌ์ธํธ๋ฅผ ์๋ฏธํ๋ค.
์ด๋ฌํ ํ์์คํฌํ๋ ์ค์ํ์ ์์ฉ์์ ๋งค์ฐ ์ ์๋ฏธํ ๋๊ฐ ๋ง์ง๋ง ๊ธฐ๋ณธ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์์๋ ์ด์ ๊ฐ์ ํฌ์ธํธ๋ฅผ ์ด์ฉํ์ง ๋ชปํด์๋ค.
์ด์ ๋ค์ํ ๋ณํ ๋ชจ๋ธ๋ค์ด positional encoding ๊ณผ์ ์์ ์ด๋ฅผ ์ด์ฉํ๊ณ ์ ์๋ํ์๋ค.
Informer [Zhou et al., 2021]
์ด๋ ํธ๋์คํฌ๋จธ์ ๋ชจ๋, ์ํคํ ์ฒ(๊ตฌ์กฐ)๋ฅผ ์๊ณ์ด ๋ถ์์ ์ฉ์ดํ๋๋ก ์ ๋ฐฉ์์ ์ผ๋ก ๊ฐ์กฐํ ๋ชจ๋ธ์ธ๋ฐ, ์ด ๋ชจ๋ธ์ ์ ์ํ ๋ ผ๋ฌธ์์๋ ์ธ์ฝ๋ฉ ๊ณผ์ ์์ ํ์ต๊ฐ๋ฅํ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ์ฌ ์ด ํ์์คํฌํ๋ฅผ ํ์ตํ๊ฒ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค.
๋ํ ๋ง์ฐฌ๊ฐ์ง๋ก Autoformer [Wu et al., 2021] and FEDformer [Zhou et al., 2022]์์๋ ๋น์ทํ ํ์์คํฌํ ์ธ์ฝ๋ฉ ๋ฐฉ์์ ์ถ๊ฐํ์๋ค.
2-1-2. Attention Module
์๊ณ์ด ํธ๋์คํฌ๋จธ์์ Network modification์ 2๋ฒ์งธ ํญ๋ชฉ์ Attention Module์ด๋ค.
์ฌ๋ฌ ์ฐ๊ตฌ์๋ค์ postional encoding ์ด์ธ์๋ ํธ๋์คํฌ๋จธ์ ๊ธฐ๋ณธ๊ตฌ์กฐ๊ฐ ๊ฐ์ง๊ณ ์๋ ํ๊ณ์ ์ ๋ณด์ํ๊ณ , ์๊ณ์ด ๋ถ์์ ์ฌ๋ฌ๊ฐ์ง challenge๋ค์ ๋ค๋ฃจ๊ธฐ ์ํด "์ดํ ์ ๋ชจ๋"์ ์์ ํ๋ ค๋ ์ฐ๊ตฌ๋ฅผ ์ด์ด์๋ค.
์ดํ ์ ๋ชจ๋(ํนํ self attention)์ ํธ๋์คํฌ๋จธ์ ํต์ฌ ์์๋ก์ input ์ ์ฒด๋ฅผ ํ์ผ๋ฉฐ ์ ์ฌ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ฐ์ค์น๋ฅผ ์์ฑํ๋ค. ์ด๋ ๋ง์น ์์ ์ฐ๊ฒฐ๋ ์ ๊ฒฝ๋ง๊ณผ ๊ฐ์ด maximum path length๋ฅผ ๊ณต์ ํ๋ฉฐ long-range dependency๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ ํ๋ ์ฅ์ ์ด ์๋ค.
๊ทธ๋ฌ๋ ์ด๋ฌํ ์ฅ์ ์๋, ๊ณ์ฐ์ ๋ณต์ก๋๊ฐ sequence length(N)์ ์ ๊ณฑ์ด๋ผ๋ ํฐ ๋น์ฉ์ด ๋ฐ๋ผ์จ๋ค.
quadratic(์ ๊ณฑ์) complexity๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ด ํฐ ๋ณต์ก๋๋ computational bottleneck(๋ณ๋ชฉํ์)์ ์ผ๊ธฐํ์ฌ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๋จ์ดํธ๋ฆฌ๋ ๋ฌธ์ ๊ฐ ์๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ N์ด, ์๊ณ์ด์ด ๋์ฑ ์ฅ๊ธฐ๋ก ๊ฐ์๋ก ์ปค์ง๊ธฐ ๋๋ฌธ์ ๋ง์ ์ฐ๊ตฌ๋ค์ด ์ด๋ฅผ ๊ฐ์ ํ์ฌ ํจ์จ์ฑ์ ๋์ด๋ ค๋ ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค.
์ด๋ ๊ฒ ํธ๋์คํฌ๋จธ์ ์ดํ ์ ๋ชจ๋์ ํจ์จํํ๋ ์ฐ๊ตฌ๋ ํฌ๊ฒ Sparsity bias๋ฅผ ๋์ ํ๋ ๊ฒ๊ณผ Low-rank property๋ฅผ ๊ณ ๋ คํ๋ ๊ฒ์ผ๋ก ๋๋๋ค.
Introducing "Sparsity bias" into the attention mechanism
ํธ๋์คํฌ๋จธ ์ดํ ์ ๋ชจ๋์ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ํํ๋ ์ฒซ ๋ฒ์งธ๋ ๋์์ผ๋ก Sparsity bias๊ฐ ์ ์๋์๋ค.
Sparsity bias๋ ๋ณดํต ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ฑฐ๋ ๊ณ์ฐ์ด ์ง๋์น๊ฒ ๋ง์์ง๋ ๊ฒ์ ๋ง๊ธฐ ์ํด ๋์ ํ๊ณค ํ๋๋ฐ, ์ดํ ์ ์์๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ํํ๊ธฐ ์ํ์ฌ ์ด๋ฅผ ๋์ ํ๋ ค๋ ์๋๊ฐ ์์๋ค.
์ด๋ ์์ ์ฐ๊ฒฐ๋ attention,์ฆ, ๋ชจ๋ ํฌ์ง์ ์ ๋ํด ์ ์ฌ๋๋ฅผ ๊ตฌํ๋ ๊ฒ์ด ์๋๋ผ Sparsity bias๋ฅผ ํตํ ํฌ์ง์ ๋ง ๊ณ์ฐ์ ์ด์ฉํ๋ ๊ฒ์ด๋ค.
์๋์ ๊ทธ๋ฆผ์ ์ด๋ฌํ ์์ด๋์ด๋ฅผ ์ ์ดํดํ๋๋ก ๋๋๋ค.
(a)๋ ๊ธฐ๋ณธ์ ์ธ ํธ๋์คํฌ๋จธ์์ ์ํํ๋ self-attention์ด๋ค. ์ด์ ๋ฌ๋ฆฌ, ๋๋จธ์ง ๋ชจํ์์๋ ์ ์ฒด๊ฐ ์๋ ํธํฅ์ ํตํด ์ ๋ณํ ํฌ์ง์ ์๋ง ๊ณ์ฐ์ ์ํํ์ฌ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ํํ๋ค.
์๋์ ๊ฐ์ ํธ๋์คํฌ๋จธ ๋ณํ๋ชจ๋ธ๋ค์์ Sparsity Bias๋ฅผ ์ ์ํ์๋ค.
- LogTrans [Li et al., 2019]
- Pyraformer [Liu et al., 2022a]
Exploring the low-rank property of the self-attention
ํธ๋์คํฌ๋จธ๋ฅผ ํจ์จํํ๊ธฐ ์ํด ์ดํ ์ ๋ชจ๋์ ์์ ํ๋ ๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ ๋ฐ๋ก Low-rank property๋ฅผ ์ฐพ์ ์ด๋ฅผ ๊ณ์ฐ์์ ์ ์ธํ๋ ๊ฒ์ด๋ค.
์ด์ ๊ฐ์ ๋ฐฉ์์ ์ ์ํ ํธ๋์คํฌ๋จธ ๋ณํ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Informer [Zhou et al., 2021]
- FEDformer [Zhou et al., 2022]
ํนํ ์ด ์์ด๋์ด๋ฅผ ๋จผ์ ์ ์ํ๊ณ ๊ตฌํํ Informer์์๋ ์ด๋ฌํ ๋ฐฉ์์ ๋์ ํด์ผ ํ๋ ์ด์ ๋ฅผ ๋ ผ๋ฆฌ์ ์ผ๋ก ์ค๋ช ํ๊ณ ์๋ค.
Informer ๋ ผ๋ฌธ์ ์ ์๋ ์์์ ๋ค๋ฃฌ ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ธ "Sparsity bias๋ฅผ ๋์ ํ๋ ๋ฐฉ์"์ ์ธ๊ฐ์ ์ฃผ๊ด์ด ๊ฐ์ ๋๋ ํด๋ฆฌ์คํฑํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ๋งํ๋ค.
๋ฐ๋ผ์ "์ ํ์ ์ธ ๊ณ์ฐ"์ ์์ด์ ์กฐ๊ธ ๋ ๊ณผํ์ ์ธ ์ ๊ทผ์ผ๋ก ์์์ ํตํด ์ค์๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๋์ ์ค์๋๋ฅผ ๊ฐ์ง๋ ๊ฒ๋ค๋ง ๊ณ์ฐ์ ์ด์ฉํ๋ ๋ฐฉ์์ด ๋ ํฉ๋ฆฌ์ ์ด๋ผ๊ณ ์ธ๊ธํ๋ค. Informer์์๋ ์ด๋ฌํ ๋ฐฉ์์ "ProbSparse Attention"์ด๋ผ๊ณ ๋ช ๋ช ํ์๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๋ฌํ ๋ฐฉ์์ ๊ธฐ๋ณธ์ ์ธ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๋นํด ๋ ๋น ๋ฅธ ๊ณ์ฐ ์๋๋ฅผ ๋ฌ์ฑํ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ด ๋จ๋ฝ์ ๋ง์ง๋ง์์ ๊ฐ์ข ๋ณํ ๋ชจ๋ธ๋ค๊ณผ ๊ทธ ๋ณต์ก๋๋ฅผ ๋น๊ตํ์ฌ ์ ๋ฆฌํ๊ณ ์๋ค.
์ ๊ฒฐ๊ณผ๋ ์ดํ ์ ๋ชจ๋์ ์์ ํ ๋ณํ ๋ชจ๋ธ๋ค์ด quadratic complexity๋ฅผ ๊ฐ์ง๋ ๊ธฐ๋ณธ์ ์ธ ํธ๋์คํฌ๋จธ์ ๋นํด ๋ ์ํ๋ ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
2-1-3. Architecture-based Attention Innovation
์๊ณ์ด ํธ๋์คํฌ๋จธ์ ๋ฐ์ ์์ Network modification์ ๋ง์ง๋ง์ Architecture์ ์์ ํ๋ ๊ฒ์ด๋ค.
์์ Network modification์ ๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ด์๋ ์ดํ ์ ๋ชจ๋์ ๊ฐ์กฐํ๋ ๊ฒ๊ณผ ๋ค๋ฅด๊ฒ, ์ด๊ฒ์ ์ดํ ์ ๋ชจ๋์ ์ฐ๊ฒฐํ๋ ๊ตฌ์กฐ๋ฅผ ์์ ํ๋ ๊ฒ์ด๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ธ๊ธํ๊ธธ, ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ์๊ณ์ด ๋ถ์์ ์ํ ํธ๋์คํฌ๋จธ์ hierarchical architecture(๊ณ์ธต ๊ตฌ์กฐ)๋ฅผ ๋์ ํ๊ณ ์๋ค๊ณ ํ๋ค.
- Informer [Zhou et al., 2021]
Informer๋ฅผ ์ ์ํ ๋ ผ๋ฌธ์์๋ ์ดํ ์ ๋ชจ๋๋ค ์ฌ์ด์ max-pooling layer๋ฅผ ๋์ ํ๋ architecture๋ฅผ ์ ์ํ์๋ค.
์ด๋ ์ค์ํ ์ ๋ณด๋ง ์ถ์ถํ์ฌ ์ ๋ฌํ๊ธฐ ์ํจ์ผ๋ก, sample series๋ฅผ ์ ๋ฐ์ผ๋ก ์ค์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ํจ๊ณผ ๋ํ ๊ฐ์ ธ์จ๋ค.
ํด๋น ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ "Knowledge Distilling(์ง์ ์ฆ๋ฅ)"์ด๋ผ๊ณ ํํํ๋ค.
![](https://blog.kakaocdn.net/dn/crH0hC/btr4ynpvGW2/WQSATHD2HOQFK7ELM8xPO0/img.png)
- Pyraformer [Liu et al., 2022a]
pyraformer๋ฅผ ์ ์ํ ๋ ผ๋ฌธ์์๋ ํธ๋์คํฌ๋จธ์ ์ architecture๋ก C-ary tree-based attention mechanism์ ๋์์ธ ํ์๋ค.
์ด๋ ํผ๋ผ๋ฏธ๋ํ ์ดํ ์ ์ด๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํ๋๋ฐ, intra attention์ inter attention ๋ ๊ฐ์ง๋ฅผ ๋์์ ๊ตฌ์ถํ ๊ฒ์ด ํน์ง์ด๋ค.
์ฆ, ์ด ๊ตฌ์กฐ๋ ๋ด๋ถ์ ์ธ ์ดํ ์ ๊ณผ ์ธ๋ถ์ ์ธ ์ดํ ์ ์ ๋ชจ๋ ์ํํ๋ฉฐ ํ์ต์ ํด๋๊ฐ๋๋ฐ, ์ด๋ฅผ ํตํด different resolutions ๊ฐ์ ์๊ฐ์ ์ข ์์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํ์ ํ๋ฉฐ ํจ์จ์ ์ธ ๊ณ์ฐ๊น์ง๋ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
![](https://blog.kakaocdn.net/dn/vtEVC/btr4uQmbZlX/2i1sHmxyhDo5Zui33EQqOK/img.png)
2-2. Application Domain
์ง๊ธ๊น์ง ๋ ผ์ํ network modification ์ด์ธ์๋ ์๊ณ์ด ํธ๋์คํฌ๋จธ๋ฅผ ์ฐ๊ตฌํ๋ ํฐ ๋ฐฉํฅ์๋ Application Domain์ด ์๋ค.
์ ๊ทธ๋ฆผ์ ์ค๋ฅธ์ชฝ ๊ฐ์ง์ฒ๋ผ, ์๊ณ์ด task์ domain์ ํฌ๊ฒ Forecasting, Anomaly Detection, Classification์ด ์๋ค.
2-2-1. Forecasting
Forecasting, ์์ธก ๋ฌธ์ ๋ ์๊ณ์ด ๋ถ์์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ด์ majorํ ๋ถ์ผ์ด๋ค.
์ด ์์ธก ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ์์ด์ ํธ๋์คํฌ๋จธ์ ์ฃผ๋ ๋ฐฉํฅ์ Module-level๊ณผ Architecture-level์ ๋ณํ๋ชจํ์ ๋ง๋๋ ๊ฒ์ด์๋ค.
์ด๋ ์์ ๋ค๋ฃฌ Network Modification์ ์ดํ ์ ๋ชจ๋๊ณผ ์ํคํ ์ฒ๋ฅผ ๊ฐ์กฐํ๋ ๊ทธ ๋ฐฉํฅ๊ณผ ๊ฐ๋ค.
์์ธก ์ฑ๋ฅ์ ์ง๋ณด์ ๊ณ์ฐ๊ณผ์ ์ ํจ์จํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ด๋ฌํ ๋ ๋ฐฉํฅ์ผ๋ก ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ด ์ด๋ฃจ์ด์ง๋ฉด์ ๋ง์ ๋ณํ ํธ๋์คํฌ๋จธ ๋ชจํ๋ค์ด ์ ์๋์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ ๋ฆฌํ ๋ชจํ๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
1-1) New Module Design
Sparsity inductive bias or low-rank approximation ๋์
- LogTrans [Li et al., 2019]
- Informer [Zhou et al., 2021]
- AST [Wu et al., 2020a]
- Pyraformer [Liu et al., 2022a]
- Quatformer [Chen et al., 2022]
- FEDformer [Zhou et al., 2022]
์ด ๋ชจ๋ธ๋ค์ด ์ถ๊ตฌํ๋ ๋ชฉํ์ ๊ทธ ์ด์ ๋ ์ network modification์์ ๋ ผ์ํ ๊ฒ๊ณผ ๊ฐ๋ค.
์ด๋ค์ "์ฅ๊ธฐ ์๊ณ์ด"์ ์์ธกํ๋ ๋ฌธ์ ์์ Sparsity inductive bias์ low-rank approximation๋ฅผ ํตํด "๋ฉ๋ชจ๋ฆฌ ํจ์จํ"์ "๊ณ์ฐ ์๋์ ํฅ์"์ ์ด๋ฃจ์ด๋๋ค.
1-2) Modifying the normalization mechanism
over-stationarization(๊ณผ๋ ์ ์ํ) ๋ฌธ์ ํด๊ฒฐ
- Non-stationary Transformer [Liu et al., 2022b]
1-3) Utilizing the bias for token input
Segmentation-based representation mechanism.(์ธํ ํ ํฐ์ ํธํฅ์ ์ต๋ํ ์ด์ฉํ๊ธฐ)
Simple "Seasonal-Trend Decomposition architecture" with an auto-correlation mechanism (์๊ณ์ด ๋ฐ์ดํฐ์ ํน์ฑ ๋ฐ์)
- Autoformer [Wu et al., 2021]
Autoformer์ ๊ตฌ์กฐ๋ ๋ค๋ฅธ ์๊ณ์ด ํธ๋์คํฌ๋จธ ๋ณํ๋ชจ๋ธ๋ค๊ณผ๋ ๋ค๋ฅด๊ฒ, ์ ํต์ ์ธ ์๊ณ์ด ๋ถ์ ๋ฐฉ๋ฒ์ ํฌํจํ๊ณ ์๋ค.
์ด ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ํ์ฐ์ ์ผ๋ก ๊ฐ์ง๊ฒ ๋๋ ์๊ธฐ์๊ด์ฑ(Auto-Correlation)๊ณผ Seasonal(๊ณ์ ๋ณ๋), Trend(์ถ์ธ๋ณ๋)์ ๊ฐ๋ ์ ์ ํฉํ์ฌ ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ถ์ ๋งค์ปค๋์ฆ์ ๊ตฌ์ถํ์๋ค.
ํํธ Forecasting์ ์์ด์ ํธ๋์คํฌ๋จธ๋ ์์๊ฐ์ ์์น์ ์ธ ์์ธก ๋ฌธ์ ์ธ์๋ Spatio-Temporal Forecasting, Event Forecasting์ ๊ฐ์ ๋ถ์ผ์์๋ ๋ง์ด ์ฐ๊ตฌ๋๊ณ ์๋ค.
2-2-2. Anomaly Detection
ํธ๋์คํฌ๋จธ๋ ์๊ณ์ด ์ด์ํ์ง์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
- ํธ๋์คํฌ๋จธ์ neural generative model์ ๊ฒฐํฉํ ๋ชจ๋ธ
1. TranAD [Tuli et al., 2022]
์ด ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ ์ธ ํธ๋์คํฌ๋จธ๊ฐ ์ด์์น์ ์์ ํธ์ฐจ๋ฅผ ๋์น๋ ๊ฒ์ ํด๊ฒฐํ๊ธฐ ์ํด "adversarial train"(์ ๋์ ํ๋ จ)์ ํตํด recostruction error๋ฅผ ์ฆํญํ์ฌ ํ์ตํ๊ฒ ํ๋ค.
2. MT-RVAE [Wang et al., 2022]
3. TransAnomaly [Zhang et al., 2021]
์ด ๋ ์ฐ๊ตฌ๋ ๊ณตํต์ ์ผ๋ก ํธ๋์คํฌ๋จธ์ VAE(Variational Auto Encoder)๋ฅผ ๊ฒฐํฉํ์๋๋ฐ, ๊ทธ ๋ชฉ์ ์ ์๋ก ๋ค๋ฅด๋ค.
MT-RVAE [Wang et al., 2022]๋ ๋ ๋ง์ ๋ณ๋ ฌํ์ training cost ๊ฐ์๋ฅผ ์ํด VAE๋ฅผ ๊ฒฐํฉํ์๊ณ , TransAnomaly [Zhang et al., 2021]๋ ๊ฐ ๋ค๋ฅธ ์ค์ผ์ผ์ ์๊ณ์ด์ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ๊ณ ์ถ์ถํ๊ธฐ ์ํ ๋ชฉ์ ์ ๊ฐ์ง๋ค.
4. GTA [Chen et al., 2021c]
์ด ์ฐ๊ตฌ๋ ํธ๋์คํฌ๋จธ์ graph-based learning architecture๋ฅผ ๊ฒฐํฉํ์๋ค.
2-2-3. Classification
ํธ๋์คํฌ๋จธ๋ long-range dependency๋ฅผ ํฌ์ฐฉํ๋ ๋ฐ ์ข์ ์ฑ๋ฅ์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ์๊ณ์ด ๋ถ๋ฅ์๋ ๋งค์ฐ ํจ๊ณผ์ ์ด๋ค.
GTN [Liu et al., 2021]
์ด ์ฐ๊ตฌ๋ Two-Tower Transformer๋ผ๋ ๋ชจ๋ธ์ ์ ์ํ์๋๋ฐ, ๊ฐ ํ์๋ "Time-Step-Wise Attention", "Channel - Wise Attetntion"์ ์ํํ๋ค. ์ด ๋ ๋ ํ์์ ํน์ฑ์ ํฉ์น๊ธฐ ์ํด "Gating"์ด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ "a learnable weighted concatenation"๊ฐ ์ด์ฉ๋๋ค. ์ด ๋ชจ๋ธ์ ์๊ณ์ด ๋ถ๋ฅ ๋ฌธ์ ์์ sota ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๊ณ ํ๋ค.
[Rußwurm and Korner, 2020]
์ด ์ฐ๊ตฌ๋ raw optical satellite time series classification์ด๋ผ๋ ๊ฐ๋ ์ ๊ตฌ์ถํ๊ณ self-attention๊ธฐ๋ฐ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ํ๋ค.
[Yuan and Lin, 2020]
[Zerveas et al., 2021]
[Yang et al., 2021]
์ด ์ฐ๊ตฌ๋ค์ ์๊ณ์ด ๋ถ๋ฅ์ ์์ด์ Pre-trained Transformers, ์ฆ, ์ฌ์ ํ์ต๋ ํธ๋์คํฌ๋จธ๋ฅผ ๋์ ํ์๋ค.
3. Experimental Evaluation and Discussion
์ ์๋ค์ ์๊ณ์ด ํธ๋์คํฌ๋จธ๋ฅผ ์์ฝ, ์ ๋ฆฌํ๋ ๊ฒ์ ๋ง์ง๋ง์ผ๋ก ๊ฐ ๋ณํ๋ชจ๋ธ๋ค์ ๋น๊ตํ๋ฉฐ ์ฌ๋ฌ๊ฐ์ง ํ ์คํธ๋ฅผ ์ํํ์๋ค.
ํ ์คํธ์ ์ฐ์ธ ๋ฐ์ดํฐ๋ ์๊ณ์ด ๋ถ์์์ ์ ๋ช ํ ๋ฒค์น๋งํน ๋ฐ์ดํฐ์ธ ETTm2 [Zhou et al., 2021] ๋ฐ์ดํฐ์ด๋ค.
๊ณ ์ ์ ์ธ ํต๊ณ๋ชจ๋ธ์ธ ARIMA๋ CNN, RNN๊ณผ ๊ฐ์ ๊ธฐ์กด์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ์ด๋ฏธ Informer [Zhou et al., 2021]์์ ํธ๋์คํฌ๋จธ์ ๋นํด ์ด๋ฑํ ์ฑ๋ฅ์ ๊ฐ์ก๋ค๋ ๊ฒ์ด ์ ์ฆ๋์๊ธฐ ๋๋ฌธ์, ๋ณธ ๋ ผ๋ฌธ์์๋ ํธ๋์คํฌ๋จธ ๋ณํ๋ชจ๋ธ๋ค์ ์ง์คํ๊ณ ์๋ค.
3-1) Robustness Analysis
Table 2์์ ์ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ๋์ฒด์ ์ผ๋ก Vanilla Transformer์ ๋นํด ๋ณํ๋ชจ๋ธ๋ค, ํนํ Autoforemr์ ์ฑ๋ฅ(Forecasting Power)์ด ๋ ๋ฐ์ด๋๋ค.
- ๋ชจ๋ ๋ชจ๋ธ๋ค์ด Input Len์ด ํด ์๋ก, ์ฆ, ์ฅ๊ธฐ ์๊ณ์ด๋ก ๊ฐ์๋ก ์ฑ๋ฅ์ด ํ๋ฝํ๋ ์ถ์ธ๋ฅผ ๋ณด์ธ๋ค.
"์ ํต์ ์ธ ์๊ณ์ด ๋ถ์์ ํน์ง์ ์ ํ" Autoformer์ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข๋ค๋ ๊ฒ์ ์๋ฏธ์๋ ์์ฌ์ ์ ๋์ ธ์ฃผ๊ณ ์๋ค.
์ด์, ๊ธฐ์กด ํธ๋์คํฌ๋จธ์ ๊ตฌ์กฐ์ ์ ํต์ ์ธ ์๊ณ์ด ๋ถ์์ ๋ฐฉ๋ฒ๋ก ์ด๋ ์๊ณ์ด ๋ฐ์ดํฐ์ ํน์ฑ์ ๊ฒฐํฉํ๋ ค๋ ์ฐ๊ตฌ๋ฅผ ์ง์ํด์ผ ํ๋ค.
๋ํ ์ฌ์ ํ ๊ธด Input์์๊น์ง ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์, ๋ ๊ธด ์๊ณ์ด์ Time-dependency๋ฅผ ํฌ์ฐฉํ ์ ์๋ ๋ฐฉ์์ ๊ณ์ ๊ณ ๋ฏผํด์ผ ํ๋ค.
3-2) Model Size Analysis
NLP๋ CV์์ ํธ๋์คํฌ๋จธ๊ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ ์์ธ ์ค ํ๋๊ฐ ๋ฐ๋ก ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋งค์ฐ ํฌ๊ฒ ๋๋ฆด ์ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
ํนํ Layer์ ๊ฐ์๋ก ๊ทธ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋๋ฐ, NLP, CV์์๋ ๋ณดํต 12๊ฐ์์ 128๊ฐ ์ฌ์ด์ ์๋ฅผ ์ ํํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค.
Table 3์ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- 3~6 ๊ฐ์ Layer๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
- Layer ์๋ฅผ ๋๋ฆฐ๋ค๊ณ ํด์ ์ฑ๋ฅ์ด ์ค๋ฅด์ง ์๋๋ค.
ํ ์คํธ ๊ฒฐ๊ณผ, ๋ค๋ฅธ ๋ถ์๋ฐฉ๋ฒ๊ณผ๋ ๋ฌ๋ฆฌ ์๊ณ์ด ํธ๋์คํฌ๋จธ์์๋ ๋ ํฐ ๋ชจ๋ธ์ capacity๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฅํ์ง๋ ์๋๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค.
์ด์ ํฅํ ์์ธ์ ๊ท๋ช ํ๊ณ , ๋ Deepํ Layer๋ค์ ํตํด ์ฑ๋ฅ์ ํ์ฅํ Architecture๋ฅผ ๋์์ธ ํ๋ ๊ฒ์ด ์ค์ํ ์ฐ๊ตฌ ๋ฐฉํฅ์ด ๋ ๊ฒ์ด๋ค.
3-3) Seasonal-Trend Decomposition Analysis
์ต๊ทผ์ [Wu et al., 2021; Zhou et al., 2022; Lin et al., 2021; Liu et al., 2022a] ๋ฑ์ ์ฐ๊ตฌ์๋ค์ ์๊ณ์ด์ ์ฌ๋ฌ ๋ณ๋์ Decomposition(์์๋ถํด)ํ๋ ๊ฒ์ด ํธ๋์คํฌ๋จธ์ ์ฑ๋ฅ์ ํต์ฌ์ด ๋ ์ ์๋ค๋ ๊ฒ์ ์ ์ํ๊ณ ์๋ค.
์ Table 4๋ Original version์ ์ฑ๋ฅ๊ณผ, Autoformer [Wu et al., 2021]์์ ์ ์ํ simple moving average seasonal-trend decomposition architecture๋ฅผ ์ ์ฉํ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒฐ๊ณผ์ด๋ค.
๋งจ ์ค๋ฅธ์ชฝ promotion ์ด์ ๋ณด๋ฉด, Decomposition์ ์ ์ฉํ ๋ชจ๋ธ์ด ๊ธฐ๋ณธ ๋ฒ์ ๋ณด๋ค ์ต์ 50%์์ ์ต๋ 80% ์ ๋๋ก ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์์ผ๋ก ์๊ณ์ด ํธ๋์คํฌ๋จธ์ ์ฑ๋ฅ์ ์์ด์ ์ด decomposition์ด ๋งค์ฐ ํต์ฌ์ ์ธ ์์๊ฐ ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๊ฒ์ ์์ฌํ๋ค.
์ด์ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด ์ ์ ์ฃผ๋ชฉํ์ฌ ์์ผ๋ก์ ์ฐ๊ตฌ๋ฅผ ํตํด ๋ ๋ฐ์ ๋ ์๊ณ์ด decomposition ์คํค๋ง๋ฅผ ๋์์ธ ํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ ๊ฒ์ด๋ผ๊ณ ๊ฐ์กฐํ๊ณ ์๋ค.
4. Future Research Opportunities
๋ณธ ๋ ผ๋ฌธ์ ๋ง์ง๋ง์ผ๋ก ์ง๊ธ๊น์ง ์๊ณ์ด ํธ๋์คํฌ๋จธ๋ฅผ ์ ๋ฆฌํด์จ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์์ฌ์ ๊ณผ ์์ผ๋ก์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํด์ฃผ๊ณ ์๋ค.
1. Inductive Biases for Time Series Transformers
- ๋
ธ์ด์ฆ๋ฅผ ํต์ ํ๊ณ ํจ์จ์ ์ผ๋ก ์ ํธ๋ฅผ ์ถ์ถํ๋ผ. (based on understanding Time-Series Data and tasks)
2. Transformers and GNN(Graph-neural-network) for Time Series
- ์์น์์ธก ๋ชจ๋ธ ๋ฟ๋ง ์๋๋ผ ํจ์จ์ ์ธ ์ํ-๊ณต๊ฐ ๋ชจํ ๊ฐ๋ฐ์ ์ํด์ GNN์ ๊ฒฐํฉํ๋ผ.
3. Pre-trained Transformers for Time Series
- ๊ฐ ํ์คํฌ, ๋๋ฉ์ธ์ ๋ฐ๋ฅธ ์ ์ ํ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ผ.
4. Transformers with Architecture Level Variants
- ํ์ฌ ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ ๋ชจ๋์ ์์ ํ๋ ๊ฒ์ ์ง์ค๋์ด ์๋ค. ํธ๋์คํฌ๋จธ์ architecture(๊ตฌ์กฐ)๋ฅผ ์๊ณ์ด์ ๋ง๊ฒ ๋์์ธํ ํ์๊ฐ ์๋ค.
5. Transformers with NAS for Time Series (Neural architecture search (NAS) )
- ํ์ฌ ํธ๋์คํฌ๋จธ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ค์ ์๊ณ์ด ๋ถ์์ ์ต์ ํํด์ผ ํ๋ค.
(embedding dimension, number of heads(๋ณ๋ ฌ ์), and number of layers)
๋ง์น๋ฉฐ
์ด ๋ ผ๋ฌธ์ "ํธ๋์คํฌ๋จธ๋ฅผ ์๊ณ์ด ๋ถ์์ ์ ์ฉํด๋ณด๋ฉด ์ด๋จ๊น?"๋ผ๋ ํ์์ ์ผ์ฐจ์ ์ด๊ณ ๋ง์ฐํ ๊ถ๊ธ์ฆ์ ํด์ํด์ฃผ์์์ ๋ฌผ๋ก , ์ง๊ธ๊น์ง์ ํธ๋ ๋์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๋ค๊น์ง ๊ทธ ์์ผ๋ฅผ ๋ํ ์ ์๋ ์ข์ ๊ณ๊ธฐ๊ฐ ๋์๋ค.
๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์ ๋จผ์ ๋ฆฌ๋ทฐํ๋ ๊ฒ์ ์ง๊ธ๊น์ง ๋ฐํ๋ ํธ๋์คํฌ๋จธ์ ๋ณํ๋ค์ ํ๋ํ๋ ์์ธํ ์ดํด๋ณด๊ธฐ ์ ์ ์ ์ฒด์ ์ธ ํ๋ฆ๊ณผ ๋ฐฉํฅ์ ๋จผ์ ์ง์ด์ฃผ๋ ์๋ฏธ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ผ ๊ธฐ๋ํ๋ค.
์ง๋์ณ์จ ๊ณผ์ ๋ค, ์ด ๋ ผ๋ฌธ์์ ์ธ๊ธํ๋ ์ฌ๋ฌ ๋ณํ๋ค์ ์ด์ด์ง๋ ๋ค๋ฅธ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ์์ ์์ธํ๊ฒ ๋ค๋ฃฐ ์์ ์ด๋ค.
์๋ฌธ
https://arxiv.org/abs/2202.07125
Transformers in Time Series: A Survey
Transformers have achieved superior performances in many tasks in natural language processing and computer vision, which also triggered great interest in the time series community. Among multiple advantages of Transformers, the ability to capture long-rang
arxiv.org