경영학도가 전달하는 데이터 세상
-
[Paper Review] Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting (2021)
1. Introduction 시계열 분석, 특히 예측 문제(Forecasting)는 애너지 소비, 트래픽, 경제지표, 날씨, 질병 등 다양한 도메인에서 활용되고 있다. 실생활의 여러 응용분야에 있어서 때로는 시계열 예측의 범위를 더 크게, 멀리 확대할 필요성이 있는데, 이는 결국 장기 시계열을 다루는 문제와 직결될 수 밖에 없다. 이러한 상황에서 "트랜스포머"는 long-range dependence"문제, 즉, 장기 의존성 문제를 self-attention 매커니즘을 통해 해결하여 이러한 요구를 충족하였고, 실제로 많은 트랜스포머 기반 모델들이 여러 연구에서 큰 진전을 이루어냈다. 그런데, 그러한 연구성과에도 불구하고 long-term 기반의 예측 문제는 여전히 매우 어려운 일로 남아있다. 본 논문에서..
2023.03.27 23:11 -
[Paper Review] Transformers in Time Series: A Survey (2022)
이 논문은 시계열 분석에 트랜스포머를 적용해온 연구들을 정리한 논문이다. 시계열 분석은 NLP와 함께 sequential task의 대표적인 분야 중 하나로, 금융, 제조업, 마케팅 등 다양한 비즈니스 도메인에 응용되고 있는 분석 방법론이다. 2017년 트랜스포머의 등장 이후, NLP 분야에서 트랜스포머 알고리즘이 큰 성공을 이뤄나가면서 같은 sequential task인 시계열 분석에서도 이를 적용하려는 움직임이 일어났다. 특히 트랜스포머는 장기 종속성(long dependece)문제를 해결하여 긴 sequence에서 좋은 성능을 보인다는 것이 입증되었기 때문에, 시계열 분석에서도 장기 시계열을 효과적으로 학습할 수 있는 대안으로 주목을 받았다. 그러나 기본적인 트랜스포머 역시 여러가지 한계점이 존재했..
2023.03.20 16:00 -
의사결정나무(Decision Tree) [Supervised Learning]
AI, 데이터 분석의 밑바탕인 머신러닝(기계학습)에는 크게 세 가지 갈래가 있다. - 지도학습 (타겟, 정답을 함께 학습시켜 타겟을 예측한다.) - 비지도학습 (타겟, 정답없이 학습시켜 데이터의 특성을 파악한다.) - 강화학습 (주어진 상태에 대한 보상을 통해 최적의 행동을 학습시킨다.) 의사결정나무 - 지도학습 의사결정나무는 분류, 회귀 문제에 모두 적용이 가능한 지도학습 알고리즘이다. (분류 문제: 분류 나무, 회귀 문제: 회귀 나무) 이는 비교적 간단하고 쉬운 알고리즘으로 오늘날까지 현업에서 가장 많이 이용되는 알고리즘 중 하나이다. 이름에서도 알 수 있듯이, 이 모형은 의사결정 과정을 단계별로 도식화한 나무 형태를 가진다. 이 모형에서 각 단계를 "노드"라고 하는데, 이 알고리즘은 상위노드에서 하..
2023.02.02 09:15 -
[Paper Review] Are Transformers Effective for Time Series Forecasting?(2022)
*시작하기에 앞서, 기본 트랜스포머의 구조와 그 변형들에 대한 배경지식이 있는 분들은 이 논문의 실험만 살펴보셔도 무방합니다. 1. Introduction 시계열 예측(Time Series Forecasting)은 실생활의 다양한 도메인에서 널리 응용되고 있다. 지난 세월동안 이러한 TSF에 있어서 ARIMA와 같은 전통적인 통계 모형, GBRT와 같은 머신러닝, RNN 기반/CNN 기반 알고리즘과 같은 딥러닝 알고리즘이 적용되어 왔다. 그런데 비교적 최근에 등장한 딥러닝 모델인 "트랜스포머"는 sequential task에서 매우 훌륭한 성능을 바탕으로 NLP, CV 분야에서 다른 알고리즘들을 압도하고 있는데, 이에 따라 같은 sequential task인 시계열 분석 분야에도 이러한 트랜스포머를 적용..
2023.04.02 22:37 -
[PYTHON] 의사결정나무 (Decision Tree)
의사결정나무는 분류와 회귀 문제에 모두 적용이 가능한 알고리즘으로, 결과도출과정과 그 결과를 해석하기에 매우 유리한 알고리즘이다. 파이썬의 의사결정나무 알고리즘은 사이킷런 라이브러리를 이용한다. 분석에 쓰인 데이터는 캐글에서 가져온 ibm hr분석(퇴사여부 분류) 데이터이다. (https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset?datasetId=1067&searchQuery=deci) 전처리 과정에서 가장 중요한 것은 자료형 확인, 결측치 확인, 데이터 분포 확인 등이 있다. 위 데이터는 특히 자료형에 유의해야 한다. 데이터 설명을 참조하면 얼핏 수치형으로 보이는 변수들이 사실은 명목형 변수를 나타내고 있음을 ..
2023.02.07 15:30