경영학도가 전달하는 데이터 세상
-
[Paper Review] Are Transformers Effective for Time Series Forecasting?(2022)
*시작하기에 앞서, 기본 트랜스포머의 구조와 그 변형들에 대한 배경지식이 있는 분들은 이 논문의 실험만 살펴보셔도 무방합니다. 1. Introduction 시계열 예측(Time Series Forecasting)은 실생활의 다양한 도메인에서 널리 응용되고 있다. 지난 세월동안 이러한 TSF에 있어서 ARIMA와 같은 전통적인 통계 모형, GBRT와 같은 머신러닝, RNN 기반/CNN 기반 알고리즘과 같은 딥러닝 알고리즘이 적용되어 왔다. 그런데 비교적 최근에 등장한 딥러닝 모델인 "트랜스포머"는 sequential task에서 매우 훌륭한 성능을 바탕으로 NLP, CV 분야에서 다른 알고리즘들을 압도하고 있는데, 이에 따라 같은 sequential task인 시계열 분석 분야에도 이러한 트랜스포머를 적용..
2023.04.02 22:37 -
콕스 비례 위험 모델 (Cox PH Model) [Survival analysis]
앞서 살펴본 카플란 마이어 곡선은 생존율의 차이를 쉽게 볼 수 있는 매우 간단한 모델이다. 그런데, 연구자 입장에서는 단순히 생존율의 증감 뿐만 아니라 성별, 그룹 등 어떠한 변수에 따른 위험 정도를 평가하는 것에 더 관심을 가질 수 있다. 왜냐하면 변수에 따른 영향력을 평가하는 것은 경영활동 등 여러 분야에 큰 시사점을 던져주기 때문이다. 예를 들어 성별 등 어떤 집단 간의 위험 정도가 얼마나 차이나는 지를 평가할 수 있다면, 비용 등 마케팅에 들어가는 자원을 결정하고 조정할 수 있는 것이다. 그 시사점을 던져주는 것이 바로 콕스 비례 위험 모형이다. 콕스 비례 위험 모형이란? 콕스 비례 위험 모형이란 생존분석에 쓰이는 통계적 모델로, 비모수적 특징과 모수적 특징을 모두 가지는 준모수적 모델이다. 이 ..
2023.02.01 14:14 -
Quant (퀀트)
경영학도가 읽어주는 데이터 세상, 그 첫 번째 이야기!! 첫 글로 무엇을 적을까..라는 고민은 사실 그렇게 길게 하지 않았습니다. 제가 나아가고자 하는 방향과 이 블로그에서 전하게 될 이야기들을 관통하는 주제, 그것으로 제 첫 게시글을 시작하고자 합니다. 퀀트, 이것은 제가 경영공학을 제 부전공으로 택하고 처음으로 들은 강의인 "금융공학과 머신러닝"이라는 강의에서 처음 들은 단어입니다. 퀀트란, 1. 금융에서 파생상품 등 구조화된 상품의 공정가치를 산출하는 사람 2. 정량적 분석을 수행하는 사람 3. 정량적 분석 방식 이렇게 세 가지 정의를 가집니다. 퀀트는 분석가인 사람과 분석 방식을 모두 읽컫는 말인데, 단어의 본질은 "정량"에 있습니다. 여러분들께서는 혹시 도박사의 오류라는 말을 들어보신 적이 있으..
2023.01.10 09:22 -
[Paper Review] Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting (2021)
1. Introduction 시계열 분석, 특히 예측 문제(Forecasting)는 애너지 소비, 트래픽, 경제지표, 날씨, 질병 등 다양한 도메인에서 활용되고 있다. 실생활의 여러 응용분야에 있어서 때로는 시계열 예측의 범위를 더 크게, 멀리 확대할 필요성이 있는데, 이는 결국 장기 시계열을 다루는 문제와 직결될 수 밖에 없다. 이러한 상황에서 "트랜스포머"는 long-range dependence"문제, 즉, 장기 의존성 문제를 self-attention 매커니즘을 통해 해결하여 이러한 요구를 충족하였고, 실제로 많은 트랜스포머 기반 모델들이 여러 연구에서 큰 진전을 이루어냈다. 그런데, 그러한 연구성과에도 불구하고 long-term 기반의 예측 문제는 여전히 매우 어려운 일로 남아있다. 본 논문에서..
2023.03.27 23:11 -
앙상블 기법 #랜덤 포레스트 #XG부스트
앙상블 기법이란, 더 높은 성능을 위해 여러 모델( = 분류기)을 만들고 조합하여 결과를 도출하는 기법을 말한다. 이 기법의 아이디어는, 분류든 회귀든 어떤 문제를 해결함에 있어서 하나의 알고리즘, 모델을 완벽히 다듬는 것보다 여러 모델을 조합하는 것이 더 뛰어난 성능을 보일 수 있다는 것이다. 앙상블 기법의 아이디어는 위 그림에서 여러 명의 일반인을 조합하는 것을 의미한다. 그림에서처럼 한 명의 전문가와 여러 명의 일반인의 성능의 비교는 딱 잘라서 "누가 더 좋다"라고 말하기 어렵지만, 앙상블 기법을 통한 모델은 일반적으로 단일 모델모다 더 우월한 성능을 보여주는 것이 사실이다. 정리하자면, 앙상블 기법은 "약한 분류기"여러 개를 조합하여 하나의 "강한 분류기"로 만드는 기법이다. 딥러닝의 응용이 활성..
2023.02.03 17:55