생존분석(3)
-
카플란-마이어 추정법 [Survival analysis]
생존분석, 이탈분석(이제부터 이 둘을 구분하지 않을 예정)을 R과 파이썬을 통해 진행하겠다. 그 분석의 첫번째로 카플란 마이어 기법을 R을 통해 구현해보자. 먼저 기법에 대한 설명이 필요한데, 카플란 마이어 기법은 비모수적 모형이다. 이에, 어떠한 분포적 가정이 불필요하고 적은 수의 데이터로 쉽게 생존율을 계산할 수 있다는 장점이 있다. 그리고, 카플란 마이어 기법은 "실제 이탈이 일어난 사건만 반영한다"라는 아주 중요한 특징이 있다. 생존분석에서 분석대상이 사라지는 경우는 사망(이탈)하거나(event), 연구에서 중도탈락(censoring)한 두 가지 경우 중 하나이다. 물론 실험에 있어서 중도탈락은 type1, 2, random과 같이 다양한 사유가 존재하고, 이는 실험설계에 있어서 매우 중요하지만 ..
2023.01.10 -
[R] 카플란 마이어(kaplan-meier) [Survival Analysis]
R에서 카플란 마이어 기법을 구현해보자 이 모델은 주로 의료 데이터에서 많이 이용되지만, 우리는 비즈니스 도메인으로 옮겨 고객들의 생존, 이탈을 분석해본다. 데이터는 연습 데이터인 survivalDataExercise.csv를 이용하였다. (댓글 주시면 공유해드리겠습니다.) 먼저 library(dplyr) library(ggplot2) library(survival) library(survminer) #라이브러리가 없으면 install.packages("") setwd("") #경로 설정 surv = read.csv("")#데이터 불러오기 변수는 최근 구매로부터 경과된 일수와 성별, 상품권 이용여부, 환불여부, 재구매여부가 있다. surv = surv %>% mutate(event = ifelse(bou..
2023.01.10 -
Survival / Churn analysis (생존 / 이탈 분석)
생존분석. 생존분석은 과거의 데이터를 바탕으로 분석대상이 살아남느냐 아니냐를 예측하는 분석 아이디어이다. 이 분석은 의료 도메인에서 먼저 제안되고 또 많이 이용해왔다고 한다. 예컨데, 과거의 패턴을 통해 현재 환자들이 결국 생존할 지 혹은 사망할 지를 예측할 수 있고, 어떠한 질환에 있어서 투약하는 약물이나 어떠한 치료 환경이 생존에 영향을 미치게 되는지, 그 변수들의 영향력을 알아보는 데도 유용하다. 그런데, 이와 같은 아이디어는 경영환경에서도 유용하게 적용할 수 있다. 분석 대상을 환자가 아닌 소비자들로 바꾼다면, 고객관리에 있어서 아주 중요한 시사점을 뽑아낼 수 있다는 사실을 알 수 있다. 소비자의 생존은 기업과 소비자의 관계유지를, 사망은 관계이탈을 의미하는 것으로 볼 수 있는 것이다. (#이러한..
2023.01.10