๐ง๐ป๐ป With Data(5)
-
[PYTHON] ์์ฌ๊ฒฐ์ ๋๋ฌด (Decision Tree)
์์ฌ๊ฒฐ์ ๋๋ฌด๋ ๋ถ๋ฅ์ ํ๊ท ๋ฌธ์ ์ ๋ชจ๋ ์ ์ฉ์ด ๊ฐ๋ฅํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ๊ฒฐ๊ณผ๋์ถ๊ณผ์ ๊ณผ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํด์ํ๊ธฐ์ ๋งค์ฐ ์ ๋ฆฌํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ํ์ด์ฌ์ ์์ฌ๊ฒฐ์ ๋๋ฌด ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ดํท๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํ๋ค. ๋ถ์์ ์ฐ์ธ ๋ฐ์ดํฐ๋ ์บ๊ธ์์ ๊ฐ์ ธ์จ ibm hr๋ถ์(ํด์ฌ์ฌ๋ถ ๋ถ๋ฅ) ๋ฐ์ดํฐ์ด๋ค. (https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset?datasetId=1067&searchQuery=deci) ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ์๋ฃํ ํ์ธ, ๊ฒฐ์ธก์น ํ์ธ, ๋ฐ์ดํฐ ๋ถํฌ ํ์ธ ๋ฑ์ด ์๋ค. ์ ๋ฐ์ดํฐ๋ ํนํ ์๋ฃํ์ ์ ์ํด์ผ ํ๋ค. ๋ฐ์ดํฐ ์ค๋ช ์ ์ฐธ์กฐํ๋ฉด ์ผํ ์์นํ์ผ๋ก ๋ณด์ด๋ ๋ณ์๋ค์ด ์ฌ์ค์ ๋ช ๋ชฉํ ๋ณ์๋ฅผ ๋ํ๋ด๊ณ ์์์ ..
2023.02.07 -
๊นํ๋ธ(github) ์ฐธ์กฐ!
์์ธํ ์ฝ๋์ ๋ถ์ ํ๋ฆ์ ๊นํ๋ธ๋ฅผ ์ฐธ์กฐํด์ฃผ์ธ์! https://github.com/Reign2121 Reign2121 - Overview Researcher / Analyst. Reign2121 has 9 repositories available. Follow their code on GitHub. github.com
2023.02.06 -
[R] Cox PH model [Survival Analysis]
์ฝ์ค ๋น๋ก ์ํ ๋ชจํ์ R์์ ๊ตฌํํด๋ณด์. library(survival) library(survminer) ์์กด๋ถ์์ ํจ์๋ค์ด ๋ด๊ธด ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๋ถ๋ฌ์จ๋ค. ๋ฐ์ดํฐ๋ ์ด์ ํฌ์คํธ์ธ ์นดํ๋-๋ง์ด์ด์์ ์ฐ์ธ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ์ด์ฉํ์๋ค. # ์ฐ์ต ๋ฐ์ดํฐ์ธ survivalDataExercise.csv๋ฅผ ์ด์ฉํ์๋ค. (๋๊ธ ์ฃผ์๋ฉด ๊ณต์ ํด๋๋ฆฌ๊ฒ ์ต๋๋ค.) ๋ชจ๋ธ๋ง cx.model = coxph(Surv(daysSinceFirstPurch, event) ~ gender+voucher+returned,data=surv) #์๊ฐ์ ๋ฐ๋ฅธ ์ด๋ฒคํธ ~ (์ฑ๋ณ+์ฟ ํฐ์ฌ์ฉ์ฌ๋ถ+ํ๋ถ์ฌ๋ถ) summary(cx.model) ์ ์ฝ๋๋ ์ฝ์ค ๋น๋ก ์ํ ๋ชจํ์ ๋ง๋๋ ์ฝ๋์ด๋ค. ์ข ์๋ณ์๋ ์๊ฐ์ ๋ฐ๋ฅธ ์ด๋ฒคํธ๊ฐ ๋ค์ด๊ฐ๊ณ , ๋ ๋ฆฝ๋ณ์์ ํ์ธํ๊ณ ์ถ..
2023.02.01 -
[R] ์ ํํ๊ท, ๋ก์ง์คํฑํ๊ท [Regression Analysis]
ํ๊ท๋ถ์์ ํต๊ณํ์์ ์์๋์ด ์ฐ๊ตฌ๋์๊ธฐ ๋๋ฌธ์, ํต๊ณ์ ๋ถ์์ ํนํ๋ R์ ์ด์ฉํ๋ ๊ฒ์ด ๋ ํจ๊ณผ์ ์ผ ์ ์๋ค. R์์๋ ํ์ด์ฌ๊ณผ ๋ฌ๋ฆฌ ๊ธฐ๋ณธ ๋ด์ฅํจ์๋ก ํ๊ท๋ถ์์ ์ํํ ์ ์๊ณ , ์ฌ๋ฌ ํต๊ณ์ ๊ฒ์ ์ด๋ ๊ฐ์ ์ ํ์ธํ๋ ๋ฐ์๋ ๋งค์ฐ ์ ๋ฆฌํ๋ค. ๋ํ ๊ด๋ จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ๋ณ์์ ํ๋ฒ์ ์๋์ผ๋ก ์ํํด์ฃผ๋ ๋ฑ R์ ํ๊ท๋ถ์์ ๋ค๊ฐ๋๋ก ์ํํด๋ณผ ์ ์๋ ๋งค์ฐ ์ข์ ํ๊ฒฝ์ ์ ๊ณตํ๋ค. ์ด์ R์ ํตํ ํต๊ณ์ ์คํ ์ค๋ก ๋น์ฆ๋์ค ๋๋ฉ์ธ์์ ํ๊ท๋ถ์์ด ์ด๋ ํ ์ญํ ์ ํ ์ ์๋ ์ง, ๊ทธ ๊ณผ์ ์ ์ดํด๋ณด๊ณ ์ ํ๋ค. ์ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์์จ๋ค. library(dplyr) df = read.csv("purch_behavior.csv") #์ด ๋ฐ์ดํฐ๋ ๋ง์ผํ ํ๋์ ์ํด ์ ๋ต์ ์ผ๋ก ์์งํ ๋ฐ์ดํฐ์ด๋ค. df %>% glimpse()..
2023.01.25 -
[R] ์นดํ๋ ๋ง์ด์ด(kaplan-meier) [Survival Analysis]
R์์ ์นดํ๋ ๋ง์ด์ด ๊ธฐ๋ฒ์ ๊ตฌํํด๋ณด์ ์ด ๋ชจ๋ธ์ ์ฃผ๋ก ์๋ฃ ๋ฐ์ดํฐ์์ ๋ง์ด ์ด์ฉ๋์ง๋ง, ์ฐ๋ฆฌ๋ ๋น์ฆ๋์ค ๋๋ฉ์ธ์ผ๋ก ์ฎ๊ฒจ ๊ณ ๊ฐ๋ค์ ์์กด, ์ดํ์ ๋ถ์ํด๋ณธ๋ค. ๋ฐ์ดํฐ๋ ์ฐ์ต ๋ฐ์ดํฐ์ธ survivalDataExercise.csv๋ฅผ ์ด์ฉํ์๋ค. (๋๊ธ ์ฃผ์๋ฉด ๊ณต์ ํด๋๋ฆฌ๊ฒ ์ต๋๋ค.) ๋จผ์ library(dplyr) library(ggplot2) library(survival) library(survminer) #๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์์ผ๋ฉด install.packages("") setwd("") #๊ฒฝ๋ก ์ค์ surv = read.csv("")#๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ ๋ณ์๋ ์ต๊ทผ ๊ตฌ๋งค๋ก๋ถํฐ ๊ฒฝ๊ณผ๋ ์ผ์์ ์ฑ๋ณ, ์ํ๊ถ ์ด์ฉ์ฌ๋ถ, ํ๋ถ์ฌ๋ถ, ์ฌ๊ตฌ๋งค์ฌ๋ถ๊ฐ ์๋ค. surv = surv %>% mutate(event = ifelse(bou..
2023.01.10