2023. 2. 2. 09:15ใ๐ง๐ป๐ซ Ideas/๋จธ์ ๋ฌ๋
AI, ๋ฐ์ดํฐ ๋ถ์์ ๋ฐ๋ฐํ์ธ ๋จธ์ ๋ฌ๋(๊ธฐ๊ณํ์ต)์๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ๊ฐ๋๊ฐ ์๋ค.
- ์ง๋ํ์ต (ํ๊ฒ, ์ ๋ต์ ํจ๊ป ํ์ต์์ผ ํ๊ฒ์ ์์ธกํ๋ค.)
- ๋น์ง๋ํ์ต (ํ๊ฒ, ์ ๋ต์์ด ํ์ต์์ผ ๋ฐ์ดํฐ์ ํน์ฑ์ ํ์ ํ๋ค.)
- ๊ฐํํ์ต (์ฃผ์ด์ง ์ํ์ ๋ํ ๋ณด์์ ํตํด ์ต์ ์ ํ๋์ ํ์ต์ํจ๋ค.)
์์ฌ๊ฒฐ์ ๋๋ฌด - ์ง๋ํ์ต
์์ฌ๊ฒฐ์ ๋๋ฌด๋ ๋ถ๋ฅ, ํ๊ท ๋ฌธ์ ์ ๋ชจ๋ ์ ์ฉ์ด ๊ฐ๋ฅํ ์ง๋ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
(๋ถ๋ฅ ๋ฌธ์ : ๋ถ๋ฅ ๋๋ฌด, ํ๊ท ๋ฌธ์ : ํ๊ท ๋๋ฌด)
์ด๋ ๋น๊ต์ ๊ฐ๋จํ๊ณ ์ฌ์ด ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ค๋๋ ๊น์ง ํ์ ์์ ๊ฐ์ฅ ๋ง์ด ์ด์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ด๋ค.
์ด๋ฆ์์๋ ์ ์ ์๋ฏ์ด, ์ด ๋ชจํ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ๋์ํํ ๋๋ฌด ํํ๋ฅผ ๊ฐ์ง๋ค.
์ด ๋ชจํ์์ ๊ฐ ๋จ๊ณ๋ฅผ "๋ ธ๋"๋ผ๊ณ ํ๋๋ฐ, ์ด ์๊ณ ๋ฆฌ์ฆ์ ์์๋ ธ๋์์ ํ์๋ ธ๋๋ก ๋ป์ด๋๊ฐ ๋, ๋ถ์๋๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๋ถ๊ธฐํด ๋๊ฐ๋ค.
์ฅ์
- ์ด ๋ชจํ์ ์ต์ข ๋ถ๋ฅ๋ ์์น ์์ธก์ ๋๋ฌํ๊ธฐ๊น์ง์ ๊ณผ์ ์ ํ์ธํ ์ ์๊ธฐ ๋๋ฌธ์, ์ค๋ช ๋ ฅ์ด ๋งค์ฐ ์ฐ์ํ๋ฉฐ ํด์์ด ์ฉ์ดํ๋ค.
- ๋ณต์กํ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ์๊ตฌํ์ง ์์ผ๋ฉฐ, ์ฐ์ํ ๋ณ์์ ๋ฒ์ฃผํ ๋ณ์๋ฅผ ๋ชจ๋ ์ฒ๋ฆฌํ ์ ์๋ค.
- ๊ฐ ๋ ธ๋, ๋ถ๋ฅ๊ธฐ์ค์ ํตํด ์๋ฏธ ์๋ ๋ณ์๋ฅผ ์์๋ณผ ์ ์๋ค.
๋จ์
- ๋ถ๋ฅ์ง์ ์์ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ํ์ด ๋๋ค.
ex) ๋ถ๋ฅ๊ธฐ์ค์์ ๊ธฐ์ค๊ฐ์ด 1000์ผ ๋, 999์ 1001์ ๋ค๋ฅด๊ฒ ๋ถ๋ฅ๋๋ค.
- ๊ณผ์ ํฉ ๋ฌธ์ ์ ๋งค์ฐ ๋ฏผ๊ฐํ๋ค.
- ๋ฐ์ดํฐ ์ ์ด๋ ์ ์ฉ ์ํฉ์ ๋ฐ๋ผ ๊ณ์ฐ๋์ด ๋งค์ฐ ๋ง์์ง๋ค.
์ฉ์ด
- ๊น์ด(depth): ๋๋ฌด์ ์ฑ์ฅ์น, ์ต๋ ๊ธธ์ด
- ๋ ธ๋(node): ๊ฐ ๋ง๋, ๋ถ๋ฅ๊ธฐ์ค์ด ๋๋ ๋ณ์ (= ๋ง๋)
- ์์๋ง๋(child node): ์์ ๋ ธ๋์์ ๋ถ๋ฆฌ๋์ด ๋๊ฐ ํ์ ๋ง๋๋ค
- ๋ถ๋ชจ๋ง๋(parent node): ๋ถ๋ฅ๊ธฐ์ค์ด ๋๋ ์์ ๋ง๋
- ๋ฃจํธ(root): ๋ฟ๋ฆฌ ๋ ธ๋๋ก, ๋ถ๋ชจ๋ง๋๊ฐ ์๋ ์ 1 ๋ถ๋ฅ๊ธฐ์ค
- ์(leaf): ๊ฐ์ฅ ๋ง๋จ ๋ง๋๋ก, ์์๋ง๋๊ฐ ์๋ ๋ ธ๋
๋ถ์ ๊ณผ์
1. ๋ณ์ ์ ํ
๋ชฉํ๋ณ์(= ํ๊ฒ๋ณ์ = ์ข ์๋ณ์)์ ๊ด๋ จ๋ ์ค๋ช ๋ณ์( = ๋ ๋ฆฝ๋ณ์)๋ฅผ ์ ํํ๋ค.
๋ณดํต ๊ฐ ๋๋ฉ์ธ๊ณผ ๋ชฉํ์ ๋ฐ๋ผ ์ ๋ต์ ์ผ๋ก ์ ์ ํ๋ค.
2. ๋ชจ๋ธ๋ง
์์ฌ๊ฒฐ์ ๋๋ฌด ๋ชจ๋ธ์ ๋ง๋ ๋ค.
์ด๋ ๋๋ฌด๋ฅผ ์ฑ์ฅ์ํจ๋ค๊ณ ํํํ๊ธฐ๋ ํ๋๋ฐ, ๋ถ์๊ฐ๋ ์ ์ ํ ์ ์ง๊ท์น๊ณผ ๋ถ๋ฅ๊ธฐ์ค, ํ๊ฐ๊ธฐ์ค์ ์ง์ ํด์ผ ํ๋ค.
ํนํ, ์ ์ง๊ท์น์ ์ค์ ํ๋ ๊ฒ์ ๋ชจ๋ธ๋ง์ ์์ด์ ๋งค์ฐ ์ค์ํ ํ์ดํผ ํ๋ผ๋ฏธํฐ(๋ถ์๊ฐ๊ฐ ์กฐ์ ํ๋)์ด๋ค.
์ ์ง๊ท์น์ ์ต๋ ๊น์ด(depth)๋ฅผ ์ง์ ํ๊ฑฐ๋ ์ ๋ ธ๋์ ์ต์ ๋ฐ์ดํฐ ์๋ฅผ ์ง์ ํ๋ ๋ฑ ๋๋ฌด์ ์ฑ์ฅ์ ๋๋ฅผ ๋ฏธ๋ฆฌ ์ง์ ํ๋ ๊ฒ์ธ๋ฐ, ์ด ์ ์ง๊ท์น์ ์ ์ ํ ์ค์ ํ์ง ์์ผ๋ฉด ๋ชจ๋ธ์ด ์ง๋์น๊ฒ ๊ณผ์ ํฉ ํน์ ๊ณผ์์ ํฉ๋ ์ํ์ด ์๋ค.
๋ถ๋ฆฌ๊ธฐ์ค์ ๋ชจ๋ธ์ด ๋ถ๋ฅ ๋๋ฌด์ธ์ง ํ๊ท ๋๋ฌด์ธ์ง์ ๋ฐ๋ผ ๋ค๋ฅธ ์ฒ๋๊ฐ ์ฐ์ธ๋ค.
๋ถ๋ฅ ๋๋ฌด์ผ ๋,
- ์นด์ด์ ๊ณฑ ํต๊ณ๋: ((์ค์ ๋์ - ๊ธฐ๋๋์)^2 / ๊ธฐ๋๋์)์ ํฉ (CHAID ์๊ณ ๋ฆฌ์ฆ)
- ์ง๋ ์ง์: ๋ถ์๋ ํจ์๋ก, ํน์ ์งํฉ์์ ํ ํญ๋ชฉ์ ๋ฝ์ ๋ฌด์์๋ก ํด๋์ค๋ฅผ ์ถ์ ์์ ํ๋ฆด ํ๋ฅ
(CART ์๊ณ ๋ฆฌ์ฆ)
- ์ํธ๋กํผ ์ง์: ๋ถ์๋ ํจ์๋ก, ๋ฌด์ง์ ์ ๋์ ๋ํ ์ธก๋ (C4.5 / C5.0)
๋ถ๋ฆฌ ๊ธฐ์ค, ์ฆ, ๋ ธ๋๋ฅผ ์ ํํ ๋, ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ๊ฐ ์์ฌ ์๋ ์ ๋์ธ "๋ถ์๋"๋ฅผ ํตํด ์์ ๋ ธ๋๊ฐ ๋ถ๋ชจ ๋ ธ๋์ ๋นํด ๋ถ์๋๊ฐ ๊ฐ์๋๋๋ก ํ๋ค. ์ด ๋, ๋ถ๋ชจ ๋ ธ๋์ ์์ ๋ ธ๋์ ๋ถ์๋ ์ฐจ์ด๋ฅผ "์ ๋ณด ํ๋(Information Gain)"์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๋ฐ๋ผ์ ๋๋ฌด๋ ์ ๋ณด ํ๋์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ๋ถ๊ธฐํ๋ค๊ณ ๋ณผ ์ ์๋ค.
ํ๊ท๋๋ฌด์ผ ๋,
- mse: ํ๊ท ์ ๊ณฑ์ค์ฐจ
- F-ํต๊ณ๋์ P-value (CHAID ์๊ณ ๋ฆฌ์ฆ)
- ๋ถ์ฐ๊ฐ์๋ (CART ์๊ณ ๋ฆฌ์ฆ)
Fํต๊ณ๋์ P๊ฐ์ด๋ ๋ถ์ฐ์ ๊ฐ์๋์ ๊ทธ๊ฒ์ด ์ปค์ง๋ ์ชฝ์ผ๋ก ๋ถ๊ธฐ๊ฐ ์ผ์ด๋๋ค.
์ด๋ P๊ฐ์ด๋ ๋ถ์ฐ ๊ฐ์๋์ ๊ฐ์ด ์ปค์ง์๋ก ์์ ๋ ธ๋ ๊ฐ์ ์ด์ง์ฑ์ด ์ปค์ง๋ฉฐ ๋ ธ๋ ๋ด๋ถ์ ์์๋๋ ์ฌ๋ผ๊ฐ๊ธฐ ๋๋ฌธ์ด๋ค.
3. ๊ฐ์ง์น๊ธฐ
ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ฑ๋ฅ์ ํ์ธํ ํ,
๋ถ์ ์ ํ ์ถ๋ก ๊ท์น์ ๊ฐ์ง๊ณ ์๊ฑฐ๋ ๋ถํ์ํ ํน์ ์ค๋ฅ๋ฅผ ํฌ๊ฒ ํ ์ํ์ด ์๋ ๋ง๋๋ฅผ ์ง์ ์ ๊ฑฐํ๋ค.
์ด๋ ๋ถ๊ธฐ๊ฐ ๋๋ฌด ๋ง์ ๊ฒฝ์ฐ(๋๋ฌด๊ฐ ์ง๋์น๊ฒ ์ฑ์ฅํ ๊ฒฝ์ฐ) ํ์ต ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ๋ ์ํ์ ์ฐจ๋จํ๊ธฐ ์ํด์์ด๋ค.
์ด์ ์ฌ์ ์ ์ฑ์ฅ์ ์ ํํ๊ฑฐ๋ ํน์ ๋ ธ๋๋ฅผ ์ ์ธํ๋ ๋ฑ์ "์ฌ์ ๊ฐ์ง์น๊ธฐ"๋
์ฌํ ํ๊ฐ๋ฅผ ํตํด ์ค๋ฅ๋ฅผ ์ค์ด๊ณ ํน์ ์ ํ๋๊ฐ ๋ฎ์ ์์๋๋ก ๋ ธ๋๋ฅผ ์ ๊ฑฐํ๋ "์ฌํ ๊ฐ์ง์น๊ธฐ"๊ฐ ํ์ํ๋ค.
'๐ง๐ปโ๐ซ Ideas > ๋จธ์ ๋ฌ๋' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์์๋ธ ๊ธฐ๋ฒ #๋๋ค ํฌ๋ ์คํธ #XG๋ถ์คํธ (0) | 2023.02.03 |
---|---|
๋ฆฟ์ง(Ridge)ํ๊ท, ๋ผ์(Lasso)ํ๊ท ๋ชจ๋ธ (+Elastic net) (0) | 2023.01.19 |
ํ๊ท๋ถ์(Regression Analysis) [Supervised Learning] (0) | 2023.01.19 |