πŸ§‘πŸ»‍🏫 Ideas/λ¨Έμ‹ λŸ¬λ‹

λ¦Ώμ§€(Ridge)νšŒκ·€, 라쏘(Lasso)νšŒκ·€ λͺ¨λΈ (+Elastic net)

reign 2023. 1. 19. 23:47

λ¦Ώμ§€(Ridge)νšŒκ·€μ™€ 라쏘(Lasso)νšŒκ·€ λͺ¨λΈμ€ μ •κ·œν™”λ₯Ό μœ„ν•œ 규제λ₯Ό κ°€ν•œ λͺ¨λΈμ΄λ‹€.

λ¨Έμ‹ λŸ¬λ‹μ—μ„œ μ •κ·œν™”λž€, 주둜 κ³ΌλŒ€μ ν•©(ν˜Ήμ€ κ³Όμ†Œμ ν•©)λ˜μ–΄μžˆμ§€ μ•Šμ€ "μΌλ°˜ν™”"된 λͺ¨λΈλ‘œ μ‘°μ •ν•˜λŠ” 것을 μ˜λ―Έν•œλ‹€.

같은 λ§₯λ½μ—μ„œ, νšŒκ·€λͺ¨ν˜•에 규제λ₯Ό κ°€ν•˜μ—¬ μ •κ·œν™”ν•œ λͺ¨λΈμ΄ λ°”λ‘œ 릿지와 라쏘 λͺ¨λΈμ΄λΌκ³  ν•  수 μžˆλ‹€.  

 

과적합 λ¬Έμ œλŠ” λŒ€λΆ€λΆ„μ˜ λ¨Έμ‹ λŸ¬λ‹ μ•Œκ³ λ¦¬μ¦˜μ—μ„œ κ°€μž₯ κ²½κ³„ν•˜λŠ” λΆ€μž‘μš©μ΄λ‹€.

과적합(Overfitting) λ¬Έμ œλŠ” μš°λ¦¬κ°€ ν•™μŠ΅μ‹œν‚¨ 데이터에 μ§€λ‚˜μΉ˜κ²Œ μ ν•©λ˜μ–΄ λ‚˜νƒ€λ‚˜λŠ” λ¬Έμ œμ΄λ‹€.

쑰금 더 ν’€μ–΄μ„œ 이야기 ν•˜λ©΄, μš°λ¦¬κ°€ λ§Œλ“  ν•™μŠ΅ ν™˜κ²½μ—μ„œλŠ” μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ΄μ§€λ§Œ ν˜„μ‹€ 세계에 μ μš©ν•˜λ©΄ κ·Έ μ„±λŠ₯이 λ–¨μ–΄μ§€λŠ” 문제인 것이닀.

ν•™μŠ΅ ν™˜κ²½μ—μ„œλ§Œ μ„±λŠ₯이 μ’‹λ‹€λŠ” 것은 νŠΉνžˆλ‚˜ λΉ„μ¦ˆλ‹ˆμŠ€ λΆ„μ•Όμ—μ„œ μ–΄λ– ν•œ μ˜λ―Έλ„ κ°–μ§€ λͺ»ν•˜κΈ° λ•Œλ¬Έμ—,

뢄석가듀은 λ¨Έμ‹ λŸ¬λ‹ μ•Œκ³ λ¦¬μ¦˜μ„ λ‹€λ£° λ•Œ 이 문제λ₯Ό 항상 κ²½κ³„ν•΄μ•Όλ§Œ ν•œλ‹€.

 

 

λͺ¨λΈ λ³΅μž‘λ„μ— λ”°λ₯Έ μ—λŸ¬, 좜처)ꡬ글

 

 

λ¦Ώμ§€(Ridge)νšŒκ·€ / 라쏘(Lasso)νšŒκ·€ λͺ¨λΈ

νšŒκ·€λͺ¨λΈμ˜ 과적합 문제λ₯Ό 규제(νŒ¨λ„ν‹°)λ₯Ό 톡해 λ³΄μ™„ν•œ λͺ¨λΈμ΄λ‹€.

 

*규제(Regularization)λž€, 

- 과적합 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ νŒ¨λ„ν‹°.

- νšŒκ·€λͺ¨λΈμ—μ„œλŠ” λΉ„μš©ν•¨μˆ˜(ν˜Ήμ€ λͺ©μ ν•¨μˆ˜λΌκ³  ν‘œν˜„ν•˜κΈ°λ„ ν•œλ‹€.)에 규제λ₯Ό κ°€ν•œλ‹€.

- λ²‘ν„°μ˜ 크기 ν˜Ήμ€ 거리λ₯Ό μΈ‘μ •ν•˜λŠ” 것을 λœ»ν•˜λŠ” norm을 κ·œμ œν•­μœΌλ‘œ 더해쀀닀.

 

μ΄λ•Œ, norm에 따라 L1, L2κ·œμ œκ°€ λ‚˜λ‰˜λŠ”λ°, 

norm이 μ ˆλŒ€κ°’μ˜ 합인 것을 L1, μ œκ³±ν•©μΈ 것을 L2 규제라고 ν•œλ‹€.

 

참고둜 μ΄λŸ¬ν•œ κ·œμ œμ™€ λͺ¨λΈμ€ νšŒκ·€λΆ„μ„ 뿐만 μ•„λ‹ˆλΌ λ”₯λŸ¬λ‹ λ“± νšŒκ·€λ¬Έμ œμ— μ΄μš©λ˜λŠ” λ‹€λ₯Έ μ•Œκ³ λ¦¬μ¦˜μ—λ„ 쓰인닀. 

 

 

L1 규제, 좜처) ꡬ글
L2규제, 좜처) ꡬ글

 

 

- λΌμ˜νšŒκ·€ (L1 규제)

 

λΌμ˜νšŒκ·€κ³„μˆ˜, 좜처) ꡬ글

μœ„ μ‹μ—μ„œ tλŠ” λ°μ΄ν„°μ˜ 수, kλŠ” κ³„μˆ˜μ˜ 수(λ…λ¦½λ³€μˆ˜μ˜ 수 ν˜Ήμ€ 차원)λ₯Ό μ˜λ―Έν•˜κ³ , λžŒλ‹€λŠ” κ·œμ œμ •λ„(ν•™μŠ΅λ₯ )이닀. 

 

λΌμ˜νšŒκ·€λŠ” νšŒκ·€κ³„μˆ˜ 좔정에 μžˆμ–΄μ„œ λΉ„μš©ν•¨μˆ˜μ— κ³„μˆ˜μ˜ μ ˆλŒ“κ°’μ˜ 합을 λ”ν•΄μ£ΌλŠ” 것이닀.

μ΄λŠ” κ³„μˆ˜λ₯Ό μΆ”μ •ν•˜λŠ” 데 μžˆμ–΄μ„œ κ³„μˆ˜μ˜ μ ˆλŒ€κ°’μ˜ 합이 μ΅œμ†Œκ°€ λ˜μ–΄μ•Ό ν•œλ‹€λŠ” 쑰건이 μΆ”κ°€λœ 것을 μ˜λ―Έν•œλ‹€.

μ ˆλŒ“κ°’μ˜ 합이 μ΅œμ†Œκ°€ 되기 μœ„ν•΄μ„œλŠ” 0μ΄λ‚˜ 0에 κ°€κΉŒμ›Œμ•Ό ν•˜κΈ° λ•Œλ¬Έμ—,

μ–΄λ–€ κ³„μˆ˜λŠ” 0이 될 μˆ˜λ„ μžˆλ‹€.(μ–΄λ–€ λ³€μˆ˜κ°€ μ œκ±°λœλ‹€.)

 

이에 영ν–₯λ ₯이 μ•½ν•œ λ³€μˆ˜λŠ” μ•„μ˜ˆ 제거되고, λͺ¨λΈμ΄ μœ μ˜λ―Έν•œ λ³€μˆ˜λ“€μ— μ˜ν•΄ μš”μ•½λœλ‹€.

μ΄λŠ” λͺ¨λΈμ˜ μ„€λͺ…λ ₯을 λ†’μΈλ‹€λŠ” μž₯점이 μžˆλ‹€. 

 

 

-λ¦Ώμ§€νšŒκ·€ (L2 규제)

λ¦Ώμ§€νšŒκ·€κ³„μˆ˜, 좜처) ꡬ글

μœ„ μ‹μ—μ„œ tλŠ” λ°μ΄ν„°μ˜ 수, kλŠ” κ³„μˆ˜μ˜ 수(λ…λ¦½λ³€μˆ˜μ˜ 수 ν˜Ήμ€ 차원)λ₯Ό μ˜λ―Έν•˜κ³ , λžŒλ‹€λŠ” κ·œμ œμ •λ„(ν•™μŠ΅λ₯ )이닀.

 

λ¦Ώμ§€νšŒκ·€λŠ” νšŒκ·€κ³„μˆ˜ 좔정에 μžˆμ–΄μ„œ λΉ„μš©ν•¨μˆ˜μ— κ³„μˆ˜μ˜ μ œκ³±μ˜ 합을 λ”ν•΄μ£ΌλŠ” 것이닀.

μ΄λŠ” κ³„μˆ˜λ₯Ό μΆ”μ •ν•˜λŠ” 데 μžˆμ–΄μ„œ κ³„μˆ˜μ˜ μ œκ³±ν•©μ΄ μ΅œμ†Œκ°€ λ˜μ–΄μ•Ό ν•œλ‹€λŠ” 쑰건이 μΆ”κ°€λœ 것을 μ˜λ―Έν•œλ‹€.

μ—¬κΈ°μ„œ λΌμ˜μ™€μ˜ 차이점이 μžˆλŠ”λ°, μ œκ³±ν•©μ€ 아무리 μ΅œμ†Œκ°€ λ˜μ–΄λ„ 0이 될 수 μ—†λ‹€.

 

이에 λͺ¨λ“  λ³€μˆ˜κ°€ μ œκ±°λ˜μ§€ μ•ŠκΈ° λ•Œλ¬Έμ—, κΈ°μ‘΄ λ°μ΄ν„°μ˜ νŠΉμ„±μ„ μ΅œλŒ€ν•œ μ‚΄λ¦°λ‹€.

일반적으둜 λ¦Ώμ§€λͺ¨λΈμ€ λ³€μˆ˜λ₯Ό μ•„μ˜ˆ μ œκ±°ν•˜λŠ” λΌμ˜λ³΄λ‹€ 더 μœ μ—°ν•˜κΈ° λ•Œλ¬Έμ—, 항상 μ •κ·œν™”κ°€ μΌμ–΄λ‚œλ‹€.

λ˜ν•œ, λ³€μˆ˜κ°€ κ·ΈλŒ€λ‘œ λ‚¨μ•„μžˆκΈ° λ•Œλ¬Έμ—, 닀쀑곡선성이 μ‘΄μž¬ν•˜λŠ” λͺ¨λΈμ—λ„ 쒋은 μ„±λŠ₯을 λ°œνœ˜ν•œλ‹€.

 

 

 

- μ—˜λΌμŠ€ν‹± λ„· (L1 + L2)

μ—˜λΌμŠ€ν‹± λ„· νšŒκ·€κ³„μˆ˜, 좜처)ꡬ글

μœ„ μ‹μ—μ„œ tλŠ” λ°μ΄ν„°μ˜ 수, kλŠ” κ³„μˆ˜μ˜ 수(λ…λ¦½λ³€μˆ˜μ˜ 수 ν˜Ήμ€ 차원)λ₯Ό μ˜λ―Έν•˜κ³ , λžŒλ‹€λŠ” κ·œμ œμ •λ„(ν•™μŠ΅λ₯ )이닀.

 

μ—˜λΌμŠ€ν‹± 넷은 L1κ³Ό L2 규제λ₯Ό λ™μ‹œμ— μ μš©ν•˜λŠ” 것인데, 두 규제의 μž₯점을 λͺ¨λ‘ ν™œμš©ν•˜κ³ μž ν•  λ•Œ μ΄μš©ν•œλ‹€.

κ·ΈλŸ¬λ‚˜ μ΄λŠ”, 항상 νš¨κ³Όκ°€ 보μž₯된 것은 μ•„λ‹ˆμ§€λ§Œ, 큰 데이터 μ…‹μ—μ„œ νš¨κ³Όκ°€ 있고,

μž‘μ€ 데이터 μ…‹μ—μ„œλŠ” 라쏘, 릿지보닀 κ·Έ νš¨κ³Όκ°€ λ―ΈλΉ„ν•œ νŽΈμ΄λ‹€.