νšŒκ·€λΆ„μ„(Regression Analysis) [Supervised Learning]

2023. 1. 19. 23:35γ†πŸ§‘πŸ»‍🏫 Ideas/λ¨Έμ‹ λŸ¬λ‹

AI, 데이터 λΆ„μ„μ˜ 밑바탕인 λ¨Έμ‹ λŸ¬λ‹(κΈ°κ³„ν•™μŠ΅)μ—λŠ” 크게 μ„Έ 가지 κ°ˆλž˜κ°€ μžˆλ‹€.

 

- μ§€λ„ν•™μŠ΅ (νƒ€κ²Ÿ, 정닡을 ν•¨κ»˜ ν•™μŠ΅μ‹œμΌœ νƒ€κ²Ÿμ„ μ˜ˆμΈ‘ν•œλ‹€.)

- λΉ„μ§€λ„ν•™μŠ΅ (νƒ€κ²Ÿ, 정닡없이 ν•™μŠ΅μ‹œμΌœ λ°μ΄ν„°μ˜ νŠΉμ„±μ„ νŒŒμ•…ν•œλ‹€.)

- κ°•ν™”ν•™μŠ΅ (주어진 μƒνƒœμ— λŒ€ν•œ 보상을 톡해 졜적의 행동을 ν•™μŠ΅μ‹œν‚¨λ‹€.)

 

 

νšŒκ·€λΆ„μ„ - μ§€λ„ν•™μŠ΅

 

 

νšŒκ·€λΆ„μ„μ€ λŒ€ν‘œμ μΈ μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ ν†΅κ³„ν•™μ˜ 꽃이라고도 λΆˆλ¦°λ‹€.

ν†΅κ³„ν•™μ—μ„œ λ°œμ „ν•œ νšŒκ·€λΆ„μ„μ€ 결과값을 μ˜ˆμΈ‘ν•˜κ³  κ·Έ 값에 λ―ΈμΉ˜λŠ” λ³€μˆ˜λ“€μ˜ 영ν–₯λ ₯을 μ•Œμ•„λ³΄λŠ” 데 쓰인닀.

μ—¬λŸ¬ 연ꡬ와 ν•™λ¬ΈλΆ„μ•Όκ°„ ꡐλ₯˜ μ†μ—μ„œ λ§Žμ€ μ‘μš©μ΄ λ“±μž₯ν–ˆμ§€λ§Œ κ·Έ 사상과 λͺ©μ μ€ 이와 λ™μΌν•˜λ‹€.

 

νšŒκ·€λΆ„μ„μ€ λΉ„μ¦ˆλ‹ˆμŠ€μ˜ μ—¬λŸ¬ 도메인(금육, λ§ˆμΌ€νŒ… λ“±)μ—μ„œ 맀우 μœ μš©ν•˜κ²Œ μ΄μš©λœλ‹€.

νšŒκ·€λΆ„μ„μ„ ν†΅ν•œ νšŒκ·€λͺ¨ν˜•μ€ κ·Έ μ‘μš©μ΄ 맀우 λ‹€μ–‘ν•΄μ„œ μ—¬λŸ¬ λ¬Έμ œμ— μ μš©ν•  수 μžˆλŠ”λ°,

λŒ€ν‘œμ μœΌλ‘œ 가격, μˆ˜μš”λŸ‰, λ§Œμ‘±λ„ λ“±μ˜ 수치λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” νšŒκ·€λ¬Έμ œλ₯Ό ν•΄κ²°ν•˜κ³ , κ·Έ μˆ˜μΉ˜μ— λ―ΈμΉ˜λŠ” λ³€μˆ˜λ“€μ˜ 영ν–₯λ ₯을 확인할 수 μžˆλ‹€.

λ˜ν•œ, μ„ ν˜•μ΄ μ•„λ‹Œ μ—¬λŸ¬ μ‘μš©λͺ¨λΈμ„ 톡해 생쑴/μ΄νƒˆ, λŒ€μΆœ μƒν™˜/λΉ„μƒν™˜, μΊ νŽ˜μΈμ— λ°˜μ‘/ λ¬΄λ°˜μ‘ λ“± 이항 λΆ„λ₯˜λ¬Έμ œλ‚˜ μ œν’ˆ 선택과 같은 λ‹€ν•­ λΆ„λ₯˜λ¬Έμ œμ—λ„ 같은 역할을 μˆ˜ν–‰ν•  수 μžˆλ‹€.

이처럼 νšŒκ·€λΆ„μ„μ€ ν†΅κ³„ν•™μ—μ„œ μΆœλ°œν•œ "λ°μ΄ν„°λ§ˆμ΄λ‹"에 맀우 μœ μš©ν•˜κ²Œ 이용된 μ•Œκ³ λ¦¬μ¦˜μ΄λ©°, κ·Έ μ„±λŠ₯을 ν‰κ°€ν•˜κ³  λ³΄μ™„ν•˜λŠ” μ—¬λŸ¬ μ†”λ£¨μ…˜λ“€ λ˜ν•œ 많이 μ œμ‹œλ˜μ–΄μžˆκΈ° λ•Œλ¬Έμ— 비ꡐ적 μ•ˆμ •μ μœΌλ‘œ 널리 μ΄μš©λ˜λŠ” 뢄석방법이닀.

 

"νšŒκ·€"λΌλŠ” 단어가 μ–΄λŠ μ§€μ μœΌλ‘œ λ˜λŒμ•„κ°€λŠ” 것을 μ˜λ―Έν•˜λ“―, μ΄ˆκΈ°μ— ν†΅κ³„ν•™μ—μ„œ μ—°κ΅¬λœ νšŒκ·€ 뢄석은 과거의 νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜μ—¬ κ·Έ "ν‰κ· μœΌλ‘œμ˜ νšŒκ·€μ "을 μ°ΎλŠ” 것이 ꢁ극적인 λͺ©ν‘œλΌκ³  ν•  수 μžˆμ—ˆλ‹€.

νšŒκ·€λΆ„μ„μ€ μƒλ¬Όν•™μž ν”„λžœμ‹œμŠ€ 골턴이 μ•„λ²„μ§€μ˜ 킀와 μ•„λ“€μ˜ ν‚€μ˜ 관계λ₯Ό μ„€λͺ…ν•˜λŠ” 데 처음으둜 μ œμ•ˆν–ˆλ‹€κ³  μ•Œλ €μ Έ μžˆλ‹€.

κ·Έκ°€ μ£Όλͺ©ν•œ 것은 νƒ€κ²Ÿ 값듀이 ν‰κ· μ—μ„œ 크게 λ²—μ–΄λ‚˜μ§€ μ•ŠλŠ”λ‹€λŠ” κ²ƒμ΄μ—ˆλŠ”λ° μ΄λŸ¬ν•œ μΈ‘λ©΄μ—μ„œ "ν‰κ· μœΌλ‘œμ˜ νšŒκ·€"κ°€ λ“±μž₯ν•œ 것이닀.  

μ˜€λŠ˜λ‚ μ—λ„ νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜μ—¬ μ–΄λ–€ 예츑치λ₯Ό λ‚΄λ†“λŠ” μ μ—μ„œ κ·Έ 사상이 κ°™μ§€λ§Œ, λ§Žμ€ μ‘μš©λ“€κ³Ό λ‹€μ–‘ν•œ 사둀가 μΆ•μ λ˜μ–΄ "ν‰κ· μœΌλ‘œμ˜ νšŒκ·€"의 λ³Έμ˜λ―ΈλŠ” 많이 ν‡΄μƒ‰λ˜μ—ˆλ‹€.

λŒ€μ‹ μ— νšŒκ·€λΆ„μ„μ΄ 가진 λͺ©ν‘œμ™€ 사상은 계속 이어져 μ™”κΈ° λ•Œλ¬Έμ— μ—¬μ „νžˆ 과거의 νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜μ—¬ μ–΄λ–€ 값을 μ˜ˆμΈ‘ν•˜λŠ” 문제λ₯Ό "νšŒκ·€λ¬Έμ œ"라고 λΆ€λ₯΄λŠ” 것이 μΌλ°˜μ μ΄λ‹€.

 

그런데 μ‹œλŒ€κ°€ 흐λ₯΄κ³  λ¨Έμ‹ λŸ¬λ‹ λΆ„μ•Όμ˜ 연ꡬ가 μΆ•μ λ˜λ©° μ΄λŸ¬ν•œ "νšŒκ·€λ¬Έμ œ"λ₯Ό ν•΄κ²°ν•˜λŠ” λ°©λ²•μœΌλ‘œ νšŒκ·€λ‚˜λ¬΄, 인곡신경망 λ“± λ‹€μ–‘ν•œ μ•Œκ³ λ¦¬μ¦˜λ“€μ΄ μ œμ•ˆλ˜μ—ˆλ‹€.

이에 νšŒκ·€λ¬Έμ œλ₯Ό ν•΄κ²°ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜μ€ λ‹€μ–‘ν™”λ˜μ—ˆμ§€λ§Œ, 톡상 νšŒκ·€λΆ„μ„μ΄λΌκ³  ν•˜λ©΄ ν†΅κ³„ν•™μ—μ„œ μ œμ•ˆλœλŒ€λ‘œ νšŒκ·€κ³„μˆ˜λ₯Ό κ³„μ‚°ν•˜μ—¬ μΆ”μ •ν•˜λŠ” 전톡적인 μ•Œκ³ λ¦¬μ¦˜μ„ μ˜λ―Έν•˜λŠ” 것이 μΌλ°˜μ μ΄λ‹€.

 

 

 

μ„ ν˜•νšŒκ·€μ§μ„ , 좜처) ꡬ글

 

 

수리적으둜 νšŒκ·€λΆ„μ„μ€ "ν•œ μ€„μ˜ 식을 μ°ΎλŠ” 것"이라고 말할 수 μžˆλ‹€.

κ·Έ 식은, μœ„ κ·Έλ¦Όμ—μ„œ λ³Έλ‹€λ©΄, 데이터듀을 κ΄€ν†΅ν•˜λŠ”(잘 μ„€λͺ…ν•˜λŠ”) ν•˜λ‚˜μ˜ μ§μ„ μ΄λΌλŠ” 의미 λ˜ν•œ 가진닀.

이에 μœ„ κ·Έλ¦Όμ—μ„œμ˜ νšŒκ·€μ§μ„ , 더 μ •ν™•ν•˜κ²ŒλŠ” λ³€μˆ˜κ°€ ν•˜λ‚˜μΈ λ‹¨μˆœμ„ ν˜•νšŒκ·€μ§μ„ μ˜ κΈ°μšΈκΈ°λŠ” κ·Έ λ³€μˆ˜(x λ³€λŸ‰)의 영ν–₯λ ₯으둜 이해할 수 μžˆλ‹€.

예λ₯Ό λ“€μ–΄, μ•„λ“€μ˜ ν‚€κ°€ μ’…μ†λ³€μˆ˜(y), μ•„λ²„μ§€μ˜ ν‚€κ°€ λ…λ¦½λ³€μˆ˜(x)일 λ•Œ, λ„μΆœν•œ νšŒκ·€μ‹μ΄ y = 2/3x + 70이라면, μ•„λ²„μ§€μ˜ ν‚€λŠ” μ•„λ“€μ˜ 킀에 2/3 만큼 영ν–₯을 끼치고 μžˆλŠ” 것이닀.

μ΄λ•Œ νšŒκ·€κ³„μˆ˜μΈ 2/3κ³Ό +70을 κ΅¬ν•˜λŠ” λ°©λ²•μœΌλ‘œλŠ” 주둜 μ΅œμ†ŒμžμŠΉλ²•, μ˜μ–΄λ‘œ "least squared method"라고 λΆ€λ₯΄λŠ” 계산식이 μ΄μš©λœλ‹€. μ΄λŠ” 였차λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” νšŒκ·€κ³„μˆ˜λ₯Ό κ·Όμ‚¬μ μœΌλ‘œ κ΅¬ν•˜λŠ” 방법이라고 μ΄ν•΄ν•˜λ©΄ λœλ‹€.

 

 

λ¨Έμ‹ λŸ¬λ‹μ—μ„œμ˜ νšŒκ·€λΆ„μ„

 

 

λ¨Έμ‹ λŸ¬λ‹μ—μ„œμ˜ νšŒκ·€λΆ„μ„ μ•Œκ³ λ¦¬μ¦˜μ€ μ΅œμ†ŒμžμŠΉλ²•κ³Ό r-squared λ“± 톡계적인 계산과 λ‹€λ₯΄μ§€ μ•Šλ‹€. 이에, 였차λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” νšŒκ·€κ³„μˆ˜λ₯Ό μΆ”μ •ν•˜κ³  이λ₯Ό ν‰κ°€ν•˜μ—¬ μ–΄λ– ν•œ 값을 μ˜ˆμΈ‘ν•΄λ‚΄λŠ” λͺ©μ  λ˜ν•œ λ™μΌν•˜λ‹€.

그런데 톡계학적 μ‹€ν—˜μƒν™©κ³ΌλŠ” 달리 μ‹€μƒν™œμ˜ λ§Žμ€ λ¬Έμ œλ“€μ€ 영ν–₯을 λ―ΈμΉ˜λŠ” λ³€μˆ˜λ“€μ΄ ν•˜λ‚˜μΈ κ²½μš°λŠ” 거의 μ—†κ³ , μ„ ν˜•κ΄€κ³„κ°€ μ•„λ‹Œ λ¬Έμ œλ“€ λ˜ν•œ μ‘΄μž¬ν•œλ‹€. 이에 λ‘œμ§€μŠ€ν‹± νšŒκ·€λΆ„μ„, λ‹€ν•­νšŒκ·€ λ“±μ˜ μ‘μš© λͺ¨λΈμ΄ λ“±μž₯ν•˜μ˜€κ³ , 특히 μ‹€μƒν™œμ—μ„œμ˜ μ‘μš©μ„ μ€‘μš”μ‹œν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹μ—μ„œλŠ” 상황에 맞게 μ—¬λŸ¬ μ‘μš© λͺ¨λΈμ„ μ΄μš©ν•˜λŠ” 것이 μΌλ°˜μ μ΄λ‹€. 

 

λ˜ν•œ 톡계학과, λ¨Έμ‹ λŸ¬λ‹μ„ μ—°κ΅¬ν•˜λŠ” Computer Science(μ΄ν•˜ cs) μ‚¬μ΄μ—λŠ” νšŒκ·€κ³„μˆ˜μ™€ λͺ¨λΈμ„ ν‰κ°€ν•˜λŠ” κ²ƒμ—μ„œ μ•½κ°„μ˜ μŠ€νƒ μŠ€ 차이가 μžˆλ‹€.

ν†΅κ³„ν•™μ—μ„œλŠ” νšŒκ·€κ³„μˆ˜μ™€ λͺ¨λΈμ˜ μœ νš¨μ„±μ„ 각각 t-test와, f-test둜 ν‰κ°€ν•˜λŠ”λ°, ν†΅κ³„ν•™μ—μ„œλŠ” μ΄λŸ¬ν•œ 뢄포λ₯Ό μ‹ λ’°ν•˜κ³  이에 맞게 가섀을 κ²€μ¦ν•˜λŠ” 것이 주된 연ꡬ방ν–₯이기 λ•Œλ¬Έμ΄λ‹€.

κ·ΈλŸ¬λ‚˜, ν˜„μ‹€μ˜ λ‹€μ–‘ν•œ 데이터에 νšŒκ·€λΆ„μ„ μ•Œκ³ λ¦¬μ¦˜μ„ μ μš©ν•΄λ³΄λ©΄, μ‹€μ œλ‘œ μ΄λŸ¬ν•œ 뢄포검정을 λͺ¨λ‘ μΆ©μ‘±ν•˜λŠ” λͺ¨λΈμ„ μ°ΎκΈ°κ°€ 맀우 μ–΄λ ΅λ‹€. 이에 cs μ—°κ΅¬μžλ“€κ³Ό ν˜„μ—…μ—μ„œλŠ” 주둜 μ‹ λ’°ν•  수 있고, 양이 λ§Žμ€ test 데이터λ₯Ό 톡해 κ·Έ 정확도λ₯Ό ν™•μΈν•˜μ—¬ λͺ¨λΈμ˜ μœ νš¨μ„±μ„ κ²€μ¦ν•˜λŠ” 방법을 주둜 μ΄μš©ν•œλ‹€.

 

νšŒκ·€λͺ¨λΈμ˜ μ’…λ₯˜μ™€ μ“°μž„


μ•žμ„œ μ–ΈκΈ‰ν–ˆλ˜ κ²ƒμ²˜λŸΌ, νšŒκ·€λΆ„μ„μ—μ„œλŠ” κ·Έ μ‹œμž‘μ΄μ—ˆλ˜ μ—°μ†ν˜• λ³€μˆ˜λ₯Ό ν†΅ν•œ μ„ ν˜•νšŒκ·€λΆ„μ„ 뿐만 μ•„λ‹ˆλΌ λ‹€μ–‘ν•œ λ³€μˆ˜ν˜•νƒœλ₯Ό 닀루고 μ‹€μƒν™œμ— 적합할 수 μžˆλŠ” μ‘μš©λ“€μ΄ 많이 μ—°κ΅¬λ˜μ—ˆλ‹€.

 

λŒ€ν‘œμ μΈ 5κ°€μ§€μ˜ νšŒκ·€λΆ„μ„λͺ¨λΈμ€ λ‹€μŒκ³Ό κ°™λ‹€.

각 λͺ¨λΈμ—μ„œλŠ” κ³΅ν†΅μ μœΌλ‘œ λ…λ¦½λ³€μˆ˜(μ„€λͺ…λ³€μˆ˜)κ°€ ν•˜λ‚˜μΌ λ•Œ λ‹¨μˆœνšŒκ·€λͺ¨ν˜•, λ‘˜ μ΄μƒμΌλ•Œ λ‹€μ€‘νšŒκ·€λͺ¨ν˜•μ΄λΌκ³  λΆ€λ₯Έλ‹€.

 

μ„ ν˜•νšŒκ·€λͺ¨λΈ

μ—°μ†ν˜• λ…λ¦½λ³€μˆ˜λ‘œ μ—°μ†ν˜• μ’…μ†λ³€μˆ˜λ₯Ό μΆ”μ •ν•  λ•Œ, (νšŒκ·€λ¬Έμ œ) 

μ˜ˆμ‹œ) 

- μ£Όκ°€, μ œν’ˆ 가격 평가 

- μˆ˜μš”λŸ‰ 예츑

- λ§Œμ‘±λ„ 예츑

- κΈ°λŒ€μˆ˜μ΅ 예츑

------

λ‘œμ§€μŠ€ν‹± νšŒκ·€λͺ¨λΈ

μ—°μ†ν˜• λ…λ¦½λ³€μˆ˜λ‘œ λ²”μ£Όν˜• μ’…μ†λ³€μˆ˜λ₯Ό ν™•λ₯ λ‘œμ¨ μΆ”μ •ν•  λ•Œ, (λΆ„λ₯˜λ¬Έμ œ)

μ˜ˆμ‹œ)

- 생쑴/μ΄νƒˆ ν™•λ₯  예츑

- λŒ€μΆœ μƒν™˜/ λΉ„μƒν™˜ ν™•λ₯  예츑

- λ§ˆμΌ€νŒ… μΊ νŽ˜μΈμ— λ°˜μ‘/ λ¬΄λ°˜μ‘ ν™•λ₯  예츑

- ꡬ맀 / 비ꡬ맀 ν™•λ₯  예츑

-----

λ‹€ν•­νšŒκ·€λͺ¨λΈ

데이터가 μ„ ν˜• 직선이 μ•„λ‹Œ λΉ„μ„ ν˜• 곑선에 더 적합할 λ•Œ,

μ˜ˆμ‹œ)

좜처) 넀이버 λΈ”λ‘œκ·Έ

데이터가 μ΄λŸ¬ν•œ ν˜•νƒœλ₯Ό 보일 λ•Œ, νšŒκ·€μ‹μ„ λ‹€ν•­μ‹μœΌλ‘œ λ§Œλ“€μ–΄ 였차(μ„ κ³Ό 점의 거리)λ₯Ό 쀄이도둝 ν•œλ‹€.

-----

릿지(Ridge)νšŒκ·€ / 라쏘(Lasso)νšŒκ·€ λͺ¨λΈ

νšŒκ·€λͺ¨λΈμ˜ 과적합 문제λ₯Ό 규제(νŒ¨λ„ν‹°)λ₯Ό 톡해 λ³΄μ™„ν•œ λͺ¨λΈ

 

*과적합 문제: λͺ¨λΈμ΄ ν•™μŠ΅ 데이터에 μ§€λ‚˜μΉ˜κ²Œ μ ν•©λ˜μ–΄ μ‹€μƒν™œκ³Ό 같은 μΌλ°˜ν™”λœ ν™˜κ²½μ—μ„œ μ„±λŠ₯이 λ–¨μ–΄μ§€λŠ” 문제.

*규제(Regularization) :

과적합 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ νŒ¨λ„ν‹°. νšŒκ·€λͺ¨λΈμ—μ„œλŠ” λΉ„μš©ν•¨μˆ˜μ— 규제λ₯Ό κ°€ν•œλ‹€.

λ²‘ν„°μ˜ 크기λ₯Ό μΈ‘μ •ν•˜λŠ” norm을 κ·œμ œν•­μœΌλ‘œ 더해쀀닀. 

 

-λΌμ˜νšŒκ·€

λΌμ˜νšŒκ·€κ³„μˆ˜, 좜처) ꡬ글

μ ˆλŒ“κ°’μ˜ 합을 norm으둜 ν•˜λŠ” L1 규제λ₯Ό μΆ”κ°€ν•˜μ—¬ νšŒκ·€κ³„μˆ˜ μΆ”μ •

 

 

-λ¦Ώμ§€νšŒκ·€

λ¦Ώμ§€νšŒκ·€κ³„μˆ˜, 좜처) ꡬ글

 μ œκ³±ν•©μ„ norm으둜 ν•˜λŠ” L2 규제λ₯Ό μΆ”κ°€ν•˜μ—¬ νšŒκ·€κ³„μˆ˜ μΆ”μ •

 

* μžμ„Έν•œ λ‚΄μš©μ€ λ‹€μŒ 링크 μ°Έμ‘°

https://seollane22.tistory.com/10

 

릿지(Ridge)νšŒκ·€, 라쏘(Lasso)νšŒκ·€ λͺ¨λΈ

릿지(Ridge)νšŒκ·€μ™€ 라쏘(Lasso)νšŒκ·€ λͺ¨λΈμ€ μ •κ·œν™”λ₯Ό μœ„ν•œ 규제λ₯Ό κ°€ν•œ λͺ¨λΈμ΄λ‹€. λ¨Έμ‹ λŸ¬λ‹μ—μ„œ μ •κ·œν™”λž€, 주둜 κ³ΌλŒ€μ ν•©(ν˜Ήμ€ κ³Όμ†Œμ ν•©)λ˜μ–΄μžˆμ§€ μ•Šμ€ "μΌλ°˜ν™”"된 λͺ¨λΈλ‘œ μ‘°μ •ν•˜λŠ” 것을 μ˜λ―Έν•œλ‹€.

seollane22.tistory.com