IT공부
[머신러닝] 머신러닝 알고리즘 종류와 장점 단점 비교
서용이
2021. 5. 8. 23:42
반응형
알고리즘 | 장점 | 단점 |
k-최근접 이웃 (K-Nearest Neighbor, K-NN) |
- 구현이 쉽다 - 알고리즘을 이해하기 쉽다 - 하이퍼파라미터가 적다 |
- 예측 속도가 느리다 - 메모리를 많이 쓴다 - 노이즈 데이터에 예민하다 |
서포트 벡터 머신 (Support Vector Machine, SVM) |
- 상대적으로 적은 데이터로도 높은 정확도를 낸다 - 예측 속도가 빠르다 - 고차원 데이터를 처리하기가 쉽다 |
- 결정경계선이 많이 겹칠 때 정확도가 낮아진다 - 수학적 이해 없이는 모델의 분류 결과를 이해하기 어렵다 - 커널 트릭 오사용 시 과대적합되기 쉽다 |
의사결정트리 (Decision Tree) |
- 모델의 추론 과정을 시각화하기 쉽다 - 데이터에서 중요한 특성이 무엇인지 쉽게 알아낼 수 있다 - 학습 및 예측 속도가 빠르다 |
- 과대적합되기 쉽다 - 조정해야 할 하이퍼파라미터가 많다 |
랜덤포레스트 (Random Forest) |
- 앙상블 효과로 의사결정트리의 과대적합 단점을 보완한다 | - 조정해야 할 하이퍼파라미터가 많다 |
나이브베이즈 (Naïve Bayes) |
- 고차원 데이터를 처리하기가 쉽다 - 구현하기 쉽다 - 학습 및 추론 시간이 빠르다 |
- 모든 변수가 독립변수라는 가설하에 작동함으로써 데이터가 가설과 다를 경우 정확도가 낮아진다 |
선형회귀 (Linear Regression) |
- 수집된 데이터를 통해 새롭게 관측된 데이터의 예측값(수치값)을 구할 수 있다 | - 데이터 특징들이 선형 관계에 있다는 가설 하에 작동함으로써 데이터 특징이 가설과 다를 경우 정확도가 낮아진다 |
로지스틱회귀 (Logistic Regression) |
- 데이터를 분류할 때 확률을 제공한다 | - 데이터 특징이 많을 경우 학습이 어려워 과소적합되기 쉽다 |
k-평균 (K-Means) |
- 데이터 크기에 상관 없이 군집화에 사용할 수 있다 - 구현하기 쉽다 |
- 군집화 결과에 대한 확률을 제공하지 않는다 - 데이터의 분포가 균일하지 않을 경우 정확도가 떨어진다 |
주성분 분석 (Principal Component Analysis, PCA) |
- 고차원 데이터를 저차원 데이터로 축소할 때 사용된다 - 구현이 쉽다 |
- 차원 축소 시 정보의 손실이 있다 |
반응형