IT공부

[머신러닝] 머신러닝 알고리즘 종류와 장점 단점 비교

서용이 2021. 5. 8. 23:42
반응형
알고리즘 장점 단점
k-최근접 이웃
(K-Nearest Neighbor, K-NN)
- 구현이 쉽다
- 알고리즘을 이해하기 쉽다
- 하이퍼파라미터가 적다
- 예측 속도가 느리다
- 메모리를 많이 쓴다
- 노이즈 데이터에 예민하다
서포트 벡터 머신
(Support Vector Machine, SVM)
- 상대적으로 적은 데이터로도 높은 정확도를 낸다
- 예측 속도가 빠르다
- 고차원 데이터를 처리하기가 쉽다
- 결정경계선이 많이 겹칠 때 정확도가 낮아진다
- 수학적 이해 없이는 모델의 분류 결과를 이해하기 어렵다
- 커널 트릭 오사용 시 과대적합되기 쉽다
의사결정트리
(Decision Tree)
- 모델의 추론 과정을 시각화하기 쉽다
- 데이터에서 중요한 특성이 무엇인지 쉽게 알아낼 수 있다
- 학습 및 예측 속도가 빠르다
- 과대적합되기 쉽다
- 조정해야 할 하이퍼파라미터가 많다
랜덤포레스트
(Random Forest)
- 앙상블 효과로 의사결정트리의 과대적합 단점을 보완한다 - 조정해야 할 하이퍼파라미터가 많다
나이브베이즈
(Naïve Bayes)
- 고차원 데이터를 처리하기가 쉽다
- 구현하기 쉽다
- 학습 및 추론 시간이 빠르다
- 모든 변수가 독립변수라는 가설하에 작동함으로써 데이터가 가설과 다를 경우 정확도가 낮아진다
선형회귀
(Linear Regression)
- 수집된 데이터를 통해 새롭게 관측된 데이터의 예측값(수치값)을 구할 수 있다 - 데이터 특징들이 선형 관계에 있다는 가설 하에 작동함으로써 데이터 특징이 가설과 다를 경우 정확도가 낮아진다
로지스틱회귀
(Logistic Regression)
- 데이터를 분류할 때 확률을 제공한다 - 데이터 특징이 많을 경우 학습이 어려워 과소적합되기 쉽다
k-평균
(K-Means)
- 데이터 크기에 상관 없이 군집화에 사용할 수 있다
- 구현하기 쉽다
- 군집화 결과에 대한 확률을 제공하지 않는다
- 데이터의 분포가 균일하지 않을 경우 정확도가 떨어진다
주성분 분석
(Principal Component Analysis, PCA)
- 고차원 데이터를 저차원 데이터로 축소할 때 사용된다
- 구현이 쉽다
- 차원 축소 시 정보의 손실이 있다
반응형