티스토리

서용이의 이것저것

검색하기

[머신러닝] 머신러닝 알고리즘 종류와 장점 단점 비교

IT공부

[머신러닝] 머신러닝 알고리즘 종류와 장점 단점 비교

서용이 2021. 5. 8. 23:42

알고리즘	장점	단점
k-최근접 이웃 (K-Nearest Neighbor, K-NN)	- 구현이 쉽다 - 알고리즘을 이해하기 쉽다 - 하이퍼파라미터가 적다	- 예측 속도가 느리다 - 메모리를 많이 쓴다 - 노이즈 데이터에 예민하다
서포트 벡터 머신 (Support Vector Machine, SVM)	- 상대적으로 적은 데이터로도 높은 정확도를 낸다 - 예측 속도가 빠르다 - 고차원 데이터를 처리하기가 쉽다	- 결정경계선이 많이 겹칠 때 정확도가 낮아진다 - 수학적 이해 없이는 모델의 분류 결과를 이해하기 어렵다 - 커널 트릭 오사용 시 과대적합되기 쉽다
의사결정트리 (Decision Tree)	- 모델의 추론 과정을 시각화하기 쉽다 - 데이터에서 중요한 특성이 무엇인지 쉽게 알아낼 수 있다 - 학습 및 예측 속도가 빠르다	- 과대적합되기 쉽다 - 조정해야 할 하이퍼파라미터가 많다
랜덤포레스트 (Random Forest)	- 앙상블 효과로 의사결정트리의 과대적합 단점을 보완한다	- 조정해야 할 하이퍼파라미터가 많다
나이브베이즈 (Naïve Bayes)	- 고차원 데이터를 처리하기가 쉽다 - 구현하기 쉽다 - 학습 및 추론 시간이 빠르다	- 모든 변수가 독립변수라는 가설하에 작동함으로써 데이터가 가설과 다를 경우 정확도가 낮아진다
선형회귀 (Linear Regression)	- 수집된 데이터를 통해 새롭게 관측된 데이터의 예측값(수치값)을 구할 수 있다	- 데이터 특징들이 선형 관계에 있다는 가설 하에 작동함으로써 데이터 특징이 가설과 다를 경우 정확도가 낮아진다
로지스틱회귀 (Logistic Regression)	- 데이터를 분류할 때 확률을 제공한다	- 데이터 특징이 많을 경우 학습이 어려워 과소적합되기 쉽다
k-평균 (K-Means)	- 데이터 크기에 상관 없이 군집화에 사용할 수 있다 - 구현하기 쉽다	- 군집화 결과에 대한 확률을 제공하지 않는다 - 데이터의 분포가 균일하지 않을 경우 정확도가 떨어진다
주성분 분석 (Principal Component Analysis, PCA)	- 고차원 데이터를 저차원 데이터로 축소할 때 사용된다 - 구현이 쉽다	- 차원 축소 시 정보의 손실이 있다

저작자표시