[LG Aimers] 지도학습(분류/회귀)5 - Ensemble/Evaluation
LG Aimers 학습 내용을 정리한 글입니다
앙상블 방식 : 머신러닝에서 알고리즘의 종류에 상관 없이 서로 다르거나, 같은 매커니즘으로 동작하는 다양한 머신러닝 모델을 묶어 함께 사용하는 방식
1. Ensemble Learning : 이미 사용하고 있거나 개발한 알고리즘의 간단한 확장 (Supervised learning task에서 성능을 올릴 수 있는 방법)
→ bagging, boosting
Bagging: Bootstrapping + aggregating, 학습 과정에서 training sample을 랜덤하게 나누어 선택해 학습
Boosting : Sequential, Weak classifier의 Cascading, 이전 classifier를 통해 예측을 수행하여 나온 결과를 다음 classifier 학습 과정에 사용하여 예측에 있어 어떤 샘플이 중요하고 어떤 샘플이 중요하지 않은지에 대한 정보를 알 수 있게 한다.
* Weak classifier : Bias가 높은 Classifier, 혼자서는 높은 성능을 기대하기 힘들다.
Adaboost : 대표적인 Boosting Algorithm
Random Forest : Bagging과 Boosting을 활용 대표적인 알고리즘
gradient boosting machine (GBM) : Generalized Adaboost by boosting
Evaluation
Accuracy : model의 정확도
Confusion matrix : 각 경우에 대해 오차가 얼마 있었는지 표현하는 방법
false positive error : predict = positive, actual = negative
false negative error : predict = negative, actual = positive
ROC Curve : Performance comparisons between different classifiers in different true positive rates(TPR) and true negative rates (TNR).
error measuer : 데이터에 따라 recall이나 prediction 값을 잘 고려해야 한다.
→ 왼쪽 confusion matrix같은 경우 암환자를 정상으로 판별하면 큰일나므로 Recall 값이 높아야 한다.
→ 오른쪽 confusion matrix같은 경우 미지급 판정을 받은 사람이 적어야 하므로 Precision 값이 높아야 한다.