구종 분류 머신러닝 (2) 썸네일형 리스트형 2. K-평균 군집화(K-means clustering) K-평균 군집화의 과정은 아래와 같다. [1] J.M. Pena ,1, J.A. Lozano, P. Larra~naga. 1999. An empirical comparison of four initialization methods for the K-Means algorithm. Pattern recognition letters. https://doi.org/10.1016/S0167-8655(99)00069-0 1. 랜덤포레스트란? 랜덤포레스트는 아래와 같이 여러 개의 의사결정나무(Decision Tree)로 구성되어있다. 랜덤포레스트는 학습할 때 인 배깅(Bagging)방법을 이용한다. 전체 데이터를 나무의 갯 수에 따라 균일하게 샘플링하여 각 의사결정나무에 분배시켜준다. 그리고 각 의사결정트리의 결과들를 종합하여 최종결과를 산출한다. 의사결정나무는 자료를 라벨링에 따라 분할하는 방법으로, 이 방법 중 하나로 지니 계수(Gini index)가 있다. 분류하는 기준을 정할 때, 아래와 같이 지니계수가 작은 기준을 우선적으로 사용한다. 이때, 트리의 깊이(Depth)는 정해주지 않으면 지니계수가 0이될 때까지 이어나가게 된다. 이전 1 다음