랜덤포레스트는 아래와 같이 여러 개의 의사결정나무(Decision Tree)로 구성되어있다. 랜덤포레스트는 학습할 때 인 배깅(Bagging)방법을 이용한다. 전체 데이터를 나무의 갯 수에 따라 균일하게 샘플링하여 각 의사결정나무에 분배시켜준다. 그리고 각 의사결정트리의 결과들를 종합하여 최종결과를 산출한다.
의사결정나무는 자료를 라벨링에 따라 분할하는 방법으로, 이 방법 중 하나로 지니 계수(Gini index)가 있다. 분류하는 기준을 정할 때, 아래와 같이 지니계수가 작은 기준을 우선적으로 사용한다. 이때, 트리의 깊이(Depth)는 정해주지 않으면 지니계수가 0이될 때까지 이어나가게 된다.
'구종 분류 머신러닝' 카테고리의 다른 글
2. K-평균 군집화(K-means clustering) (0) | 2020.06.04 |
---|