본문 바로가기

구종 분류 머신러닝

1. 랜덤포레스트란?

 랜덤포레스트는 아래와 같이 여러 개의 의사결정나무(Decision Tree)로 구성되어있다. 랜덤포레스트는 학습할 때 인 배깅(Bagging)방법을 이용한다.  전체 데이터를 나무의 갯 수에 따라 균일하게 샘플링하여 각 의사결정나무에 분배시켜준다. 그리고 각 의사결정트리의 결과들를 종합하여 최종결과를 산출한다.

출처 : https://medium.com/greyatom/a-trip-to-random-forest-5c30d8250d6a

 

 

 

 의사결정나무는 자료를 라벨링에 따라 분할하는 방법으로, 이 방법 중 하나로 지니 계수(Gini index)가 있다. 분류하는 기준을 정할 때, 아래와 같이 지니계수가 작은 기준을 우선적으로 사용한다. 이때, 트리의 깊이(Depth)는 정해주지 않으면 지니계수가 0이될 때까지 이어나가게 된다.

이미지 출처 : https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95_%ED%8A%B8%EB%A6%AC_%ED%95%99%EC%8A%B5%EB%B2%95

 

'구종 분류 머신러닝' 카테고리의 다른 글

2. K-평균 군집화(K-means clustering)  (0) 2020.06.04