본문 바로가기
머신러닝

[머신러닝][개념]의사결정나무

by 방구석 데이터사이언티스트 2022. 1. 15.
728x90
반응형

1. 의사결정나무

의사결정나무란? 대표적인 지도학습 모형으로 데이터를 학습 해 분류 규칙을 만드는 알고리즘입니다.

- Classifier, Regressor 모두 가능한 분석 방법

- 해석의 용이성, 교호작용효과의 해석 

- 비모수적 모형 

 

2. 분리기준

분리기준이란? 하나의 부모마디로부터 자식마디들이 형성될 때 입력변수의 선택과 선택된 입력변수에 따른 범주를 선택할 때의 기준을 의미합니다.

 

의사결정나무 분리기준은 다양한 방법이 있지만 그 컨셉은 동일합니다. 타겟에 따라 최대한 순수한 집단으로 분리하고자하는 것입니다. 순수한 집단이라고 하면,

예를 들어) Target = 1 혹은 0 일 때 하나의 리프노드 안에 데이터들이 전부 1이라면 그 리프노드는 순수한 집단이 되는 것입니다. 반대로 리프노드안에 1과0이 골고루 분포되어있다면 그 집단은 순수하지 않은 집단이 되는 것이죠!!

따라서 어떻게 순수한 집단을 만들 것인지는 타겟의 Type에 따라 여러가지 방법이 있습니다.     

(Classifier)

- 카이제곱통계량

- 지니지수 (일반적으로 가장 많이 사용)

- 엔트로피지수

(Regressor) 

- F 통계량의 유의확률

- 분산의 감소량

 

3. 정지 규칙과 가지치기

- 정지규칙이란? 더 이상 분리가 일어나지 않고 현재의 마디가 잎이 되도록 하는 규칙

   1) 모든 자료가 한 그룹에 속할 때

   2) 마디에 속하는 자료가 일정 수 이하일 때

   3) 불순도의 감소량이 아주 작을 때

   4) 뿌리마디로부터의 깊이가 일정 수 이상일 때

 

- 가지치기 규칙이란? 성장이 끝난 나무의 가지를 적당히 제거하여 적당한 크기를 갖는 나무모형을 선택

                           지나치게 많은 마디를 가지는 의사결정나무 (과적합) -> 새로운 자료에 적용시 예측오차가 커질 가능성이 존재 

728x90
반응형

댓글