1. 의사결정나무
의사결정나무란? 대표적인 지도학습 모형으로 데이터를 학습 해 분류 규칙을 만드는 알고리즘입니다.
- Classifier, Regressor 모두 가능한 분석 방법
- 해석의 용이성, 교호작용효과의 해석
- 비모수적 모형
2. 분리기준
분리기준이란? 하나의 부모마디로부터 자식마디들이 형성될 때 입력변수의 선택과 선택된 입력변수에 따른 범주를 선택할 때의 기준을 의미합니다.
의사결정나무 분리기준은 다양한 방법이 있지만 그 컨셉은 동일합니다. 타겟에 따라 최대한 순수한 집단으로 분리하고자하는 것입니다. 순수한 집단이라고 하면,
예를 들어) Target = 1 혹은 0 일 때 하나의 리프노드 안에 데이터들이 전부 1이라면 그 리프노드는 순수한 집단이 되는 것입니다. 반대로 리프노드안에 1과0이 골고루 분포되어있다면 그 집단은 순수하지 않은 집단이 되는 것이죠!!
따라서 어떻게 순수한 집단을 만들 것인지는 타겟의 Type에 따라 여러가지 방법이 있습니다.
(Classifier)
- 카이제곱통계량
- 지니지수 (일반적으로 가장 많이 사용)
- 엔트로피지수
(Regressor)
- F 통계량의 유의확률
- 분산의 감소량
3. 정지 규칙과 가지치기
- 정지규칙이란? 더 이상 분리가 일어나지 않고 현재의 마디가 잎이 되도록 하는 규칙
1) 모든 자료가 한 그룹에 속할 때
2) 마디에 속하는 자료가 일정 수 이하일 때
3) 불순도의 감소량이 아주 작을 때
4) 뿌리마디로부터의 깊이가 일정 수 이상일 때
- 가지치기 규칙이란? 성장이 끝난 나무의 가지를 적당히 제거하여 적당한 크기를 갖는 나무모형을 선택
지나치게 많은 마디를 가지는 의사결정나무 (과적합) -> 새로운 자료에 적용시 예측오차가 커질 가능성이 존재
'머신러닝' 카테고리의 다른 글
[머신러닝][앙상블/배깅][개념] 랜덤포레스트(Random Forest) (0) | 2022.01.20 |
---|---|
[머신러닝][파이썬]의사결정나무(DecisionTreeRegressor) (2) | 2022.01.19 |
[머신러닝][파이썬] 의사결정나무(DecisionTreeClassifier) (2) | 2022.01.17 |
[머신러닝][파이썬]K-means clustering (0) | 2022.01.14 |
[머신러닝][개념]K-means clustering (0) | 2022.01.13 |
댓글