본문 바로가기
728x90
반응형

머신러닝16

[머신러닝][파이썬] 의사결정나무(DecisionTreeClassifier) 안녕하세요. 오늘은 파이썬을 통해 DecisionTreeClassifier를 구현해 보도록하겠습니다. 데이터는 2017-2018년 쏘카의 고객정보와이용내역을 병합한 데이터입니다. 1. 데이터 불러오기 1 2 3 import pandas as pd pd.options.display.max_columns = 100 data = pd.read_csv("crm.csv") cs 가정 먼저 pandas를 활용하여 csv파일을 불러왔습니다. 2번째 줄의 pd.options.display.max_columns는 데이터프레임의 변수를 더 많이 보고 싶을 때 사용하는 옵션입니다. 예를 들어 아래와 같이 변수가 많은 데이터프레임을 보면 중간에 ...으로 표기되어 중간에 있는 변수는 살펴볼 수 없습니다. 하지만 pd.opti.. 2022. 1. 17.
[머신러닝][개념]의사결정나무 1. 의사결정나무 의사결정나무란? 대표적인 지도학습 모형으로 데이터를 학습 해 분류 규칙을 만드는 알고리즘입니다. - Classifier, Regressor 모두 가능한 분석 방법 - 해석의 용이성, 교호작용효과의 해석 - 비모수적 모형 2. 분리기준 분리기준이란? 하나의 부모마디로부터 자식마디들이 형성될 때 입력변수의 선택과 선택된 입력변수에 따른 범주를 선택할 때의 기준을 의미합니다. 의사결정나무 분리기준은 다양한 방법이 있지만 그 컨셉은 동일합니다. 타겟에 따라 최대한 순수한 집단으로 분리하고자하는 것입니다. 순수한 집단이라고 하면, 예를 들어) Target = 1 혹은 0 일 때 하나의 리프노드 안에 데이터들이 전부 1이라면 그 리프노드는 순수한 집단이 되는 것입니다. 반대로 리프노드안에 1과0이.. 2022. 1. 15.
[머신러닝][파이썬]K-means clustering 오늘은 KBL 선수들의 기록 데이터로 클러스터링을 진행해보겠습니다. 데이터는 KBL 공식 홈페이지를 통해 최근 5년간의 KBL 선수의 개인 기록을 크롤링했습니다. 1. 모듈 가져오기 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 import pandas as pd import numpy as np import seaborn as sns import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_manager as fm %matplotlib inline from factor_analyzer import FactorAnalyzer from sklearn.cluster import KMeans from .. 2022. 1. 14.
[머신러닝][개념]K-means clustering Clustering Analysis이란? - 여러 집단의 데이터들이 섞여 있고 각 데이터의 소속집단을 모르는 경우 유사한 속성을 갖는 데이터의 군집을 찾는 기법 - 주어진 개체 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여, 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 데이터 분석 방법 목적 * 주어진 데이터를 통해 군집을 잘 구분하는 것이 분석의 최대 목적 - 동일한 군집의 개체들은 유사한 성격을 갖도록한다. - 서로 다른 군집에 속한 개체들 사이에는 상대적으로 서로 다른 성격을 갖도록한다. 유사성과 거리. 군집분석에서는 유사성의 척도로 거리를 사용한다 거리의 종류는 크게 세 가지로 유크리드 거리, 민코우스키 거리, 마할라노비스 거리가 있고 통상적으로 유클리드 .. 2022. 1. 13.
728x90
반응형