본문 바로가기
728x90
반응형

전체 글50

[머신러닝][파이썬] Random Forest Regressor(회귀) 안녕하세요. 오늘은 파이썬을 통해 RandomForestRegressor를 구현해 보도록하겠습니다. 데이터는 야구 데이터이며, 종속변수는 팀의 득점입니다. 사실 득점을 예측하는 것은 안타수나 타점이나 기타 등등 다른 변수와 상관관계가 높아 쉽게 예측할 수 있을 것이라고 생각하실 수도 있습니다. 하지만 여기서 팀의 득점은 앞으로의 미래, 즉 아직 경기정보가 없는 팀의 득점을 예측하는 것입니다. 따라서 그날의 경기정보로 그날의 결과를 학습하는 것이 아니라 이전의 경기정보로 그 후의 결과를 매칭해서 학습하는 것입니다. 이렇게 하면 전날 경기정보로 다음날 혹은 그 후 미래의 예측값을 뽑아낼 수 있습니다. 1. 모듈 불러오기 1 2 3 4 5 6 7 8 from sklearn.ensemble import Rand.. 2022. 1. 26.
[머신러닝][파이썬] Random Forest Classifier(분류) 안녕하세요. 오늘은 파이썬을 통해 RandomForestClassifier를 구현해 보도록하겠습니다. 데이터는 2017-2018년 쏘카의 고객정보와이용내역을 병합한 데이터입니다. 1. 데이터 불러오기 1 2 3 import pandas as pd pd.options.display.max_columns = 100 data = pd.read_csv("crm.csv") cs 전체적인 코딩은 이전 DecisionTreeClassifier 글과 비슷합니다. 먼저 pandas를 활용해 display 옵셥을 바꿔서 더 많은 컬럼을 보여주도록한 후 csv파일을 불러왔습니다. 2. 레이블 인코딩, Train/Test 분리, 불균형 처리 1 2 3 4 5 6 7 8 9 10 #레이블 인코딩 from sklearn.prep.. 2022. 1. 25.
솔직한 데이터 청년 캠퍼스 후기 오늘은 여름방학 동안 보람차게 활동했던 데이터 청년 캠퍼스 후기를 얘기하겠습니다. 1. 데이터 청년 캠퍼스란? 빅데이터 기술을 선도하는 국내 최고의 대학이 기업 수요에 부응하는 실무 중심의 교육을 실시하고, 한국데이터산업진흥원과 관련 기업이 빅데이터 직무 취업을 지원하는 데이터 융합 인재 양성 프로그램입니다. ※ 전국 11개 대학교에서 대학생 3-4학년 혹은 비전공 석(박)사 과정 대학원생을 대상으로 합니다. ※ 대학 내 우수프로젝트로 선정되면 대학별 대항전에서 최대 과학기술부장관상이 수여됩니다. ※ 자세한 사항 : 데이터 청년 캠퍼스 (dataonair.or.kr) 빅데이터 청년인재 한국데이터산업진흥원이 주관하는 빅데이터 청년인재 양성 교육(데이터 청년 캠퍼스) dataonair.or.kr 데이터 청년.. 2022. 1. 24.
SQLD(SQL 개발자) 합격 후기 저는 제 40회 SQL 개발자(SQLD) 시험에 합격했는데요, SQLD 자격증을 준비하는 분들에게 조금이나마 도움을 드리기 위해 제가 공부하면서 느낀 점, 꿀팁, 정보 등에 대해 얘기하겠습니다. 1. 합격 인증 ● 1과목 : 데이터 모델링의 이해 16/20 ● 2과목 : SQL 기본 및 활용 70/80 총점 : 86 / 100 (합격!) -> 100점 까비ㅎㅎ 2. 시험 정보 ● 시험 시간 - 90분 ● 시험 문제 - 50문제 3. 준비 기간 및 공부방법 저는 학교에서 "데이터베이스입문"라는 과목을 수강해서, 어느정도 DB에 대한 배경지식이 있었습니다. 하지만 배경지식이 없더라도 충분히 합격할 수 있는 합격율 높은 자격증입니다. 공부량: 평일 30분/ 주말 1시간 공부기간: 1개월 공부방법: SQLD(P.. 2022. 1. 21.
[머신러닝][앙상블/배깅][개념] 랜덤포레스트(Random Forest) 1. 랜덤포레스트 랜덤포레스트란? 랜덤포레스트의 사전적 의미는 "다수의 결정 트리들을 학습하는 앙상블 방법"입니다. 조금 더 쉽게 얘기하면 포레스트(Forest), 숲을 이용한 분석방법이죠. 의사결정나무가 하나의 결정 트리라면 랜덤 포레스트는 무작위로 수많은 나무들을 만들고 학습하는 알고리즘입니다. 집단지성이라는 말이 있듯이, 한 명보다는 두 명이 낫고 두 명보다는 여러명이 낫겠죠? 따라서 하나의 의사결정나무에서 생기는 과적합이나 낮은 성능의 문제점을 보완할 수 있습니다. 2. 배깅 앙상블 기법에는 크게 세 가지 종류가 있습니다. (보팅, 배깅, 부스팅) 이 중 랜덤포레스트는 배깅의 대표적인 알고리즘입니다. 배깅이란? bootstrap aggregating의 줄인말로 bootstrap을 통해 resamp.. 2022. 1. 20.
[머신러닝][파이썬]의사결정나무(DecisionTreeRegressor) 오늘은 캐글의 CarPrice_Assignment data를 가지고 회귀트리(DecisionTreeRegressor)를 구현해보겠습니다. 1. 모듈 및 데이터 불러오기 1 2 3 4 5 6 7 8 9 import pandas as pd import numpy as np from pydotplus import graph_from_dot_data from sklearn.tree import export_graphviz from IPython.display import Image # CART Tree 그림 import pydotplus import os df= pd.read_csv("CarPrice_Assignment.csv") cs 기본적으로 pandas, numpy 와 모델 시각화를 위한 모듈만 불러오고 .. 2022. 1. 19.
728x90
반응형