본문 바로가기
728x90
반응형

머신러닝16

[머신러닝][파이썬] XGBoost Regressor(회귀) 안녕하세요. 오늘은 파이썬을 통해 XGBoost Regressor를 구현해 보도록하겠습니다. 데이터는 야구 데이터이며, 종속변수는 팀의 득점입니다. 해당 자료는 랜덤포레스트 게시글과 동일한 데이터를 사용합니다. 1. 모듈 불러오기 import xgboost as xgb from xgboost import plot_importance import warnings warnings.filterwarnings('ignore') import numpy as np import matplotlib from matplotlib import pyplot as plt from sklearn import datasets from sklearn.model_selection import cross_val_score from b.. 2023. 7. 1.
가상환경 생성 및 주피터 연동 안녕하세요. 오늘은 가상환경 세팅하는 법에 대해 다뤄보겠습니다. 가상환경이란, 기존의 저희 노트북이나 컴퓨터의 로컬 환경이 아닌 새로운 환경을 말합니다. 머신러닝/딥러닝을 위해 구글코랩을 사용하는 분이 많은데, 구글코랩도 하나의 가상환경이라고 얘기할 수 있습니다. 그렇다면 왜 가상환경을 사용하는 것 일까요? 우리가 머신러닝/딥러닝 코드를 실행할 때, 현재 내 노트북 혹은 컴퓨터 환경에 해당 모듈가 없다면, 에러가 발생합니다. 그리고 보통은 필요한 모듈는 설치하여 코드를 실행합니다. 하지만 매번 다른 작업을 위해 필요한 모듈을 설치하다보면, 이미 설치된 다른 모듈과 버전이나 호환성의 문제로 충돌이 일어나며, 재현을 하는 코드라면 결과도 달라질 수 있습니다. 그리고 주관적으로는 그냥 로컬환경을 좀 깔끔하게 .. 2022. 12. 9.
Loss Function and Gradient Descent(손실함수와 경사하강법) 1. 손실함수와 경사하강법의 개념 손실함수와 경사하강법은 딥러닝 학습과 최적화의 핵심적인 개념입니다. 예를 들어, 주어진 데이터에 관하여 Y = w*X + b 라는 방정식으로 모델을 만든다고 가정한다면 저희는 데이터를 잘 표현할 수 있는 가중치 w 와 편차 b를 찾는 것이 목표입니다. 그리고 최적의 가중치와 편차(=파라미터)를 찾는 척도가 손실함수가 되며, 최적의 파라미터를 찾는 방법이 경사하강법이 됩니다. 우리는 손실함수를 통해 평균적인 예측값과 실제값의 차이(오차)를 계산하며 오차를 최소화하는 방향으로 모델을 학습시킵니다. 그리고 오차를 최소화하는 방향으로 파라미터를 업데이트하기 위해 경사하강법을 사용합니다. Gradient Descent라는 단어에서도 알 수 있듯이, 기울기를 보면서 파라미터를 업데.. 2022. 5. 27.
Central Limit Theorem(중심극한정리)이란? 1. Central Limit Theorem의 개념 모집단이 정규분포가 아니더라도, 표본크기 n이 충분히 크면 단순임의추출에 의한 표본평균의 분포는 근사적으로 정규분포를 따른다. 2. Central Limit Theorem의 특징 (1) 단순임의추출에 의한 표본에만 적용 가능하다. (2) 이산형과 연속형 모집단에 모두 적용된다. (3) 경험적으로 대부분의 경우에 중심극한정리는 n이 30이상이면 적용할 수 있는 것으로 알려져 있다. (4) 모집단 분포가 대칭이면 표본수가 30보다 작아도 정규분포에 가까우며, 비대칭성이 클수록 표본수가 많아야 정규분포에 근접한다. 3. 활용 사례 이항 분포의 정규분포 근사 이항분포는 n이 커지면 중심극한정리에 의해 정규분포로 근사되며, 표본비율의 확률분포는 평균이 p이고 분.. 2022. 5. 20.
정규표현식 개념 및 사용법 1. 정규표현식 - 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어 - 텍스트에 포함된 특정 문자열을 검색하는 용도 - 파이썬에서는 re모듈을 이용하여 표현 2. 패턴 객체 - re.compile() 사용 -> 정규식 패턴을 파이썬이 사용할 수 있는 정규식 객체로 컴파일 - Compile을 사용하면 패턴 객체를 재사용 가능 -> 시간 단축 - match(), search()와 같은 메소드를 통해 사용됨 ※ match : 처음이 일치하지 않으면 None 반환 ※ search : 처음이 일치하지 않더라도 전체를 검색 3. 메타 문자 메타문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자 .(Dot): 하나의 문자 하나를 의미 -> .. 은 문자 두개를 의미, 여기서 문자는.. 2022. 3. 12.
[XGB][파라미터 최적화] Bayesian Optimization 1. Bayesian Optimization 이란? 미지의 함수가 최대/최소값을 갖게 하는 지점 X를 찾는 일종의 optimize 알고리즘으로 베이지안 룰에 의해 사전지식을 반영하면서 하이퍼파라미터를 찾는다. 즉 베이지안 최적화는 현재까지 얻은 모델과 추가적인 실험정보를 통해 데이터가 주어졌을 때의 모델을 추정해 나가는 방식을 가진다. 실질적으로 베이지안 최적화는 그리드 서치나 랜덤 서치 그리고 autoML 과 비교하였을 때 비교적 빠르면서 더 높은 성능을 이끌어낼 수 있도록 파라미터가 최적화되는 사례가 많다. 2. Bayesian Optimization을 통한 XGBClassifier 최적화 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24.. 2022. 2. 16.
728x90
반응형