사이킷런 3

scikit learn, GridSearchCV

데이터의 정제를 완료하면 모델을 통해 데이터를 학습하고 타겟 값을 예측한다. 머신러닝에 있어서 모델의 성능을 높이기 위해서 가장 중요한 작업은 데이터를 모델에 맞게 정제하는 과정이라고 생각한다. 그 다음으로는 모델의 파라미터 값을 조정하여 성능을 높이는 방법이 있다. 모델에 따라 수 많은 파라미터들이 존재하기 때문에, 사람이 모든 값을 하나씩 바꿔가며 실험하는 것은 많은 노력과 인력을 필요로 한다. 사이킷 런에서는 모델의 파라미터를 설정할 때, 사람이 일정 값을 설정해주면 모델이 그 조합들을 자동적으로 조합하여 실험을 실행시키는 메서드를 제공하는데 그것이 바로 GridSearchCV 이다. greedy 알고리즘은 최적해를 구하는 데에 사용되는 근사적인 방법으로, 여러 경우 중 하나를 결정해야 할 때마다 ..

데이터분석 2023.08.18

Chapter3.3 로지스틱 회귀 모델을 사용한 클래스 확률 모델링, 머신러닝 교과서, python

으* 본 포스팅은 머신러닝 교과서를 참조하여 작성되었습니다! 3.3 로지스틱 회귀 모델을 사용한 클래스 확률 모델링 퍼셉트론 규칙은 머신 러닝 분류 알고리즘을 배우기에 간단하고 좋은 모델이지만 가장 큰 단점은 클래스가 선형적으로 구분되지 않을 때 수렴할 수 없다. 여전히 간단하지만 선형 이진 분류 문제에 더 강력한 다른 알고리즘은 로지스틱 회귀(logistic Regression)을 살펴보자. * 이름이 회귀이지만 로지스틱 회귀는 회귀가 아니라 분류모델이다! 3.3.1 로지스틱 회귀의 이해와 조건부 확률 오즈비(odds ratio) : 오즈는 특정 이벤트가 발생할 확률이다. - logit 함수는 0과 1 사이의 입력값을 받아 실수 범위 값으로 반환한다. - 이 함수를 로지스틱 시그모이드 함수(logist..

Chapter3 머신러닝 교과서, python

본 포스팅은 머신러닝 교과서를 참고하여 작성되었습니다. 3.1 분류 알고리즘 선택 알고리즘을 훈련하기 위한 다섯 가지 주요 단계 특성을 선택하고 훈련 샘플을 모은다. 성능 지표를 선택한다. 분류 모델의 최적화 알고리즘을 선택한다. 모델의 성능을 평가한다. 알고리즘을 튜닝한다. 3.2 사이킷런 첫걸음 : 퍼셉트론 훈련 사이킷런 라이브러리를 사용해 퍼셉트론 훈련을 해보자 150개의 꽃 샘플에서 꽃잎 길이와 꽃잎 너비를 특성 행렬 X에 할당하고 꽃 품종에 해당하는 클래스 레이블을 벡터 y에 할당한다. from sklearn import datasets import numpy as np iris = datasets.load_iris() X = iris.data[:, [2,3]] y = iris.target pr..