sklearn 2

scikit learn, GridSearchCV

데이터의 정제를 완료하면 모델을 통해 데이터를 학습하고 타겟 값을 예측한다. 머신러닝에 있어서 모델의 성능을 높이기 위해서 가장 중요한 작업은 데이터를 모델에 맞게 정제하는 과정이라고 생각한다. 그 다음으로는 모델의 파라미터 값을 조정하여 성능을 높이는 방법이 있다. 모델에 따라 수 많은 파라미터들이 존재하기 때문에, 사람이 모든 값을 하나씩 바꿔가며 실험하는 것은 많은 노력과 인력을 필요로 한다. 사이킷 런에서는 모델의 파라미터를 설정할 때, 사람이 일정 값을 설정해주면 모델이 그 조합들을 자동적으로 조합하여 실험을 실행시키는 메서드를 제공하는데 그것이 바로 GridSearchCV 이다. greedy 알고리즘은 최적해를 구하는 데에 사용되는 근사적인 방법으로, 여러 경우 중 하나를 결정해야 할 때마다 ..

데이터분석 2023.08.18

Chapter3 머신러닝 교과서, python

본 포스팅은 머신러닝 교과서를 참고하여 작성되었습니다. 3.1 분류 알고리즘 선택 알고리즘을 훈련하기 위한 다섯 가지 주요 단계 특성을 선택하고 훈련 샘플을 모은다. 성능 지표를 선택한다. 분류 모델의 최적화 알고리즘을 선택한다. 모델의 성능을 평가한다. 알고리즘을 튜닝한다. 3.2 사이킷런 첫걸음 : 퍼셉트론 훈련 사이킷런 라이브러리를 사용해 퍼셉트론 훈련을 해보자 150개의 꽃 샘플에서 꽃잎 길이와 꽃잎 너비를 특성 행렬 X에 할당하고 꽃 품종에 해당하는 클래스 레이블을 벡터 y에 할당한다. from sklearn import datasets import numpy as np iris = datasets.load_iris() X = iris.data[:, [2,3]] y = iris.target pr..