ML 2

Kfold( Cross Validation 교차검증 )

일반적으로 데이터를 모델에 사용할 수 있도록 정제한 후에는 train과 test 셋으로 분할하여 모델을 학습 시킨 후, test 셋으로 모델의 성능평가를 진행한다. 하지만 데이터가 적거나 동일한 데이이터 내에서 계속해서 학습을 진행하는 경우, train 셋을 집중적으로 학습하여 train 셋의 데이터는 모델이 잘 예측하지만 새롭게 들어오는 데이터에 대한 예측은 부정확한 경우가 발생한다. 이러한 현상을 오버피팅(overfitting)이라고 부른다. 이러한 문제점을 해결하기 위해, 여러가지 방법론이 존재하지만 오늘은 kfold에 대해 설명해보려고 한다. 일반적으로 학습에 사용할 데이터는 Training data, Test data 로 분류하여 사용한다. 그런데 Training data를 Fold로 나누어 위..

NLP 2023.08.03

[데이콘] Basic 풍력 발전량 예측 AI 경진대회 1, python

https://dacon.io/competitions/open/236066/overview/description 데이콘 Basic 풍력 발전량 예측 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io Dataset Info. train.csv [파일] 19275개의 데이터 id : 샘플 별 고유 id temperature : 기온 (°C) pressure : 기압 (hPa) humidity : 습도 (%) wind_speed : 풍속 (m/s) wind_direction : 풍향 (degree) precipitation : 1시간 강수량 (mm) snowing : 눈 오는 상태 여부 (False, True) cloudiness : 흐림..