NLP 4

Kfold( Cross Validation 교차검증 )

일반적으로 데이터를 모델에 사용할 수 있도록 정제한 후에는 train과 test 셋으로 분할하여 모델을 학습 시킨 후, test 셋으로 모델의 성능평가를 진행한다. 하지만 데이터가 적거나 동일한 데이이터 내에서 계속해서 학습을 진행하는 경우, train 셋을 집중적으로 학습하여 train 셋의 데이터는 모델이 잘 예측하지만 새롭게 들어오는 데이터에 대한 예측은 부정확한 경우가 발생한다. 이러한 현상을 오버피팅(overfitting)이라고 부른다. 이러한 문제점을 해결하기 위해, 여러가지 방법론이 존재하지만 오늘은 kfold에 대해 설명해보려고 한다. 일반적으로 학습에 사용할 데이터는 Training data, Test data 로 분류하여 사용한다. 그런데 Training data를 Fold로 나누어 위..

NLP 2023.08.03

Confusion Matrix, Accuracy, Precision, Recall, F1 score

Confusion Matrix 는 이진 분류(Binary Classification) 문제에서 모델의 성능을 평가하기 위해 사용되는 테이블 형태의 표이다. True Positive(TP) : 모델이 Positive 클래스로 정확하게 예측한 샘플의 수이다. 즉, 실제 Positive인 샘플을 모델이 정확하게 Positive로 예측한 경우를 의미한다. False Positive(FP) : 모델이 Negative 클래스를 Positive 클래스로 잘못 예측한 샘플의 수이다. 즉, 실제로는 Nagative인 샘플을 모델이 Positive로 잘못 예측한 경우를 의미한다. True Negative(TN) : 모델이 Negative 클래스로 정확하게 예측한 샘플의 수이다. 즉, 실제 Negative인 샘플을 모델이 ..

NLP 2023.08.02

Model 평가 및 지표들

정성적인 지표 R2 Score - Regression Model 의 정성적인 적합도 판단 - R2는 평균적으로 예측한 것에 비해 분산을 얼마나 축소시켰는지에 대한 판단 - 보통은 Correlation의 제곱으로 표현한다. - 정성적인 판단이 필요한 이유는 통상적인 Model의 예측력을 판단하기 위함이다 - 0 ~ 1 사이의 값을 갖고 1에 가까울 수록 좋은 모델이다. -R2 Score = SSE / SST = 1 - SSR / SST -SST : 총 편차 / SSR : 회귀식과 평균으로 예측한 것의 차이 -보통 0.25 이상일 경우 유의미하다고 판단한다.( 평균 예측한것 대비, 분산을 25% 이상 줄여준 것 ) 정량적인 지표 Mean Absolute Error : MAE - 평균 절대 오차 - 실제 값과..

NLP 2023.07.31

reset_index() 사용 방법

요즘 다시 자연어 처리 관련되 공부를 하고 있는데, 네이버 영화 리뷰 데이터를 다루기 전에 null 데이터를 확인하고 삭제하는 작업을 하였다. 그런데 문득 기계적으로 데이터를 삭제하고 나면 reset_index()를 사용해 왔는데 reset_index()를 하지 않을 경우에 어떤 문제가 발생하는지 궁금하여 찾아보고 기록한다. 1. 'reset_index()' 를 사용하지 않으면 이전의 인덱스 값들이 그대로 유지된다. 따라서 삭제된 행들로 인해 인덱스 값이 불연속적이거나 중복될 수 있다. 2. 기존 인덱스가 그대로 유지되기 때문에 해당 인덱스가 데이터프레임의 컬럼으로 존재하게 된다. 이는 원치 않는 중복 정보를 가질 수 있고, 데이터프레임을 다룰 때 문제를 일으킬 수 있다. 3. 다른 데이터 프레임과 'c..

NLP 2023.07.27