NumPy 2

pandas.qcut, 구간 나누기, categorical 변수

데이터 분석을 하다보면 카테고리 변수를 다루는 일이 자주 있다. 예를 들어 동물의 크기에 따라 small, medium, large 세 경우로 나뉜다고 하였을 때, 이를 머신러닝에 활용하기 위해서는 이를 float이나 int 형으로 표현해주어야 한다. 이런 과정을 할때 보통 onehot-encoding을 사용한다. 그런데 만약 '나이'와 같은 변수를 카테고리 변수로 바꾸고 싶다면 어떻게 해야 할까? 당연히 판다스에는 이에 해당하는 적절한 메서드가 존재한다. https://pandas.pydata.org/docs/reference/api/pandas.qcut.html pandas.qcut — pandas 2.0.3 documentation Number of quantiles. 10 for deciles, ..

데이터분석 2023.08.21

data handling, map, np.where

데이터를 다루다보면, 해당 컬럼을 변경하거나 변형해야할 때가 있다. 이때 유용한 map 과 np.where 을 소개하고자 한다. 1) map map 은 Series 형태인 데이터에 적용가능한 메서드이다. dataframe은 시리즈가 여러개 합쳐진 자료형이라고 생각하면 되는데, 그렇다면 dataframe에 map 메서드를 적용할 수 있다는 뜻이다. 예를들어 위와 같은 데이터가 df 라는 변수에 저장되어 있다고 생각해보자. diagnosis 는 M, B 두 가지 문자가 존재한다. 나는 M은 malignant, B는 benign 로 변경하고 싶다. 그렇다면 다음과 같은 코드를 실행하면 된다. class_mapping = {'M' : 'malignant', 'B' : 'benign'} df['diagnosis'..

데이터분석 2023.08.18