pandas 3

pandas.qcut, 구간 나누기, categorical 변수

데이터 분석을 하다보면 카테고리 변수를 다루는 일이 자주 있다. 예를 들어 동물의 크기에 따라 small, medium, large 세 경우로 나뉜다고 하였을 때, 이를 머신러닝에 활용하기 위해서는 이를 float이나 int 형으로 표현해주어야 한다. 이런 과정을 할때 보통 onehot-encoding을 사용한다. 그런데 만약 '나이'와 같은 변수를 카테고리 변수로 바꾸고 싶다면 어떻게 해야 할까? 당연히 판다스에는 이에 해당하는 적절한 메서드가 존재한다. https://pandas.pydata.org/docs/reference/api/pandas.qcut.html pandas.qcut — pandas 2.0.3 documentation Number of quantiles. 10 for deciles, ..

데이터분석 2023.08.21

data handling, map, np.where

데이터를 다루다보면, 해당 컬럼을 변경하거나 변형해야할 때가 있다. 이때 유용한 map 과 np.where 을 소개하고자 한다. 1) map map 은 Series 형태인 데이터에 적용가능한 메서드이다. dataframe은 시리즈가 여러개 합쳐진 자료형이라고 생각하면 되는데, 그렇다면 dataframe에 map 메서드를 적용할 수 있다는 뜻이다. 예를들어 위와 같은 데이터가 df 라는 변수에 저장되어 있다고 생각해보자. diagnosis 는 M, B 두 가지 문자가 존재한다. 나는 M은 malignant, B는 benign 로 변경하고 싶다. 그렇다면 다음과 같은 코드를 실행하면 된다. class_mapping = {'M' : 'malignant', 'B' : 'benign'} df['diagnosis'..

데이터분석 2023.08.18

날짜 형식 데이터를 연, 월, 일로 변경하기

데이터를 다루다보면, 다음과 같은 데이터를 만날 때가 있다. 이런 형식의 데이터일 경우, 매번 습관적으로 연, 월, 일, 시 등으로 나누어 컬럼을 생성하여 데이터를 분석한다. 그렇다면 데이터를 왜 이러한 형식으로 변경하여 데이터 분석을 진행하는 것일까? 아래와 같은 장점이 존재하기 때문이다.(대부분 단점은 없는듯..?) 데이터 분석 및 시각화 : 연, 월, 일로 분리된 컬럼은 데이터를 시각화 할 때 더 쉽게 할 수 있도록 한다. 집계 및 그룹화 : 매월 판매량을 합산하거나 연간 통계를 생성할 때 유용하다. 시계열 데이터 분석: 연, 월, 일로 분리된 컬럼을 사용하면 시계열 패턴을 이해하고 예측하는 데 도움이 된다. 날짜 계산 및 조작 : 연, 월, 일로 분리된 컬럼을 사용하면 날짜와 관련된 계산 및 조직..

데이터분석 2023.08.10