데이터분석 2

data handling, map, np.where

데이터를 다루다보면, 해당 컬럼을 변경하거나 변형해야할 때가 있다. 이때 유용한 map 과 np.where 을 소개하고자 한다. 1) map map 은 Series 형태인 데이터에 적용가능한 메서드이다. dataframe은 시리즈가 여러개 합쳐진 자료형이라고 생각하면 되는데, 그렇다면 dataframe에 map 메서드를 적용할 수 있다는 뜻이다. 예를들어 위와 같은 데이터가 df 라는 변수에 저장되어 있다고 생각해보자. diagnosis 는 M, B 두 가지 문자가 존재한다. 나는 M은 malignant, B는 benign 로 변경하고 싶다. 그렇다면 다음과 같은 코드를 실행하면 된다. class_mapping = {'M' : 'malignant', 'B' : 'benign'} df['diagnosis'..

데이터분석 2023.08.18

날짜 형식 데이터를 연, 월, 일로 변경하기

데이터를 다루다보면, 다음과 같은 데이터를 만날 때가 있다. 이런 형식의 데이터일 경우, 매번 습관적으로 연, 월, 일, 시 등으로 나누어 컬럼을 생성하여 데이터를 분석한다. 그렇다면 데이터를 왜 이러한 형식으로 변경하여 데이터 분석을 진행하는 것일까? 아래와 같은 장점이 존재하기 때문이다.(대부분 단점은 없는듯..?) 데이터 분석 및 시각화 : 연, 월, 일로 분리된 컬럼은 데이터를 시각화 할 때 더 쉽게 할 수 있도록 한다. 집계 및 그룹화 : 매월 판매량을 합산하거나 연간 통계를 생성할 때 유용하다. 시계열 데이터 분석: 연, 월, 일로 분리된 컬럼을 사용하면 시계열 패턴을 이해하고 예측하는 데 도움이 된다. 날짜 계산 및 조작 : 연, 월, 일로 분리된 컬럼을 사용하면 날짜와 관련된 계산 및 조직..

데이터분석 2023.08.10