NLP 2

reset_index() 사용 방법

요즘 다시 자연어 처리 관련되 공부를 하고 있는데, 네이버 영화 리뷰 데이터를 다루기 전에 null 데이터를 확인하고 삭제하는 작업을 하였다. 그런데 문득 기계적으로 데이터를 삭제하고 나면 reset_index()를 사용해 왔는데 reset_index()를 하지 않을 경우에 어떤 문제가 발생하는지 궁금하여 찾아보고 기록한다. 1. 'reset_index()' 를 사용하지 않으면 이전의 인덱스 값들이 그대로 유지된다. 따라서 삭제된 행들로 인해 인덱스 값이 불연속적이거나 중복될 수 있다. 2. 기존 인덱스가 그대로 유지되기 때문에 해당 인덱스가 데이터프레임의 컬럼으로 존재하게 된다. 이는 원치 않는 중복 정보를 가질 수 있고, 데이터프레임을 다룰 때 문제를 일으킬 수 있다. 3. 다른 데이터 프레임과 'c..

NLP 2023.07.27

[머신러닝교과서] RNN을 사용한 영화 리뷰 감성 분석(2)

* 본 포스팅은 머신러닝교과서를 참조하여 작성되었습니다. * https://github.com/rickiepark/python-machine-learning-book-3rd-edition GitHub - rickiepark/python-machine-learning-book-3rd-edition: 의 코드 저장소 의 코드 저장소. Contribute to rickiepark/python-machine-learning-book-3rd-edition development by creating an account on GitHub. github.com 문장 인코딩을 위한 임베딩 층 이전 데이터 준비 단계에서 동일한 길이의 시퀀스를 생성했다. 이 시퀀스의 원소는 교유한 단어의 인덱스에 해당하는 정수이다. 이런 ..