본문 바로가기

Data Visualization/Python Lib9

[Pandas] 데이터프레임 칼럼 타입 변경 astype 판다스에서는 칼럼의 타입을 바꿀 때 astype를 사용합니다. 그 예제를 살펴봅니다. [ Contents ] 1. astype df['col'].astype astype로 자료형을 바꿀 수 있습니다. 다만 바꿀 수 없는 타입일 경우에는 오류가 뜹니다. 예를 들어 문자열을 숫자형으로 바꿀 수는 없겠죠. 2023. 6. 18.
[Pandas] 정렬 및 추출 후 인덱스를 정렬, 정리하는 reset_index 판다스에서 인덱스를 새로 부여하는 reset_index에 대해서 알아보겠습니다. 데이터를 정렬하거나 추출하면 기존 인덱스와 순번이 맞지 않게 되죠. 이걸 정리하는 방법을 살펴봅니다. [ Contents ] 1. reset_index df.reset_index() 정렬 혹은 추출된 데이터의 순서대로 인덱스를 다시 부여하는 함수입니다. 왼쪽 끝에 0 1 2 3 4 가 인덱스입니다. index 칼럼도 새로 생기는데, 이는 예전 index를 백업해둔 칼럼입니다. 2. reset_index(drop=True) df.reset_index(drop=True) 만약 인덱스를 백업해둘 필요가 없다면, drop=True 인자를 추가해주면 됩니다. drop=True를 하면, index 칼럼 없이 새로 index가 부여됩니다. 2023. 6. 18.
[Pandas] 데이터프레임 정보 및 기초통계량 파악: info(), describe() 판다스 데이터셋의 정보 및 기초통계량을 알아보는 함수, info와 describe에 대해서 살펴봅니다. [ Contents ] 1. 데이터셋 정보, info df.info() info함수는 각 칼럼의 데이터 타입과 데이터 수를 반환합니다. info를 통해 각 칼럼별 데이터 타입을 확인하고, 알맞은 전처리 작업을 수행할 수 있습니다. 또한 칼럼별 Non-Null Count도 제공하므로, 결측치도 쉽게 찾아낼 수 있습니다. 위 데이터셋에서는 'choice_description' 칼럼에 결측치가 있으며 이에 대해 알맞은 조치를 취해야 합니다. 2023.06.16 - [Data Visualization/Python Lib] - [Pandas] 데이터셋의 결측치를 구하고 처리하는 방법 (isnull, dropna.. 2023. 6. 16.
[Pandas] 데이터셋의 결측치를 구하고 처리하는 방법 (isnull, dropna, fillna) 판다스에서 데이터셋의 결측치를 구하고 이를 처리하는 방법을 알아봅니다. 또한 결측치란 무엇이고, 이에 대한 처리가 왜 중요한지도 알아봅니다. [ Contents ] 1. 결측치(missing value) 비어있거나 존재하지 않는 값 결측치는 영어로 missing value로, 누락된 값을 뜻합니다. 데이터셋에서는 null이라고 표시되며, 흔히 널값이라고 부릅니다. 2. 결측치 확인 DataFrame.isnull() 데이터셋 내 결측치는 isnull() 함수로 확인합니다. isnull()함수는 null값은 True, 정상값은 False로 반환합니다. DB에서 null값이 항상 문제가 되듯이, 데이터분석에서도 결측치는 문제가 됩니다. 따라서 전처리 과정에서 결측치는 반드시 제거되어야 하며, 이를 위한 방법에.. 2023. 6. 16.
[Pandas] 데이터셋의 특정 타입 열만 조회하는 select_dtypes 판다스(Pandas)의 데이터프레임에서 Type을 기준으로 열을 조회하는 select_dtypes에 대해 알아보겠습니다. [ Contents ] 1. select_dtypes DataFrame.select_dtypes(include, exclude) 특정 타입을 가진 열만 조회할 수 있는 함수입니다. dtypes는 data type의 준말로, select_dtypes는 함수 기능 그대로 특정 타입을 조회한다는 뜻입니다. 찾고자 하는 데이터타입은 include로, 제외하고자 하는 데이터타입은 exclude로 지정합니다. 2. 데이터프레임 데이터타입(dtypes) 1. 숫자형: 'number' 2. 문자형: 'object' 3. 날짜/시간: 'datetime' 4. 범주형: 'category' 판다스의 데이.. 2023. 6. 15.
[Pandas] 데이터셋의 특정 행과 열을 추출하는 loc, iloc 함수 (feat. 조건식) pandas의 데이터프레임에서 특정 조건의 행열을 뽑아내는 함수는 loc와 iloc가 있습니다. loc가 칼럼명을 사용한 조건으로 탐색한다면, iloc는 index loc로 인덱스로 탐색합니다. 두 방식의 차이점에 대해 자세히 알아보겠습니다. [ Contents ] 1. loc df.loc[n:m, 'col1':'col2'] loc는 location의 준말로, 특정 위치에 있는 데이터를 찾아주는 함수입니다. 리스트 슬라이싱처럼 df.loc[n:m]은 n행부터 m행까지 추출해줍니다. 2022.04.10 - [PL (Programming Language)/Python] - [Python] 리스트(List)란? 리스트 인덱싱(indexing)과 슬라이싱(slicing) [Python] 리스트(List)란? 리.. 2023. 6. 15.
[Pandas] 데이터셋의 행과 열의 개수 확인 shape 판다스의 데이터프레임에서 행과 열의 크기를 보려면 shape 를 사용합니다. 이에 대해 알아보겠습니다. [ Contents ] 1. shape shape는 단어 그대로 데이터프레임의 틀(모양) 정보를 담고 있습니다. 데이터프레임은 행과 열로 이루어진 테이블 형식으로 데이터를 저장하므로 (행, 열)로 표시됩니다. 2. 데이터프레임 행, 열 확인 df.shape의 타입을 살펴보면 tuple입니다. 따라서 인덱스로 접근해서 행이나 열만 알아볼 수도 있습니다. df.shape[0]은 행의 개수, df.shape[1]은 열의 개수입니다. 2023. 6. 12.
[Pandas] 엑셀파일 데이터셋으로 불러오기 (ft. 홈 디렉토리 확인) 판다스에서 엑셀 파일을 데이터프레임으로 불러오는 방법을 소개합니다. 또한 잘못된 파일경로를 입력하지 않도록, 홈 디렉토리를 찾는 방법도 알아봅니다. [ Contents ] 1. 데이터셋 불러오기 import pandas as pd data = pd.read_csv('data/example.csv') csv파일을 pandas의 DataFrame으로 불러오는 함수입니다. csv파일은 ','(콤마, comma) 를 구분자로 나열된 엑셀파일입니다. 일반적인 xlsx 형식과는 다르므로, 해당 파일형식으로 바꾼 뒤 사용하시기 바랍니다. 2. 유효한 파일경로 찾기 pd.read_csv(파일경로) 머신러닝이나 딥러닝, 데이터 시각화를 처음 배우는 사람들이 가장 어려워하는 부분이기도 합니다. 왜냐하면 개발환경에 따라 유.. 2023. 6. 7.
[Numpy] 넘파이란? Numpy 설치방법과 주의할 점 Numpy 파이썬 라이브러리를 소개하고, 응용처와 설치방법을 알아봅니다. [ Contents ] 1. Numpy란? 넘파이는 '행렬 연산'에 특화된 라이브러리로, 대규모 다차원 배열을 빠르게 처리합니다. 파이썬 라이브러리지만, 내부는 C언어로 구현되어 있어 연산이 빠릅니다. 행렬 연산이 필요한 데이터 분석이나 AI에서 주로 사용하며, 없어서는 안 될 필수 라이브러리입니다. 넘파이가 있기 때문에 파이썬이 AI/데이터 분석 분야에서 크게 흥행할 수 있었다고 말해도 과언이 아닙니다. 덕분에 비싼 매트랩 라이선스를 이용하지 않고도, 비슷한 성능을 무료로 낼 수 있습니다. 2. Numpy 설치방법 !pip install numpy numpy는 파이썬 모듈이기 때문에, pip으로 설치할 수 있습니다. 다만, num.. 2022. 4. 8.