본문 바로가기

Data Visualization11

[Pandas] 데이터프레임 칼럼 타입 변경 astype 판다스에서는 칼럼의 타입을 바꿀 때 astype를 사용합니다. 그 예제를 살펴봅니다. [ Contents ] 1. astype df['col'].astype astype로 자료형을 바꿀 수 있습니다. 다만 바꿀 수 없는 타입일 경우에는 오류가 뜹니다. 예를 들어 문자열을 숫자형으로 바꿀 수는 없겠죠. 2023. 6. 18.
[Pandas] 정렬 및 추출 후 인덱스를 정렬, 정리하는 reset_index 판다스에서 인덱스를 새로 부여하는 reset_index에 대해서 알아보겠습니다. 데이터를 정렬하거나 추출하면 기존 인덱스와 순번이 맞지 않게 되죠. 이걸 정리하는 방법을 살펴봅니다. [ Contents ] 1. reset_index df.reset_index() 정렬 혹은 추출된 데이터의 순서대로 인덱스를 다시 부여하는 함수입니다. 왼쪽 끝에 0 1 2 3 4 가 인덱스입니다. index 칼럼도 새로 생기는데, 이는 예전 index를 백업해둔 칼럼입니다. 2. reset_index(drop=True) df.reset_index(drop=True) 만약 인덱스를 백업해둘 필요가 없다면, drop=True 인자를 추가해주면 됩니다. drop=True를 하면, index 칼럼 없이 새로 index가 부여됩니다. 2023. 6. 18.
[Pandas] 데이터프레임 정보 및 기초통계량 파악: info(), describe() 판다스 데이터셋의 정보 및 기초통계량을 알아보는 함수, info와 describe에 대해서 살펴봅니다. [ Contents ] 1. 데이터셋 정보, info df.info() info함수는 각 칼럼의 데이터 타입과 데이터 수를 반환합니다. info를 통해 각 칼럼별 데이터 타입을 확인하고, 알맞은 전처리 작업을 수행할 수 있습니다. 또한 칼럼별 Non-Null Count도 제공하므로, 결측치도 쉽게 찾아낼 수 있습니다. 위 데이터셋에서는 'choice_description' 칼럼에 결측치가 있으며 이에 대해 알맞은 조치를 취해야 합니다. 2023.06.16 - [Data Visualization/Python Lib] - [Pandas] 데이터셋의 결측치를 구하고 처리하는 방법 (isnull, dropna.. 2023. 6. 16.
[Pandas] 데이터셋의 결측치를 구하고 처리하는 방법 (isnull, dropna, fillna) 판다스에서 데이터셋의 결측치를 구하고 이를 처리하는 방법을 알아봅니다. 또한 결측치란 무엇이고, 이에 대한 처리가 왜 중요한지도 알아봅니다. [ Contents ] 1. 결측치(missing value) 비어있거나 존재하지 않는 값 결측치는 영어로 missing value로, 누락된 값을 뜻합니다. 데이터셋에서는 null이라고 표시되며, 흔히 널값이라고 부릅니다. 2. 결측치 확인 DataFrame.isnull() 데이터셋 내 결측치는 isnull() 함수로 확인합니다. isnull()함수는 null값은 True, 정상값은 False로 반환합니다. DB에서 null값이 항상 문제가 되듯이, 데이터분석에서도 결측치는 문제가 됩니다. 따라서 전처리 과정에서 결측치는 반드시 제거되어야 하며, 이를 위한 방법에.. 2023. 6. 16.
[Pandas] 데이터셋의 특정 타입 열만 조회하는 select_dtypes 판다스(Pandas)의 데이터프레임에서 Type을 기준으로 열을 조회하는 select_dtypes에 대해 알아보겠습니다. [ Contents ] 1. select_dtypes DataFrame.select_dtypes(include, exclude) 특정 타입을 가진 열만 조회할 수 있는 함수입니다. dtypes는 data type의 준말로, select_dtypes는 함수 기능 그대로 특정 타입을 조회한다는 뜻입니다. 찾고자 하는 데이터타입은 include로, 제외하고자 하는 데이터타입은 exclude로 지정합니다. 2. 데이터프레임 데이터타입(dtypes) 1. 숫자형: 'number' 2. 문자형: 'object' 3. 날짜/시간: 'datetime' 4. 범주형: 'category' 판다스의 데이.. 2023. 6. 15.
[Pandas] 데이터셋의 특정 행과 열을 추출하는 loc, iloc 함수 (feat. 조건식) pandas의 데이터프레임에서 특정 조건의 행열을 뽑아내는 함수는 loc와 iloc가 있습니다. loc가 칼럼명을 사용한 조건으로 탐색한다면, iloc는 index loc로 인덱스로 탐색합니다. 두 방식의 차이점에 대해 자세히 알아보겠습니다. [ Contents ] 1. loc df.loc[n:m, 'col1':'col2'] loc는 location의 준말로, 특정 위치에 있는 데이터를 찾아주는 함수입니다. 리스트 슬라이싱처럼 df.loc[n:m]은 n행부터 m행까지 추출해줍니다. 2022.04.10 - [PL (Programming Language)/Python] - [Python] 리스트(List)란? 리스트 인덱싱(indexing)과 슬라이싱(slicing) [Python] 리스트(List)란? 리.. 2023. 6. 15.
[Pandas] 데이터셋의 행과 열의 개수 확인 shape 판다스의 데이터프레임에서 행과 열의 크기를 보려면 shape 를 사용합니다. 이에 대해 알아보겠습니다. [ Contents ] 1. shape shape는 단어 그대로 데이터프레임의 틀(모양) 정보를 담고 있습니다. 데이터프레임은 행과 열로 이루어진 테이블 형식으로 데이터를 저장하므로 (행, 열)로 표시됩니다. 2. 데이터프레임 행, 열 확인 df.shape의 타입을 살펴보면 tuple입니다. 따라서 인덱스로 접근해서 행이나 열만 알아볼 수도 있습니다. df.shape[0]은 행의 개수, df.shape[1]은 열의 개수입니다. 2023. 6. 12.
[Pandas] 엑셀파일 데이터셋으로 불러오기 (ft. 홈 디렉토리 확인) 판다스에서 엑셀 파일을 데이터프레임으로 불러오는 방법을 소개합니다. 또한 잘못된 파일경로를 입력하지 않도록, 홈 디렉토리를 찾는 방법도 알아봅니다. [ Contents ] 1. 데이터셋 불러오기 import pandas as pd data = pd.read_csv('data/example.csv') csv파일을 pandas의 DataFrame으로 불러오는 함수입니다. csv파일은 ','(콤마, comma) 를 구분자로 나열된 엑셀파일입니다. 일반적인 xlsx 형식과는 다르므로, 해당 파일형식으로 바꾼 뒤 사용하시기 바랍니다. 2. 유효한 파일경로 찾기 pd.read_csv(파일경로) 머신러닝이나 딥러닝, 데이터 시각화를 처음 배우는 사람들이 가장 어려워하는 부분이기도 합니다. 왜냐하면 개발환경에 따라 유.. 2023. 6. 7.
[Tableau/태블로] 태블로란? 태블로 다운로드 및 온라인 사용법 태블로는 강력한 데이터 시각화 도구입니다. 쉽고 간단하지만, 활용도가 무궁무진하고 퀄리티도 상당히 좋습니다. 이 글에서는 태블로에 대해서 알아보고, 무료로 설치하고 이용하는 방법을 소개하겠습니다. [ Contents ] 1. 태블로(Tableau) 태블로는 최근 각광받고 있는 데이터 시각화 툴입니다. 코딩 없이, 클릭 & 드래그만으로도 멋있는 시각화 자료를 만들 수 있습니다. 이 때문에 데이터 분석 및 마케팅 쪽에서는 '엑셀'만큼 필수적인 도구가 되었습니다. 많은 기업의 채용 우대사항에서도 '태블로 사용경험'을 볼 수 있으며, 현직자들도 많이 배우는 추세입니다. 하지만, 태블로는 '유료' 프로그램입니다. 따라서 개인도 라이선스 비용을 지불해야 데스크톱 버전을 사용할 수 있습니다. 그렇지만 아예 방법이 없.. 2022. 4. 10.