반응형
판다스 데이터셋의 정보 및 기초통계량을 알아보는 함수, info와 describe에 대해서 살펴봅니다.
[ Contents ]
1. 데이터셋 정보, info
df.info()
info함수는 각 칼럼의 데이터 타입과 데이터 수를 반환합니다.
info를 통해 각 칼럼별 데이터 타입을 확인하고, 알맞은 전처리 작업을 수행할 수 있습니다.
또한 칼럼별 Non-Null Count도 제공하므로, 결측치도 쉽게 찾아낼 수 있습니다. 위 데이터셋에서는 'choice_description' 칼럼에 결측치가 있으며 이에 대해 알맞은 조치를 취해야 합니다.
2. 데이터셋 기초통계량, describe
df.describe()
describe함수는 데이터셋의 기초통계량을 집계합니다.
각 컬럼별 개수, 평균, 표준편차, 최소/최대, 사분위 수를 구해줍니다.
위 통계량은 데이터셋의 정량적인 분석(EDA)을 할 때 주로 살펴보는 중요한 특성입니다.
반응형
'Data Visualization > Python Lib' 카테고리의 다른 글
[Pandas] 데이터프레임 칼럼 타입 변경 astype (0) | 2023.06.18 |
---|---|
[Pandas] 정렬 및 추출 후 인덱스를 정렬, 정리하는 reset_index (0) | 2023.06.18 |
[Pandas] 데이터셋의 결측치를 구하고 처리하는 방법 (isnull, dropna, fillna) (0) | 2023.06.16 |
[Pandas] 데이터셋의 특정 타입 열만 조회하는 select_dtypes (0) | 2023.06.15 |
[Pandas] 데이터셋의 특정 행과 열을 추출하는 loc, iloc 함수 (feat. 조건식) (0) | 2023.06.15 |
댓글