본문 바로가기

Data Visualization/Python Lib26

[Scipy] 분산분석(ANOVA, Analysis of Variance) 개념과 파이썬 활용 예제 알아보기 Scipy.stats 통계 패키지의 f_oneway를 이용해서 분산분석하는 예제를 살펴보고, ANOVA의 개념도 알아봅니다. [ Contents ] 1. 분산분석 (ANOVA, Analysis of Variance)3개 이상의 집단의 평균이 서로 같은지 검정 분산분석은 3개 이상의 집단 평균이 서로 같은지를 판별하는 검정입니다. 두 집단의 평균이 같은지는 T검정을 통해서 판별하며, 분산분석은 3개 이상의 집단을 대상으로 합니다. 2025.06.17 - [Data Visualization/Python Lib] - [Scipy] T-검정 개념 및 파이썬 활용 예시 알아보기 (ttest-1samp, ttest_ind, ttest_rel) [Scipy] T-검정 개념 및 파이썬 활용 예시 알아보기 (ttes.. 2025. 6. 17.
[Scipy] chisquare 카이제곱 적합도 검정, 범주형 변수 기대 분포 일치 여부 검정하기 scipy.stats 통계패키지의 chisquare를 이용하여 카이제곱 적합도 검정을 해봅니다. [ Contents ] 1. 카이제곱 적합도 검정한 범주형 변수의 관찰값이 기대 분포와 일치하는지 여부 검정 단일 범주형 변수에 대해 관찰값이 기대 분포(확률)와 일치하는지를 판별하는 검정입니다. 귀무가설(H0): 실제 관측 분포는 기대 분포와 같다.대립가설(H1): 실제 관측 분포는 기대 분포와 다르다. 귀무가설을 채택하면 관측 분포가 기대 분포와 같다고 볼 수 있으며, 유의수준 5%에서 p-value가 0.05보다 커야 합니다. 2. 활용 예제from scipy.stats import chisquare# 예: 동전 앞/뒤 100번 중 나온 횟수observed = [48, 52] .. 2025. 6. 17.
[Scipy] 카이제곱 독립성 검정 개념 및 chi2_contingency 사용 예제 Scipy.stats 통계 패키지에 chi2_contingency를 이용하여 범주형 변수의 독립성 검정 하는 방법을 알아봅니다. [ Contents ] 1. 카이제곱 독립성 검정두 범주형 변수 간의 독립 여부 판별 카이제곱 독립성 검정은 성별이나 국적과 같은 범주형 변수의 독립 여부를 판별합니다. 귀무가설(H0): 두 변수는 서로 독립이다.대립가설(H1): 두 변수는 서로 독립이 아니다. 귀무가설은 두 변수의 독립성을 가정하며, 유의수준 5%에서 p-value가 0.05보다 크면 두 변수는 서로 독립이라고 판별할 수 있습니다. 2. 활용 예제import pandas as pdfrom scipy.stats import chi2_contingency# 예시 데이터: 성별(gender)과 제품 구매(p.. 2025. 6. 17.
[Scipy] 등분산 검정 Levene Test, 파이썬 통계 패키지 이용해서 검정하는 방법 두 집단의 분산이 같은지 검정하는 걸 등분산 검정이라고 합니다. 대표적인 등분산 검정인 Levene test를 알아보고, 이를 파이썬 패키지를 이용해서 검정해보겠습니다. [ Contents ] 1. 등분산 검정 두 개 이상의 그룹이 같은 분산을 가지는지 검정 두 개 이상의 표본 집단의 분산이 서로 같은지를 판별하는 검정입니다. T 검정 등을 하기 전에 등분산 여부를 판별해야 하는 경우가 있으므로, 본 검정 전에 주로 시행합니다. 귀무가설(H0): 두 그룹의 분산이 같다.대립가설(H1): 두 그룹의 분산이 다르다. levene 레빈 검정에서 귀무가설은 등분산을 뜻하며, 유의수준 5%에서 p-value가 0.05보다 크면 귀무가설을 채택합니다. 즉, p-value가 0.05보다 커야 통계적으로 등분산이.. 2025. 6. 17.
[Scipy] 정규성 검정 개념 및 shapiro를 통한 파이썬 사용 예시 알아보기 파이선 Scipy.stats 패키지에서는 shapiro 샤피로 검정을 제공합니다. 정규성 검정이 무엇인지 살펴보고, 그 활용 예시도 알아봅니다. [ Contents ] 1. 정규성 검정 (normality Test)데이터가 정규성을 따르는지 검정 데이터가 정규분포를 이루는지 판별하는 검정입니다. 통계에서 정규성은 상당히 중요하며, 대부분의 이론이 정규성을 가정으로 하고 있죠. 물론 그 토대에는 중심극한정리가 있고, 표본 수가 크면 대체로 정규분포 형태를 가진다고 합니다. 귀무가설(H0): 데이터는 정규분포를 따른다대립가설(H1): 데이터는 정규분포를 따르지 않는다 정규성 검정에는 Shapiro-Wilk Test가 대표적이며, 위와 같은 가설 검증을 합니다. 아래에선 파이썬 패키지를 통해 예제 데이터.. 2025. 6. 17.
[Scipy] T-검정 개념 및 파이썬 활용 예시 알아보기 (ttest-1samp, ttest_ind, ttest_rel) 평균값 검정에 쓰이는 T 검정의 개념에 대해 알아보고, 이를 파이썬 Scipy.stats 라이브러리를 이용해서 시연해봅니다. [ Contents ] 1. T검정(T-test)두 집단(또는 한 집단과 기준값) 간의 평균 차이가 통계적으로 유의한지를 검정하는 통계적 방법 표본을 통해 모집단의 평균을 추정할 때 T 검정을 합니다. 특정 값 또는 특정 집단과의 평균 차이가 어느 정도 되는지를 T 검정을 통해서 가름할 수 있습니다. 1) 가설 설정귀무가설(H0) : 두 평균의 차이는 없다.대립가설(H1) : 두 평균의 차이가 있다. 유의수준 5%에서 p-value 값이 0.05보다 작으면 귀무가설을 기각하여, 평균 차이가 있다고 볼 수 있습니다. 반대로 0.05보다 크면 귀무가설을 채택하여 통계적으로 .. 2025. 6. 17.
[Pandas] map 이용해서 데이터프레임 그룹 통계 열 추가하기 Pandas map을 이용해서 groupby를 통해 생성한 그룹 통계를 열에 추가하는 방법을 알아봅니다. [ Contents ] 1. mapSeries.map(함수 또는 dict 또는 Series) map은 groupby로 생성한 그룹 통계나 함수 등을 매핑할 때 사용합니다. 단순 설명으로는 이해가 쉽지 않으니, 아래 예제를 통해 알아보겠습니다. 2025.06.07 - [Data Visualization/Python Lib] - [Pandas] 데이터셋 그룹 집계함수 groupby 사용법 (평균, 합계, 개수, 최대, 최소) [Pandas] 데이터셋 그룹 집계함수 groupby 사용법 (평균, 합계, 개수, 최대, 최소)판다스에서 groupby 집계함수를 사용해서 평균, 합계, 개수, 최대, 최소, .. 2025. 6. 17.
[Pandas] transform 이용해서 groupby 집계별 연산결과 덧붙이기 판다스의 transform 함수를 이용해서 groupby로 도출한 집계 결과별 연산 결과를 덧붙이는 방법을 알아봅니다. [ Contents ] 1. transformdf.groupby('기준컬럼')['타겟컬럼'].transform(함수) transfrom은 groupby와 함께 쓰이는 함수입니다. 기존에는 groupby('기준칼럼')['타겟컬럼'].집계함수() 방식으로 집계결과를 따로 도출하곤 했습니다. 하지만 transform은 기존 행에 집계 결과를 덧붙일 수 있습니다. 이는 아래 예시를 통해서 자세히 알아봅니다. 2. 활용 예시import pandas as pddf = pd.DataFrame({ '부서': ['영업', '영업', '인사', '인사', '개발', '개발'], '이름'.. 2025. 6. 17.
[Pandas] 데이터프레임 행 열마다 함수 연산 적용하는 방법 (apply 활용) apply를 이용해서 판다스에서 데이터프레임 또는 시리즈 데이터에 함수를 적용할 수 있습니다. 해당 함수를 사용하는 방법을 예제와 함께 다룹니다. [ Contents ] 1. apply함수DataFrame.apply(func, axis=0) # axis=0이면 열(column) 기준DataFrame.apply(func, axis=1) # axis=1이면 행(row) 기준 apply는 '적용하다'라는 뜻처럼, 데이터에 함수 연산을 적용해서 원하는 값을 도출해낼 수 있습니다. axis 파라미터 생략 시, 기본값을 열 기준(axis=0)으로 세팅됩니다. 보통 통계적 수치는 열 기준으로 잡을 때가 많죠. 2. 활용 예제import pandas as pddf = pd.DataFrame({ '1과목.. 2025. 6. 16.