통계 2022. 2. 7. 21:30

n [ ]:

# 만 위트니 U검정: 두 모집단의 표본의 갯수가 다를 때 사용 
#  두 모집단의 중앙값이 동일한지 여부를 검정

In [2]:

import numpy as np
import pandas as pd
from scipy import stats

In [7]:

df=pd.read_csv('./data/ch11_training_ind.csv')
df1=df[:5].copy()
df1

Out[7]:

In [10]:

#값이 작은 순서대로 순위 부여
rank =stats.rankdata(np.concatenate([df1['A'],df1['B']]))
rank_df=pd.DataFrame({'A':rank[:5],'B':rank[5:10]}).astype(int)
rank_df

Out[10]:

In [11]:

#u검정의 검정통계량은 A에 관한 순위합에서 A의 크기를 n1로 해서 n1(n1+1)/2을 뺀 것
n1=len(rank_df['A'])
u= rank_df['A'].sum()-(n1*(n1+1))/2
u

Out[11]:

7.0

In [12]:

rank_df =pd.DataFrame(np.arange(1,11).reshape(2,5).T,columns=['A','B'])
rank_df

Out[12]:

In [13]:

u = rank_df['A'].sum() -(n1*(n1+1))/2
u
#a에 좋은 순위가 모여있어서 0, 나쁜 순위가 모여 있으면 값이 커짐

Out[13]:

0.0

In [14]:

u,p =stats.mannwhitneyu(df['A'],df['B'],alternative='two-sided')
p
#귀무가설 채택

Out[14]:

0.05948611166127324

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

인기포스트

hyunjungscoding hyunjungscoding