통계
-
[통계] 선형대수통계 2022. 9. 19. 03:16
스칼라: 숫자 하나로 이루어진 데이터 - 방향은 없지만, 실수 공간에서 크기를 나타내는 값 -행과 열의 수가 각각 1인 행렬 벡터: 여러 숫자로 이루어진 데이터 레코드 - n 차원 공간에서 방향과 크기를 갖는 단위 특징벡터: 데이터 벡터가 예측 문제에서 입력 데이터로 사용되는 것 예를 들어 붓꽃 표본 한송이 꺾어 측정했더니 꽃받침 길이가 5.1cm, 꽃받침 폭이 3.5cm, 꽃잎 길이1.4cm, 꽃잎 폭이 0.2cm이고, 이를 붓꽃 종을 결정하는데 사용한다면 특징벡터라 함 행렬: 벡터, 즉 데이터 레코드가 여럿인 데이터 집합 붓꽃 데이터에서 붓꽃 6송이에 대해 꽃잎과 꽃받침 크리를 결정했다면 4차원의 붓꽃 데이터는 6개. 즉 4*6 =24개의 실수 숫자가 있는 것. 벡터는 열의 수가 1인 행렬이라 볼 수..
-
[통계지식]확률변수와 상관관계-1통계 2022. 9. 19. 03:00
1. 결정론적 데이터 : 언제 누가 얻더라도 항상 같은 값 ex) 환자의 생년월일 2. 확률적 데이터 : 방문 할 때 마다 다른 값, 정확히 예측할 수 없는 값 ex) 혈압 , 체온 - 분포: 확률적 데이터에서 어떠한 값이 자주 나오고 어떠한 값이 드물게 나오는가 나타내는 정보 - 기술통계: 분포를 표현하는 또다른 방법은 분포의 특징을 나타내는 여러 가지 숫자를 계산하여 그 숫자로서 분포를 나타내는 것 ex) 표본평균, 표본중앙값, 표본최빈값, 표본분산, 표본표준편차, 표본왜도, 표본첨도 이산확률변수 : 확률변숫값이 연속적이지 않고 떨어져 있도록 정의할 수 있으면 이산확률변수라 한다 연속확률변수: 모든 표본이 실수인 숫자로 변한다면 모든 사건은 구간사건의 조합으로 표시 -주사위를 던지는 실험( 1부터 6..
-
[선형대수]미적분통계 2022. 6. 15. 15:58
미분 : 최적화를 하기 위해서는 입력값이 변했을 때 함수의 출력값이 어떻게 달라지는지를 정량적으로 알아야 함 함수의 그래프상에 있는 한 점을 줌심으로 그래프를 무한히 확대해 보면 그래프의 모양이 직선에 가까워지는데 이때의 기울기를 미분이라고 한다. 이 직선은 같은 점을 기준으로 그린 그래프의 접선과 같다. 신명망에서 미분의 필요성 : https://gggggeun.tistory.com/120 https://gggggeun.tistory.com/121 미분 개념 : https://www.youtube.com/watch?v=kMZ3RJEaLE4 접선의 방정식 함수 f(x)에서 x의 값을 dx만큼 변화시켰을 때 f(x)의 변화량 (f(x+dx)-f(x))는 f'(x)dx와 같다. 미분 : y=f(x)라는 그래..
-
[선형대수]함수통계 2022. 6. 15. 13:06
※ 부호함수 : 양수이면 1, 음수이면 -1, 0이면 0 import numpy as np np.sign(-0.0001), np.sign(0), np.sign(0.001) [out] (-1.0, 0, 1.0) Q. 평균이 10, 표준편차가 3인 정규분포의 확률밀도함수(pdf)를 그래프로 표현 from scipy import stats import matplotlib.pyplot as plt x_plot = np.arange(1,20,0.1) plt.plot(x_plot,stats.norm.pdf(x=x_plot,loc=10,scale=3), color='black') Q. 평균이 1, 표준편차가 2인 정규분포의 누적분포함수를 그래프로 표현 x_plot = np.arange(-3,8,0.1) plt.plo..
-
[3-4]카이제곱 검정통계 2022. 2. 7. 21:59
[ ]: #카이 제곱 검정은, 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검증하는 통계 검정 방법이다. #주로 범주형 자료로 구성된 데이터 분석에 이용된다. #핵심은 두 범주형 변수가 서로 상관이 있는 지 혹은 독립 관계인지 이다 In [3]: import pandas as pd import numpy as np from scipy import stats In [4]: df= pd.read_csv('./data/ch11_ad.csv') n=len(df) print(n) df.head() 1000 Out[4]: 광고 구입 0 B 하지 않았다 1 B 하지 않았다 2 A 했다 3 A 했다 4 B 하지 않았다 In [5]: # 각각의 광고를 통해 어느 정도의 상품을 구매했는지 알 수 없음으로 교차집계표(..
-
[3-3]만 위트니의 U검정통계 2022. 2. 7. 21:30
n [ ]: # 만 위트니 U검정: 두 모집단의 표본의 갯수가 다를 때 사용 # 두 모집단의 중앙값이 동일한지 여부를 검정 In [2]: import numpy as np import pandas as pd from scipy import stats In [7]: df=pd.read_csv('./data/ch11_training_ind.csv') df1=df[:5].copy() df1 Out[7]: A B 0 47 49 1 50 52 2 37 54 3 60 48 4 39 51 In [10]: #값이 작은 순서대로 순위 부여 rank =stats.rankdata(np.concatenate([df1['A'],df1['B']])) rank_df=pd.DataFrame({'A':rank[:5],'B':rank[..
-
[3-2] 윌콕슨의 부호순위 검정통계 2022. 2. 7. 21:19
import numpy as np import pandas as pd In [1]: # Wilcoxon 검정이란 모집단이 정규성을 만족하지 못할 때 사용 # 두 모집단이 서로 연관성을 가진다면,윌콕슨 부호 순위 검정을 # 두 모집단이 서로 독립이라면, wilcoxon rank sumtest 혹은 Mann - Whitney test 검정 방법사용 # 윌콕슨부호순위검정 # 두 그룹의 평균이 같은지 여부를 비교하는 비모수적 분석 방법 In [4]: # 1.두 그룹간 차이를 구한다 df= pd.read_csv('./data/ch11_training_rel.csv') df1=df[:6] df1 Out[4]: 전 후 0 59 41 1 52 63 2 55 68 3 61 59 4 59 84 5 45 37 In [5]:..
-
[3-1]통계적 가설검정통계 2022. 2. 7. 21:06
In [2]: #통계적 가설검정 import numpy as np import pandas as pd from scipy import stats In [5]: df= pd.read_csv('./data/ch11_potato.csv') df.head() Out[5]: 무게 0 122.02 1 131.73 2 130.60 3 131.82 4 132.05 In [6]: s_mean=np.mean(df) s_mean Out[6]: 무게 128.450714 dtype: float64 In [19]: # 통계적 가설검정이란 모집단의 모수에 관하여 두가지 가설을 세우고 표본으로부터 계산되는 #통계량을 이용해 어느 가설이 옳은지 판단 rv=stats.norm(130,np.sqrt(9/14)) rv.isf(0.95) #..