2 minute read

4과목 데이터분석

1. 확률 분포

이산확률분포 VS 연속확률분포

이산형 연속형
-이항분포
-베르누이분포
-다항분포
-포아송분포
-균등분포
-정규분포
-지수분포
-t분포
-F분포
-카이제곱분포

이산형 확률분포


1) 베르누이 확률분포

$P(X = x)=p^x\cdot(1-p)^{1-x}$

$E(x)=p, var(x)=p(1-p)$

  • 2가지 결과만 발생

  • ex : 동전 던지기, 시험의 합격 여부

2) 이항분포

$P(X = k)=_nC_kp^k(1-p)^{n-k}$

$_nC_k=\frac{n!}{k!(n-k)!}$

$x$ ~ $B(n,p)$

$E(x)=np$

$var(x)=np(1-p)$

  • 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
  • 가정
    • n의 값은 미리 정해져있다
    • 매 번의 시행은 상호 독립
    • p는 매 시행마다 동일
  • 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 정규분포에 가까워진다 (p=1/2일 경우 종모양)

3) 기하분포

$P(x) = p(1-p)^{k-1}$

  • 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률

4) 다항분포

  • 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포 (이항분포 확장)

5) 포아송분포

  • 시간, 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
    ex) 가게에 손님이 1시간에 20명씩 방문한다고 할 때, 10분에 손님 5명이 방문할 확률

$\lim_{n \to \infty}$ $_nC_y $ $P^y (1-p)^{n-y}= \frac{\lambda^y}{y!}e^{-\lambda}$

$\lambda$ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값
$y$ = 사건이 일어난 수

연속형 확률분포

1) 균일분포(일양분포, Uniform distribution)

  • 모든 확률 변수 $x$가 균일한 확률을 가지는 확률 분포
    $E(X)=\frac{a+b}{2}$
    $Var(X)=\frac{(b-a)^2}{12}$

2) 정규분포(Normal distribution)

  • 평균이 $\mu$ 이고, 표준편차가 $\sigma$ 인 $x$의 확률밀도 함수
  • 표준편차가 클 경우 퍼져보이는 그래프
  • 정규분포 따르고, 표본 개수 주고 X 이하일 확률 구하는 문제
    $ \frac{X-\mu}{\frac{\sigma}{\sqrt{n}}}$ 위 수식으로 정규분포 수치로 변환 후 확률 구하면 됨 !

3) 지수분포(Exponential distribution)

  • 어떤 사건이 발생할 때 까지 경과한 시간에 대한 연속확률분포
  • 시간은 연속적이기 때문인듯하다 🤔
    ex) 전자레인지 수명시간, 콜센터 전화 걸려올 때까지 시간, 은행에 고객에 내방하는데 걸리는 시간, 정류소에서 버스가 올 때까지의 시간

4) t-분포(t-distribution)

📌 두 집단의 평균의 동일 여부 판별할 때 검정통계량으로 사용

  • 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포
  • 표본의 크기가 적을 때 : 표준정규분포를 위에서 눌러 놓은 것과 같은 형태
    하지만, 표본이 (30개 이상) 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포가 됨
  • 자유도가 30미만인 경우 표준정규분포에 비해 양쪽 끝이 평평하고 두터운 꼬리 모양
  • 데이터가 연속일 때 활용

5) $\chi^2$-분포 (카이제곱분포)

📌 두 집단 간의 동질성 검정

  • 단, 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
  • 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용
    ex) 음… 예상한 값과 트루 관측값에 대해 가설 검정 단 ! 모집단 모평균 뭐 어떤거 따르는지 몰라 ~

  • 확률변수 $X$가 표준정규분포($Z$)를 따를 때, 자유도가 $k$인 카이제곱분포를 따른다.
  • 자유도는 표본 자료 중 모집단에 대한 정보를 주는 독립적인 표본 자료의 수와 같으며, 분할표에서의 행과 열의 개수를 통해서 구할 수 있음
    🤔 위 말을 다시 해석하자면, 자유도란, 모집단에 대한 정보를 주는데 샘플 하나가 추출 되었다고 해서 다른 샘플에 전~~~~혀 영향을 주지않는 샘플의 개수 !

    ex) 5개 카드 중 순서나열할 때 4개 카드만 순서 정하면 나머지 한개 카드는 자동으로 꼴등 당첨 ! 자유도 : n-1 기억나냐
  • 자유도(df)=(r-1)(c-1), r=행의 개수, c=열의 개수

6) F-분포 (F-distribution)

📌 두 집단 간의 ✨분산✨의 동질성 검정

  • 단, 확률변수는 항상 양의 값만 갖고 $\chi^2$ 분포와 달리 자유도를 2개 가지고 있으며, 자유도가 커질 수록 정규분포에 가까워진다.
  • 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속 확률 분포
  • 두가지 이상의 표본집단 분산 비교, 모집단 분산 추정할 때 사용
  • 2개 이상의 표본평균들이 동일한 모집단에서 추출인지, 아니면 서로 다른 모집단인지 ?