ADP 필기
4과목 데이터분석
1. 확률 분포
이산확률분포 VS 연속확률분포
이산형 | 연속형 |
---|---|
-이항분포 -베르누이분포 -다항분포 -포아송분포 |
-균등분포 -정규분포 -지수분포 -t분포 -F분포 -카이제곱분포 |
이산형 확률분포
1) 베르누이 확률분포
$P(X = x)=p^x\cdot(1-p)^{1-x}$
$E(x)=p, var(x)=p(1-p)$
-
2가지 결과만 발생
-
ex : 동전 던지기, 시험의 합격 여부
2) 이항분포
$P(X = k)=_nC_kp^k(1-p)^{n-k}$
$_nC_k=\frac{n!}{k!(n-k)!}$
$x$ ~ $B(n,p)$
$E(x)=np$
$var(x)=np(1-p)$
- 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 가정
- n의 값은 미리 정해져있다
- 매 번의 시행은 상호 독립
- p는 매 시행마다 동일
- 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 정규분포에 가까워진다 (p=1/2일 경우 종모양)
3) 기하분포
$P(x) = p(1-p)^{k-1}$
- 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
4) 다항분포
- 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포 (이항분포 확장)
5) 포아송분포
- 시간, 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
ex) 가게에 손님이 1시간에 20명씩 방문한다고 할 때, 10분에 손님 5명이 방문할 확률
$\lim_{n \to \infty}$ $_nC_y $ $P^y (1-p)^{n-y}= \frac{\lambda^y}{y!}e^{-\lambda}$
$\lambda$ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값 |
$y$ = 사건이 일어난 수 |
연속형 확률분포
1) 균일분포(일양분포, Uniform distribution)
- 모든 확률 변수 $x$가 균일한 확률을 가지는 확률 분포
$E(X)=\frac{a+b}{2}$
$Var(X)=\frac{(b-a)^2}{12}$
2) 정규분포(Normal distribution)
- 평균이 $\mu$ 이고, 표준편차가 $\sigma$ 인 $x$의 확률밀도 함수
- 표준편차가 클 경우 퍼져보이는 그래프
- 정규분포 따르고, 표본 개수 주고 X 이하일 확률 구하는 문제
$ \frac{X-\mu}{\frac{\sigma}{\sqrt{n}}}$ 위 수식으로 정규분포 수치로 변환 후 확률 구하면 됨 !
3) 지수분포(Exponential distribution)
- 어떤 사건이 발생할 때 까지 경과한 시간에 대한 연속확률분포
- 시간은 연속적이기 때문인듯하다 🤔
ex) 전자레인지 수명시간, 콜센터 전화 걸려올 때까지 시간, 은행에 고객에 내방하는데 걸리는 시간, 정류소에서 버스가 올 때까지의 시간
4) t-분포(t-distribution)
📌 두 집단의 평균의 동일 여부 판별할 때 검정통계량으로 사용
- 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포
- 표본의 크기가 적을 때 : 표준정규분포를 위에서 눌러 놓은 것과 같은 형태
하지만, 표본이 (30개 이상) 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포가 됨 - 자유도가 30미만인 경우 표준정규분포에 비해 양쪽 끝이 평평하고 두터운 꼬리 모양
- 데이터가 연속일 때 활용
5) $\chi^2$-분포 (카이제곱분포)
📌 두 집단 간의 동질성 검정
- 단, 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
-
범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용
ex) 음… 예상한 값과 트루 관측값에 대해 가설 검정 단 ! 모집단 모평균 뭐 어떤거 따르는지 몰라 ~ - 확률변수 $X$가 표준정규분포($Z$)를 따를 때, 자유도가 $k$인 카이제곱분포를 따른다.
- 자유도는 표본 자료 중 모집단에 대한 정보를 주는 독립적인 표본 자료의 수와 같으며, 분할표에서의 행과 열의 개수를 통해서 구할 수 있음
🤔 위 말을 다시 해석하자면, 자유도란, 모집단에 대한 정보를 주는데 샘플 하나가 추출 되었다고 해서 다른 샘플에 전~~~~혀 영향을 주지않는 샘플의 개수 !
ex) 5개 카드 중 순서나열할 때 4개 카드만 순서 정하면 나머지 한개 카드는 자동으로 꼴등 당첨 ! 자유도 : n-1 기억나냐 - 자유도(df)=(r-1)(c-1), r=행의 개수, c=열의 개수
6) F-분포 (F-distribution)
📌 두 집단 간의 ✨분산✨의 동질성 검정
- 단, 확률변수는 항상 양의 값만 갖고 $\chi^2$ 분포와 달리 자유도를 2개 가지고 있으며, 자유도가 커질 수록 정규분포에 가까워진다.
- 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속 확률 분포
- 두가지 이상의 표본집단 분산 비교, 모집단 분산 추정할 때 사용
- 2개 이상의 표본평균들이 동일한 모집단에서 추출인지, 아니면 서로 다른 모집단인지 ?