Intro
확률변수가 취할 수 있는 모든 값이 유한개로 셀 수 있을 때, 해당 확률변수로 이루어진 확률분포를 이산형 확률분포라고 합니다.
오늘은 이산형 확률분포인 이산형 균일분포, 이항분포, 포아송 분포에 대해서 정리하겠습니다.
이산형 균일분포
확률변수가 취할 수 있는 모든 값이 나올 확률이 동일한 경우의 분포를 균일분포라고 합니다.
확률변수가 취할 수 있는 값의 모든 경우의 수가 $k$이면, 각 값이 발견될 확률은 $\frac{1}{k}$이 됩니다. 주사위나 동전을 던졌을 때 각 값이 나오는 경우를 예로 들 수 있겠네요.
이산형 균일분포의 평균과 분산은 아래와 같습니다.
$$\mu = \frac{1}{k}\sum_{i=1}^{k}x_i\qquad\sigma^2 = \frac{1}{k}\sum_{i=1}^{k}(x_i-\mu)^2$$
이항분포
한 번 시행할 때 마다 성공 혹은 실패, 1 또는 0의 값을 갖는 작업이 있다고 해보겠습니다. 이 작업은 동전 던지기, 수술 성공 여부, 사용자의 상품 구매 여부 등 여러가지 상황으로 볼 수 있습니다.
각 시행은 독립이고, 매 시행의 성공확률이 동일한 상수일 때, 우리는 각 시행을 베르누이 시행(Beronoulli trial)이라고 하고, 이 시행을 반복하는 과정을 베르누이 과정(Bernoulli process)라고 합니다.
$n$번의 베르누이 시행을 진행했을 때 성공 (또는 1) 횟수 $X$를 이항확률변수(binomial random variable)라고 합니다. 그리고 $X$의 확률분포를 이항분포(binomial distribution)라고 합니다.
이항분포는 $b(x;n,p)$로 표현할 수 있는데요, 성공확률이 $p$인 베르누이 시행을 $n$번 했을 때, 성공 횟수 $x$의 확률분포(이항분포)를 의미합니다.
$x$번 성공한다는 것은 곧 $n-x$번 실패한다는 뜻이고, 이는 $x$번 성공하고 $n-x$번 실패할 확률과 같습니다. 이때 성공과 실패의 순서는 상관이 없습니다. 따라서 이항분포의 각 $x$의 확률은 아래와 같이 구할 수 있습니다.
$$b(x;n,p)={n \choose x}p^xq^{n-x}$$
$${n \choose x}=\frac{n!}{x!(n-x)!},\ q=1-p$$
이산형 균일분포의 평균과 분산은 아래와 같습니다.
$$\mu = np\qquad\sigma^2 = npq$$
음이항분포
이항분포에서는 성공확률이 $p$인 베르누이 시행을 $n$번 했을 때, 성공 횟수가 $x$번일 확률을 계산할 수 있었습니다.
하지만 우리는 $\alpha$번째 성공이 $x$번째 시행에서 일어날 확률을 알고싶을 수 있습니다. 한화 이글스가 5번째 경기에서 2번째 승리를 할 확률 같은거죠.
이런 종류의 실험을 음이항실험(negative binomial experiments)이라 합니다. 이때 $\alpha$번째 성공이 이루어질 때 까지의 시행 횟수 $x$를 음이항확률변수(negative binomial random variable), $x$의 확률분포가 음이항분포(negative binomial distribution)입니다.
한화 이글스가 매 경기에서 승리할 확률이 $\frac{1}{5}$라고 가정했을 때, 5번의 경기중 2번 승리할 확률은 아래와 같습니다.
$$b(2;5,\frac{1}{5})={5 \choose 2}(\frac{1}{5})^2(\frac{4}{5})^3=0.2048$$
하지만 5번째 경기에서 2번째 승리를 할 확류은 조금 다릅니다. 5번째 경기에서는 승리를 하고, 앞의 4경기에서는 아무때나 1번만 승리하면 됩니다.
따라서 모든 시행의 성공과 실패 순서를 고려하지 않은 이항분포와는 달리, 음이항분포에서는 $x$번째 성공을 제외한 이전의 $\alpha-1$번의 시행에 대해서만 순서를 고려하지 않습니다.
결과적으로 음이항분포는 아래와 같습니다.
$$b^*(x;\alpha,p)={x-1 \choose {\alpha-1}}p^{\alpha}q^{x-\alpha}$$
음이항분포를 이용해서 한화 이글스가 5번째 경기에서 2번째 승리를 할 확률을 계산해보면 아래와 같습니다.
$$b^*(5;2,\frac{1}{5})={4 \choose 1}(\frac{1}{5})^2(\frac{4}{5})^3=0.08192$$
$\alpha$가 1인 특수한 경우를 기하분포(geometric distribution)라고 하는데요, 이는 첫 번째 성공이 발생할 때 까지의 시행횟수 $x$의 확률분포 입니다.
기하분포 $g$의 모양, 평균, 분산은 아래와 같습니다.
$$g(x;p)=b^*(x;1,p)=pq^{x-1}\qquad\mu=\frac{1}{p}\qquad\sigma^2=\frac{1-p}{p^2}$$
포아송 분포
포아송 실험(Poisson experiments)는 일정한 시간간격 동안 (또는 일정 범위 내에서) 발생하는 사건의 수를 나타내는 확률변수 $X$ 값을 산출하는 실험입니다. 주로 일정한 시간내에 관찰하고자 하는 사건이 몇 번 발생하는지를 모델링하는데 사용됩니다.
포아송 실험은 포아송 과정(Poisson process)로부터 유도되는데, 포아송 과정은 아래와 같은 성질을 갖고있습니다.
- Memoryless: 단위 시간이나 일정 영역에서 발생하는 결과의 수는 서로 겹치지 않는 다른 시간간격이나 영역에서 발생하는 수와 독립이다.
- 매우 짧은 시간간격이나 작은 영역에서 단 한 번의 결과가 일어날 확률은 시간간격의 길이나 영역의 크기에 비례하며, 그 시간간격이나 영역외부에서 발생하는 결과의 수와는 무관하다.
- 매우 짧은 시간간격이나 작은 영역에서 두 번 이상의 사건이 발생할 확률은 무시할 수 있다. (매우 작다)
위의 성질을 갖는 사건을 포아송 사건이라고 합니다. 1번 성질 (Memoryless)을 이해하는 것이 중요합니다. 이해를 위해 예시를 들어볼게요.
5분에 1번 정도 발생하는 사건이 있습니다(공정 불량, 웹 사이트 방문 등). 그리고 5분 동안 몇 번의 사건이 발생하는지 관찰을 시작해봅니다.
만약 2분만에 놀랍게도 3번의 사건이 발생했다고 했을 때, 남은 3분 동안의 사건 발생 횟수는 어떻게 될까요?
Memoryless 성질은 앞의 2분 동안 몇 번의 사건이 발생했든, 남은 3분 동안의 사건 발생에는 아무런 영향을 주지 않는다는 겁니다. 앞에서 10번이 발생하는 100번이 발생하든 남은 3분 동안의 사건 발생 횟수에는 아무런 영향이 없다는 말이죠.
이러한 성질을 Menoryless, 즉 건망성이라고 합니다. 앞의 사건을 잊었다는 뜻이죠!
포아송 실험에서 사건의 발행횟수 $X$를 포아송 확률변수(Poisson random variable), $X$의 확률분포를 포아송 분포(Poisson distribution)라고 합니다.
단위시간 동안 $\lambda$번 발생하는 사건이 일정한 시간간격 $t$동안 발생하는 수 $x$를 나타내는 포아송 분포의 모양은 아래와 같습니다.
$$p(x;\lambda t)=\frac{e^{-\lambda t}(\lambda t)^x}{x!}$$
놀라운 점은 포아송 분포의 평균과 분산이 모두 $\lambda t$라는 겁니다. 이런거 분포를 알아내신 수학자님들은 정말 대단한거 같아요...
포아송 분포를 그려보면, 평균이 커질수록 종모양에 가까워진다는 점입니다. 즉, 실험 시간 $t$나 단위시간 당 평균 사건 발생 수 $\lambda$가 크면 정규분포와 가까워진다는 말이죠.
아래는 python의 scipy
라이브러리를 활용해서 그린 평균 변화에 따른 포아송 분포입니다. 평균이 커질수록 종모양에 가까워지는 걸 확인할 수있습니다.
포아송 분포와 이항분포의 관계
마지막으로, 포아송 분포는 이항분포의 근사값을 구할 때도 활용할 수 있습니다. 포아송 과정의 3가지 성질을 고려했을 때, 포아송 분포는 성공 확률이 작은 베르누이 시행을 매우 많이 하는 것과 유사하다고 볼 수 있습니다.
따라서 $n$이 매우 크고, $p$가 0또는 1에 가까운 이항분포의 근사값은 $\mu=\lambda t=np$인 포아송 분포의 값으로 나타낼 수 있습니다. 식으로 정리하면 아래와 같습니다.
$$b(x;n,p)\ \xrightarrow{n\rightarrow\infty}\ p(x;np)$$
tmi: 이항분포의 $p$가 $\frac{1}{2}$에 가까울 때는 평균이 $np$, 분산이 $npq$인 정규분포를 통해 근사할 수 있습니다!
마무리
이번에는 대표적인 이산형 확률분포들의 의미와 성질에 대해서 알아봤습니다!
다음에는 포아송 분포와 관련이 깊은 지수분포, 감마분포에 대해서 알아보겠습니다!
감사합니다~ 좋은 하루 보내세요!
References
'[Mathmatics]' 카테고리의 다른 글
[Statistics] 정규분포 (0) | 2021.04.27 |
---|---|
[Statistics] 포아송과 친구들 (0) | 2021.04.27 |
[Statistics] 상관관계와 공분산 (0) | 2021.04.27 |
[Statistics] 평균, 분산, 표준편차 (0) | 2021.04.27 |
[Linear algebra] SVD (0) | 2021.04.27 |