기하 분포(표기: X~Geo(p))

n번째 시행에서 처음으로 성공할 확률을 구하는 문제를 푼다

그러니까 성공의 횟수는 한번으로 정해져 있을 때 몇 번째에서 성공하느냐를 예측하는 문제

표기를 그대로 읽으면, 성공할확률 p가 주어지면, 처음으로 성공하는 시행 X를 예측하는 문제

각 시행은 성공 아니면 실패.

성공할 확률을 p, 실패할 확률을 q라고 하면

(X는 시행의 횟수를 의미하는 임의의 변수)

r번째에 첫번째로 성공할 확률 P(X=r) 는


수식에서 보이는데로 계속 실패하다가 마지막 r번째에 딱 성공할 확률이 우리가 구하고자하는 r 번째 성공할 확률!!


기하분포의 특성 중에 재미있는 것은

r=1일때, 즉 P(X=1)일때 언제나 가장 높은 값을 가진다는 것이다.

이것은 직관적으로 좀 헷갈릴 수 있지만, 합쳐서 한번이라도 성공할 확률이 아니고, n차 시도에서 처음으로 성공할 확률이라는 것을 생각하면 이해에 도움이 된다.

성공할 확률이 높은 시행이라면, 첫번째에서 당연히 성공할 확률이 2차시도, 3차시도...에서 성공할 확률보다 높게 느껴진다.

하지만 역시 성공할 확률이 낮은 시행에서도 그렇다. 성공할 확률이 낮을 경우에 첫번째 시행에서 실패할 확률이 더 크니까 실패했다고 치자. 그럼 다음 시행에서 성공할 확률은 처음에서 실패할 확률(무조건 1보다 작은 값)이 그 작은 값에 곱해지니까 당연히 더 작아진다.

따라서 기하 분포에서 첫번째에서 성공할 확률이 가장 높게 된다.


부등식에서는?


왜냐면 r번째 이상의 시행에서 성공할 확률은 일단 r번 실패하고 그 이후에는 맘대로 해도 상관없는 모든 시행을 다 합친 거니까...



왜냐면 P(X<r) = 1- P(X>r) 이니까


기대값 : 1/p

성공할 확률이 0.2라고 하면, 대충 5번에 한 번을 성공하겠네.. 라고 생각할 수가 있습니다..

분산



이항분포 (표기 X~B(n,p))


일련의 독립시행을 실시하고, 각 시행은 성공 아니면 실패라는 점은 같으나, 내가 구하고자 하는 것은 시행의 수는 정해져 있을때, 몇번 성공하느냐를 예측하는 것


표기를 그대로 읽으면 시행횟수 n과 성공할 확률 p가 정해지면 몇번 성공할지를 나타내는 변수 X를 예측하겠다는 것


r번 성공한다고 치면, 앞에 부분은 고딩 조합부분에서 나오는 것으로 n-r개와 r개의 다른 두개의 공을 1열로 세웠을 때의 경우의 수고, 뒤에 부분은 r번 성공하고 나머지 실패할 확률


기대값과 분산은

E(X) =np

Var(X) =npq

계산하기 매우 쉬운 형태로 나옴




푸아송 분포 (표기 X~Po(λ))


이 분포에서는 일련의 시도나 시행은 없음. 대신 실패할 가능성=기대값(λ:기계가 고장이 나는 비율)을 알고 있고, 실패는 임의의 시점에 일어남

예를 들면, 어떤 기계가 오동작이 발생하는 비율을 알고있고, 이 오작동이 임의의 시점에 발생할 때, 특정 기간동안 고장이 일어날 가능성을 구하는 문제에 관심

1. 개별적인 사건이 어떤 주어진 구간에 임의로 그리고 독립적으로 발생함. 구간은 예를 들면 일주일, 1시간, 1km마다 처럼 시간이나 공간이 될 수 있음

2. 해당 구간에서 사건이 발생하는 수의 평균값이나 비율을 알고 있음. 발생하는 수의 평균값이 보통 λ로 표시됨


여기서 λ는 어떤 주어진 구간에 사건이 발생하는 수를 나타냄

표기를 그대로 읽으면, 구간마다 사건이 일어나는 평균값 λ를 알고 있다고 치면, 어떤 주어진 구건에 사건이 발생하는 수 X를 예측하겠다는 것


뭔가 직관적으로, 대충 요게 이정도 일어나는 애라는걸 아는데, 내가 원하는 구간동안에 몇번 일어날 지를 알고 싶을 때 이 분포를 가정하면 된다는것...


계산 과정은 조금 더 조사해보아야 하겠지만, 어쨋든..



기대값과 분산은

E(X) = λ

Var(X) =λ


뭐 계산하기 전부터 알고 하는 정도로 계산이 쉽군요..


푸아송 분포는 독립확률변수 X,Y에 대해서 X+Y~Po( λx+ λy)

왜냐면, P(X+Y) = P(X)+P(Y), E(X+Y) = E(X)+E(Y)



푸아송 분포의 다른 용법 = 이항 분포의 근사치!


특정 상황에서 이항 분포의 근사치로 사용될 수 있다는 것!!


n이 너무 크면 이항분포는 계산량이 많아지는 단점이 있음... 따라서 간단하게 하기 위해서 푸아송 분포를 사용하여 근사치를 구하는 것이 좋을 수 있다.


그런데 이 분포를 가정할 때 조심해야 하는 것이 있으니...

1. 기대치 λ가 np와 비슷

1. 분산 λ가 npq와 비슷

따라서 np와 npq가 비슷해야 하고 그러려면 q가 1에 가깝고, n이 크면 서로 비슷한 값을 가져야 한다.

즉, n이 크고 p가 작으면 X~B(n,p)는 X~B(n,p)는 X~Po(np)와 거의 비슷함

시행횟수가 많고, 성공확률이 매우 작을때는 포아송 분포를 가정해도 됨.


그러니까 원래 이항분포는 시행횟수 n과 성공할 확률 p가 정해지면 몇번 성공할지를 나타내는 변수 X를 예측하겠다는 것인데, n이 너무 커지면 곱하기 계산이 너무 복잡해지니까 p가 작은 경우에는 포아송 분포로 싹 바꿔서 λ를 np로 간단하게 계산을 한 다음에,


에 넣어서 계산을 하면, n보다 당연히 작은 r!만 계산해서 풀 수 있게 된다는 말!!!




증명 따위는 나중에 정리해야지~~


 

'Mathmatics > Statistics' 카테고리의 다른 글

통계 용어 몇가지  (0) 2013.07.04
수학기호 "~"  (0) 2013.04.09

+ Recent posts