기하 분포(표기: X~Geo(p))

n번째 시행에서 처음으로 성공할 확률을 구하는 문제를 푼다

그러니까 성공의 횟수는 한번으로 정해져 있을 때 몇 번째에서 성공하느냐를 예측하는 문제

표기를 그대로 읽으면, 성공할확률 p가 주어지면, 처음으로 성공하는 시행 X를 예측하는 문제

각 시행은 성공 아니면 실패.

성공할 확률을 p, 실패할 확률을 q라고 하면

(X는 시행의 횟수를 의미하는 임의의 변수)

r번째에 첫번째로 성공할 확률 P(X=r) 는


수식에서 보이는데로 계속 실패하다가 마지막 r번째에 딱 성공할 확률이 우리가 구하고자하는 r 번째 성공할 확률!!


기하분포의 특성 중에 재미있는 것은

r=1일때, 즉 P(X=1)일때 언제나 가장 높은 값을 가진다는 것이다.

이것은 직관적으로 좀 헷갈릴 수 있지만, 합쳐서 한번이라도 성공할 확률이 아니고, n차 시도에서 처음으로 성공할 확률이라는 것을 생각하면 이해에 도움이 된다.

성공할 확률이 높은 시행이라면, 첫번째에서 당연히 성공할 확률이 2차시도, 3차시도...에서 성공할 확률보다 높게 느껴진다.

하지만 역시 성공할 확률이 낮은 시행에서도 그렇다. 성공할 확률이 낮을 경우에 첫번째 시행에서 실패할 확률이 더 크니까 실패했다고 치자. 그럼 다음 시행에서 성공할 확률은 처음에서 실패할 확률(무조건 1보다 작은 값)이 그 작은 값에 곱해지니까 당연히 더 작아진다.

따라서 기하 분포에서 첫번째에서 성공할 확률이 가장 높게 된다.


부등식에서는?


왜냐면 r번째 이상의 시행에서 성공할 확률은 일단 r번 실패하고 그 이후에는 맘대로 해도 상관없는 모든 시행을 다 합친 거니까...



왜냐면 P(X<r) = 1- P(X>r) 이니까


기대값 : 1/p

성공할 확률이 0.2라고 하면, 대충 5번에 한 번을 성공하겠네.. 라고 생각할 수가 있습니다..

분산



이항분포 (표기 X~B(n,p))


일련의 독립시행을 실시하고, 각 시행은 성공 아니면 실패라는 점은 같으나, 내가 구하고자 하는 것은 시행의 수는 정해져 있을때, 몇번 성공하느냐를 예측하는 것


표기를 그대로 읽으면 시행횟수 n과 성공할 확률 p가 정해지면 몇번 성공할지를 나타내는 변수 X를 예측하겠다는 것


r번 성공한다고 치면, 앞에 부분은 고딩 조합부분에서 나오는 것으로 n-r개와 r개의 다른 두개의 공을 1열로 세웠을 때의 경우의 수고, 뒤에 부분은 r번 성공하고 나머지 실패할 확률


기대값과 분산은

E(X) =np

Var(X) =npq

계산하기 매우 쉬운 형태로 나옴




푸아송 분포 (표기 X~Po(λ))


이 분포에서는 일련의 시도나 시행은 없음. 대신 실패할 가능성=기대값(λ:기계가 고장이 나는 비율)을 알고 있고, 실패는 임의의 시점에 일어남

예를 들면, 어떤 기계가 오동작이 발생하는 비율을 알고있고, 이 오작동이 임의의 시점에 발생할 때, 특정 기간동안 고장이 일어날 가능성을 구하는 문제에 관심

1. 개별적인 사건이 어떤 주어진 구간에 임의로 그리고 독립적으로 발생함. 구간은 예를 들면 일주일, 1시간, 1km마다 처럼 시간이나 공간이 될 수 있음

2. 해당 구간에서 사건이 발생하는 수의 평균값이나 비율을 알고 있음. 발생하는 수의 평균값이 보통 λ로 표시됨


여기서 λ는 어떤 주어진 구간에 사건이 발생하는 수를 나타냄

표기를 그대로 읽으면, 구간마다 사건이 일어나는 평균값 λ를 알고 있다고 치면, 어떤 주어진 구건에 사건이 발생하는 수 X를 예측하겠다는 것


뭔가 직관적으로, 대충 요게 이정도 일어나는 애라는걸 아는데, 내가 원하는 구간동안에 몇번 일어날 지를 알고 싶을 때 이 분포를 가정하면 된다는것...


계산 과정은 조금 더 조사해보아야 하겠지만, 어쨋든..



기대값과 분산은

E(X) = λ

Var(X) =λ


뭐 계산하기 전부터 알고 하는 정도로 계산이 쉽군요..


푸아송 분포는 독립확률변수 X,Y에 대해서 X+Y~Po( λx+ λy)

왜냐면, P(X+Y) = P(X)+P(Y), E(X+Y) = E(X)+E(Y)



푸아송 분포의 다른 용법 = 이항 분포의 근사치!


특정 상황에서 이항 분포의 근사치로 사용될 수 있다는 것!!


n이 너무 크면 이항분포는 계산량이 많아지는 단점이 있음... 따라서 간단하게 하기 위해서 푸아송 분포를 사용하여 근사치를 구하는 것이 좋을 수 있다.


그런데 이 분포를 가정할 때 조심해야 하는 것이 있으니...

1. 기대치 λ가 np와 비슷

1. 분산 λ가 npq와 비슷

따라서 np와 npq가 비슷해야 하고 그러려면 q가 1에 가깝고, n이 크면 서로 비슷한 값을 가져야 한다.

즉, n이 크고 p가 작으면 X~B(n,p)는 X~B(n,p)는 X~Po(np)와 거의 비슷함

시행횟수가 많고, 성공확률이 매우 작을때는 포아송 분포를 가정해도 됨.


그러니까 원래 이항분포는 시행횟수 n과 성공할 확률 p가 정해지면 몇번 성공할지를 나타내는 변수 X를 예측하겠다는 것인데, n이 너무 커지면 곱하기 계산이 너무 복잡해지니까 p가 작은 경우에는 포아송 분포로 싹 바꿔서 λ를 np로 간단하게 계산을 한 다음에,


에 넣어서 계산을 하면, n보다 당연히 작은 r!만 계산해서 풀 수 있게 된다는 말!!!




증명 따위는 나중에 정리해야지~~


 

'Mathmatics > Statistics' 카테고리의 다른 글

통계 용어 몇가지  (0) 2013.07.04
수학기호 "~"  (0) 2013.04.09

교락(confounding) -자료 부족으로 인해 인자의 개별 효과를 알 수 없는 경우


역인과관계의 오류확인법

"경찰관의 수가 많을수록 범죄 발생 건수가 늘어난다"

는 말을 시험하기 위해 경찰관의 수를 줄여 범죄 발생건수가 주는지 확인 할 수 있다.


교호작용(interaction)

어떤 결과변수에 영향을 미치는 독립변수가 2개 이상일때 이 독립변수가 서로 교호작용을 할 수 있다.

즉, 모뎀과 컴퓨터 기종에 따른 처리속도에 예에서, 모뎀 용량에 따른 처리속도가 컴퓨터 기종에 영향을 받지 않으면 교호작용이 없다고 말하며, 처리속도가 컴퓨터 기종에 영향을 받으면 교호작용이 있다고 말한다

즉, 한 인자의 효과가 다른 인자의 조건에 따라 달라지는 것이다


indicator function(지시함수)

특정집합에 특정 값이 속하는지를 표시하는 함수로 특정 값이 집합에 속한다면 1 속하지 않는다면 0으 ㅣ값을 가짐

characteristic function도 같은 뜻인듯..


분산팽창계수(VIF:Variance Inflation Factor)

회귀 분석시 예측 변수 간의 상관관계를 알아보기 위하여 사용, 만약 X들간의 상관관계가 크다면, 결과가 안정적이지 않음

VIF가 10보다 크면 예측 변수중 적어도 2개는 상관관계가 매우 크므로, VIF가 안정될 때까지 VIF가 가장 큰 변수부터 하나씩 순차적으로 제거해보면서 활용해야 한다.

R에서는 vif함수로 사용가능


'Mathmatics > Statistics' 카테고리의 다른 글

기하분포, 이항분포, 푸아송 분포 완전 정리  (0) 2014.03.16
수학기호 "~"  (0) 2013.04.09
X~Fx(x) : "~" as "is distributed as"
X has a distribution given by Fx(x)

의 뜻을 가짐 



'Mathmatics > Statistics' 카테고리의 다른 글

기하분포, 이항분포, 푸아송 분포 완전 정리  (0) 2014.03.16
통계 용어 몇가지  (0) 2013.07.04

+ Recent posts