기하 분포(표기: X~Geo(p))

n번째 시행에서 처음으로 성공할 확률을 구하는 문제를 푼다

그러니까 성공의 횟수는 한번으로 정해져 있을 때 몇 번째에서 성공하느냐를 예측하는 문제

표기를 그대로 읽으면, 성공할확률 p가 주어지면, 처음으로 성공하는 시행 X를 예측하는 문제

각 시행은 성공 아니면 실패.

성공할 확률을 p, 실패할 확률을 q라고 하면

(X는 시행의 횟수를 의미하는 임의의 변수)

r번째에 첫번째로 성공할 확률 P(X=r) 는


수식에서 보이는데로 계속 실패하다가 마지막 r번째에 딱 성공할 확률이 우리가 구하고자하는 r 번째 성공할 확률!!


기하분포의 특성 중에 재미있는 것은

r=1일때, 즉 P(X=1)일때 언제나 가장 높은 값을 가진다는 것이다.

이것은 직관적으로 좀 헷갈릴 수 있지만, 합쳐서 한번이라도 성공할 확률이 아니고, n차 시도에서 처음으로 성공할 확률이라는 것을 생각하면 이해에 도움이 된다.

성공할 확률이 높은 시행이라면, 첫번째에서 당연히 성공할 확률이 2차시도, 3차시도...에서 성공할 확률보다 높게 느껴진다.

하지만 역시 성공할 확률이 낮은 시행에서도 그렇다. 성공할 확률이 낮을 경우에 첫번째 시행에서 실패할 확률이 더 크니까 실패했다고 치자. 그럼 다음 시행에서 성공할 확률은 처음에서 실패할 확률(무조건 1보다 작은 값)이 그 작은 값에 곱해지니까 당연히 더 작아진다.

따라서 기하 분포에서 첫번째에서 성공할 확률이 가장 높게 된다.


부등식에서는?


왜냐면 r번째 이상의 시행에서 성공할 확률은 일단 r번 실패하고 그 이후에는 맘대로 해도 상관없는 모든 시행을 다 합친 거니까...



왜냐면 P(X<r) = 1- P(X>r) 이니까


기대값 : 1/p

성공할 확률이 0.2라고 하면, 대충 5번에 한 번을 성공하겠네.. 라고 생각할 수가 있습니다..

분산



이항분포 (표기 X~B(n,p))


일련의 독립시행을 실시하고, 각 시행은 성공 아니면 실패라는 점은 같으나, 내가 구하고자 하는 것은 시행의 수는 정해져 있을때, 몇번 성공하느냐를 예측하는 것


표기를 그대로 읽으면 시행횟수 n과 성공할 확률 p가 정해지면 몇번 성공할지를 나타내는 변수 X를 예측하겠다는 것


r번 성공한다고 치면, 앞에 부분은 고딩 조합부분에서 나오는 것으로 n-r개와 r개의 다른 두개의 공을 1열로 세웠을 때의 경우의 수고, 뒤에 부분은 r번 성공하고 나머지 실패할 확률


기대값과 분산은

E(X) =np

Var(X) =npq

계산하기 매우 쉬운 형태로 나옴




푸아송 분포 (표기 X~Po(λ))


이 분포에서는 일련의 시도나 시행은 없음. 대신 실패할 가능성=기대값(λ:기계가 고장이 나는 비율)을 알고 있고, 실패는 임의의 시점에 일어남

예를 들면, 어떤 기계가 오동작이 발생하는 비율을 알고있고, 이 오작동이 임의의 시점에 발생할 때, 특정 기간동안 고장이 일어날 가능성을 구하는 문제에 관심

1. 개별적인 사건이 어떤 주어진 구간에 임의로 그리고 독립적으로 발생함. 구간은 예를 들면 일주일, 1시간, 1km마다 처럼 시간이나 공간이 될 수 있음

2. 해당 구간에서 사건이 발생하는 수의 평균값이나 비율을 알고 있음. 발생하는 수의 평균값이 보통 λ로 표시됨


여기서 λ는 어떤 주어진 구간에 사건이 발생하는 수를 나타냄

표기를 그대로 읽으면, 구간마다 사건이 일어나는 평균값 λ를 알고 있다고 치면, 어떤 주어진 구건에 사건이 발생하는 수 X를 예측하겠다는 것


뭔가 직관적으로, 대충 요게 이정도 일어나는 애라는걸 아는데, 내가 원하는 구간동안에 몇번 일어날 지를 알고 싶을 때 이 분포를 가정하면 된다는것...


계산 과정은 조금 더 조사해보아야 하겠지만, 어쨋든..



기대값과 분산은

E(X) = λ

Var(X) =λ


뭐 계산하기 전부터 알고 하는 정도로 계산이 쉽군요..


푸아송 분포는 독립확률변수 X,Y에 대해서 X+Y~Po( λx+ λy)

왜냐면, P(X+Y) = P(X)+P(Y), E(X+Y) = E(X)+E(Y)



푸아송 분포의 다른 용법 = 이항 분포의 근사치!


특정 상황에서 이항 분포의 근사치로 사용될 수 있다는 것!!


n이 너무 크면 이항분포는 계산량이 많아지는 단점이 있음... 따라서 간단하게 하기 위해서 푸아송 분포를 사용하여 근사치를 구하는 것이 좋을 수 있다.


그런데 이 분포를 가정할 때 조심해야 하는 것이 있으니...

1. 기대치 λ가 np와 비슷

1. 분산 λ가 npq와 비슷

따라서 np와 npq가 비슷해야 하고 그러려면 q가 1에 가깝고, n이 크면 서로 비슷한 값을 가져야 한다.

즉, n이 크고 p가 작으면 X~B(n,p)는 X~B(n,p)는 X~Po(np)와 거의 비슷함

시행횟수가 많고, 성공확률이 매우 작을때는 포아송 분포를 가정해도 됨.


그러니까 원래 이항분포는 시행횟수 n과 성공할 확률 p가 정해지면 몇번 성공할지를 나타내는 변수 X를 예측하겠다는 것인데, n이 너무 커지면 곱하기 계산이 너무 복잡해지니까 p가 작은 경우에는 포아송 분포로 싹 바꿔서 λ를 np로 간단하게 계산을 한 다음에,


에 넣어서 계산을 하면, n보다 당연히 작은 r!만 계산해서 풀 수 있게 된다는 말!!!




증명 따위는 나중에 정리해야지~~


 

'Mathmatics > Statistics' 카테고리의 다른 글

통계 용어 몇가지  (0) 2013.07.04
수학기호 "~"  (0) 2013.04.09

교락(confounding) -자료 부족으로 인해 인자의 개별 효과를 알 수 없는 경우


역인과관계의 오류확인법

"경찰관의 수가 많을수록 범죄 발생 건수가 늘어난다"

는 말을 시험하기 위해 경찰관의 수를 줄여 범죄 발생건수가 주는지 확인 할 수 있다.


교호작용(interaction)

어떤 결과변수에 영향을 미치는 독립변수가 2개 이상일때 이 독립변수가 서로 교호작용을 할 수 있다.

즉, 모뎀과 컴퓨터 기종에 따른 처리속도에 예에서, 모뎀 용량에 따른 처리속도가 컴퓨터 기종에 영향을 받지 않으면 교호작용이 없다고 말하며, 처리속도가 컴퓨터 기종에 영향을 받으면 교호작용이 있다고 말한다

즉, 한 인자의 효과가 다른 인자의 조건에 따라 달라지는 것이다


indicator function(지시함수)

특정집합에 특정 값이 속하는지를 표시하는 함수로 특정 값이 집합에 속한다면 1 속하지 않는다면 0으 ㅣ값을 가짐

characteristic function도 같은 뜻인듯..


분산팽창계수(VIF:Variance Inflation Factor)

회귀 분석시 예측 변수 간의 상관관계를 알아보기 위하여 사용, 만약 X들간의 상관관계가 크다면, 결과가 안정적이지 않음

VIF가 10보다 크면 예측 변수중 적어도 2개는 상관관계가 매우 크므로, VIF가 안정될 때까지 VIF가 가장 큰 변수부터 하나씩 순차적으로 제거해보면서 활용해야 한다.

R에서는 vif함수로 사용가능


'Mathmatics > Statistics' 카테고리의 다른 글

기하분포, 이항분포, 푸아송 분포 완전 정리  (0) 2014.03.16
수학기호 "~"  (0) 2013.04.09
X~Fx(x) : "~" as "is distributed as"
X has a distribution given by Fx(x)

의 뜻을 가짐 



'Mathmatics > Statistics' 카테고리의 다른 글

기하분포, 이항분포, 푸아송 분포 완전 정리  (0) 2014.03.16
통계 용어 몇가지  (0) 2013.07.04


1. Eigenvalue와 Eigenvector의 개념

우리는 Ax=b라는 식을 풀어왔다. 자꾸 Ax=b라는 식을 풀다 보니, Ax라는 것이 어떻게 생겼는지 궁금해지지 않는가?


조금 더 이 의문을 구체적으로 생각해보면...

x라는 벡터의 벡터 스페이스가 아래의 그림과 같은 원을 그린다고 하자. 


그런데 이 x라는 벡터 스페이스의 앞에 A를 곱해 줌으로서 A라는 Linear Transformation을 해 주는 거다. 그러면 Ax는 어떤 모양이 될텐데 그걸 우리는 어떤 모양인지 알 수가 없다.

하지만, 아래와 같이 x를 이루고 있던 일부 벡터(파란색 화살표)들은 

A transformation 이후에도 그 방향은 변하지 않고 크기만 변할지도 모른다.


이런 파란색 벡터를 eigen vector라고 부르고, 이 eigen vector의 변환 전과 변환 후의 크기값의 비율을  eigen value라고 한다.

보통 이 eigen value와 eigen vector 값을 알면 A를 알 수가 있다고 한다.


2. Eigen Vector와 Value의 계산

eigen vector와 eigen value를 구하기 위해서 우리는 invariant property를 이용해서 해를 찾고자 하는 시도와 유사한 방법을 사용할 것이다.


그래서 eigen vector와 eigen value를 구하기 위한 자세한 방법을 이야기 하기전에 invariant property를 구하는 방법을 살펴보려고 한다.

예를 하나 들어보자.

y''-3y'-4y=0의 해를 구하고 싶다. 그러기 위해 미분해도 변하지 않는 것중에 해가 있을 것이라고 가정해보자.그런 y는 가 있지 않은가?

그래서 우리는 y에 를 대입하여 위의 식을 푼다

그러니까

여기서


이전에 invariant property를 구할 때 위의 같은 방식을 썼듯이 이제 eigen vector와 eigen value의 값을 구하기 위해서는 다음과 같은 가정을 한다

A변환이 있은 후 Ax의 모양을 예측하기 위해서 "A변환 이후에도 방향이 변하지 않는 x 벡터가 존재" . 따라서 이런 벡터 x들은 Ax=λx를 만족함을 알 수 있다. (λ는 임의의 상수).

이 식에서 구한  λ를 eigen value,  non-zero vector x를 eigen vector라고 부른다.

Ax-λx=0

(A-λ)x=0

인데 x는 non-zero vector이니까 det(A-λ)=0을 풀어야 한다.

따라서 det(A-λ)=0는 characteristic equation이라고 볼 수 있다.


예제를 하나 풀어보자


이다! 우리 characteristic equation을 풀어보자!!

eigen value값을 2개나 구했다.

각각의 eigen value에 대해서 우리는 eigen vector의 예를 찾을 수 있다.

1.

여기의 x에다가

같은 걸 넣으면 딱 맞을 것 같다~

그러니까 λ=1일때 eigen vector의 짝은 

이다.

2.


여기의 x에다가


같은 걸 넣으면 딱 맞을 것 같다~

그러니까 λ=5일때 eigen vector의 짝은 

이다.


(그래프 추가할 예정....)


<EIGEN VECOR 와 EIGEN VALUE에서 주의해야 할 점>

Matrix의 형태와 eigen value의 개수는 무관하다.

n by b 행렬인 경우 eigen vector가 n개 나오면 후에 계산할 때 좋지만, 반드시 n개가 나오는 것은 아님.

n by n 행렬의 characteristic equation이 n차 방정식으로 나오니까 마치 eigen value가 n개 이어야 할 것 같지만, 그렇지 않다는 걸 주의해야 합니다~!!

따라서 eigen vector의 개수는 계산해 봐야 안다.

Generalized eigen vector는 이 부족한 수를 채우기 위해 만든 개념이지만 널리 쓰이지는 않는다.


2. Eigenvalue의 성질

A: n by n 이면의 개수는 최대 n개 이다.

즉,  만 존재 가능.

det(A-λI)는 n차 다항식 이다.

다음은 언제나 성립한다.

즉, eigen value들의 합은 행렬 A의 trace이고 (trace란 diagonal에 위치한 모든 원소의 합)

eigen value들의 곱은 행렬 A의 determinant이다.


- 2번성질의 증명

det(A- λI)는 n 차 다항식은 일반식으로 아래와 같이 표현할 수 있고

여기서

은 λ가 0일때 구할 수 있다.

λ가 0이라 함은, Ax=0이라는 뜻이고, x는 0이 아니니까 det(A)=0이다.

따라서 det(A)=이다.


-성질1에 대한 증명

해가 

이니까








'Mathmatics > Linear Algebra' 카테고리의 다른 글

3. Orthogonality (1) - 보충해서 설명하기  (0) 2012.04.16
2. Vector Spaces (3)  (0) 2012.04.16

1. Orthogonal vectors

ㅇ두 벡터가 Orthogonal(수직)이라는건 어떻게 알 수 있을까?

->두 벡터의 내적이 0이면 된다

ㅇ두 벡터의 내적이 0이라는건 무슨 뜻일까?

-> 두 벡터가 수직이라는 뜻이다.

다른 말로는 

이라는 것이다.

증명은 피타고라스 정리를 이용해서 하는데,  나중에 추가하도록 할게요...

(이건 고딩때도 너무 많이 하던거라...알거라고 생각해요...)


2. Orthogonal subspaces

두개의 Subspace가 Orthogonal하다는건 무슨 뜻일까?

이 subspace에서 아무 벡터나 잡고, 저 subspace에서 아무벡터나 잡아서 두개 내적하면 0이라는 뜻입니다. 당연히 v랑 w가 같은 스페이스 안에 있어야 합니다. (두 벡터끼리 내적은 가능해야 Orthogonal인지 아닌지 판단은 할 것은 아닙니까??? )

<Fundamental theorem of orthogonality> The row space is orthogonal to the nullspace(in n차원). The column space is orthogonal to the left nullspace(in m차원)


<Orthogonal complement>Given a subspace V of n차원, the space of all vectors orthogonal to V is called the orthogonal complement of V. It is denoted by 



'Mathmatics > Linear Algebra' 카테고리의 다른 글

5. Eigenvalues and Eigenvectors (1)  (0) 2012.04.16
2. Vector Spaces (3)  (0) 2012.04.16

1. Linear Independence(중요개념)

어떤 임의의 벡터 집합 

에 대해서 


이 되는 유일한 조건이 

이면 벡터()들은 서로 Linearly Independent 하다.

c가 모두 0이어야 한다면,  벡터 들은 서로  Linearly dependent 하다


그러면 c가 모두 0이 아니라는 것은 무슨 뜻일까?

예를 들어  

이 0이 아니라고 해보자.

그러면

이 된다.  

은 다른 벡터 ()로 표현이 가능하다는 것이다.

그러니까 벡터들이 dependent하다는 것은, 말 그대로 다른 벡터들에게 의존하여 표현될 수 있다는 것이다.

이런 벡터는 하나정도 빠져도 다른 벡터들로 조합해서 표현하면 되니까 벡터를 표현하는데는 별로 지장이 없다!


벡터들이 independent하다는 것은 반대로, 모든 벡터들이 다른 벡터들로는 표현될 수 가 없는 것이다. 

하나라도 빠지면 절대로 안된다. 하나라도 빠지면 다른 벡터로는 어떻게 조합해도 대체할 방법이 없어서 큰일이 난 상황이 된다

(갑자기 딴 소리인데, 우리도 삶에서 사람이라는 집합에서 independent한 set에 포함되면 아무도 우리를 대체할 수 없게 될까?)


2. Spanning a Subspace

벡터 스페이스 V가 모든

의 조합(combination)을 표현할 수 있으면 이 벡터들이 벡터 스페이스 V를 Span한다고 한다.

그러니까, 벡터 스페이스에 속한 모든 벡터들을 특정 벡터들의 집합으로 표현할 수 있다면 이 특정 벡터들의 집합이 벡터 스페이스를 Span 하는 것이다. 

즉, 벡터 스페이스 V에서 나온 모든 (Every) 벡터 v 는 w로 표현될 수 있다.   

(c는 계수)


3. Basis for a vector space

벡터 스페이스 V의 basis는 아래의 조건을 만족한다

1. 벡터들은 서로 Linearly independent하다.

2. 벡터들은 V를 Span한다.

이렇게 앞에서 배운 두개의 조건을 만족하면 Basis라고 보면 된다.

어떤 벡터 스페이스를 표현하는 최소한의 벡터 집합!!!!이다~

당연히 basis는 여러개가 될 수 있다. 그러니까 문제에서 어떤 벡터스페이스를 여러가지의 basis로 표현 가능하다는 것이다.


4. Dimension(차원)

Definition. Any two bases for a vector space V contain the same number of vectors. This number, which is shared by all bases and expresses the number of "degree of freedom" of the space, is the dimension of V.

해석하면. 아까 어떤 벡터 스페이스의 Basis 는 여러개가 있을 수 있다고 했는데, 그렇다고 해도 변하지 않는 것이 있다. 그것은 basis 안에 속해있는 벡터의 개수이다. 이 벡터의 개수를 바로 Dimension(차원)이라고 한다는 것이다.

여기서 어떤 사람들은 "왜! 무슨 근거로! 벡터 스페이스의 bases들의 원소 개수가 같다는 거야!" 라고 소리칠 수 있다.

증명이 있다.

Contradiction을 이용해서 증명할 거다.

1. w의 수가 v의 수보다 많다고 해보자. (n>m) 

2. v가 basis를 형성하므로, 반드시 그 스페이스를 Span해야 한다. 

3. 그러니까 모든는 v로 표현 가능해야 한다.

4. 만약  이라면, 이것은 을 첫번째 열로 가지는 A행렬의 VA곱으로 표현 가능하다. 즉, 아래와 같은 식으로 표현이 가능하다는 말이다.

이니까..

이다.

A의 원소에 뭐가 채워질지는 모르지만 A는 m by n 행렬이다.  앞에서  (n>m)이라고 가정했으므로 A는 넓은 직사각형 형태의 matrix이다.

5.  그러면 A는 pivot수가 m개 이고, 오른쪽에 한 열은 pivot이 없게 될 것이다. 즉,핵심은 여기! Ax=0는 x가 0 벡터 아니더라도 존재하게 된다. 

6. VAx=0, Wx=0이다. W에 있는 애들을 x라는 벡터의 0이 아닌원소를 가지고 잘 조합했더니 0이 나왔다. 그러면 W는 Basis가 아니다. 

7. 비슷하게 m>n일때도 그럴거다.

그러니까 m=m일때만 말이 된다!




 





'Mathmatics > Linear Algebra' 카테고리의 다른 글

5. Eigenvalues and Eigenvectors (1)  (0) 2012.04.16
3. Orthogonality (1) - 보충해서 설명하기  (0) 2012.04.16

+ Recent posts