R활용
poisson Regression
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Statistics
Table of Contents
포아송 회귀(Poisson Regression) #
포아송 분포 #
포아송 분포(Poisson distribution)는 일정한 시간 또는 공간 내에서 발생하는, 사건의 발생 횟수에 따른 확률을 구할 때 사용합니다. 포아송 분포는 일정한 시공간에서 일어나는 발생 횟수만 의미 있지, 총시행 횟수가 없으므로 실패 횟수라는 개념도 없습니다. 해당 부분이 이산확률분포랑 다른 부분입니다. 그럼 아래 그림에서 수식을 통해 좀 더 살펴보면 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 λ(람다)라고 했을 때, 그 사건이 x회 일어날 확률입니다. 포아송 분포의 평균은 λ(람다)이며, 분산 또한 λ(람다)입니다. 그리고 e는 상숫값으로 생각하시면 됩니다.
이미지 출처 : https://www.onlinemathlearning.com/poisson-distribution.html
이미지 출처 : 포아송 분포란 무엇일까(http://ssacstat.tistory.com/366)
포아송 회귀의 정의 #
포아송 회귀이란 종속변수(dependent variable)가 포아송 분포를 따른다고 가정하고, 일반화 선형모형의 회귀분석을 수행한다. 특히 종속변수가 가산자료(count data)일 때 주로 사용된다. 포아송 회귀모형은 포아송 분포의 특성상 평균과 분산이 같아야 한다는 제약조건이 따른다. 하지만, 현실 데이터에서는 평균과 분산의 차이가 크게 나타나는 경우가 종종 있는데, 이때 포아송 회귀모형을 적용하면 회귀계수 추정량의 표준오차가 편향되는 현상이 발생합니다.
포아송의 전제 조건 #
1. 반응변수(y 값)는 셀 수 있어야 한다. 셀 수 없다면, 포아송 회귀분석은 사용이 어려움
2. 동일한 길이의 어떤 두 구간에서 사건 발생의 확률은 동일하다.
3. 어떤 구간의 사건 발생이나 사건 불발은 다른 구간에서의 사건 발생, 불발과는 무관하다 (독립성)
4. 매우 짧은 시간이나 매우 작은 공간에 두 개 이상의 결과가 동시에 발생할 확률은 0이다.
포아송 회귀분석의 예제 #
포아송 회귀분석의 예제는 미국 플로리다주에서 1946년부터 1999년까지 매년 상어에 의한 공격 사건을 저장해놓은 데이터를 이용하도록 한다. 데이터명은 "sharkattacks"다.
데이터 링크 : http://people.stern.nyu.edu/jsimonof/AnalCatData/
데이터를 자세히 살펴보면, 각 연도에 따른 플로리다 인구, 상어 공격의 횟수, 상어 공격에 대한 비율 등으로 데이터가 구성되어 있다.
이미지 출처 : Poisson Regression example(https://www.stat.ubc.ca/~rollin/teach/538A/PoissonReg.html)
해당 데이터가 포아송 모델을 통해 상어 공격에 대한 사건이 드물게 발생하는 것인지 확인하기 위하여 시간에 따른 발생 비율에 해당하는 포아송 평균값을 연결하여 포아송 모델을 적용한다.
poisRegFit <- glm( Attacks ~ offset(log(Pop100Thou)) + Year, family=poisson, data=sharks)
plot(sharks$Year,sharks$Rate,xlab="Year", ylab="Rate")
predRate <- predict(poisRegFit,type="response")/(sharks$Pop100Thou)
lines(sharks$Year,predRate,col=2)
## Call:
## glm(formula = Attacks ~ offset(log(Pop100Thou)) + Year, family = poisson, data = sharks)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -3.1470 -1.2001 -0.3177 0.7281 3.4856
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -64.279344 8.658221 -7.424 1.14e-13 ***
## Year 0.031174 0.004361 7.148 8.80e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 176.93 on 53 degrees of freedom
## Residual deviance: 119.11 on 52 degrees of freedom
## AIC: 288.76
##
## Number of Fisher Scoring iterations: 5
확인 결과, 상어 공격에 대한 빈도는 포아송 모델을 적용했을 때, 매년 꾸준하게 3%씩 증가함을 확인할 수 있었다.
참고 #
- REx 분석, 포아송회귀분석(http://rexsoft.org/?page_id=362)
- 포아송 예제(https://www.stat.ubc.ca/~rollin/teach/538A/PoissonReg.html)
- 포아송 공식 (https://m.blog.naver.com/nilsine11202/221381064429)
- 포아송 분포 (https://m.blog.naver.com/mykepzzang/220840724901)
- 포아송 분포 (https://angeloyeo.github.io/2021/04/26/Poisson_distribution.html)
- 포아송 분포 (https://math100.tistory.com/28)