diff --git a/inst/doc/v07_excesso-zeros.R b/inst/doc/v07_excesso-zeros.R index 6fd1d860fd3a9646d1cd075ef624f0d983b33b6b..4960463149e40824826ed80d92a02526c0388cd4 100644 --- a/inst/doc/v07_excesso-zeros.R +++ b/inst/doc/v07_excesso-zeros.R @@ -283,3 +283,187 @@ cbind("vglm_posnegbin" = exp(coef(mcount)[2]), "zeroinfl" = m3HBN$theta) +## ------------------------------------------------------------------------ + +sinistros <- read.table("base.txt", header = TRUE) +str(sinistros) +## help(sinistros) + + +## ------------------------------------------------------------------------ + +summary(sinistros) + + +## ------------------------------------------------------------------------ + +library(pscl) + +## Preditores +f0 <- nsinist ~ 1 + offset(log(expos)) +f1 <- nsinist ~ sexo + valor + offset(log(expos)) +f2 <- nsinist ~ sexo * valor + offset(log(expos)) + +## Poisson +m0P <- glm(f0, data = sinistros, family = poisson) +m1P <- glm(f1, data = sinistros, family = poisson) +m2P <- glm(f2, data = sinistros, family = poisson) + +## Hurdle Poisson +m0HP <- hurdle(f0, data = sinistros, dist = "poisson") +m1HP <- hurdle(f1, data = sinistros, dist = "poisson") +m2HP <- hurdle(f2, data = sinistros, dist = "poisson") + +## Zero Inflated Poisson +m0ZP <- zeroinfl(f0, data = sinistros, dist = "poisson") +m1ZP <- zeroinfl(f1, data = sinistros, dist = "poisson") +m2ZP <- zeroinfl(f2, data = sinistros, dist = "poisson") + +## Binomial Negativa +library(MASS) +m0BN <- glm.nb(f0, data = sinistros) +m1BN <- glm.nb(f1, data = sinistros) +m2BN <- glm.nb(f2, data = sinistros) + +## Hurdle Binomial Negativa +m0HBN <- hurdle(f0, data = sinistros, dist = "negbin") +m1HBN <- hurdle(f1, data = sinistros, dist = "negbin") +m2HBN <- hurdle(f2, data = sinistros, dist = "negbin") + +## Zero Inflated Poisson +m0ZBN <- zeroinfl(f0, data = sinistros, dist = "negbin") +m1ZBN <- zeroinfl(f1, data = sinistros, dist = "negbin") +m2ZBN <- zeroinfl(f2, data = sinistros, dist = "negbin") + + +## ------------------------------------------------------------------------ + +## Via log-verossimilhança +cbind("Poisson" = sapply(list(m0P, m1P, m2P), logLik), + "HUPoisson" = sapply(list(m0HP, m1HP, m2HP), logLik), + "ZIPoisson" = sapply(list(m0ZP, m1ZP, m2ZP), logLik), + "BinNeg" = sapply(list(m0BN, m1BN, m2BN), logLik), + "HUBinNeg" = sapply(list(m0HBN, m1HBN, m2HBN), logLik), + "ZIBinNeg" = sapply(list(m0ZBN, m1ZBN, m2ZBN), logLik) + ) + + +## ------------------------------------------------------------------------ + +## Testes de razão de verossimilhanças +lmtest::lrtest(m0ZP, m1ZP, m2ZP) + +lmtest::lrtest(m0ZBN, m1ZBN, m2ZBN) + + +## ------------------------------------------------------------------------ + +## Para a componente de contagens não negativas é necessário um modelo +## Binomial Negativa, considerando superdispersão dos dados? +vuong(m1ZP, m1ZBN) + + +## ------------------------------------------------------------------------ + +## Estimativas do modelo proposto +summary(m1ZP) + +## Retira efeito de sexo na componente das contagens nulas +m3ZP <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, + data = sinistros) + +lmtest::lrtest(m1ZP, m3ZP) + + +## ------------------------------------------------------------------------ + +## Avaliação de diferentes especificações para a componente de contagens +## nulas +m3ZP.probi <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, link = "probit", + data = sinistros) + +m3ZP.clogl <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, link = "cloglog", + data = sinistros) + +## Comparação das funções de ligação +sapply(list("logit" = m3ZP, "probit" = m3ZP.probi, + "cloglog" = m3ZP.clogl), logLik) + + +## ----diag2, cache = TRUE------------------------------------------------- + +##====================================================================== +## Uma pequena avaliação dos resíduos +p1 <- xyplot(residuals(m3ZP) ~ fitted(m3ZP), + ## aspect = "xy", + type = c("p", "g", "spline")) + +p2 <- qqmath(~residuals(m3ZP, type = "pearson"), + ## aspect = "xy", + type = c("p", "g"), + panel = function(x, ...) { + panel.qqmathline(x, ...) + panel.qqmath(x, ...) + }) + +qqsimul <- hnp::hnp(m3ZP, plot = FALSE, sim = 50) + +p3 <- with(qqsimul, + xyplot(residuals ~ x, pch = 20) + + as.layer( + xyplot(median + lower + upper ~ x, + type = "l", col = 1, lty = c(2, 1, 1))) + ) + +print(p1, split = c(1, 1, 3, 1), more = TRUE) +print(p2, split = c(2, 1, 3, 1), more = TRUE) +print(p3, split = c(3, 1, 3, 1), more = FALSE) + + +## ------------------------------------------------------------------------ + +## Região para predição +pred <- expand.grid(sexo = c("M", "F"), + valor = 1:200, expos = 1) +##------------------------------------------- +## Estimando as médias +aux <- predict(m3ZP, newdata = pred, type = "response") +predmu <- cbind(pred, fit = aux) + +xyplot(fit ~ valor, + groups = sexo, + data = predmu, + type = c("l", "g"), + auto.key = list( + columns = 2, cex.title = 1, + lines = TRUE, points = FALSE, + title = "Número de crianças")) + + +## ------------------------------------------------------------------------ + +##------------------------------------------- +## Estimando probabilidades +pred <- expand.grid(sexo = c("M", "F"), + valor = c(1, 50), expos = 1) + +py <- c(t(predict(m3ZP, type = "prob", at = 0:5, newdata = pred))) +carac <- with(pred, paste("Sexo:", sexo, "Valor:", valor)) +da <- data.frame(y = 0:5, py = py, + sexo = rep(c("M", "F"), each = 6), + valor = rep(c(1, 50), each = 12)) + +useOuterStrips( + barchart(py ~ y | sexo + factor(valor), data = da, + stack = FALSE, horizontal = FALSE, + as.table = TRUE, between = list(y = 0.5), + scales = list( y = "free", x = list(labels = 0:5)) + ), + strip = strip.custom(strip.names = TRUE, var.name = "Sexo"), + strip.left = strip.custom(strip.names = TRUE, var.name = "Valor") +) + + diff --git a/inst/doc/v07_excesso-zeros.html b/inst/doc/v07_excesso-zeros.html index 8e3309acbb318c61fe0048c18d1a3eaa0760c075..1a458986e89a67b531a482846821c0b44069bf45 100644 --- a/inst/doc/v07_excesso-zeros.html +++ b/inst/doc/v07_excesso-zeros.html @@ -113,6 +113,13 @@ table.header { <li><a href="#predicao">Predição</a></li> <li><a href="#ajuste-em-separado-das-componentes-do-modelo-hurdle">Ajuste em separado das componentes do modelo Hurdle</a></li> </ul></li> +<li><a href="#numero-de-sinistros-em-uma-seguradora-de-veiculos">Número de sinistros em uma seguradora de veículos</a><ul> +<li><a href="#analise-exploratoria-1">Análise exploratória</a></li> +<li><a href="#ajuste-de-modelos-1">Ajuste de modelos</a></li> +<li><a href="#comparacao-dos-ajustes-1">Comparação dos ajustes</a></li> +<li><a href="#avaliacao-do-modelo-proposto-1">Avaliação do modelo proposto</a></li> +<li><a href="#predicao-1">Predição</a></li> +</ul></li> </ul> </div> @@ -231,7 +238,7 @@ xyplot(lnpeixes ~ ncriancas + npessoas, data = peixe, jitter.x = TRUE, type = c("p", "g", "spline"))</code></pre> -<p><img src="" title alt style="display: block; margin: auto;" /></p> +<p><img src="" title alt style="display: block; margin: auto;" /></p> </div> <div id="ajuste-de-modelos" class="section level2"> <h2>Ajuste de modelos</h2> @@ -612,6 +619,264 @@ cbind("vglm_posnegbin" = coef(mcount)[-2], ## (Intercept):2 0.3232437 0.3232322</code></pre> </div> </div> +<div id="numero-de-sinistros-em-uma-seguradora-de-veiculos" class="section level1"> +<h1>Número de sinistros em uma seguradora de veículos</h1> +<div id="analise-exploratoria-1" class="section level2"> +<h2>Análise exploratória</h2> +<pre class="r"><code>sinistros <- read.table("base.txt", header = TRUE) +str(sinistros)</code></pre> +<pre><code>## 'data.frame': 16483 obs. of 7 variables: +## $ tipo : Factor w/ 6 levels "hatch","mono",..: 1 2 5 4 2 1 1 4 5 5 ... +## $ idade : int 59 45 42 63 36 33 35 63 54 32 ... +## $ sexo : Factor w/ 2 levels "F","M": 1 2 2 1 1 2 2 2 2 2 ... +## $ civil : Factor w/ 4 levels "Casado","Divorciado",..: 1 3 1 1 1 1 1 1 1 1 ... +## $ valor : num 24.6 23.4 86.6 77.5 25.9 ... +## $ expos : num 0.5 0.7 0.79 0.01 0.51 0.79 0.81 0.01 0.76 0.79 ... +## $ nsinist: int 1 0 0 0 0 0 0 0 0 0 ...</code></pre> +<pre class="r"><code>## help(sinistros)</code></pre> +<p>Dados referentes ao acompanhamento de clientes de uma seguradora de automóveis ao longo de um ano. Foram registrados as variáveis descritas abaixo para 16483 clientes.</p> +<ul> +<li><code>tipo</code>: Tipo de veículo segurado. Fator com seis níveis (<em>hatch</em>, <em>mono</em>, <em>picape</em>, <em>sedan</em>, <em>wagon</em> e <em>suv</em>).</li> +<li><code>sexo</code>: Sexo do cliente. Fator com dois níveis, <em>M</em> para clientes do sexo masculino e <em>F</em> para feminino.</li> +<li><code>civil</code>: Estado civil do cliente. Fator com quatro níveis (<em>Casado</em>, <em>Divorciado</em>, <em>Solteiro</em> e <em>Viuvo</em>).</li> +<li><code>valor</code>: Valor do veículo segurado, em 1000 reais.</li> +<li><code>expos</code>: Período de cobertura do cliente durante o ano sob análise.</li> +<li><code>nsinist</code>: Número de sinistros registrados no período.</li> +</ul> +<pre class="r"><code>summary(sinistros)</code></pre> +<pre><code>## tipo idade sexo civil +## hatch :6080 Min. :18.00 F:6694 Casado :13327 +## mono :1546 1st Qu.:41.00 M:9789 Divorciado: 729 +## picape:1197 Median :52.00 Solteiro : 1896 +## sedan :4696 Mean :52.13 Viuvo : 531 +## suv :2499 3rd Qu.:62.00 +## wagon : 465 Max. :96.00 +## valor expos nsinist +## Min. : 1.60 Min. :0.0100 Min. :0.0000 +## 1st Qu.: 22.07 1st Qu.:0.5900 1st Qu.:0.0000 +## Median : 31.92 Median :0.7800 Median :0.0000 +## Mean : 36.03 Mean :0.6483 Mean :0.0617 +## 3rd Qu.: 45.14 3rd Qu.:0.8100 3rd Qu.:0.0000 +## Max. :196.65 Max. :1.0000 Max. :5.0000</code></pre> +</div> +<div id="ajuste-de-modelos-1" class="section level2"> +<h2>Ajuste de modelos</h2> +<pre class="r"><code>library(pscl) + +## Preditores +f0 <- nsinist ~ 1 + offset(log(expos)) +f1 <- nsinist ~ sexo + valor + offset(log(expos)) +f2 <- nsinist ~ sexo * valor + offset(log(expos)) + +## Poisson +m0P <- glm(f0, data = sinistros, family = poisson) +m1P <- glm(f1, data = sinistros, family = poisson) +m2P <- glm(f2, data = sinistros, family = poisson) + +## Hurdle Poisson +m0HP <- hurdle(f0, data = sinistros, dist = "poisson") +m1HP <- hurdle(f1, data = sinistros, dist = "poisson") +m2HP <- hurdle(f2, data = sinistros, dist = "poisson") + +## Zero Inflated Poisson +m0ZP <- zeroinfl(f0, data = sinistros, dist = "poisson") +m1ZP <- zeroinfl(f1, data = sinistros, dist = "poisson") +m2ZP <- zeroinfl(f2, data = sinistros, dist = "poisson") + +## Binomial Negativa +library(MASS) +m0BN <- glm.nb(f0, data = sinistros) +m1BN <- glm.nb(f1, data = sinistros) +m2BN <- glm.nb(f2, data = sinistros) + +## Hurdle Binomial Negativa +m0HBN <- hurdle(f0, data = sinistros, dist = "negbin") +m1HBN <- hurdle(f1, data = sinistros, dist = "negbin") +m2HBN <- hurdle(f2, data = sinistros, dist = "negbin") + +## Zero Inflated Poisson +m0ZBN <- zeroinfl(f0, data = sinistros, dist = "negbin") +m1ZBN <- zeroinfl(f1, data = sinistros, dist = "negbin") +m2ZBN <- zeroinfl(f2, data = sinistros, dist = "negbin")</code></pre> +</div> +<div id="comparacao-dos-ajustes-1" class="section level2"> +<h2>Comparação dos ajustes</h2> +<pre class="r"><code>## Via log-verossimilhança +cbind("Poisson" = sapply(list(m0P, m1P, m2P), logLik), + "HUPoisson" = sapply(list(m0HP, m1HP, m2HP), logLik), + "ZIPoisson" = sapply(list(m0ZP, m1ZP, m2ZP), logLik), + "BinNeg" = sapply(list(m0BN, m1BN, m2BN), logLik), + "HUBinNeg" = sapply(list(m0HBN, m1HBN, m2HBN), logLik), + "ZIBinNeg" = sapply(list(m0ZBN, m1ZBN, m2ZBN), logLik) + )</code></pre> +<pre><code>## Poisson HUPoisson ZIPoisson BinNeg HUBinNeg ZIBinNeg +## [1,] -4123.756 -3822.441 -3723.772 -3808.049 -3822.030 -3723.759 +## [2,] -4113.112 -3813.065 -3714.354 -3802.173 -3812.650 -3714.290 +## [3,] -4113.102 -3811.952 -3713.520 -3802.157 -3811.594 -3713.485</code></pre> +<pre class="r"><code>## Testes de razão de verossimilhanças +lmtest::lrtest(m0ZP, m1ZP, m2ZP)</code></pre> +<pre><code>## Likelihood ratio test +## +## Model 1: nsinist ~ 1 + offset(log(expos)) +## Model 2: nsinist ~ sexo + valor + offset(log(expos)) +## Model 3: nsinist ~ sexo * valor + offset(log(expos)) +## #Df LogLik Df Chisq Pr(>Chisq) +## 1 2 -3723.8 +## 2 6 -3714.4 4 18.8370 0.0008461 *** +## 3 8 -3713.5 2 1.6681 0.4342916 +## --- +## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1</code></pre> +<pre class="r"><code>lmtest::lrtest(m0ZBN, m1ZBN, m2ZBN)</code></pre> +<pre><code>## Likelihood ratio test +## +## Model 1: nsinist ~ 1 + offset(log(expos)) +## Model 2: nsinist ~ sexo + valor + offset(log(expos)) +## Model 3: nsinist ~ sexo * valor + offset(log(expos)) +## #Df LogLik Df Chisq Pr(>Chisq) +## 1 3 -3723.8 +## 2 7 -3714.3 4 18.9367 0.0008088 *** +## 3 9 -3713.5 2 1.6097 0.4471484 +## --- +## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1</code></pre> +<pre class="r"><code>## Para a componente de contagens não negativas é necessário um modelo +## Binomial Negativa, considerando superdispersão dos dados? +vuong(m1ZP, m1ZBN)</code></pre> +<pre><code>## Vuong Non-Nested Hypothesis Test-Statistic: +## (test-statistic is asymptotically distributed N(0,1) under the +## null that the models are indistinguishible) +## ------------------------------------------------------------- +## Vuong z-statistic H_A p-value +## Raw -0.1757064 model2 > model1 0.43026 +## AIC-corrected -0.1757064 model2 > model1 0.43026 +## BIC-corrected -0.1757064 model2 > model1 0.43026</code></pre> +</div> +<div id="avaliacao-do-modelo-proposto-1" class="section level2"> +<h2>Avaliação do modelo proposto</h2> +<pre class="r"><code>## Estimativas do modelo proposto +summary(m1ZP)</code></pre> +<pre><code>## +## Call: +## zeroinfl(formula = f1, data = sinistros, dist = "poisson") +## +## Pearson residuals: +## Min 1Q Median 3Q Max +## -0.3036 -0.2174 -0.2045 -0.1932 17.6045 +## +## Count model coefficients (poisson with log link): +## Estimate Std. Error z value Pr(>|z|) +## (Intercept) 0.082267 0.146473 0.562 0.574 +## sexoM -0.144597 0.120124 -1.204 0.229 +## valor -0.006457 0.003420 -1.888 0.059 . +## +## Zero-inflation model coefficients (binomial with logit link): +## Estimate Std. Error z value Pr(>|z|) +## (Intercept) 2.764149 0.163096 16.948 < 2e-16 *** +## sexoM 0.038435 0.132175 0.291 0.77121 +## valor -0.012444 0.003989 -3.120 0.00181 ** +## --- +## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 +## +## Number of iterations in BFGS optimization: 22 +## Log-likelihood: -3714 on 6 Df</code></pre> +<pre class="r"><code>## Retira efeito de sexo na componente das contagens nulas +m3ZP <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, + data = sinistros) + +lmtest::lrtest(m1ZP, m3ZP)</code></pre> +<pre><code>## Likelihood ratio test +## +## Model 1: nsinist ~ sexo + valor + offset(log(expos)) +## Model 2: nsinist ~ sexo + valor + offset(log(expos)) | offset(log(expos)) + +## valor +## #Df LogLik Df Chisq Pr(>Chisq) +## 1 6 -3714.4 +## 2 5 -3714.4 -1 0.0846 0.7712</code></pre> +<pre class="r"><code>## Avaliação de diferentes especificações para a componente de contagens +## nulas +m3ZP.probi <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, link = "probit", + data = sinistros) + +m3ZP.clogl <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, link = "cloglog", + data = sinistros) + +## Comparação das funções de ligação +sapply(list("logit" = m3ZP, "probit" = m3ZP.probi, + "cloglog" = m3ZP.clogl), logLik)</code></pre> +<pre><code>## logit probit cloglog +## -3714.396 -3716.296 -3717.328</code></pre> +<pre class="r"><code>##====================================================================== +## Uma pequena avaliação dos resíduos +p1 <- xyplot(residuals(m3ZP) ~ fitted(m3ZP), + ## aspect = "xy", + type = c("p", "g", "spline")) + +p2 <- qqmath(~residuals(m3ZP, type = "pearson"), + ## aspect = "xy", + type = c("p", "g"), + panel = function(x, ...) { + panel.qqmathline(x, ...) + panel.qqmath(x, ...) + }) + +qqsimul <- hnp::hnp(m3ZP, plot = FALSE, sim = 50)</code></pre> +<pre><code>## Zero-inflated Poisson model</code></pre> +<pre class="r"><code>p3 <- with(qqsimul, + xyplot(residuals ~ x, pch = 20) + + as.layer( + xyplot(median + lower + upper ~ x, + type = "l", col = 1, lty = c(2, 1, 1))) + ) + +print(p1, split = c(1, 1, 3, 1), more = TRUE) +print(p2, split = c(2, 1, 3, 1), more = TRUE) +print(p3, split = c(3, 1, 3, 1), more = FALSE)</code></pre> +<p><img src="" title alt style="display: block; margin: auto;" /></p> +</div> +<div id="predicao-1" class="section level2"> +<h2>Predição</h2> +<pre class="r"><code>## Região para predição +pred <- expand.grid(sexo = c("M", "F"), + valor = 1:200, expos = 1) +##------------------------------------------- +## Estimando as médias +aux <- predict(m3ZP, newdata = pred, type = "response") +predmu <- cbind(pred, fit = aux) + +xyplot(fit ~ valor, + groups = sexo, + data = predmu, + type = c("l", "g"), + auto.key = list( + columns = 2, cex.title = 1, + lines = TRUE, points = FALSE, + title = "Número de crianças"))</code></pre> +<p><img src="" title alt style="display: block; margin: auto;" /></p> +<pre class="r"><code>##------------------------------------------- +## Estimando probabilidades +pred <- expand.grid(sexo = c("M", "F"), + valor = c(1, 50), expos = 1) + +py <- c(t(predict(m3ZP, type = "prob", at = 0:5, newdata = pred))) +carac <- with(pred, paste("Sexo:", sexo, "Valor:", valor)) +da <- data.frame(y = 0:5, py = py, + sexo = rep(c("M", "F"), each = 6), + valor = rep(c(1, 50), each = 12)) + +useOuterStrips( + barchart(py ~ y | sexo + factor(valor), data = da, + stack = FALSE, horizontal = FALSE, + as.table = TRUE, between = list(y = 0.5), + scales = list( y = "free", x = list(labels = 0:5)) + ), + strip = strip.custom(strip.names = TRUE, var.name = "Sexo"), + strip.left = strip.custom(strip.names = TRUE, var.name = "Valor") +)</code></pre> +<p><img src="" title alt style="display: block; margin: auto;" /></p> +</div> +</div> <style type="text/css"> hr.footer { diff --git a/vignettes/v07_excesso-zeros.Rmd b/vignettes/v07_excesso-zeros.Rmd index d01eb397cfba05622228adb7270def2bc108dd91..e8d956b93ba32e61d13e30a6f71e3757183b0773 100644 --- a/vignettes/v07_excesso-zeros.Rmd +++ b/vignettes/v07_excesso-zeros.Rmd @@ -338,4 +338,223 @@ cbind("vglm_posnegbin" = exp(coef(mcount)[2]), ``` +# Número de sinistros em uma seguradora de veículos # +## Análise exploratória ## + +```{r} + +sinistros <- read.table("base.txt", header = TRUE) +str(sinistros) +## help(sinistros) + +``` + +Dados referentes ao acompanhamento de clientes de uma seguradora de +automóveis ao longo de um ano. Foram registrados as variáveis descritas +abaixo para 16483 clientes. + +* `tipo`: Tipo de veículo segurado. Fator com seis níveis (_hatch_, + _mono_, _picape_, _sedan_, _wagon_ e _suv_). +* `sexo`: Sexo do cliente. Fator com dois níveis, _M_ para clientes do + sexo masculino e _F_ para feminino. +* `civil`: Estado civil do cliente. Fator com quatro níveis (_Casado_, + _Divorciado_, _Solteiro_ e _Viuvo_). +* `valor`: Valor do veículo segurado, em 1000 reais. +* `expos`: Período de cobertura do cliente durante o ano sob análise. +* `nsinist`: Número de sinistros registrados no período. + +```{r} + +summary(sinistros) + +``` + +## Ajuste de modelos ## + +```{r} + +library(pscl) + +## Preditores +f0 <- nsinist ~ 1 + offset(log(expos)) +f1 <- nsinist ~ sexo + valor + offset(log(expos)) +f2 <- nsinist ~ sexo * valor + offset(log(expos)) + +## Poisson +m0P <- glm(f0, data = sinistros, family = poisson) +m1P <- glm(f1, data = sinistros, family = poisson) +m2P <- glm(f2, data = sinistros, family = poisson) + +## Hurdle Poisson +m0HP <- hurdle(f0, data = sinistros, dist = "poisson") +m1HP <- hurdle(f1, data = sinistros, dist = "poisson") +m2HP <- hurdle(f2, data = sinistros, dist = "poisson") + +## Zero Inflated Poisson +m0ZP <- zeroinfl(f0, data = sinistros, dist = "poisson") +m1ZP <- zeroinfl(f1, data = sinistros, dist = "poisson") +m2ZP <- zeroinfl(f2, data = sinistros, dist = "poisson") + +## Binomial Negativa +library(MASS) +m0BN <- glm.nb(f0, data = sinistros) +m1BN <- glm.nb(f1, data = sinistros) +m2BN <- glm.nb(f2, data = sinistros) + +## Hurdle Binomial Negativa +m0HBN <- hurdle(f0, data = sinistros, dist = "negbin") +m1HBN <- hurdle(f1, data = sinistros, dist = "negbin") +m2HBN <- hurdle(f2, data = sinistros, dist = "negbin") + +## Zero Inflated Poisson +m0ZBN <- zeroinfl(f0, data = sinistros, dist = "negbin") +m1ZBN <- zeroinfl(f1, data = sinistros, dist = "negbin") +m2ZBN <- zeroinfl(f2, data = sinistros, dist = "negbin") + +``` + +## Comparação dos ajustes ## + +```{r} + +## Via log-verossimilhança +cbind("Poisson" = sapply(list(m0P, m1P, m2P), logLik), + "HUPoisson" = sapply(list(m0HP, m1HP, m2HP), logLik), + "ZIPoisson" = sapply(list(m0ZP, m1ZP, m2ZP), logLik), + "BinNeg" = sapply(list(m0BN, m1BN, m2BN), logLik), + "HUBinNeg" = sapply(list(m0HBN, m1HBN, m2HBN), logLik), + "ZIBinNeg" = sapply(list(m0ZBN, m1ZBN, m2ZBN), logLik) + ) + +``` + +```{r} + +## Testes de razão de verossimilhanças +lmtest::lrtest(m0ZP, m1ZP, m2ZP) + +lmtest::lrtest(m0ZBN, m1ZBN, m2ZBN) + +``` + +```{r} + +## Para a componente de contagens não negativas é necessário um modelo +## Binomial Negativa, considerando superdispersão dos dados? +vuong(m1ZP, m1ZBN) + +``` + +## Avaliação do modelo proposto ## + +```{r} + +## Estimativas do modelo proposto +summary(m1ZP) + +## Retira efeito de sexo na componente das contagens nulas +m3ZP <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, + data = sinistros) + +lmtest::lrtest(m1ZP, m3ZP) + +``` + +```{r} + +## Avaliação de diferentes especificações para a componente de contagens +## nulas +m3ZP.probi <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, link = "probit", + data = sinistros) + +m3ZP.clogl <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | + offset(log(expos)) + valor, link = "cloglog", + data = sinistros) + +## Comparação das funções de ligação +sapply(list("logit" = m3ZP, "probit" = m3ZP.probi, + "cloglog" = m3ZP.clogl), logLik) + +``` + +```{r diag2, cache = TRUE} + +##====================================================================== +## Uma pequena avaliação dos resíduos +p1 <- xyplot(residuals(m3ZP) ~ fitted(m3ZP), + ## aspect = "xy", + type = c("p", "g", "spline")) + +p2 <- qqmath(~residuals(m3ZP, type = "pearson"), + ## aspect = "xy", + type = c("p", "g"), + panel = function(x, ...) { + panel.qqmathline(x, ...) + panel.qqmath(x, ...) + }) + +qqsimul <- hnp::hnp(m3ZP, plot = FALSE, sim = 50) + +p3 <- with(qqsimul, + xyplot(residuals ~ x, pch = 20) + + as.layer( + xyplot(median + lower + upper ~ x, + type = "l", col = 1, lty = c(2, 1, 1))) + ) + +print(p1, split = c(1, 1, 3, 1), more = TRUE) +print(p2, split = c(2, 1, 3, 1), more = TRUE) +print(p3, split = c(3, 1, 3, 1), more = FALSE) + +``` + +## Predição ## + +```{r} + +## Região para predição +pred <- expand.grid(sexo = c("M", "F"), + valor = 1:200, expos = 1) +##------------------------------------------- +## Estimando as médias +aux <- predict(m3ZP, newdata = pred, type = "response") +predmu <- cbind(pred, fit = aux) + +xyplot(fit ~ valor, + groups = sexo, + data = predmu, + type = c("l", "g"), + auto.key = list( + columns = 2, cex.title = 1, + lines = TRUE, points = FALSE, + title = "Número de crianças")) + +``` + +```{r} + +##------------------------------------------- +## Estimando probabilidades +pred <- expand.grid(sexo = c("M", "F"), + valor = c(1, 50), expos = 1) + +py <- c(t(predict(m3ZP, type = "prob", at = 0:5, newdata = pred))) +carac <- with(pred, paste("Sexo:", sexo, "Valor:", valor)) +da <- data.frame(y = 0:5, py = py, + sexo = rep(c("M", "F"), each = 6), + valor = rep(c(1, 50), each = 12)) + +useOuterStrips( + barchart(py ~ y | sexo + factor(valor), data = da, + stack = FALSE, horizontal = FALSE, + as.table = TRUE, between = list(y = 0.5), + scales = list( y = "free", x = list(labels = 0:5)) + ), + strip = strip.custom(strip.names = TRUE, var.name = "Sexo"), + strip.left = strip.custom(strip.names = TRUE, var.name = "Valor") +) + +```