diff --git a/inst/doc/v07_excesso-zeros.R b/inst/doc/v07_excesso-zeros.R index 4960463149e40824826ed80d92a02526c0388cd4..65e881606f751005ba1d9d453f6b75e1de07b47d 100644 --- a/inst/doc/v07_excesso-zeros.R +++ b/inst/doc/v07_excesso-zeros.R @@ -93,7 +93,6 @@ m1ZBN <- zeroinfl(f1, data = peixe, dist = "negbin") m2ZBN <- zeroinfl(f2, data = peixe, dist = "negbin") - ## ------------------------------------------------------------------------ ## Via log-verossimilhança @@ -144,14 +143,13 @@ lmtest::lrtest(m1HBN, m3HBN) vuong(m1BN, m3HBN) -## ----diag, cache = TRUE-------------------------------------------------- +## ----diag, cache = TRUE, fig.height = 4---------------------------------- ## Uma pequena avaliação dos resÃduos p1 <- xyplot(residuals(m3HBN) ~ fitted(m3HBN), type = c("p", "g", "spline")) p2 <- qqmath(~residuals(m3HBN, type = "pearson"), - aspect = "xy", type = c("p", "g"), panel = function(x, ...) { panel.qqmathline(x, ...) @@ -285,14 +283,14 @@ cbind("vglm_posnegbin" = exp(coef(mcount)[2]), ## ------------------------------------------------------------------------ -sinistros <- read.table("base.txt", header = TRUE) -str(sinistros) -## help(sinistros) +data(seguros) +str(seguros) +## help(seguros) ## ------------------------------------------------------------------------ -summary(sinistros) +summary(seguros) ## ------------------------------------------------------------------------ @@ -300,40 +298,40 @@ summary(sinistros) library(pscl) ## Preditores -f0 <- nsinist ~ 1 + offset(log(expos)) -f1 <- nsinist ~ sexo + valor + offset(log(expos)) -f2 <- nsinist ~ sexo * valor + offset(log(expos)) +f0 <- nsinist ~ 1 +f1 <- nsinist ~ sexo + valor + log(expos) +f2 <- nsinist ~ sexo * valor + log(expos) ## Poisson -m0P <- glm(f0, data = sinistros, family = poisson) -m1P <- glm(f1, data = sinistros, family = poisson) -m2P <- glm(f2, data = sinistros, family = poisson) +m0P <- glm(f0, data = seguros, family = poisson) +m1P <- glm(f1, data = seguros, family = poisson) +m2P <- glm(f2, data = seguros, family = poisson) ## Hurdle Poisson -m0HP <- hurdle(f0, data = sinistros, dist = "poisson") -m1HP <- hurdle(f1, data = sinistros, dist = "poisson") -m2HP <- hurdle(f2, data = sinistros, dist = "poisson") +m0HP <- hurdle(f0, data = seguros, dist = "poisson") +m1HP <- hurdle(f1, data = seguros, dist = "poisson") +m2HP <- hurdle(f2, data = seguros, dist = "poisson") ## Zero Inflated Poisson -m0ZP <- zeroinfl(f0, data = sinistros, dist = "poisson") -m1ZP <- zeroinfl(f1, data = sinistros, dist = "poisson") -m2ZP <- zeroinfl(f2, data = sinistros, dist = "poisson") +m0ZP <- zeroinfl(f0, data = seguros, dist = "poisson") +m1ZP <- zeroinfl(f1, data = seguros, dist = "poisson") +m2ZP <- zeroinfl(f2, data = seguros, dist = "poisson") ## Binomial Negativa library(MASS) -m0BN <- glm.nb(f0, data = sinistros) -m1BN <- glm.nb(f1, data = sinistros) -m2BN <- glm.nb(f2, data = sinistros) +m0BN <- glm.nb(f0, data = seguros) +m1BN <- glm.nb(f1, data = seguros) +m2BN <- glm.nb(f2, data = seguros) ## Hurdle Binomial Negativa -m0HBN <- hurdle(f0, data = sinistros, dist = "negbin") -m1HBN <- hurdle(f1, data = sinistros, dist = "negbin") -m2HBN <- hurdle(f2, data = sinistros, dist = "negbin") +m0HBN <- hurdle(f0, data = seguros, dist = "negbin") +m1HBN <- hurdle(f1, data = seguros, dist = "negbin") +m2HBN <- hurdle(f2, data = seguros, dist = "negbin") ## Zero Inflated Poisson -m0ZBN <- zeroinfl(f0, data = sinistros, dist = "negbin") -m1ZBN <- zeroinfl(f1, data = sinistros, dist = "negbin") -m2ZBN <- zeroinfl(f2, data = sinistros, dist = "negbin") +m0ZBN <- zeroinfl(f0, data = seguros, dist = "negbin") +m1ZBN <- zeroinfl(f1, data = seguros, dist = "negbin") +m2ZBN <- zeroinfl(f2, data = seguros, dist = "negbin") ## ------------------------------------------------------------------------ @@ -351,92 +349,68 @@ cbind("Poisson" = sapply(list(m0P, m1P, m2P), logLik), ## ------------------------------------------------------------------------ ## Testes de razão de verossimilhanças -lmtest::lrtest(m0ZP, m1ZP, m2ZP) +lmtest::lrtest(m0HP, m1HP, m2HP) -lmtest::lrtest(m0ZBN, m1ZBN, m2ZBN) +lmtest::lrtest(m0HBN, m1HBN, m2HBN) ## ------------------------------------------------------------------------ ## Para a componente de contagens não negativas é necessário um modelo ## Binomial Negativa, considerando superdispersão dos dados? -vuong(m1ZP, m1ZBN) +vuong(m1HP, m1HBN) ## ------------------------------------------------------------------------ ## Estimativas do modelo proposto -summary(m1ZP) +summary(m1HP) ## Retira efeito de sexo na componente das contagens nulas -m3ZP <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, - data = sinistros) +m3HP <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros) + +lmtest::lrtest(m1HP, m3HP) -lmtest::lrtest(m1ZP, m3ZP) +summary(m3HP) ## ------------------------------------------------------------------------ ## Avaliação de diferentes especificações para a componente de contagens ## nulas -m3ZP.probi <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, link = "probit", - data = sinistros) +m3HP.pois <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "poisson") -m3ZP.clogl <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, link = "cloglog", - data = sinistros) - -## Comparação das funções de ligação -sapply(list("logit" = m3ZP, "probit" = m3ZP.probi, - "cloglog" = m3ZP.clogl), logLik) +m3HP.negb <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "negbin") +m3HP.geom <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "geometric") -## ----diag2, cache = TRUE------------------------------------------------- - -##====================================================================== -## Uma pequena avaliação dos resÃduos -p1 <- xyplot(residuals(m3ZP) ~ fitted(m3ZP), - ## aspect = "xy", - type = c("p", "g", "spline")) - -p2 <- qqmath(~residuals(m3ZP, type = "pearson"), - ## aspect = "xy", - type = c("p", "g"), - panel = function(x, ...) { - panel.qqmathline(x, ...) - panel.qqmath(x, ...) - }) - -qqsimul <- hnp::hnp(m3ZP, plot = FALSE, sim = 50) - -p3 <- with(qqsimul, - xyplot(residuals ~ x, pch = 20) + - as.layer( - xyplot(median + lower + upper ~ x, - type = "l", col = 1, lty = c(2, 1, 1))) - ) - -print(p1, split = c(1, 1, 3, 1), more = TRUE) -print(p2, split = c(2, 1, 3, 1), more = TRUE) -print(p3, split = c(3, 1, 3, 1), more = FALSE) +## Comparação das funções de ligação +sapply(list("binomial" = m3HP, "poisson" = m3HP.pois, + "negbin" = m3HP.negb, "geometric" = m3HP.geom), logLik) ## ------------------------------------------------------------------------ ## Região para predição pred <- expand.grid(sexo = c("M", "F"), - valor = 1:200, expos = 1) + valor = 1:200, + expos = c(0.1, 0.5, 1)) ##------------------------------------------- ## Estimando as médias -aux <- predict(m3ZP, newdata = pred, type = "response") +aux <- predict(m3HP, newdata = pred, type = "response") predmu <- cbind(pred, fit = aux) -xyplot(fit ~ valor, +xyplot(fit ~ valor | factor(expos), + layout = c(NA, 1), groups = sexo, data = predmu, type = c("l", "g"), + strip = strip.custom(strip.names = TRUE, + var.name = "Exposição"), auto.key = list( columns = 2, cex.title = 1, lines = TRUE, points = FALSE, @@ -448,9 +422,10 @@ xyplot(fit ~ valor, ##------------------------------------------- ## Estimando probabilidades pred <- expand.grid(sexo = c("M", "F"), - valor = c(1, 50), expos = 1) + valor = c(1, 50), + expos = 0.5) -py <- c(t(predict(m3ZP, type = "prob", at = 0:5, newdata = pred))) +py <- c(t(predict(m3HP, type = "prob", at = 0:5, newdata = pred))) carac <- with(pred, paste("Sexo:", sexo, "Valor:", valor)) da <- data.frame(y = 0:5, py = py, sexo = rep(c("M", "F"), each = 6), diff --git a/inst/doc/v07_excesso-zeros.html b/inst/doc/v07_excesso-zeros.html index 1a458986e89a67b531a482846821c0b44069bf45..4b80c4c1771d143e2a8b70333a284c9de09c0b37 100644 --- a/inst/doc/v07_excesso-zeros.html +++ b/inst/doc/v07_excesso-zeros.html @@ -456,7 +456,6 @@ p1 <- xyplot(residuals(m3HBN) ~ fitted(m3HBN), type = c("p", "g", "spline")) p2 <- qqmath(~residuals(m3HBN, type = "pearson"), - aspect = "xy", type = c("p", "g"), panel = function(x, ...) { panel.qqmathline(x, ...) @@ -475,7 +474,7 @@ qqsimul <- hnp::hnp(m3HBN, plot = FALSE)</code></pre> print(p1, split = c(1, 1, 3, 1), more = TRUE) print(p2, split = c(2, 1, 3, 1), more = TRUE) print(p3, split = c(3, 1, 3, 1), more = FALSE)</code></pre> -<p><img src="" title alt style="display: block; margin: auto;" /></p> +<p><img src="" title alt style="display: block; margin: auto;" /></p> <pre class="r"><code>## Estimativas dos parâmetros e testes de Wald summary(m3HBN)</code></pre> <pre><code>## @@ -623,8 +622,8 @@ cbind("vglm_posnegbin" = coef(mcount)[-2], <h1>Número de sinistros em uma seguradora de veÃculos</h1> <div id="analise-exploratoria-1" class="section level2"> <h2>Análise exploratória</h2> -<pre class="r"><code>sinistros <- read.table("base.txt", header = TRUE) -str(sinistros)</code></pre> +<pre class="r"><code>data(seguros) +str(seguros)</code></pre> <pre><code>## 'data.frame': 16483 obs. of 7 variables: ## $ tipo : Factor w/ 6 levels "hatch","mono",..: 1 2 5 4 2 1 1 4 5 5 ... ## $ idade : int 59 45 42 63 36 33 35 63 54 32 ... @@ -633,17 +632,18 @@ str(sinistros)</code></pre> ## $ valor : num 24.6 23.4 86.6 77.5 25.9 ... ## $ expos : num 0.5 0.7 0.79 0.01 0.51 0.79 0.81 0.01 0.76 0.79 ... ## $ nsinist: int 1 0 0 0 0 0 0 0 0 0 ...</code></pre> -<pre class="r"><code>## help(sinistros)</code></pre> +<pre class="r"><code>## help(seguros)</code></pre> <p>Dados referentes ao acompanhamento de clientes de uma seguradora de automóveis ao longo de um ano. Foram registrados as variáveis descritas abaixo para 16483 clientes.</p> <ul> <li><code>tipo</code>: Tipo de veÃculo segurado. Fator com seis nÃveis (<em>hatch</em>, <em>mono</em>, <em>picape</em>, <em>sedan</em>, <em>wagon</em> e <em>suv</em>).</li> +<li><code>idade</code>: Idade do cliente, em anos.</li> <li><code>sexo</code>: Sexo do cliente. Fator com dois nÃveis, <em>M</em> para clientes do sexo masculino e <em>F</em> para feminino.</li> <li><code>civil</code>: Estado civil do cliente. Fator com quatro nÃveis (<em>Casado</em>, <em>Divorciado</em>, <em>Solteiro</em> e <em>Viuvo</em>).</li> <li><code>valor</code>: Valor do veÃculo segurado, em 1000 reais.</li> <li><code>expos</code>: PerÃodo de cobertura do cliente durante o ano sob análise.</li> <li><code>nsinist</code>: Número de sinistros registrados no perÃodo.</li> </ul> -<pre class="r"><code>summary(sinistros)</code></pre> +<pre class="r"><code>summary(seguros)</code></pre> <pre><code>## tipo idade sexo civil ## hatch :6080 Min. :18.00 F:6694 Casado :13327 ## mono :1546 1st Qu.:41.00 M:9789 Divorciado: 729 @@ -664,40 +664,40 @@ str(sinistros)</code></pre> <pre class="r"><code>library(pscl) ## Preditores -f0 <- nsinist ~ 1 + offset(log(expos)) -f1 <- nsinist ~ sexo + valor + offset(log(expos)) -f2 <- nsinist ~ sexo * valor + offset(log(expos)) +f0 <- nsinist ~ 1 +f1 <- nsinist ~ sexo + valor + log(expos) +f2 <- nsinist ~ sexo * valor + log(expos) ## Poisson -m0P <- glm(f0, data = sinistros, family = poisson) -m1P <- glm(f1, data = sinistros, family = poisson) -m2P <- glm(f2, data = sinistros, family = poisson) +m0P <- glm(f0, data = seguros, family = poisson) +m1P <- glm(f1, data = seguros, family = poisson) +m2P <- glm(f2, data = seguros, family = poisson) ## Hurdle Poisson -m0HP <- hurdle(f0, data = sinistros, dist = "poisson") -m1HP <- hurdle(f1, data = sinistros, dist = "poisson") -m2HP <- hurdle(f2, data = sinistros, dist = "poisson") +m0HP <- hurdle(f0, data = seguros, dist = "poisson") +m1HP <- hurdle(f1, data = seguros, dist = "poisson") +m2HP <- hurdle(f2, data = seguros, dist = "poisson") ## Zero Inflated Poisson -m0ZP <- zeroinfl(f0, data = sinistros, dist = "poisson") -m1ZP <- zeroinfl(f1, data = sinistros, dist = "poisson") -m2ZP <- zeroinfl(f2, data = sinistros, dist = "poisson") +m0ZP <- zeroinfl(f0, data = seguros, dist = "poisson") +m1ZP <- zeroinfl(f1, data = seguros, dist = "poisson") +m2ZP <- zeroinfl(f2, data = seguros, dist = "poisson") ## Binomial Negativa library(MASS) -m0BN <- glm.nb(f0, data = sinistros) -m1BN <- glm.nb(f1, data = sinistros) -m2BN <- glm.nb(f2, data = sinistros) +m0BN <- glm.nb(f0, data = seguros) +m1BN <- glm.nb(f1, data = seguros) +m2BN <- glm.nb(f2, data = seguros) ## Hurdle Binomial Negativa -m0HBN <- hurdle(f0, data = sinistros, dist = "negbin") -m1HBN <- hurdle(f1, data = sinistros, dist = "negbin") -m2HBN <- hurdle(f2, data = sinistros, dist = "negbin") +m0HBN <- hurdle(f0, data = seguros, dist = "negbin") +m1HBN <- hurdle(f1, data = seguros, dist = "negbin") +m2HBN <- hurdle(f2, data = seguros, dist = "negbin") ## Zero Inflated Poisson -m0ZBN <- zeroinfl(f0, data = sinistros, dist = "negbin") -m1ZBN <- zeroinfl(f1, data = sinistros, dist = "negbin") -m2ZBN <- zeroinfl(f2, data = sinistros, dist = "negbin")</code></pre> +m0ZBN <- zeroinfl(f0, data = seguros, dist = "negbin") +m1ZBN <- zeroinfl(f1, data = seguros, dist = "negbin") +m2ZBN <- zeroinfl(f2, data = seguros, dist = "negbin")</code></pre> </div> <div id="comparacao-dos-ajustes-1" class="section level2"> <h2>Comparação dos ajustes</h2> @@ -710,156 +710,158 @@ cbind("Poisson" = sapply(list(m0P, m1P, m2P), logLik), "ZIBinNeg" = sapply(list(m0ZBN, m1ZBN, m2ZBN), logLik) )</code></pre> <pre><code>## Poisson HUPoisson ZIPoisson BinNeg HUBinNeg ZIBinNeg -## [1,] -4123.756 -3822.441 -3723.772 -3808.049 -3822.030 -3723.759 -## [2,] -4113.112 -3813.065 -3714.354 -3802.173 -3812.650 -3714.290 -## [3,] -4113.102 -3811.952 -3713.520 -3802.157 -3811.594 -3713.485</code></pre> +## [1,] -4018.628 -3712.755 -3712.755 -3723.977 -3712.756 -3712.756 +## [2,] -3998.623 -3696.327 -3696.251 -3710.146 -3696.327 -3696.251 +## [3,] -3998.609 -3695.106 -3694.896 -3710.140 -3695.106 -3694.896</code></pre> <pre class="r"><code>## Testes de razão de verossimilhanças -lmtest::lrtest(m0ZP, m1ZP, m2ZP)</code></pre> +lmtest::lrtest(m0HP, m1HP, m2HP)</code></pre> <pre><code>## Likelihood ratio test ## -## Model 1: nsinist ~ 1 + offset(log(expos)) -## Model 2: nsinist ~ sexo + valor + offset(log(expos)) -## Model 3: nsinist ~ sexo * valor + offset(log(expos)) +## Model 1: nsinist ~ 1 +## Model 2: nsinist ~ sexo + valor + log(expos) +## Model 3: nsinist ~ sexo * valor + log(expos) ## #Df LogLik Df Chisq Pr(>Chisq) -## 1 2 -3723.8 -## 2 6 -3714.4 4 18.8370 0.0008461 *** -## 3 8 -3713.5 2 1.6681 0.4342916 +## 1 2 -3712.8 +## 2 8 -3696.3 6 32.8576 1.117e-05 *** +## 3 10 -3695.1 2 2.4414 0.295 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1</code></pre> -<pre class="r"><code>lmtest::lrtest(m0ZBN, m1ZBN, m2ZBN)</code></pre> +<pre class="r"><code>lmtest::lrtest(m0HBN, m1HBN, m2HBN)</code></pre> <pre><code>## Likelihood ratio test ## -## Model 1: nsinist ~ 1 + offset(log(expos)) -## Model 2: nsinist ~ sexo + valor + offset(log(expos)) -## Model 3: nsinist ~ sexo * valor + offset(log(expos)) +## Model 1: nsinist ~ 1 +## Model 2: nsinist ~ sexo + valor + log(expos) +## Model 3: nsinist ~ sexo * valor + log(expos) ## #Df LogLik Df Chisq Pr(>Chisq) -## 1 3 -3723.8 -## 2 7 -3714.3 4 18.9367 0.0008088 *** -## 3 9 -3713.5 2 1.6097 0.4471484 +## 1 3 -3712.8 +## 2 9 -3696.3 6 32.8579 1.117e-05 *** +## 3 11 -3695.1 2 2.4406 0.2951 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1</code></pre> <pre class="r"><code>## Para a componente de contagens não negativas é necessário um modelo ## Binomial Negativa, considerando superdispersão dos dados? -vuong(m1ZP, m1ZBN)</code></pre> +vuong(m1HP, m1HBN)</code></pre> <pre><code>## Vuong Non-Nested Hypothesis Test-Statistic: ## (test-statistic is asymptotically distributed N(0,1) under the ## null that the models are indistinguishible) ## ------------------------------------------------------------- ## Vuong z-statistic H_A p-value -## Raw -0.1757064 model2 > model1 0.43026 -## AIC-corrected -0.1757064 model2 > model1 0.43026 -## BIC-corrected -0.1757064 model2 > model1 0.43026</code></pre> +## Raw 0.2024475 model1 > model2 0.41978 +## AIC-corrected 0.2024475 model1 > model2 0.41978 +## BIC-corrected 0.2024475 model1 > model2 0.41978</code></pre> </div> <div id="avaliacao-do-modelo-proposto-1" class="section level2"> <h2>Avaliação do modelo proposto</h2> <pre class="r"><code>## Estimativas do modelo proposto -summary(m1ZP)</code></pre> +summary(m1HP)</code></pre> <pre><code>## ## Call: -## zeroinfl(formula = f1, data = sinistros, dist = "poisson") +## hurdle(formula = f1, data = seguros, dist = "poisson") ## ## Pearson residuals: ## Min 1Q Median 3Q Max -## -0.3036 -0.2174 -0.2045 -0.1932 17.6045 +## -0.2981 -0.2157 -0.2059 -0.1962 13.9964 ## -## Count model coefficients (poisson with log link): -## Estimate Std. Error z value Pr(>|z|) -## (Intercept) 0.082267 0.146473 0.562 0.574 -## sexoM -0.144597 0.120124 -1.204 0.229 -## valor -0.006457 0.003420 -1.888 0.059 . -## -## Zero-inflation model coefficients (binomial with logit link): +## Count model coefficients (truncated poisson with log link): +## Estimate Std. Error z value Pr(>|z|) +## (Intercept) -0.463668 0.161143 -2.877 0.00401 ** +## sexoM -0.207454 0.129131 -1.607 0.10815 +## valor -0.001857 0.003340 -0.556 0.57822 +## log(expos) 0.030484 0.097958 0.311 0.75565 +## Zero hurdle model coefficients (binomial with logit link): ## Estimate Std. Error z value Pr(>|z|) -## (Intercept) 2.764149 0.163096 16.948 < 2e-16 *** -## sexoM 0.038435 0.132175 0.291 0.77121 -## valor -0.012444 0.003989 -3.120 0.00181 ** +## (Intercept) -2.969721 0.086905 -34.172 < 2e-16 *** +## sexoM -0.148773 0.073399 -2.027 0.04267 * +## valor 0.005012 0.001721 2.913 0.00358 ** +## log(expos) 0.186904 0.046857 3.989 6.64e-05 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## -## Number of iterations in BFGS optimization: 22 -## Log-likelihood: -3714 on 6 Df</code></pre> +## Number of iterations in BFGS optimization: 17 +## Log-likelihood: -3696 on 8 Df</code></pre> <pre class="r"><code>## Retira efeito de sexo na componente das contagens nulas -m3ZP <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, - data = sinistros) +m3HP <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros) -lmtest::lrtest(m1ZP, m3ZP)</code></pre> +lmtest::lrtest(m1HP, m3HP)</code></pre> <pre><code>## Likelihood ratio test ## -## Model 1: nsinist ~ sexo + valor + offset(log(expos)) -## Model 2: nsinist ~ sexo + valor + offset(log(expos)) | offset(log(expos)) + -## valor -## #Df LogLik Df Chisq Pr(>Chisq) -## 1 6 -3714.4 -## 2 5 -3714.4 -1 0.0846 0.7712</code></pre> +## Model 1: nsinist ~ sexo + valor + log(expos) +## Model 2: nsinist ~ 1 | sexo + valor + log(expos) +## #Df LogLik Df Chisq Pr(>Chisq) +## 1 8 -3696.3 +## 2 5 -3697.9 -3 3.095 0.3772</code></pre> +<pre class="r"><code>summary(m3HP)</code></pre> +<pre><code>## +## Call: +## hurdle(formula = nsinist ~ 1 | sexo + valor + log(expos), +## data = seguros) +## +## Pearson residuals: +## Min 1Q Median 3Q Max +## -0.2965 -0.2163 -0.2055 -0.1958 14.2575 +## +## Count model coefficients (truncated poisson with log link): +## Estimate Std. Error z value Pr(>|z|) +## (Intercept) -0.65911 0.06449 -10.22 <2e-16 *** +## Zero hurdle model coefficients (binomial with logit link): +## Estimate Std. Error z value Pr(>|z|) +## (Intercept) -2.969721 0.086905 -34.172 < 2e-16 *** +## sexoM -0.148773 0.073399 -2.027 0.04267 * +## valor 0.005012 0.001721 2.913 0.00358 ** +## log(expos) 0.186904 0.046857 3.989 6.64e-05 *** +## --- +## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 +## +## Number of iterations in BFGS optimization: 10 +## Log-likelihood: -3698 on 5 Df</code></pre> <pre class="r"><code>## Avaliação de diferentes especificações para a componente de contagens ## nulas -m3ZP.probi <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, link = "probit", - data = sinistros) - -m3ZP.clogl <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, link = "cloglog", - data = sinistros) - -## Comparação das funções de ligação -sapply(list("logit" = m3ZP, "probit" = m3ZP.probi, - "cloglog" = m3ZP.clogl), logLik)</code></pre> -<pre><code>## logit probit cloglog -## -3714.396 -3716.296 -3717.328</code></pre> -<pre class="r"><code>##====================================================================== -## Uma pequena avaliação dos resÃduos -p1 <- xyplot(residuals(m3ZP) ~ fitted(m3ZP), - ## aspect = "xy", - type = c("p", "g", "spline")) +m3HP.pois <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "poisson") -p2 <- qqmath(~residuals(m3ZP, type = "pearson"), - ## aspect = "xy", - type = c("p", "g"), - panel = function(x, ...) { - panel.qqmathline(x, ...) - panel.qqmath(x, ...) - }) +m3HP.negb <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "negbin") -qqsimul <- hnp::hnp(m3ZP, plot = FALSE, sim = 50)</code></pre> -<pre><code>## Zero-inflated Poisson model</code></pre> -<pre class="r"><code>p3 <- with(qqsimul, - xyplot(residuals ~ x, pch = 20) + - as.layer( - xyplot(median + lower + upper ~ x, - type = "l", col = 1, lty = c(2, 1, 1))) - ) +m3HP.geom <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "geometric") -print(p1, split = c(1, 1, 3, 1), more = TRUE) -print(p2, split = c(2, 1, 3, 1), more = TRUE) -print(p3, split = c(3, 1, 3, 1), more = FALSE)</code></pre> -<p><img src="" title alt style="display: block; margin: auto;" /></p> +## Comparação das funções de ligação +sapply(list("binomial" = m3HP, "poisson" = m3HP.pois, + "negbin" = m3HP.negb, "geometric" = m3HP.geom), logLik)</code></pre> +<pre><code>## binomial poisson negbin geometric +## -3697.874 -3697.899 -3696.887 -3697.874</code></pre> </div> <div id="predicao-1" class="section level2"> <h2>Predição</h2> <pre class="r"><code>## Região para predição pred <- expand.grid(sexo = c("M", "F"), - valor = 1:200, expos = 1) + valor = 1:200, + expos = c(0.1, 0.5, 1)) ##------------------------------------------- ## Estimando as médias -aux <- predict(m3ZP, newdata = pred, type = "response") +aux <- predict(m3HP, newdata = pred, type = "response") predmu <- cbind(pred, fit = aux) -xyplot(fit ~ valor, +xyplot(fit ~ valor | factor(expos), + layout = c(NA, 1), groups = sexo, data = predmu, type = c("l", "g"), + strip = strip.custom(strip.names = TRUE, + var.name = "Exposição"), auto.key = list( columns = 2, cex.title = 1, lines = TRUE, points = FALSE, title = "Número de crianças"))</code></pre> -<p><img src="" title alt style="display: block; margin: auto;" /></p> +<p><img src="" title alt style="display: block; margin: auto;" /></p> <pre class="r"><code>##------------------------------------------- ## Estimando probabilidades pred <- expand.grid(sexo = c("M", "F"), - valor = c(1, 50), expos = 1) + valor = c(1, 50), + expos = 0.5) -py <- c(t(predict(m3ZP, type = "prob", at = 0:5, newdata = pred))) +py <- c(t(predict(m3HP, type = "prob", at = 0:5, newdata = pred))) carac <- with(pred, paste("Sexo:", sexo, "Valor:", valor)) da <- data.frame(y = 0:5, py = py, sexo = rep(c("M", "F"), each = 6), @@ -874,7 +876,7 @@ useOuterStrips( strip = strip.custom(strip.names = TRUE, var.name = "Sexo"), strip.left = strip.custom(strip.names = TRUE, var.name = "Valor") )</code></pre> -<p><img src="" title alt style="display: block; margin: auto;" /></p> +<p><img src="" title alt style="display: block; margin: auto;" /></p> </div> </div> diff --git a/vignettes/v07_excesso-zeros.Rmd b/vignettes/v07_excesso-zeros.Rmd index e8d956b93ba32e61d13e30a6f71e3757183b0773..28b43a6c4c7fb23760e2a90687110c0851174b22 100644 --- a/vignettes/v07_excesso-zeros.Rmd +++ b/vignettes/v07_excesso-zeros.Rmd @@ -128,7 +128,6 @@ m2HBN <- hurdle(f2, data = peixe, dist = "negbin") m1ZBN <- zeroinfl(f1, data = peixe, dist = "negbin") m2ZBN <- zeroinfl(f2, data = peixe, dist = "negbin") - ``` ## Comparação dos ajustes ## @@ -190,14 +189,13 @@ vuong(m1BN, m3HBN) ## Avaliação do modelo proposto ## -```{r diag, cache = TRUE} +```{r diag, cache = TRUE, fig.height = 4} ## Uma pequena avaliação dos resÃduos p1 <- xyplot(residuals(m3HBN) ~ fitted(m3HBN), type = c("p", "g", "spline")) p2 <- qqmath(~residuals(m3HBN, type = "pearson"), - aspect = "xy", type = c("p", "g"), panel = function(x, ...) { panel.qqmathline(x, ...) @@ -344,9 +342,9 @@ cbind("vglm_posnegbin" = exp(coef(mcount)[2]), ```{r} -sinistros <- read.table("base.txt", header = TRUE) -str(sinistros) -## help(sinistros) +data(seguros) +str(seguros) +## help(seguros) ``` @@ -356,6 +354,7 @@ abaixo para 16483 clientes. * `tipo`: Tipo de veÃculo segurado. Fator com seis nÃveis (_hatch_, _mono_, _picape_, _sedan_, _wagon_ e _suv_). +* `idade`: Idade do cliente, em anos. * `sexo`: Sexo do cliente. Fator com dois nÃveis, _M_ para clientes do sexo masculino e _F_ para feminino. * `civil`: Estado civil do cliente. Fator com quatro nÃveis (_Casado_, @@ -366,7 +365,7 @@ abaixo para 16483 clientes. ```{r} -summary(sinistros) +summary(seguros) ``` @@ -377,40 +376,40 @@ summary(sinistros) library(pscl) ## Preditores -f0 <- nsinist ~ 1 + offset(log(expos)) -f1 <- nsinist ~ sexo + valor + offset(log(expos)) -f2 <- nsinist ~ sexo * valor + offset(log(expos)) +f0 <- nsinist ~ 1 +f1 <- nsinist ~ sexo + valor + log(expos) +f2 <- nsinist ~ sexo * valor + log(expos) ## Poisson -m0P <- glm(f0, data = sinistros, family = poisson) -m1P <- glm(f1, data = sinistros, family = poisson) -m2P <- glm(f2, data = sinistros, family = poisson) +m0P <- glm(f0, data = seguros, family = poisson) +m1P <- glm(f1, data = seguros, family = poisson) +m2P <- glm(f2, data = seguros, family = poisson) ## Hurdle Poisson -m0HP <- hurdle(f0, data = sinistros, dist = "poisson") -m1HP <- hurdle(f1, data = sinistros, dist = "poisson") -m2HP <- hurdle(f2, data = sinistros, dist = "poisson") +m0HP <- hurdle(f0, data = seguros, dist = "poisson") +m1HP <- hurdle(f1, data = seguros, dist = "poisson") +m2HP <- hurdle(f2, data = seguros, dist = "poisson") ## Zero Inflated Poisson -m0ZP <- zeroinfl(f0, data = sinistros, dist = "poisson") -m1ZP <- zeroinfl(f1, data = sinistros, dist = "poisson") -m2ZP <- zeroinfl(f2, data = sinistros, dist = "poisson") +m0ZP <- zeroinfl(f0, data = seguros, dist = "poisson") +m1ZP <- zeroinfl(f1, data = seguros, dist = "poisson") +m2ZP <- zeroinfl(f2, data = seguros, dist = "poisson") ## Binomial Negativa library(MASS) -m0BN <- glm.nb(f0, data = sinistros) -m1BN <- glm.nb(f1, data = sinistros) -m2BN <- glm.nb(f2, data = sinistros) +m0BN <- glm.nb(f0, data = seguros) +m1BN <- glm.nb(f1, data = seguros) +m2BN <- glm.nb(f2, data = seguros) ## Hurdle Binomial Negativa -m0HBN <- hurdle(f0, data = sinistros, dist = "negbin") -m1HBN <- hurdle(f1, data = sinistros, dist = "negbin") -m2HBN <- hurdle(f2, data = sinistros, dist = "negbin") +m0HBN <- hurdle(f0, data = seguros, dist = "negbin") +m1HBN <- hurdle(f1, data = seguros, dist = "negbin") +m2HBN <- hurdle(f2, data = seguros, dist = "negbin") ## Zero Inflated Poisson -m0ZBN <- zeroinfl(f0, data = sinistros, dist = "negbin") -m1ZBN <- zeroinfl(f1, data = sinistros, dist = "negbin") -m2ZBN <- zeroinfl(f2, data = sinistros, dist = "negbin") +m0ZBN <- zeroinfl(f0, data = seguros, dist = "negbin") +m1ZBN <- zeroinfl(f1, data = seguros, dist = "negbin") +m2ZBN <- zeroinfl(f2, data = seguros, dist = "negbin") ``` @@ -432,9 +431,9 @@ cbind("Poisson" = sapply(list(m0P, m1P, m2P), logLik), ```{r} ## Testes de razão de verossimilhanças -lmtest::lrtest(m0ZP, m1ZP, m2ZP) +lmtest::lrtest(m0HP, m1HP, m2HP) -lmtest::lrtest(m0ZBN, m1ZBN, m2ZBN) +lmtest::lrtest(m0HBN, m1HBN, m2HBN) ``` @@ -442,7 +441,7 @@ lmtest::lrtest(m0ZBN, m1ZBN, m2ZBN) ## Para a componente de contagens não negativas é necessário um modelo ## Binomial Negativa, considerando superdispersão dos dados? -vuong(m1ZP, m1ZBN) +vuong(m1HP, m1HBN) ``` @@ -451,14 +450,15 @@ vuong(m1ZP, m1ZBN) ```{r} ## Estimativas do modelo proposto -summary(m1ZP) +summary(m1HP) ## Retira efeito de sexo na componente das contagens nulas -m3ZP <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, - data = sinistros) +m3HP <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros) + +lmtest::lrtest(m1HP, m3HP) -lmtest::lrtest(m1ZP, m3ZP) +summary(m3HP) ``` @@ -466,48 +466,18 @@ lmtest::lrtest(m1ZP, m3ZP) ## Avaliação de diferentes especificações para a componente de contagens ## nulas -m3ZP.probi <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, link = "probit", - data = sinistros) - -m3ZP.clogl <- zeroinfl(nsinist ~ sexo + valor + offset(log(expos)) | - offset(log(expos)) + valor, link = "cloglog", - data = sinistros) - -## Comparação das funções de ligação -sapply(list("logit" = m3ZP, "probit" = m3ZP.probi, - "cloglog" = m3ZP.clogl), logLik) - -``` - -```{r diag2, cache = TRUE} - -##====================================================================== -## Uma pequena avaliação dos resÃduos -p1 <- xyplot(residuals(m3ZP) ~ fitted(m3ZP), - ## aspect = "xy", - type = c("p", "g", "spline")) - -p2 <- qqmath(~residuals(m3ZP, type = "pearson"), - ## aspect = "xy", - type = c("p", "g"), - panel = function(x, ...) { - panel.qqmathline(x, ...) - panel.qqmath(x, ...) - }) +m3HP.pois <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "poisson") -qqsimul <- hnp::hnp(m3ZP, plot = FALSE, sim = 50) +m3HP.negb <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "negbin") -p3 <- with(qqsimul, - xyplot(residuals ~ x, pch = 20) + - as.layer( - xyplot(median + lower + upper ~ x, - type = "l", col = 1, lty = c(2, 1, 1))) - ) +m3HP.geom <- hurdle(nsinist ~ 1 | sexo + valor + log(expos), + data = seguros, zero.dist = "geometric") -print(p1, split = c(1, 1, 3, 1), more = TRUE) -print(p2, split = c(2, 1, 3, 1), more = TRUE) -print(p3, split = c(3, 1, 3, 1), more = FALSE) +## Comparação das funções de ligação +sapply(list("binomial" = m3HP, "poisson" = m3HP.pois, + "negbin" = m3HP.negb, "geometric" = m3HP.geom), logLik) ``` @@ -517,16 +487,20 @@ print(p3, split = c(3, 1, 3, 1), more = FALSE) ## Região para predição pred <- expand.grid(sexo = c("M", "F"), - valor = 1:200, expos = 1) + valor = 1:200, + expos = c(0.1, 0.5, 1)) ##------------------------------------------- ## Estimando as médias -aux <- predict(m3ZP, newdata = pred, type = "response") +aux <- predict(m3HP, newdata = pred, type = "response") predmu <- cbind(pred, fit = aux) -xyplot(fit ~ valor, +xyplot(fit ~ valor | factor(expos), + layout = c(NA, 1), groups = sexo, data = predmu, type = c("l", "g"), + strip = strip.custom(strip.names = TRUE, + var.name = "Exposição"), auto.key = list( columns = 2, cex.title = 1, lines = TRUE, points = FALSE, @@ -539,9 +513,10 @@ xyplot(fit ~ valor, ##------------------------------------------- ## Estimando probabilidades pred <- expand.grid(sexo = c("M", "F"), - valor = c(1, 50), expos = 1) + valor = c(1, 50), + expos = 0.5) -py <- c(t(predict(m3ZP, type = "prob", at = 0:5, newdata = pred))) +py <- c(t(predict(m3HP, type = "prob", at = 0:5, newdata = pred))) carac <- with(pred, paste("Sexo:", sexo, "Valor:", valor)) da <- data.frame(y = 0:5, py = py, sexo = rep(c("M", "F"), each = 6),