diff --git a/docs/cap01_introducao.Rnw b/docs/cap01_introducao.Rnw index c31a2334d4d46744348eaab523ec755b3414c986..29c9867e10064ffc9166587552dad7308beef12f 100644 --- a/docs/cap01_introducao.Rnw +++ b/docs/cap01_introducao.Rnw @@ -2,4 +2,218 @@ % CAPÍTULO 1 - INTRODUÇÃO % ------------------------------------------------------------------------ -\lipsum[1-6] \ No newline at end of file +Em diversas áreas do conhecimento é comum o interesse em i) compreender +o relacionamento entre variáveis de interesse e características de uma +amostra e ii) realizar predições por meio de modelos estatísticos +ajustados por dados de uma amostra. A teoria de modelos de regressão +sustentam muitas das pesquisas na área de Estatística aplicada. + +Os modelos de regressão, na sua forma univariada e usual, consistem no +estabelecimento de uma equação matemática que relaciona a média de uma +variável aleatória de interesse (variável resposta) com as demais +variáveis aleatórias observadas (covariáveis). Nesta metodologia +considera-se uma distribuição de probabilidades para a variável resposta +condicionada as covariáveis cuja a média está associada a uma preditor +que acomoda os efeitos das variáveis independentes. + +Podemos destacar o modelo linear normal como o modelo predominante +dentre as análises estatísticas aplicadas. Esse modelo estabelece que a +variável resposta condicional as covariáveis têm distribuição Normal de +média descrita por um preditor linear das covariáveis. Todavia, não são +raras as situações me que a variável resposta se apresenta na forma de +contagens, assumindo valores inteiros não negativos. Variáveis +aleatórias de contagem, de forma geral, representam o número de +ocorrências de um evento em um domínio específico que pode ser contínuo, +como um intervalo de tempo ou espaço, ou discreto, como indivíduos ou +grupos. + +A análise de dados de contagem pelo modelo linear normal produz +estimativas que contêm erros padrões inconsistentes e podem produzir +predições negativas para o número de eventos \cite{King1989}. Uma +alternativa adotada durante muitos anos, e ainda aplicada, é encontrar +alguma forma de transformação da variável resposta a fim de atender aos +pressupostos do modelo de regressão normal. Contudo essa abordagem +dispõe de resultados insatisfatórios, pois i) dificulta a intepretação +dos resultados, ii) não contempla a natureza da variável (ainda serão +valores pontuais, só que em outra escala) iii) não contempla a relação +média e variância, característica de dados de contagem e iv) no uso da +transformação logarítmica é problemática quando há contagens nulas. + +Diante do problema diferentes abordagens foram propostas, contudo +destaca-se o trabalho apresentado por \citeonline{Nelder1972} que +introduz a teoria dos modelos lineares generalizados (MLG's). Esta nova +classe de modelos flexibilizou a distribuição condicional associada +permitindo outras distribuições pertencentes à família exponencial de +distribuições. Tal família contempla as distribuições Poisson, Binomial, +Gama entre outras bem conhecidas na literatura, além da própria +distribuição Normal. + +Com os MLG's a modelagem de dados passou a ser mais fiel a natureza da +variável resposta, principalmente no que diz respeito ao seu +suporte. Neste contexto, a análise de variáveis aleatórias de contagem, +que têm suporte nos conjunto dos números naturais, foi enriquecida +expressivamente. + +Para análise estatística dessas variáveis, temos o modelo probabilístico +de Poisson, já consolidado na literatura e amplamente utilizado. Este +modelo possui apenas um parâmetro, denotado por $\lambda$, que +representa a média e também a variância, o que implica em uma relação +identidade ($\lambda = E[Y] = V[Y]$). Essa propriedade, chamada de +equidispersão, é uma particularidade do modelo Poisson que pode não ser +adequada a diversas situações. Quando aplicado sob negligência desta +suposição, o modelo Poisson apresenta erros padrões inconsistentes para +as estimativas dos parâmentros e por consequência, para toda função +desses parâmetros \cite{Winkelmann1995, Winkelmann1994}. + +O caso de superdispersão, quando a variância é maior que a média, é o +mais comum e tem uma gama de métodos para análise mais extensa. A +superdispersão pode ocorrer pela ausência de covariáveis importantes, +excesso de zeros, diferentes amplitudes de domínio (\textit{offset}) não +consideradas, heterogeneidade de unidades amostrais, entre outros +\cite{RibeiroJr2012}. Para tais casos uma abordagem é a adoção de +modelos com efeitos aleatórios que capturam a variabilidade extra. Um +caso particular dos modelos Poisson de efeitos aleatórios, muito adotado +no campo aplicado da Estatística, ocorre quando consideramos +distribuição Gama para os efeitos aleatórios, nesta situação temos +expressão fechada para a função de probabilidade marginal, que assume a +forma Binomial Negativa. + +Outra manifestação de fuga da suposição de equidispersão é a +subdispersão, situação menos comum na literatura. Os processos que +reduzem a variabilidade das contagens, abaixo do estabalecido pela +Poisson, não são tão conhecidos quanto os que produzem variabilidade +extra. Pela mesma razão, são poucas as abordagens descritas na +literatura que capazes de tratar a subdispersão, uma vez que efeitos +aleatórios só capturam a variabilidade extra. Podemos citar os modelos +de quasi-verossimilhança como a abordagem mais utilizada. Todavia não é +possível recuperar a verdadeira distribuição da variável resposta nessa +abordagem pois a modelagem é baseada apenas nos dois primeiros momentos +da distribuição condicional \cite{Paula2013}. + +<<processo-pontual, fig.cap="Ilustração de diferentes tipos de processos pontuais. Da direita para esquerda temos processos sob padrões aleatório, aglomerado e uniforme", fig.height=3, fig.width=7>>= + +mygrid <- expand.grid(xc = 1:3, yc = 1:3) +mygrid <- data.frame(mygrid) +sp::coordinates(mygrid) <- ~xc + yc + +set.seed(20124689) +equi <- sp::spsample(mygrid, n = 100, type = "random") +over <- sp::spsample(mygrid, n = 100, type = "clustered", nclusters = 20) +## unde <- sp::spsample(mygrid, n = 100, type = "aligned") +unde <- sp::spsample(mygrid, n = 100, type = "stratified") + +coords <- sapply(list("equi" = equi, "over" = over, "unde" = unde), + function(x) { + colnames(x@coords) <- c("x", "y") + x@coords + }) +da <- plyr::ldply(coords, .id="caso") + +library(latticeExtra) +col <- trellis.par.get("superpose.line")$col[1] +xyplot(y ~ x | caso, data = da, + layout = c(NA, 1), + as.table = TRUE, + pch = 19, + scales = list(draw = FALSE), + xlab = "", + ylab = "", + strip = strip.custom( + factor.levels = c("Equidispersão", + "Superdispersão", + "Subdispersão") + ), + panel = function(x, y, subscripts, ...) { + l <- seq(min(x), max(x), length.out = 10) + panel.abline(h = l, v = l, col = col, lty = 2) + panel.xyplot(x, y, ...) + }) + +@ + +A figura \ref{fig:processo-pontual} ilustra, sob um contexto espacial de +duas dimensões, a ocorrência das características de equi, super e +subdispersão respectivamente. Nesta figura cada ponto representa a +ocorrência de uma variável aleatória e cada parcela, delimitada pelas +linhas pontilhadas, representa o intervalo no espaço cujo contabiliza-se +as ocorrências.No painel da esquerda temos a representação de dados de +contagem equidispersos, neste cenário temos que as ocorrências da +variável aleatória se dispõem aleatoriamente. No painel central o padrão +já se altera, temos a representação do caso de superdispersão. Note que +neste cenário formam-se aglomerados que deixam parcelas co contagens +mutio elevadas e parcelas com contagens baixas. Uma possível causa deste +padrão se dá pelo processo de contágio (e.g. contagem de casos de uma +doença contagiosa, contagem de frutos apodrecidos). Na terceiro e último +painel temos o caso de subdispersão, em que as ocorrências se dispõe +uniformemente no espaço. Note agora que as contagens de ocorrências nas +parcelas variam bem pouco. Ao contrário do caso superdisperso uma causa +provável seria o oposto de contágio, a repulsa, ou seja, uma ocorrência +causa a repulsa de outras ocorrências em seu redor (e.g. contagem de +árvores, contagem de animais). + +Outra alterativa paramétrica que contempla os casos de equi, super e +subdispersão é a adoção de uma distribuição mais flexível para a +variável resposta condicional as covariáveis. A distribuição COM-Poisson +surgiu anteriormente à formalização dos MLG's, proposta por +\citeonline{Conway1962} a COM-Poisson (nome em em homenagem aos seus +autores Richard W. Conway, William L. Maxwell, +\textbf{Co}nway-\textbf{M}axwell-Poisson) generaliza a distribuição +Poisson com a adição de mais uma parâmetro, denotado por $\nu$, que +torna a razão de probabilidades sussecivas não linear contemplando os +casos de sub e superdispersão \cite{Shmueli2005}. + +Uma característica bastante relevante é que a COM-Poisson possui como +casos particulares as distribuições Poisson, Geométrica e +Binomial. Portanto, empregando a COM-Poisson como distribuição +condicional associada, obtemos um modelo de regressão sem a imposição de +equidispersão. Tal flexibilidade, considerando o amplo uso do modelo +Poisson, significa que a COM-Poisson pode ser aplicada nessas situações +e será especialmente importante naquelas onde há fuga da equidispersão. + +Pela similaridade da função de distribuição COM-Poisson com a Poisson, +vários aspectos podem ser estendidos. Por exemplo, há situações em que o +delineamento do experimento sugere uma estrutura de covariância entre +observações induzidas por um processo hierárquico de casualização ou +amostragem. São casos assim os experimentos em parcelas subdivididas e +experimentos com medidas repetidas ou longitudinais. Tais estruturas +estabelecem modelos com efeitos não observáveis que agem no nível de +observação ou unidade experimental e isso pode ser incorporado no modelo +de regressão COM-Poisson com a inclusão de efeitos aleatórios. Da mesma +forma, excesso de zeros pode ser introduzido a essa distribuição da +mesma maneira que ocorre para o modelo Poisson, através de truncamento +(modelos Hurdle) ou inflação (modelos de mistura) +\cite{Sellers2016}. Estas extensões para o modelo COM-Poisson ainda não +são bem consolidadas na literatura e são escassas suas aplicações. Uma +constatação do fato é que não há implementações destas extensões nos +principais softwares estatísticos. + +Na literatura brasileira, aplicações do modelo COM-Poisson são +escassas. Foram encontradas apenas aplicações na área de Análise de +Sobrevivência, mais especificamente em modelos com fração de cura +\cite{Ribeiro2012, Borges2012}. Portanto, o presente trabalho visa +colaborar com a literatura estatística brasileira i) apresentando e +explorando o modelo de regressão COM-Poisson para dados de contagem, ii) +estendendo as aplicações desse modelo COM-Poisson para situações +específicas como inclusão de efeitos aleatórios e modelagem de excesso +de zeros, iii) discutindo os aspectos inferenciais por meio de análise +de dados reais e iv) disponibilizando os recursos computacionais, em +formato de pacote R, para ajuste dos modelos apresentados. Nas +aplicações optou-se também pela análise via modelos já disponíveis para +as situações estudas. + +O trabalho é organizado em cinco capítulos. Esse primeiro capítulo visa +enfatizar as características das variáveis aleatórias de contagem e suas +lacunas que podem ser complementadas na análise estatística dessas +variáveis. O capítulo \ref{cap:modelos-para-dados-de-contagem} é +dedicado a revisão bibliográfica dos modelos estatísticos empregados a +análise de dados de contagem, nesse capítulo os modelos Poisson, +Binomial Negativo, as abordagens para excesso de zeros, a estrutura dos +modelos de efeitos aleatórios e o modelo COM-Poisson são +apresentados. No capítulo \ref{cap:material-e-metodos} apresentammos os +conjuntos de dados a serem analisados e os métodos para ajuste e +comparação dos modelos. O capítulo \ref{cap:resultados-e-discussao} traz +os os principais resultados da aplicação e comparação dos modelos +estatísticos com ênfase nas discussões sob aspectos inferenciais +empíricos. Finalmente no capítulo \ref{cap:consideracoes-finais} são +apresentadas as considerações finais obtidas desse trabalho e listados +algumas possíveis linhas de pesquisa para estudos futuros.