Skip to content
Snippets Groups Projects
Commit c1dd02d2 authored by Eduardo E. R. Junior's avatar Eduardo E. R. Junior
Browse files

Adiciona capítulo de introdução

parent 2e8ce9c4
Branches
No related tags found
No related merge requests found
......@@ -2,4 +2,218 @@
% CAPÍTULO 1 - INTRODUÇÃO
% ------------------------------------------------------------------------
\lipsum[1-6]
\ No newline at end of file
Em diversas áreas do conhecimento é comum o interesse em i) compreender
o relacionamento entre variáveis de interesse e características de uma
amostra e ii) realizar predições por meio de modelos estatísticos
ajustados por dados de uma amostra. A teoria de modelos de regressão
sustentam muitas das pesquisas na área de Estatística aplicada.
Os modelos de regressão, na sua forma univariada e usual, consistem no
estabelecimento de uma equação matemática que relaciona a média de uma
variável aleatória de interesse (variável resposta) com as demais
variáveis aleatórias observadas (covariáveis). Nesta metodologia
considera-se uma distribuição de probabilidades para a variável resposta
condicionada as covariáveis cuja a média está associada a uma preditor
que acomoda os efeitos das variáveis independentes.
Podemos destacar o modelo linear normal como o modelo predominante
dentre as análises estatísticas aplicadas. Esse modelo estabelece que a
variável resposta condicional as covariáveis têm distribuição Normal de
média descrita por um preditor linear das covariáveis. Todavia, não são
raras as situações me que a variável resposta se apresenta na forma de
contagens, assumindo valores inteiros não negativos. Variáveis
aleatórias de contagem, de forma geral, representam o número de
ocorrências de um evento em um domínio específico que pode ser contínuo,
como um intervalo de tempo ou espaço, ou discreto, como indivíduos ou
grupos.
A análise de dados de contagem pelo modelo linear normal produz
estimativas que contêm erros padrões inconsistentes e podem produzir
predições negativas para o número de eventos \cite{King1989}. Uma
alternativa adotada durante muitos anos, e ainda aplicada, é encontrar
alguma forma de transformação da variável resposta a fim de atender aos
pressupostos do modelo de regressão normal. Contudo essa abordagem
dispõe de resultados insatisfatórios, pois i) dificulta a intepretação
dos resultados, ii) não contempla a natureza da variável (ainda serão
valores pontuais, só que em outra escala) iii) não contempla a relação
média e variância, característica de dados de contagem e iv) no uso da
transformação logarítmica é problemática quando há contagens nulas.
Diante do problema diferentes abordagens foram propostas, contudo
destaca-se o trabalho apresentado por \citeonline{Nelder1972} que
introduz a teoria dos modelos lineares generalizados (MLG's). Esta nova
classe de modelos flexibilizou a distribuição condicional associada
permitindo outras distribuições pertencentes à família exponencial de
distribuições. Tal família contempla as distribuições Poisson, Binomial,
Gama entre outras bem conhecidas na literatura, além da própria
distribuição Normal.
Com os MLG's a modelagem de dados passou a ser mais fiel a natureza da
variável resposta, principalmente no que diz respeito ao seu
suporte. Neste contexto, a análise de variáveis aleatórias de contagem,
que têm suporte nos conjunto dos números naturais, foi enriquecida
expressivamente.
Para análise estatística dessas variáveis, temos o modelo probabilístico
de Poisson, já consolidado na literatura e amplamente utilizado. Este
modelo possui apenas um parâmetro, denotado por $\lambda$, que
representa a média e também a variância, o que implica em uma relação
identidade ($\lambda = E[Y] = V[Y]$). Essa propriedade, chamada de
equidispersão, é uma particularidade do modelo Poisson que pode não ser
adequada a diversas situações. Quando aplicado sob negligência desta
suposição, o modelo Poisson apresenta erros padrões inconsistentes para
as estimativas dos parâmentros e por consequência, para toda função
desses parâmetros \cite{Winkelmann1995, Winkelmann1994}.
O caso de superdispersão, quando a variância é maior que a média, é o
mais comum e tem uma gama de métodos para análise mais extensa. A
superdispersão pode ocorrer pela ausência de covariáveis importantes,
excesso de zeros, diferentes amplitudes de domínio (\textit{offset}) não
consideradas, heterogeneidade de unidades amostrais, entre outros
\cite{RibeiroJr2012}. Para tais casos uma abordagem é a adoção de
modelos com efeitos aleatórios que capturam a variabilidade extra. Um
caso particular dos modelos Poisson de efeitos aleatórios, muito adotado
no campo aplicado da Estatística, ocorre quando consideramos
distribuição Gama para os efeitos aleatórios, nesta situação temos
expressão fechada para a função de probabilidade marginal, que assume a
forma Binomial Negativa.
Outra manifestação de fuga da suposição de equidispersão é a
subdispersão, situação menos comum na literatura. Os processos que
reduzem a variabilidade das contagens, abaixo do estabalecido pela
Poisson, não são tão conhecidos quanto os que produzem variabilidade
extra. Pela mesma razão, são poucas as abordagens descritas na
literatura que capazes de tratar a subdispersão, uma vez que efeitos
aleatórios só capturam a variabilidade extra. Podemos citar os modelos
de quasi-verossimilhança como a abordagem mais utilizada. Todavia não é
possível recuperar a verdadeira distribuição da variável resposta nessa
abordagem pois a modelagem é baseada apenas nos dois primeiros momentos
da distribuição condicional \cite{Paula2013}.
<<processo-pontual, fig.cap="Ilustração de diferentes tipos de processos pontuais. Da direita para esquerda temos processos sob padrões aleatório, aglomerado e uniforme", fig.height=3, fig.width=7>>=
mygrid <- expand.grid(xc = 1:3, yc = 1:3)
mygrid <- data.frame(mygrid)
sp::coordinates(mygrid) <- ~xc + yc
set.seed(20124689)
equi <- sp::spsample(mygrid, n = 100, type = "random")
over <- sp::spsample(mygrid, n = 100, type = "clustered", nclusters = 20)
## unde <- sp::spsample(mygrid, n = 100, type = "aligned")
unde <- sp::spsample(mygrid, n = 100, type = "stratified")
coords <- sapply(list("equi" = equi, "over" = over, "unde" = unde),
function(x) {
colnames(x@coords) <- c("x", "y")
x@coords
})
da <- plyr::ldply(coords, .id="caso")
library(latticeExtra)
col <- trellis.par.get("superpose.line")$col[1]
xyplot(y ~ x | caso, data = da,
layout = c(NA, 1),
as.table = TRUE,
pch = 19,
scales = list(draw = FALSE),
xlab = "",
ylab = "",
strip = strip.custom(
factor.levels = c("Equidispersão",
"Superdispersão",
"Subdispersão")
),
panel = function(x, y, subscripts, ...) {
l <- seq(min(x), max(x), length.out = 10)
panel.abline(h = l, v = l, col = col, lty = 2)
panel.xyplot(x, y, ...)
})
@
A figura \ref{fig:processo-pontual} ilustra, sob um contexto espacial de
duas dimensões, a ocorrência das características de equi, super e
subdispersão respectivamente. Nesta figura cada ponto representa a
ocorrência de uma variável aleatória e cada parcela, delimitada pelas
linhas pontilhadas, representa o intervalo no espaço cujo contabiliza-se
as ocorrências.No painel da esquerda temos a representação de dados de
contagem equidispersos, neste cenário temos que as ocorrências da
variável aleatória se dispõem aleatoriamente. No painel central o padrão
já se altera, temos a representação do caso de superdispersão. Note que
neste cenário formam-se aglomerados que deixam parcelas co contagens
mutio elevadas e parcelas com contagens baixas. Uma possível causa deste
padrão se dá pelo processo de contágio (e.g. contagem de casos de uma
doença contagiosa, contagem de frutos apodrecidos). Na terceiro e último
painel temos o caso de subdispersão, em que as ocorrências se dispõe
uniformemente no espaço. Note agora que as contagens de ocorrências nas
parcelas variam bem pouco. Ao contrário do caso superdisperso uma causa
provável seria o oposto de contágio, a repulsa, ou seja, uma ocorrência
causa a repulsa de outras ocorrências em seu redor (e.g. contagem de
árvores, contagem de animais).
Outra alterativa paramétrica que contempla os casos de equi, super e
subdispersão é a adoção de uma distribuição mais flexível para a
variável resposta condicional as covariáveis. A distribuição COM-Poisson
surgiu anteriormente à formalização dos MLG's, proposta por
\citeonline{Conway1962} a COM-Poisson (nome em em homenagem aos seus
autores Richard W. Conway, William L. Maxwell,
\textbf{Co}nway-\textbf{M}axwell-Poisson) generaliza a distribuição
Poisson com a adição de mais uma parâmetro, denotado por $\nu$, que
torna a razão de probabilidades sussecivas não linear contemplando os
casos de sub e superdispersão \cite{Shmueli2005}.
Uma característica bastante relevante é que a COM-Poisson possui como
casos particulares as distribuições Poisson, Geométrica e
Binomial. Portanto, empregando a COM-Poisson como distribuição
condicional associada, obtemos um modelo de regressão sem a imposição de
equidispersão. Tal flexibilidade, considerando o amplo uso do modelo
Poisson, significa que a COM-Poisson pode ser aplicada nessas situações
e será especialmente importante naquelas onde há fuga da equidispersão.
Pela similaridade da função de distribuição COM-Poisson com a Poisson,
vários aspectos podem ser estendidos. Por exemplo, há situações em que o
delineamento do experimento sugere uma estrutura de covariância entre
observações induzidas por um processo hierárquico de casualização ou
amostragem. São casos assim os experimentos em parcelas subdivididas e
experimentos com medidas repetidas ou longitudinais. Tais estruturas
estabelecem modelos com efeitos não observáveis que agem no nível de
observação ou unidade experimental e isso pode ser incorporado no modelo
de regressão COM-Poisson com a inclusão de efeitos aleatórios. Da mesma
forma, excesso de zeros pode ser introduzido a essa distribuição da
mesma maneira que ocorre para o modelo Poisson, através de truncamento
(modelos Hurdle) ou inflação (modelos de mistura)
\cite{Sellers2016}. Estas extensões para o modelo COM-Poisson ainda não
são bem consolidadas na literatura e são escassas suas aplicações. Uma
constatação do fato é que não há implementações destas extensões nos
principais softwares estatísticos.
Na literatura brasileira, aplicações do modelo COM-Poisson são
escassas. Foram encontradas apenas aplicações na área de Análise de
Sobrevivência, mais especificamente em modelos com fração de cura
\cite{Ribeiro2012, Borges2012}. Portanto, o presente trabalho visa
colaborar com a literatura estatística brasileira i) apresentando e
explorando o modelo de regressão COM-Poisson para dados de contagem, ii)
estendendo as aplicações desse modelo COM-Poisson para situações
específicas como inclusão de efeitos aleatórios e modelagem de excesso
de zeros, iii) discutindo os aspectos inferenciais por meio de análise
de dados reais e iv) disponibilizando os recursos computacionais, em
formato de pacote R, para ajuste dos modelos apresentados. Nas
aplicações optou-se também pela análise via modelos já disponíveis para
as situações estudas.
O trabalho é organizado em cinco capítulos. Esse primeiro capítulo visa
enfatizar as características das variáveis aleatórias de contagem e suas
lacunas que podem ser complementadas na análise estatística dessas
variáveis. O capítulo \ref{cap:modelos-para-dados-de-contagem} é
dedicado a revisão bibliográfica dos modelos estatísticos empregados a
análise de dados de contagem, nesse capítulo os modelos Poisson,
Binomial Negativo, as abordagens para excesso de zeros, a estrutura dos
modelos de efeitos aleatórios e o modelo COM-Poisson são
apresentados. No capítulo \ref{cap:material-e-metodos} apresentammos os
conjuntos de dados a serem analisados e os métodos para ajuste e
comparação dos modelos. O capítulo \ref{cap:resultados-e-discussao} traz
os os principais resultados da aplicação e comparação dos modelos
estatísticos com ênfase nas discussões sob aspectos inferenciais
empíricos. Finalmente no capítulo \ref{cap:consideracoes-finais} são
apresentadas as considerações finais obtidas desse trabalho e listados
algumas possíveis linhas de pesquisa para estudos futuros.
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment