diff --git a/docs/01-tcc.pdf b/docs/01-tcc.pdf index 46150242523e7d743ea42aceea976a394d01b812..9b1bac41b40083f17496cb17fbf94c803126b650 100644 Binary files a/docs/01-tcc.pdf and b/docs/01-tcc.pdf differ diff --git a/docs/cap01_introducao.Rnw b/docs/cap01_introducao.Rnw index 3458d396505ea0be08068fd6e7b79444f28dc764..93186e1f195621cb78a44500dd7d1afd621b517d 100644 --- a/docs/cap01_introducao.Rnw +++ b/docs/cap01_introducao.Rnw @@ -33,7 +33,7 @@ predições negativas para o número de eventos \cite{King1989}. Uma alternativa adotada durante muitos anos, e ainda aplicada, é encontrar alguma forma de transformação da variável resposta a fim de atender aos pressupostos do modelo de regressão normal. Contudo essa abordagem -dispõe de resultados insatisfatórios, pois i) dificulta a intepretação +dispõe de resultados insatisfatórios, pois i) dificulta a interpretação dos resultados, ii) não contempla a natureza da variável (ainda serão valores pontuais, só que em outra escala) iii) não contempla a relação média e variância, caracterÃstica de dados de contagem e iv) no uso da @@ -62,7 +62,7 @@ identidade ($\lambda = E[Y] = V[Y]$). Essa propriedade, chamada de equidispersão, é uma particularidade do modelo Poisson que pode não ser adequada a diversas situações. Quando aplicado sob negligência desta suposição, o modelo Poisson apresenta erros padrões inconsistentes para -as estimativas dos parâmentros e por consequência, para toda função +as estimativas dos parâmetros e por consequência, para toda função desses parâmetros \cite{Winkelmann1995, Winkelmann1994}. O caso de superdispersão, quando a variância é maior que a média, é o @@ -80,7 +80,7 @@ forma Binomial Negativa. Outra manifestação de fuga da suposição de equidispersão é a subdispersão, situação menos comum na literatura. Os processos que -reduzem a variabilidade das contagens, abaixo do estabalecido pela +reduzem a variabilidade das contagens, abaixo do estabelecido pela Poisson, não são tão conhecidos quanto os que produzem variabilidade extra. Pela mesma razão, são poucas as abordagens descritas na literatura que capazes de tratar a subdispersão, uma vez que efeitos @@ -140,7 +140,7 @@ contagem equidispersos, neste cenário temos que as ocorrências da variável aleatória se dispõem aleatoriamente. No painel central o padrão já se altera, temos a representação do caso de superdispersão. Note que neste cenário formam-se aglomerados que deixam parcelas co contagens -mutio elevadas e parcelas com contagens baixas. Uma possÃvel causa deste +muito elevadas e parcelas com contagens baixas. Uma possÃvel causa deste padrão se dá pelo processo de contágio (e.g. contagem de casos de uma doença contagiosa, contagem de frutos apodrecidos). Na terceiro e último painel temos o caso de subdispersão, em que as ocorrências se dispõe @@ -158,7 +158,7 @@ surgiu anteriormente à formalização dos MLG's, proposta por autores Richard W. Conway, William L. Maxwell, \textbf{Co}nway-\textbf{M}axwell-Poisson) generaliza a distribuição Poisson com a adição de mais uma parâmetro, denotado por $\nu$, que -torna a razão de probabilidades sussecivas não linear contemplando os +torna a razão de probabilidades sucessivas não linear contemplando os casos de sub e superdispersão \cite{Shmueli2005}. Uma caracterÃstica bastante relevante é que a COM-Poisson possui como @@ -208,7 +208,7 @@ dedicado a revisão bibliográfica dos modelos estatÃsticos empregados a análise de dados de contagem, nesse capÃtulo os modelos Poisson, Binomial Negativo, as abordagens para excesso de zeros, a estrutura dos modelos de efeitos aleatórios e o modelo COM-Poisson são -apresentados. No capÃtulo \ref{cap:material-e-metodos} apresentammos os +apresentados. No capÃtulo \ref{cap:material-e-metodos} apresentamos os conjuntos de dados a serem analisados e os métodos para ajuste e comparação dos modelos. O capÃtulo \ref{cap:resultados-e-discussao} traz os os principais resultados da aplicação e comparação dos modelos diff --git a/docs/cap02_revisao-de-literatura.Rnw b/docs/cap02_revisao-de-literatura.Rnw index 4bb0acc4ce05e3b701bd0f403849abc68b4787da..5f9e21b7a555320314635190cee104df165a5ad8 100644 --- a/docs/cap02_revisao-de-literatura.Rnw +++ b/docs/cap02_revisao-de-literatura.Rnw @@ -27,7 +27,7 @@ probabilidades consideradas por \citeonline{Winkelmann2008} e \citeonline{Kokonendji2014} e as caracterÃsticas de dados de contagem que são contempladas. Notamos que a Poisson na verdade é um caso particular, pois é a única das distribuições listada que contempla -somente a caracterÃstica de equidipersão, ainda observa-se que temos um +somente a caracterÃstica de equidispersão, ainda observa-se que temos um conjunto maior de distribuições para os casos de superdispersão com relação os casos de subdispersão. Embora este grande número de distribuições exista para lidar com os casos de fuga de equidispersão @@ -94,7 +94,7 @@ um breve detalhamento desta abordagem. Nesta capÃtulo também abordamos a situação da inclusão de efeitos aleatórios no seção \ref{cap02:aleatorio}. Em análise de dados de -contagem a inclusão desses efeitos perimitem acomodar variabilidade +contagem a inclusão desses efeitos permitem acomodar variabilidade extra e incorporar a estrutura amostral do problema como em experimentos com medidas repetidas ou longitudinais e experimentos em parcelas subdivididas. @@ -117,8 +117,8 @@ probabilidade for em que $\lambda > 0$ representa a taxa de ocorrência do evento de interesse. Uma particularidade já destacada desta distribuição é que $E(X) = V(X) = \lambda$. Isso torna a distribuição Poisson bastante -reestritiva. Na figura \ref{fig:distr-poisson} são apresentadas as -ditribuições Poisson para diferentes parâmetros, note que devido a +restritiva. Na figura \ref{fig:distr-poisson} são apresentadas as +distribuições Poisson para diferentes parâmetros, note que devido a propriedade $E(X) = V(X)$ contagens maiores também são mais dispersas. <<distr-poisson, fig.cap="Probabilidades pela distribuição Poisson para diferentes valores de $\\lambda$", fig.height=3.5, fig.width=7>>= @@ -187,7 +187,7 @@ ponderados iterativamente, ou, do inglês \textit{Iteractive Weighted \label{cap02:estimacao-via-quase-verossimilhanca} Em 1974 \citeauthoronline{Wedderburn1974} propôs uma forma de estimação -a partir de uma função biparamétrica, denoninada +a partir de uma função biparamétrica, denominada quase-verossimilhança. Suponha que temos $y_i$ observações independentes com esperanças $\mu_i$ e variâncias $V(\mu_i)$. A função de quase-verossimilhança é é expressa como @@ -257,7 +257,7 @@ que \noindent A função massa de probabilidade decorrente da estrutura descrita em \ref{eqn:proc-binomneg} é deduzida integrando os efeitos aleatórios. -Considere $f(y \mid b)$ como a função massa de probablidade da +Considere $f(y \mid b)$ como a função massa de probabilidade da distribuição Poisson (vide expressão em \ref{eqn:pmf-poisson}) e $g(b \mid \mu, \phi)$ a função densidade da distribuição Gama \footnote{O desenvolvimento detalhado da integral pode ser visto em @@ -413,13 +413,13 @@ wrapfigure() A relação funcional entre média e variância é ilustrada na figura \ref{fig:mv-binomneg} onde apesentamos as médias e variâncias para $\mu$ entre 0 e 10 e $\theta$ entre 0 e 50. O comportamento dessa -relação proporciona um mairo flexibilidade à distribuição em acomodar +relação proporciona um maior flexibilidade à distribuição em acomodar superdispersão, uma caracterÃstica importante exibida nesta figura é que para a Binomial Negativa se aproximar a Poisson em contagens altas o $\theta$ deve ser extremamente grande. O emprego do modelo Binomial Negativo em problemas se regressão ocorre -de maneira similar aos MLG's, com excessão de que a distribuição só +de maneira similar aos MLG's, com exceção de que a distribuição só pertence a famÃlia exponencial de distribuições se o parâmetro $\theta$ for conhecido e assim o processo sofre algumas alterações. Primeiramente, assim como na Poisson, definimos $g(\mu_i) = @@ -431,7 +431,7 @@ dos parâmetros $\beta$ de locação e $\theta$ de dispersão. Deste fato decorre que a estimação dos parâmetros pode ser realizada em paralelo, ou seja, estima-se o vetor $beta$ pelo método de \textit{IWLS} e posteriormente o parâmetro $\theta$ pelo método de Newton-Raphson, faz-se -os dois procedimentos simultaneamente até a convengência dos parâmetros. +os dois procedimentos simultaneamente até a convergência dos parâmetros. \section{Modelo COM-Poisson} \label{cap02:compoisson} @@ -471,13 +471,13 @@ entre probabilidades sucessivas que se caracteriza não necessariamente linear em $y$, diferentemente da Poisson, o que permite caudas mais pesadas ou mais magras à distribuição \cite{Sellers2010}. Na figura \ref{fig:distr-compoisson} apresentamos as -dsitribuições COM-Poisson para diferentes valores de $\lambda$ e $\nu$ +distribuições COM-Poisson para diferentes valores de $\lambda$ e $\nu$ em contraste com as equivalentes, em locação, distribuições Poisson. Nessa figura podemos apreciar a flexibilidade desse modelo, pois i) contempla o caso de subdispersão mesmo em contagens baixas ($E(Y)=3$, painel a esquerda), a distribuição permite caudas pesadas e -consequentemente uma dispersão extra Poisson, ii) contempla subdisersão -mesmo em contagens altas, o que na Poisson teriamos variabilidade na mesma +consequentemente uma dispersão extra Poisson, ii) contempla subdispersão +mesmo em contagens altas, o que na Poisson terÃamos variabilidade na mesma magnitude, na COM-Poisson podemos ter caudas mais magras concentrando as probabilidades em torno da média (painel a direita) e iii) tem como caso particular a Poisson quando o parâmetro $\nu = 1$ (painel central). @@ -572,7 +572,7 @@ $(1-\lambda)^{-1}$ e a expressão \ref{eqn:pmf-compoisson} se resume a uma distribuição Geométrica com $P(Y=0)=(1-\lambda)$ \cite{Shmueli2005}. Os três respectivos casos particulares citados são ilustrados na figura \ref{fig:casos-particulares}, onde determinamos os -parâmetros conforme reestrições para redução da distribuição. +parâmetros conforme restrições para redução da distribuição. <<casos-particulares, fig.cap="Exemplos de casos particulares da distribuição COM-Poisson", fig.height=3, fig.width=7>>= @@ -973,11 +973,11 @@ direita no ponto $y=1$ para estimação desta probabilidade, como explicam \label{cap02:aleatorio} Nas seções anteriores exploramos modelos que flexibilizam algumas -suposições do modelo Poisson. Basicamente pertimindo casos não +suposições do modelo Poisson. Basicamente permitindo casos não equidispersos e modelando conjuntamente um processo gerador de zeros extra. Contudo uma suposição dos modelos de regressão para dados de contagem vistos até aqui é que as variáveis aleatória $Y_1, Y_2, \cdots, -Y_n$ são condicionalmente indenpendentes, dado o vetor de +Y_n$ são condicionalmente independentes, dado o vetor de covariáveis. Porém não são raras as situações em que essa suposição não se mostra adequada. \citeonline{Ribeiro2012} cita alguns exemplos: @@ -1010,7 +1010,7 @@ segue uma especificação hierárquica para $i = 1, 2, \cdots, m$ (grupos com efeitos aleatórios comuns) e $j = 1, 2, \cdots, n$ (observações) com D$(\mu_{ij}, \phi)$, uma distribuição considerada para as variáveis resposta condicionalmente independentes, -$g(\mu_{ij})$ uma função de ligação conforme definada na teoria dos +$g(\mu_{ij})$ uma função de ligação conforme definida na teoria dos MLG's, $X_{ij}$ e $Z_{i}$ as vetores conhecidos representando os efeitos das covariáveis de interesse, $b_i$ uma quantidade aleatória provida de uma distribuição K$(\Theta_b)$. Note que nesses modelos uma quantidade @@ -1031,7 +1031,7 @@ os efeitos aleatórios Perceba que na avaliação da verossimilhança é necessário o cálculo de $m$ integrais de dimensão $q$. Para muitos casos essa integral não tem -forma analÃtica sendo necessários métodos númericos de aproximação, que +forma analÃtica sendo necessários métodos numéricos de aproximação, que são discutidos na seção \ref{cap03:metodos}. E as estimativas de máxima verossimilhança são diff --git a/docs/cap03_materiais-e-metodos.Rnw b/docs/cap03_materiais-e-metodos.Rnw index cfd31ea53b6567235251678659f4280e6afde49b..da1bac9b1a5a04dc93184b9ccda8cb5c340cfdeb 100644 --- a/docs/cap03_materiais-e-metodos.Rnw +++ b/docs/cap03_materiais-e-metodos.Rnw @@ -5,7 +5,7 @@ Essa seção é destinada a apresentação dos conjuntos de dados analisados no trabalho e descrição dos recursos computacionais e métodos utilizados na análise. Na seção \ref{cap03:materiais-dados} os conjuntos de dados -seão apresentados, ao todo são seis conjuntos de dados com diferentes +são apresentados, ao todo são seis conjuntos de dados com diferentes caracterÃsticas. Os recursos computacionais utilizados são descritos na seção \ref{cap03:materiais-recursos}. Na última seção \ref{cap03:metodos} desse capÃtulo são apresentados os métodos para @@ -42,7 +42,7 @@ niveis.est <- paste(unique(cottonBolls$est), collapse = ", ") @ -Experimento conduzido sob delineamento interamente casualizado com cinco +Experimento conduzido sob delineamento inteiramente casualizado com cinco repetições em casa de vegetação com plantas de algodão \emph{Gossypium hirsutum} submetidas à diferentes nÃveis de desfolha artificial de remoção foliar (\Sexpr{niveis.des}), em combinação com o estágio @@ -63,7 +63,7 @@ esquerda temos a disposição das cinco observações em cada tratamento (combinação de nÃvel de desfolha e estágio fenológico do algodão) e à direita um gráfico descritivo cruzando médias e variâncias amostrais calculadas em cada tratamento, onde a linha pontilhada representa a -caracterÃstica de equidispersão, média igua a variância. Em todos os +caracterÃstica de equidispersão, média igual a variância. Em todos os tratamentos obteve-se a média menor que a variância apontando evidência de subdispersão. @@ -108,7 +108,7 @@ fonte.xy("Fonte: Traduzido de Zeviani et al. (Figura 2)") @ -\subsubsection{Produtividade de algodão sob efeito de insfestação de Mosca-branca} +\subsubsection{Produtividade de algodão sob efeito de infestação de Mosca-branca} \label{sec:cottonBolls2} <<data-cottonBolls2, include=FALSE, echo=FALSE>>= @@ -129,7 +129,7 @@ praga por diferentes perÃodos, \Sexpr{niveis.dexp} onde avaliou-se o número de capulhos produzidos, \texttt{ncapu}, o número de estruturas reprodutivas, \texttt{nerep} e o número de nós \texttt{nnos}, como variáveis de interesse que representam a produtividade do cultivo de -algodão. A condução do estudo deu-se via delineamento interamente +algodão. A condução do estudo deu-se via delineamento inteiramente casualizado com cinco vasos contendo duas plantas, para cada perÃodo de exposição. @@ -175,7 +175,7 @@ na tabela \ref{tab:mv-cottonBolls2}, onde temos as médias e variâncias amostrais calculadas com as dez observações nos seis perÃodos de exposição à infestação de Mosca-branca. Em todos os casos observa-se as variâncias amostrais substancialmente menores que respectivas médias, -ainda a manisfestação de subdispersão é mais expressiva na variável +ainda a manifestação de subdispersão é mais expressiva na variável número de nós da planta. Portanto, nesse experimento modelos alternativos ao Poisson devem ser empregados, pois a suposição de equidispersão é violada. @@ -440,8 +440,8 @@ data(fish, package = "tccPackage") @ -Diferentemente dos demais, esse é um estudo observavional feito por -biólogos com intresse em modelar o número de peixes capturados por +Diferentemente dos demais, esse é um estudo observacional feito por +biólogos com interesse em modelar o número de peixes capturados por grupos de pescadores visitantes em um Parque Estadual \textbf{citar o repositório da UCLA}. Nesse estudo tem-se como informações a respeito dos grupos de visitantes, o número de pessoas e de crianças no grupo e @@ -496,7 +496,7 @@ suppressWarnings({ @ -\subsubsection{Número de nematóides em raÃzes de feijoeiro} +\subsubsection{Número de nematoides em raizes de feijoeiro} \label{sec:nematodes} <<data-nematodes, include=FALSE, cache=FALSE>>= @@ -506,35 +506,35 @@ data(nematodes, package = "tccPackage") @ Esse último conjunto de dados explorado no trabalho, é resultado de um -experimento em casa de vegetação que estudou a reprodução de nematóides +experimento em casa de vegetação que estudou a reprodução de nematoides em cultivares de feijoeiro. No experimento, o solo de vasos com duas -plantas de feijão foi inicialmente contaminado com nematóides. Ao final -do experimento, as raÃzes das duas plantas por vaso foram lavadas, -trituradas, peneiradas e diluÃdas e as contagens dos nematóides +plantas de feijão foi inicialmente contaminado com nematoides. Ao final +do experimento, as raizes das duas plantas por vaso foram lavadas, +trituradas, peneiradas e diluÃdas e as contagens dos nematoides realizadas em alÃquotas dessa solução. Perceba que temos, incidindo -sobre a contagem a quantidade de raÃzes produzidas por parcela e ainda o +sobre a contagem a quantidade de raizes produzidas por parcela e ainda o volume usado para diluir essa quantidade, pois as contagens são -realizades em alÃquotas da solução composta pela razão entre massa -fresca de raÃzes (em gramas) e volume utilizado para diluição (em -milimetros)\footnote{Cedido para fins acadêmicos por Andressa Cristina +realizadas em alÃquotas da solução composta pela razão entre massa +fresca de raizes (em gramas) e volume utilizado para diluição (em +milÃmetros)\footnote{Cedido para fins acadêmicos por Andressa Cristina Zamboni Machado, pesquisadora do Instituto Agronômico do Paraná (IAPAR), e pelo técnico agrÃcola do IAPAR Santino Aleandro da Silva}. -<<descr-nematodes, fig.height=4, fig.width=4, fig.show="hide", results="asis", fig.cap="Dispersão do número de nematóides em uma alÃquota de 1ml provida pela solução de 1 g/ml de massa fresca diluÃda.">>= +<<descr-nematodes, fig.height=4, fig.width=4, fig.show="hide", results="asis", fig.cap="Dispersão do número de nematoides em uma alÃquota de 1ml provida pela solução de 1 g/ml de massa fresca diluÃda.">>= cols <- trellis.par.get("superpose.line")$col[1:2] key <- list( ## corner = c(0.1, 0.9), type = "b", divide = 1, lines = list(pch = c(NA, 15), lty = c(2, 0), col = cols), - text = list(c("Média de nematóides por cultura", - "Média de nematóides geral"))) + text = list(c("Média de nematoides por cultura", + "Média de nematoides geral"))) xyplot(nema ~ cult, data = nematodes, type = c("p", "g"), key = key, xlab = "Linhagem de feijoeiro", - ylab = "Contagem de Nematóides", + ylab = "Contagem de nematoides", panel = function(x, y, ...) { means <- aggregate(y, list(x), mean) panel.xyplot(x, y, ...) @@ -551,8 +551,8 @@ wrapfigure() @ Na figura \ref{fig:descr-nematodes} apresentamos a dispersão das -contagens de nematóides em uma alÃquota de 1 ml da solução composta de -uma grama de massa fresca de raÃz por um milÃmetro de água. Note que as +contagens de nematoides em uma alÃquota de 1 ml da solução composta de +uma grama de massa fresca de raiz por um milÃmetro de água. Note que as contagens para cada uma das culturas se distribuem em torno do perfil médio (linha pontilhada). Um detalhe interesse desse conjunto de dados é que as linhagens de feijoeiro avaliadas não foram escolhas subjetivas, @@ -581,7 +581,7 @@ pacotes \texttt{lattice} (versão \Sexpr{packageVersion("lattice")}), \texttt{latticeExtra} (versão \Sexpr{packageVersion("latticeExtra")}) e \texttt{corrplot} (versão \Sexpr{packageVersion("corrplot")}) são exaustivamente utilizados. Finalmente, para elaboração do relatório, -mesclando códigos em R e escrita na liguagem de marcação \LaTeX{}, o +mesclando códigos em R e escrita na linguagem de marcação \LaTeX{}, o pacote \texttt{knitr} (versão \Sexpr{packageVersion("knitr")}) é requerido. @@ -630,7 +630,7 @@ ou seja, possui a interpretação de um parâmetro de precisão. Note que a partir dessa reparametrização a condução de testes de hipóteses é facilitada. Uma vez que $\phi = 0$, representa o caso -particicular em que a COM-Poisson se reduz a Poisson, a estatÃstica +particular em que a COM-Poisson se reduz a Poisson, a estatÃstica \begin{equation*} \begin{split} @@ -682,18 +682,18 @@ a forma \noindent em que $\ind$ é uma função indicadora para $y = 0$. Os argumentos -$\hat{\phi}$, $\hat{\beta}$ e $\hat{\gamma}$, que maximizam o logarÃtmo +$\hat{\phi}$, $\hat{\beta}$ e $\hat{\gamma}$, que maximizam o logaritmo neperiano da função \ref{eqn:loglik-hurdlecmp} serão as estimativas de máxima verossimilhança do modelo COM-Poisson com componente de barreira. Uma outra extensão proposta para o modelo COM-Poisson é a inclusão de efeitos aleatórios a fim de modelar a estrutura experimental ou -observacional de um conjunto de dados. Nos reestringimos a inclusão de +observacional de um conjunto de dados. Nos restringimos a inclusão de efeitos aleatórios Normais, ou seja, $b \sim \textrm{Normal}(0, \Sigma)$, que são incorporados sob a forma $\underline{\lambda} = X\beta + Z b$ conforme especificação \ref{eqn:reg-misto}. Assim, considerando a -distribuição COM-Poisson para a variável resposta condicinada as -covariáveis e os eifetos aletórios, podemos escrever a verossimilhança +distribuição COM-Poisson para a variável resposta condicionada as +covariáveis e os efeitos aleatórios, podemos escrever a verossimilhança como \begin{equation} @@ -711,7 +711,7 @@ como \noindent sendo $m$ o número de grupos que compartilham do mesmo efeito aleatório, $q$ o número de efeitos aleatórios (intercepto aleatório, inclinação e -interecpto aleatórios, etc.) e $n_i$ o número de observações no i-ésimo +intercepto aleatórios, etc.) e $n_i$ o número de observações no i-ésimo grupo. A integração em \ref{eqn:loglik-mixedcmp}, necessária para a avaliação da verossimilhança não tem forma analÃtica. Utilizamos a aproximação de Laplace da forma como apresentada em @@ -725,7 +725,7 @@ realizadas. Ainda, quando considerada a distribuição COM-Poisson para a variável resposta condicionalmente independente, temos também o cálculo de $n_m$ constantes normalizadoras $Z(\lambda, \phi)$ (\ref{eqn:constante-z}) para cada $m$ grupo em cada iteração do -algoritmo de otimazação. Toda essa estrutura hierárquica com +algoritmo de otimização. Toda essa estrutura hierárquica com procedimentos computacionais realizados a cada estágio, são extremamente sensÃveis a aspectos de programação/implementação. @@ -750,7 +750,7 @@ modelos de regressão de efeitos fixos os valores preditos pelos modelos COM-Poisson e demais alternativas pertinentes são contrastados graficamente com bandas de confiança. -Para maximização númerica das log-verossimilhanças dos modelos de +Para maximização numérica das log-verossimilhanças dos modelos de regressão COM-Poisson e suas extensões utilizamos um método de otimização quasi-Newton bastante popular, denominado \textit{BFGS}. As informações do vetor gradiente (derivadas de primeira e matriz hessiana diff --git a/docs/cap04_resultados-e-discussao.Rnw b/docs/cap04_resultados-e-discussao.Rnw index de58e6d46aea372e497815f2e885779e89bb9fd0..5861d2233570e6abf3bd1e0a0015b6d6634400f8 100644 --- a/docs/cap04_resultados-e-discussao.Rnw +++ b/docs/cap04_resultados-e-discussao.Rnw @@ -67,7 +67,7 @@ Preditor 5: $g(\mu) = \beta_0 + \beta_{1j} \textrm{def} + \beta_{2j} \noindent onde $j$ varia nos nÃveis de estágio fenológico da planta (1: -vegetativo, 2: botão floral, 3: florecimento, 4: maça, 5: capulho) e +vegetativo, 2: botão floral, 3: florescimento, 4: maça, 5: capulho) e $g(\mu)$ uma função de ligação entre o componente sistemático e o componente aleatório do modelo. A proposta desses preditores foi realizada de forma aninhada a fim de facilitar a condução de testes de @@ -165,7 +165,7 @@ COM-Poisson e Quasi-Poisson respectivamente, também são apresentadas na $\sigma^2<1$). Note que, mesmo quando não consideramos covariáveis, preditor 1, a hipótese de equidispersão foi rejeitada pelo modelos COM-Poisson e Quasi-Poisson. Isso se reflete nos nÃveis descritivos dos -testes de razão de verossimilhaças realizados, em que o modelo Poisson, +testes de razão de verossimilhanças realizados, em que o modelo Poisson, em discordância com os demais, não indicou significância do efeito quadrático por nÃvel de desfolha, preditor 5, pois superestima a variabilidade do processo. Esses resultados estão de acordos com os @@ -548,7 +548,7 @@ ajuste dos modelos para as três variáveis resposta. Em todos os casos o modelo COM-Poisson apresentou maiores log-verossimilhanças indicando um melhor ajuste, quando comparado ao Poisson, também indicado pelos os valores de AIC que ponderam a log-verossimilhança pelo número de -parâmetros considerados no modelo. Para questões inferênciais novamente, +parâmetros considerados no modelo. Para questões inferenciais novamente, temos um desacordo entre os modelos paramétricos. Pelos modelos Poisson não temos evidências para manutenção de nenhum efeito da variável número de dias sob infestação, em todos os casos, ao passo que no modelo @@ -573,7 +573,7 @@ tendências apontadas pelo COM-Poisson foram seguidas. Para avaliação do parâmetro $\phi$ da COM-Poisson nos três modelos considerados, temos os intervalos de confiança construÃdos sob perfilhamento da verossimilhança na figura \ref{fig:prof-cottonBolls2}. Note -que para nenhum dos modelos on intervalos de confiança de 90, 95 e 99\% +que para nenhum dos modelos os intervalos de confiança de 90, 95 e 99\% de confiança contiveram o valor de $\phi = 0$. Os valores estimados dos parâmetros nos modelos para número de capulhos, número de estruturas reprodutivas e número de nós da planta foram de \Sexpr{phis[, 1]} @@ -1054,7 +1054,7 @@ maiores que 1 respectivamente. Os valores de AIC se apresentam menores e as avaliações da log-verossimilhança no ponto máximo maiores para os modelos paramétricos alternativos ao Poisson. Ainda a evidência sobre o efeito de interação para essa variável resposta é mais contundente. Na -\ref{fig:prof-soyaBeans} à direira temos a verossimilhança perfilhada +\ref{fig:prof-soyaBeans} à direita temos a verossimilhança perfilhada com indicação dos intervalos de confiança para $\phi$ e estes não contemplam o zero. @@ -1318,11 +1318,11 @@ menores não por se ajustar melhor aos dados, mas sim por subestimar a variabilidade do processo. Para as formulações alternativas, temos os modelos paramétricos com intervalos menores que o semi-paramétrico Quasi-Poisson, isso é razoável, pois nos Quasi-Poisson temos somente a -especificação de dois momentos, enquanto que nos parâmetricos +especificação de dois momentos, enquanto que nos paramétricos especificamos a distribuição completa, ganhando informação \ref{eqn:quasi-informacao}. Os intervalos sob os modelos COM-Poisson e Binomial Negativa foram os mais parcimoniosos, sendo intervalos menores, -porém fiéis a varibilidade inerente ao processo. +porém fiéis a variabilidade inerente ao processo. \section{Análise de ninfas de mosca-branca em lavoura de soja} \label{sec:analise-whiteFly} @@ -1397,7 +1397,7 @@ contagens altas (variando entre \Sexpr{paste(range(soyaBeans[ , estimados próximos à -3). Isso torna a convergência da função $Z(\lambda_i, \nu = \exp(\phi))$ demorada e o valor dessa constante que normaliza a densidade é altÃssimo. Em problemas com contagens altas e comportamento -muito superdisperso a obtenção da constante Z pode se tornar probitiva +muito superdisperso a obtenção da constante Z pode se tornar proibitiva computacionalmente, devido à \textit{overflow} (valores que ultrapassam o limite de capacidade de armazenamento da máquina) e consequentemente o modelo COM-Poisson não se ajusta. @@ -1490,8 +1490,8 @@ significância inferior a 1E-10) que há efeito de interação entre os dias decorridos da primeira avaliação e as cultivares ao passo que nos modelos alternativos esse efeito é marcadamente não significativo. Essa discordância se deve, conforme já discutido, ao fato de o modelo Poisson -subestimar a variabilidade por sua reestrição de equidispersão. Assim, -com variâncias menores qualquer efeito acréscido no modelo passará por +subestimar a variabilidade por sua restrição de equidispersão. Assim, +com variâncias menores qualquer efeito acrescido no modelo passará por significativo. <<prof-whiteFly, fig.height=4, fig.width=4, fig.show="hide", results="asis", fig.cap="Perfil de log-verossimilhança para o parâmetro extra da COM-Poisson">>= @@ -1509,7 +1509,7 @@ verossimilhança para o parâmetro $\phi$ apresentado na figura \ref{fig:prof-whiteFly}. Podemos observar que os limites inferiores dos intervalos de confiança de 90, 95 e 99\% estão muito distantes do valor 0, sob o qual temos equivalência entre os modelos Poisson e -COM-Poisson. Outra caracterÃstica desse gráfico é a leve assimétria à +COM-Poisson. Outra caracterÃstica desse gráfico é a leve assimetria à esquerda, o que atribuÃmos a forte caracterÃstica de superdispersão dos dados. @@ -1639,7 +1639,7 @@ Quasi-Poisson, são apresentadas na \ref{fig:pred-whiteFly}. Para o efeito de bloco consideramos o efeito médio para uma correta comparação. Podemos observar que o intervalo de confiança descrito pelo modelo Poisson é quase imperceptÃvel quando comparados aos demais, -mostrando novamente que seu uso pe inadequado a esses dados. Já para as +mostrando novamente que seu uso é inadequado a esses dados. Já para as outras alternativas não tivemos um comportamento padrão em todas as cultivares. Os intervalos pelo modelos Quasi-Poisson e COM-Poisson foram muito similares em todos os casos e os intervalos pelo modelo Binomial @@ -1694,7 +1694,7 @@ estruturados de forma convencional, que pressupõe apenas um processo estocástico na geração de dados, não se ajustaram adequadamente. A seguir apresentamos a alternativa de inclusão de um efeito de barreira para acomodar a quantidade excessiva de valores zero. Os modelos -Poisson, Binomial Negativo e COm-Poisson sob esta estruturação são +Poisson, Binomial Negativo e COM-Poisson sob esta estruturação são ajustados e comparados. Com a estrutura dos dados vamos modelar o número de peixes capturados em @@ -1729,8 +1729,8 @@ contagens zero respectivamente. Os preditores lineares foram propostos de forma aninhada. No primeiro temos os efeitos aditivos de todas as covariáveis mensuradas para a parte das contagens nulas e efeitos aditivos do número de pessoas e de crianças para a parte das contagens -não nulas. No segundo temos os efeitos aditividos de todas as -covariáveis acréscido do efeito de interação entre o número de pessoas e +não nulas. No segundo temos os efeitos aditivos de todas as +covariáveis acrescidos do efeito de interação entre o número de pessoas e de crianças para ambas as partes do modelo. <<logLik-fish, include=FALSE>>= @@ -1789,7 +1789,7 @@ COM-Poisson & np & $\ell$ & AIC & 2(diff $\ell$) & diff np & P($>\rchi^2$) & $\h Na tabela \ref{tab:ajuste-fish} as medidas de ajuste dos modelos Poisson, Binomial Negativo e COM-Poisson são apresentadas para comparação dos resultados. Observa-se pelas log-verossimilhanças -maximimizadas que o modelo Poisson não se ajustou adequadamente quando +maximizadas que o modelo Poisson não se ajustou adequadamente quando comparado aos demais. Isso se deve ao fato discutido na seção \ref{cap02:zeros}, que mesmo modelando os zeros podemos ter diferentes nÃveis de dispersão para as contagens nulas. Nesse exemplo as contagens @@ -1888,7 +1888,7 @@ Calculando a magnitude desses efeitos quando escalonados pelo seu erro padrão, calculado pelo negativo do inverso da matriz hessiana, temos diferenças substanciais. O modelo COM-Poisson indica erros padrões das estimativas muito menores que os apresentados no modelo Binomial -Negativo. Sob investigações do problema, encontramos que este resultdo +Negativo. Sob investigações do problema, encontramos que este resultado se deve por inconsistências no procedimento numérico para determinação da matriz hessiana por diferenças finitas no modelo COM-Poisson. Portanto, os erros padrão sob o modelo COM-Poisson @@ -1994,11 +1994,11 @@ prontamente disponÃveis para análise e o modelo COM-Poisson com componente de barreira, conforme apresentado, se torna uma abordagem atrativa. -\section{Análise de dados de reprodução de nematóides em cultivares de +\section{Análise de dados de reprodução de nematoides em cultivares de feijoeiro} \label{sec:analise-nematodes} -<<ajuste-nematodes, include=FALSE, cache=TRUE>>= +<<ajuste-nematodes, include=FALSE, cache=FALSE>>= library(tccPackage) library(lme4) @@ -2022,8 +2022,8 @@ load("mixedcmp_models.rda") Nessa última aplicação apresentada no trabalho ilustramos a extensão dos modelos de contagem para inclusão de efeitos aleatórios. Os modelos em competição são o Poisson e o COM-Poisson com efeitos aleatórios. O -conjunto de dados se refere ao número de nematóides em cultivares -medidas em soluções \texttt{sol} compostas da massa fresca de raÃzes +conjunto de dados se refere ao número de nematoides em cultivares +medidas em soluções \texttt{sol} compostas da massa fresca de raizes diluÃdas em água, mensuradas em gramas$ \cdot$ ml$^{-1}$ conforme apresentado na seção \ref{sec:nematodes}. Consideramos para os modelos em competição, os seguintes preditores: @@ -2073,7 +2073,7 @@ valores para os parâmetros que resultaram em somas $Z(\lambda_i, \phi)$ não puderam ser representados pela máquina, \textit{overflow}. Porém o algoritmo é equipado com procedimentos para esquivar-se desse problema propondo novos valores mesmo quando a função objetivo não puder ser -calculada, alcançando o máximo da log-verossimilahnça. Para o modelo +calculada, alcançando o máximo da log-verossimilhança. Para o modelo Poisson de efeito aleatório utilizou-se das programações em R providas pelo pacote \texttt{lme4} \cite{Bates2015}, que trabalham com matrizes esparsas para os efeitos aleatórios e otimização em linguagem de baixo @@ -2083,13 +2083,13 @@ Os resultados do ajuste para avaliação e comparação dos modelos são apresentados na tabela \ref{tab:ajuste-nematodes}. Os valores na tabela indicam que os modelos Poisson e COM-Poisson se ajustaram de forma equivalente, os valores da log-verossimilhança foram muito -próximos. Essa equivalência também é apontanda pelos AIC's que foram +próximos. Essa equivalência também é apontada pelos AIC's que foram maiores para nos modelos COM-Poisson e pelos nÃveis descritivos dos TRV's realizados sob a hipótese $H_0: \phi = 0$, indicando que a adoção de um modelo com um parâmetro adicional não é justificado pelo pequeno acréscimo na log-verossimilhança. Com relação ao efeito da solução de -massa fresca de raÃz, temos evidências apontando um efeito significativo -para explicação do número de nematóides. +massa fresca de raiz, temos evidências apontando um efeito significativo +para explicação do número de nematoides. \begin{table}[ht] \centering @@ -2134,7 +2134,7 @@ modelo misto COM-Poisson é que podemos distinguir a variabilidade da contagem com a variabilidade dos grupos aleatórios no experimento. Nesse exemplo tivemos uma variabilidade do efeito aleatório maior, $\sigma$ estimado no caso COM-Poisson maior que no caso Poisson, porém essa -varibilidade extra capturada pelo efeito aleatório é compensada pela +variabilidade extra capturada pelo efeito aleatório é compensada pela subdispersão capturada pelo parâmetro $\phi$. @@ -2212,7 +2212,7 @@ Conforme já observado anteriormente, no modelo COM-Poisson misto temos que os parâmetros $\phi$, da distribuição considerada para a variável de contagem condicional aos efeitos aleatórios e as covariáveis e $\sigma$, da distribuição considerada para os efeitos aleatórios são conjuntamente -responsáveis pela explicação da varibilidade do processo em estudo. Na +responsáveis pela explicação da variabilidade do processo em estudo. Na figura \ref{fig:corr-nematodes} apresentados as covariâncias entre os parâmetros do modelo, na escala de correlação, a fim de verificar, principalmente, a correlação entre $\sigma$ e $\phi$. Observa-se que, @@ -2284,9 +2284,9 @@ xy2 <- xyplot(nema ~ off | model, type = c("p", "g"), alpha = 0.4, key = key, - xlab = paste("Solução de massa fresca de raÃzes\n", + xlab = paste("Solução de massa fresca de raizes\n", "pelo volume de água"), - ylab = "Contagem de Nematóides", + ylab = "Contagem de nematoides", strip = strip.custom( factor.levels = c("Poisson", "COM-Poisson") ), diff --git a/docs/cap05_consideracoes-finais.Rnw b/docs/cap05_consideracoes-finais.Rnw index fefaab71b00601a681d2a64fca380b969d806941..0cb30e74b821d230d1669263f410d8c580092cab 100644 --- a/docs/cap05_consideracoes-finais.Rnw +++ b/docs/cap05_consideracoes-finais.Rnw @@ -19,7 +19,7 @@ bandas de confiança. Porém ressalta-se que na abordagem por quasi-verossimilhança, com a especificação de apenas dois momentos, i) não recupera-se a distribuição de probabilidades da variável em estudo, ii) a informação a respeito da média é igual ou inferior a uma abordagem -totalmente parâmetrica e iii) extensões como a modelagem de excesso de +totalmente paramétrica e iii) extensões como a modelagem de excesso de zeros e modelagem do parâmetro de dispersão não são imediatas. Nos casos de superdispersão exploramos também os resultados dos modelos baseados na distribuição Binomial Negativa e nessa abordagem temos o @@ -41,7 +41,7 @@ equivalentes ao modelo Hurdle Binomial Negativo assim como as estimativas pontuais dos valores preditos. Na aplicação do modelo Hurdle COM-Poisson não foi possÃvel a obtenção dos erros padrão das estimativas dos efeitos devido a problemas numéricos na determinação da matriz -hessiano. Para o caso extendido do modelo COM-Poisson em que acomodamos +hessiano. Para o caso estendido do modelo COM-Poisson em que acomodamos efeitos aleatórios, destacamos os procedimentos computacionalmente intensivos que são empregados no algoritmo de estimação. A aplicação se deu a um experimento que apresentou contagens com um grau não @@ -55,7 +55,7 @@ os modelos baseados na distribuição COM-Poisson. A primeira delas, e talvez a mais difÃcil de se contornar, é a determinação da constante de normalização, pois essa depende do parâmetro em que associamos a um preditor linear assim temos que calcular $n$ constantes a cada iteração -do algortimo de estimação. Em casos de contagens altas e superdispersão +do algoritmo de estimação. Em casos de contagens altas e superdispersão dessa constante é extremamente demorado. Outra caracterÃstica que se manisfestou em todas as aplicações foi a não ortogonalidade entre os parâmetros de regressão e o parâmetro adicional $\phi$, observada pelas @@ -64,13 +64,13 @@ inferências dependentes. Em pesquisas não relatadas nesse trabalho verificamos que a reparametrização do parâmetro $\lambda$, adotando a aproximação para média contorna essa caracterÃstica com o preço de se ter uma distribuição aproximada. Nas aplicações exploramos também os -prfis de verossimilhança para o parâmetro $\phi$ da COM-Poisson e o +perfis de verossimilhança para o parâmetro $\phi$ da COM-Poisson e o comportamento aproximadamente simétrico em todos casos induz que aproximações quadráticas da verossimilhança podem ter desempenhos satisfatórios. Em geral, destaca-se o modelo Poisson, largamente utilizado na -estatÃstica aplicada, como uma alternativa reestritiva devido a sua +estatÃstica aplicada, como uma alternativa restritiva devido a sua suposição de equidispersão (relação média igual a variância), que leva a resultados incorretos quando essa suposição não é atendida. Como alternativa sugere-se o modelo COM-Poisson que se apresenta como uma