diff --git a/docs/01-tcc.Rnw b/docs/01-tcc.Rnw index b8a1c2ad01d5f206428eddbfcb008102704331ef..96efccb2b960b2a69ea88f1f7797429aa4869f27 100644 --- a/docs/01-tcc.Rnw +++ b/docs/01-tcc.Rnw @@ -75,8 +75,11 @@ % --- \usepackage{amsmath,amssymb,amstext} \usepackage{mathtools} % Funcionalidades (como \dcases) +\usepackage{dsfont} %% Para \mathds{1} Indicadora + \DeclareMathOperator{\Ell}{\mathcal{L}} \DeclareMathOperator{\R}{\mathbb{R}} +\DeclareMathOperator{\ind}{\mathds{1}} \DeclareRobustCommand{\rchi}{{\mathpalette\irchi\relax}} \newcommand{\irchi}[2]{\raisebox{\depth}{$#1\chi$}} diff --git a/docs/01-tcc.pdf b/docs/01-tcc.pdf index 07ab8ff86c577e27d8ae2df45ef75cdcc477e238..d867ea20c1ad12d49056dd6ea654209b79844ca8 100644 Binary files a/docs/01-tcc.pdf and b/docs/01-tcc.pdf differ diff --git a/docs/cap03_materiais-e-metodos.Rnw b/docs/cap03_materiais-e-metodos.Rnw index 0928323684974a0addb875ce335db1c7513a1420..af642a4fcc4ffab09347197e8317365d6ab6221d 100644 --- a/docs/cap03_materiais-e-metodos.Rnw +++ b/docs/cap03_materiais-e-metodos.Rnw @@ -595,4 +595,164 @@ na análise de dois conjuntos de dados exibidos no trabalho. \section{Métodos} \label{cap03:metodos} -\lipsum[1-5] + +A estimação dos parâmetros do modelo de regressão COM-Poisson de efeitos +fixos é realizada maximizando uma forma reparametrizada da +log-verossimilhança, definida na expressão \ref{eqn:loglik-compoisson}, +via algoritmo numérico de otimização \textit{BFGS}. O parâmetro extra da +COM-Poisson, $\nu$ tem suporte nos reais positivos, restringindo o +espaço paramétrico de busca do otimizador, o que é numericamente +indesejável. Para contornar essa empecilho reparametrizamos o modelo com +o parâmetro $\phi = \log(\nu)$, assim como $0 < \nu < \infty$, $-\infty +< \phi < \infty$. Sob a reparametrização a função a ser maximizada é + +\begin{equation} + \label{loglik-compoissonr} + \ell(\phi, \beta \mid \underline{y}) = \sum_i^n y_i \log(\lambda_i) - + e^\phi \sum_i^n \log(y!) - \sum_i^n \log(Z(\lambda_i, \phi)) +\end{equation} + +O ajuste do modelo é realizado sob $\phi$. Portanto as inferências +decorrentes do modelo são sobre esse parâmetro, todavia pode retornar +para parametrização original utilizando a função inversa em valores +pontuais ou método delta para funções de $\phi$. Nesse trabalho as +inferências são realizadas sob o parâmetro $\phi$. Para esse parâmetro +as interpretações são como se segue + +$$ +\phi < 0 \Rightarrow \textrm{Superdispersão} \quad +\phi = 0 \Rightarrow \textrm{Equidispersão} \quad +\phi > 0 \Rightarrow \textrm{Subdispersão} +$$ + +\noindent +ou seja, possui a interpretação de um parâmetro de precisão. + +Note que a partir dessa reparametrização a condução de testes de +hipóteses é facilitada. Uma vez que $\phi = 0$, representa o caso +particicular em que a COM-Poisson se reduz a Poisson, a estatÃstica + +\begin{equation*} + \begin{split} + &TRV = 2 \cdot \left ( \ell_{CMP} - \ell_{P} \right )\\ + & TRV \sim \rchi^2_{1} + \end{split} +\end{equation*} + +\noindent +em que $\ell_{CMP}$ e $\ell_{P}$ são as log-verossimilhanças maximizadas +dos modelos COM-Poisson e Poisson com mesmo preditor linear +respectivamente, se refere ao teste de razão de verossimilhanças para +$H_0: \phi = 0$, ou de forma mais apelativa, se refere ao teste sobre a +equivalência dos modelos COM-Poisson e Poisson. + +Para incluir um componente de barreira no modelo COM-Poisson, acomodando +excesso de zeros, partimos da definição em \ref{eqn:pmf-hurdle} adotando +para $Pr(Z = z \mid \Theta_c)$ a distribuição COM-Poisson +(\ref{eqn:pmf-compoisson}) resultando em + +\begin{equation} + \label{eqn:pmf-hurdlecmp} + Pr(Y = y \mid \pi, \phi, \lambda) = + \begin{dcases*} + \pi & \text{se } y = 0,\\ + (1 - \pi) \frac{\lambda^y}{(y!)^{e^\phi}Z(\lambda, + \phi)}\left (1 - \frac{1}{Z(\lambda, \phi)} \right )^{-1} & + \text{se } y = 1, 2, \dots + \end{dcases*} +\end{equation} + +Para modelos de regressão com componente de barreira, incluÃmos +preditores lineares em $\pi$, +$\underline{\pi}=\frac{\exp(G\gamma)}{1+\exp(G\gamma)}$ e $\lambda$, +$\underline{\lambda}=\exp(X\beta)$ e a verossimilhança desse modelo toma +a forma + +\begin{equation} + \label{eqn:loglik-hurdlecmp} + \Ell(\phi, \beta, \gamma \mid \underline{y}) = + \ind [\underline{\pi}] \cdot (1-\ind) \left [ + (1-\underline{\pi})\left ( + \frac{\underline{\lambda}^y}{(y!)^{e^\phi} + Z(\underline{\lambda}, \phi)} + \right ) \left ( + 1-\frac{1}{Z(\underline{\lambda}, \phi)} + \right ) \right ] +\end{equation} + +\noindent +em que $\ind$ é uma função indicadora para $y = 0$. Os argumentos +$\hat{\phi}$, $\hat{\beta}$ e $\hat{\gamma}$, que maximizam o logarÃtmo +neperiano da função \ref{eqn:loglik-hurdlecmp} serão as estimativas de +máxima verossimilhança do modelo COM-Poisson com componente de barreira. + +Uma outra extensão proposta para o modelo COM-Poisson é a inclusão de +efeitos aleatórios a fim de modelar a estrutura experimental ou +observacional de um conjunto de dados. Nos reestringimos a inclusão de +efeitos aleatórios Normais, ou seja, $b \sim \textrm{Normal}(0, +\Sigma)$, que são incorporados sob a forma $\underline{\lambda} = X\beta ++ Z b$ conforme especificação \ref{eqn:reg-misto}. Assim, considerando a +distribuição COM-Poisson para a variável resposta condicinada as +covariáveis e os eifetos aletórios, podemos escrever a verossimilhança +como + +\begin{equation} + \label{eqn:loglik-mixedcmp} + \Ell(\phi, \Sigma, \beta \mid \underline{y}) = + \prod_{i=1}^m \int_{\R^q} \left ( + \prod_{j=1}^{n_i} \frac{\underline{\lambda}^y}{(y!)^{e^\phi} + Z(\underline{\lambda}, \phi)} + \right ) \cdot + (2\pi)^{q/2} |\Sigma| \exp \left ( + -\frac{1}{2}b^t \Sigma^{-1} b + \right ) db_i +\end{equation} + +\noindent +sendo $m$ o número de grupos que compartilham do mesmo efeito aleatório, +$q$ o número de efeitos aleatórios (intercepto aleatório, inclinação e +interecpto aleatórios, etc.) e $n_i$ o número de observações no i-ésimo +grupo. A integração em \ref{eqn:loglik-mixedcmp}, necessária para a +avaliação da verossimilhança não tem forma analÃtica. Utilizamos a +aproximação de Laplace da forma como apresentada em +\citeonline[pág. 141]{RibeiroJr2012} para aproximação dessa integral. A +estimação dos parâmetros é realizada via maximização de $\log(\Ell(\phi, +\Sigma, \beta \mid \underline{y}))$ com métodos numéricos de +otimização. Ressalta-se que esse é um procedimento computacionalmente +intensivo, pois a cada iteração do algoritmo de maximização, $m$ +aproximações de Laplace para integrais de dimensão $q$ são +realizadas. Ainda, quando considerada a distribuição COM-Poisson para a +variável resposta condicionalmente independente, temos também o cálculo +de $n_m$ constantes normalizadoras $Z(\lambda, \phi)$ +(\ref{eqn:constante-z}) para cada $m$ grupo em cada iteração do +algoritmo de otimazação. Toda essa estrutura hierárquica com +procedimentos computacionais realizados a cada estágio, são extremamente +sensÃveis a aspectos de programação/implementação. + +Para comparação entre os modelos COM-Poisson e demais modelos +listados no capÃtulo \ref{cap:modelos-para-dados-de-contagem} utilizamos +essencialmente o valor maximizado da log-verossimilhança. Critérios +de informação de Akaike (AIC) e Bayesiano (BIC) definidos como + +\begin{equation} + \label{eqn:criterios-informacao} + \textrm{AIC} = k2 - 2\ell(\Theta_k, \underline{y}) \qquad \qquad + \textrm{BIC} = k\log(n) - 2\ell(\Theta_k, \underline{y}) +\end{equation} + +\noindent +sendo $k$ o número de parâmetros, $n$ o número de observações e +$\ell(\Theta_k, \underline{y})$ a log-verossimilhança maximizada do +modelo definido pelo conjunto $\Theta_k$ de parâmetros, também são +utilizados. Nas análises comparamos também os nÃveis descritivos nos +testes de razão de verossimilhanças entre modelos encaixados. Nos +modelos de regressão de efeitos fixos os valores preditos pelos modelos +COM-Poisson e demais alternativas pertinentes são contrastados +graficamente com bandas de confiança. + +Para maximização númerica das log-verossimilhanças dos modelos de +regressão COM-Poisson e suas extensões utilizamos um método de +otimização quasi-Newton bastante popular, denominado \textit{BFGS}. As +informações do vetor gradiente (derivadas de primeira e matriz hessiana +(derivadas de segunda ordem) são obtidos numericamente via aproximação +de diferenças finitas \cite{Nocedal1995}. diff --git a/docs/compois.bib b/docs/compois.bib index bd0049c618378415560e0d7113c87fdc523e432d..fb768f5e92ed48f419620f9ce515174a00a1ca2b 100644 --- a/docs/compois.bib +++ b/docs/compois.bib @@ -1,3 +1,19 @@ +@book{Nocedal1995, +abstract = {This is a book for people interested in solving optimization problems. Because of the wide (and growing) use of optimization in science, engineering, economics, and industry, it is essential for students and practitioners alike to develop an understanding of optimization algorithms. Knowledge of the capabilities and limitations of these algorithms leads to a better understanding of their impact on various applications, and points the way to future research on improving and extending optimization algorithms and software. Our goal in this book is to give a comprehensive description of the most powerful, state-of-the-art, techniques for solving continuous optimization problems. By presenting the motivating ideas for each algorithm, we try to stimulate the reader's intuition and make the technical details easier to follow. Formal mathematical requirements are kept to a minimum. Because of our focus on continuous problems, we have omitted discussion of important optimization topics such as discrete and stochastic optimization.}, +author = {Nocedal, Jorge and Wright, Stephen J.}, +booktitle = {International ADAMS user conference}, +doi = {10.1007/BF01068601}, +file = {:home/eduardo/Documents/Mendeley Desktop/Numerical{\_}Optimization.pdf:pdf}, +isbn = {0387987932}, +issn = {0011-4235}, +mendeley-groups = {TCC{\_}UFPR{\_}2015}, +pages = {636}, +pmid = {21384397}, +publisher = {Springer}, +title = {{Numerical optimization}}, +url = {https://books.google.com/books?id=epc5fX0lqRIC{\&}pgis=1}, +year = {1995} +} @phdthesis{Suekane2011, author = {Suekane, Renato}, file = {:home/eduardo/Documents/Mendeley Desktop/Disserta{\c{c}}{\~{a}}o Renato Suekane.pdf:pdf}, @@ -83,16 +99,6 @@ url = {http://www.jstor.org/stable/2111071}, volume = {33}, year = {1989} } -@incollection{Kokonendji2014, -author = {Kokonendji, Celestin C.}, -booktitle = {Methods and Applications of Statistics in Clinical Trials: Planning, Analysis, and Inferential Methods}, -file = {:home/eduardo/Documents/Mendeley Desktop/ch30{\_}kokonendji2014.pdf:pdf}, -mendeley-groups = {TCC{\_}UFPR{\_}2015}, -pages = {506--526}, -title = {{Over- and Underdisperson Models}}, -url = {https://lmb.univ-fcomte.fr/IMG/pdf/ch30{\_}kokonendji2014.pdf}, -year = {2014} -} @article{Ridout1998, abstract = {We consider the problem of modelling count data with excess zeros and review some possible models. Aspects of model tting and inference are considered. An example from horticultural research is used for illustration.}, author = {Ridout, Martin and Demetrio, Clarice G.B and Hinde, John}, @@ -105,6 +111,16 @@ pages = {1--13}, title = {{Models for count data with many zeros}}, year = {1998} } +@incollection{Kokonendji2014, +author = {Kokonendji, Celestin C.}, +booktitle = {Methods and Applications of Statistics in Clinical Trials: Planning, Analysis, and Inferential Methods}, +file = {:home/eduardo/Documents/Mendeley Desktop/ch30{\_}kokonendji2014.pdf:pdf}, +mendeley-groups = {TCC{\_}UFPR{\_}2015}, +pages = {506--526}, +title = {{Over- and Underdisperson Models}}, +url = {https://lmb.univ-fcomte.fr/IMG/pdf/ch30{\_}kokonendji2014.pdf}, +year = {2014} +} @article{Sellers2016, abstract = {Excess zeroes are often thought of as a cause of data over-dispersion (i.e. when the variance exceeds the mean); this claim is not entirely accurate. In actuality, excess zeroes reduce the mean of a dataset, thus inflating the dispersion index (i.e. the variance divided by the mean). While this results in an increased chance for data over-dispersion, the implication is not guaranteed. Thus, one should consider a flexible distribution that not only can account for excess zeroes, but can also address potential over- or under-dispersion. A zero-inflated Conway-Maxwell-Poisson (ZICMP) regression allows for modeling the relationship between explanatory and response variables, while capturing the effects due to excess zeroes and dispersion. This work derives the ZICMP model and illustrates its flexibility, extrapolates the corresponding likelihood ratio test for the presence of significant data dispersion, and highlights various statistical properties and model fit through several examples.}, author = {Sellers, Kimberly F. and Raim, Andrew}, @@ -122,13 +138,22 @@ url = {http://dx.doi.org/10.1016/j.csda.2016.01.007 http://linkinghub.elsevier.c volume = {99}, year = {2016} } -@phdthesis{Borges2012, -author = {Borges, Patrick}, -file = {:home/eduardo/Documents/Mendeley Desktop/4552.pdf:pdf}, +@misc{Winkelmann1994, +abstract = {"This paper deals with the estimation of single equation models in which the counts are regressed on a set of observed individual characteristics such as age, gender, or nationality.... We propose a generalized event count model to simultaneously allow for a wide class of count data models and account for over- and underdispersion. This model is successfully applied to German data on fertility, divorces and mobility." (SUMMARY IN FRE)}, +author = {Winkelmann, R and Zimmermann, K F}, +booktitle = {Mathematical population studies}, +doi = {10.1080/08898489409525374}, +file = {:home/eduardo/Documents/Mendeley Desktop/41{\_}CountDataModel{\_}MathematicalPopulationStudies{\_}1993.pdf:pdf}, +isbn = {9780470510247}, +issn = {0889-8480}, +keywords = {Demographic Factors,Developed Countries,Divorce,Estimation Technics,Europe,Fertility,Germany,Mathematical Model,Migration,Models,Nuptiality,Population,Population Dynamics,Research Methodology,Theoretical,Western Europe}, mendeley-groups = {TCC{\_}UFPR{\_}2015}, -school = {Universidade Federal de S{\~{a}}o Carlos}, -title = {{Novos modelos de sobreviv{\^{e}}ncia com fra{\c{c}}{\~{a}}o de cura baseados no processo da carcinog{\^{e}}nese}}, -year = {2012} +number = {3}, +pages = {205--221, 223}, +pmid = {12287090}, +title = {{Count data models for demographic data}}, +volume = {4}, +year = {1994} } @phdthesis{Ribeiro2012, author = {Ribeiro, Ang{\'{e}}lica Maria Tortola}, @@ -153,23 +178,6 @@ url = {http://www.jstor.org/stable/2334725?origin=crossref}, volume = {61}, year = {1974} } -@misc{Winkelmann1994, -abstract = {"This paper deals with the estimation of single equation models in which the counts are regressed on a set of observed individual characteristics such as age, gender, or nationality.... We propose a generalized event count model to simultaneously allow for a wide class of count data models and account for over- and underdispersion. This model is successfully applied to German data on fertility, divorces and mobility." (SUMMARY IN FRE)}, -author = {Winkelmann, R and Zimmermann, K F}, -booktitle = {Mathematical population studies}, -doi = {10.1080/08898489409525374}, -file = {:home/eduardo/Documents/Mendeley Desktop/41{\_}CountDataModel{\_}MathematicalPopulationStudies{\_}1993.pdf:pdf}, -isbn = {9780470510247}, -issn = {0889-8480}, -keywords = {Demographic Factors,Developed Countries,Divorce,Estimation Technics,Europe,Fertility,Germany,Mathematical Model,Migration,Models,Nuptiality,Population,Population Dynamics,Research Methodology,Theoretical,Western Europe}, -mendeley-groups = {TCC{\_}UFPR{\_}2015}, -number = {3}, -pages = {205--221, 223}, -pmid = {12287090}, -title = {{Count data models for demographic data}}, -volume = {4}, -year = {1994} -} @article{Winkelmann1995, author = {Winkelmann, Rainer}, doi = {10.1080/07350015.1995.10524620}, @@ -185,6 +193,14 @@ url = {http://www.tandfonline.com/doi/abs/10.1080/07350015.1995.10524620}, volume = {13}, year = {1995} } +@phdthesis{Borges2012, +author = {Borges, Patrick}, +file = {:home/eduardo/Documents/Mendeley Desktop/4552.pdf:pdf}, +mendeley-groups = {TCC{\_}UFPR{\_}2015}, +school = {Universidade Federal de S{\~{a}}o Carlos}, +title = {{Novos modelos de sobreviv{\^{e}}ncia com fra{\c{c}}{\~{a}}o de cura baseados no processo da carcinog{\^{e}}nese}}, +year = {2012} +} @book{Hilbe2014, abstract = {This entry-level text offers clear and concise guidelines on how to select, construct, interpret and evaluate count data. Written for researchers with little or no background in advanced statistics, the book presents treatments of all major models using numerous tables, insets, and detailed modeling suggestions. It begins by demonstrating the fundamentals of linear regression and works up to an analysis of the Poisson and negative binomial models, and to the problem of overdispersion. Examples in Stata, R, and SAS code enable readers to adapt models for their own purposes, making the text an ideal resource for researchers working in public health, ecology, econometrics, transportation, and other related fields.}, author = {Hilbe, Joseph M.},