Skip to content
Snippets Groups Projects
Commit 1705e8c9 authored by Eduardo E. R. Junior's avatar Eduardo E. R. Junior
Browse files

Adiciona seção métodos

parent ce7b3484
No related branches found
No related tags found
No related merge requests found
......@@ -75,8 +75,11 @@
% ---
\usepackage{amsmath,amssymb,amstext}
\usepackage{mathtools} % Funcionalidades (como \dcases)
\usepackage{dsfont} %% Para \mathds{1} Indicadora
\DeclareMathOperator{\Ell}{\mathcal{L}}
\DeclareMathOperator{\R}{\mathbb{R}}
\DeclareMathOperator{\ind}{\mathds{1}}
\DeclareRobustCommand{\rchi}{{\mathpalette\irchi\relax}}
\newcommand{\irchi}[2]{\raisebox{\depth}{$#1\chi$}}
......
No preview for this file type
......@@ -595,4 +595,164 @@ na análise de dois conjuntos de dados exibidos no trabalho.
\section{Métodos}
\label{cap03:metodos}
\lipsum[1-5]
A estimação dos parâmetros do modelo de regressão COM-Poisson de efeitos
fixos é realizada maximizando uma forma reparametrizada da
log-verossimilhança, definida na expressão \ref{eqn:loglik-compoisson},
via algoritmo numérico de otimização \textit{BFGS}. O parâmetro extra da
COM-Poisson, $\nu$ tem suporte nos reais positivos, restringindo o
espaço paramétrico de busca do otimizador, o que é numericamente
indesejável. Para contornar essa empecilho reparametrizamos o modelo com
o parâmetro $\phi = \log(\nu)$, assim como $0 < \nu < \infty$, $-\infty
< \phi < \infty$. Sob a reparametrização a função a ser maximizada é
\begin{equation}
\label{loglik-compoissonr}
\ell(\phi, \beta \mid \underline{y}) = \sum_i^n y_i \log(\lambda_i) -
e^\phi \sum_i^n \log(y!) - \sum_i^n \log(Z(\lambda_i, \phi))
\end{equation}
O ajuste do modelo é realizado sob $\phi$. Portanto as inferências
decorrentes do modelo são sobre esse parâmetro, todavia pode retornar
para parametrização original utilizando a função inversa em valores
pontuais ou método delta para funções de $\phi$. Nesse trabalho as
inferências são realizadas sob o parâmetro $\phi$. Para esse parâmetro
as interpretações são como se segue
$$
\phi < 0 \Rightarrow \textrm{Superdispersão} \quad
\phi = 0 \Rightarrow \textrm{Equidispersão} \quad
\phi > 0 \Rightarrow \textrm{Subdispersão}
$$
\noindent
ou seja, possui a interpretação de um parâmetro de precisão.
Note que a partir dessa reparametrização a condução de testes de
hipóteses é facilitada. Uma vez que $\phi = 0$, representa o caso
particicular em que a COM-Poisson se reduz a Poisson, a estatística
\begin{equation*}
\begin{split}
&TRV = 2 \cdot \left ( \ell_{CMP} - \ell_{P} \right )\\
& TRV \sim \rchi^2_{1}
\end{split}
\end{equation*}
\noindent
em que $\ell_{CMP}$ e $\ell_{P}$ são as log-verossimilhanças maximizadas
dos modelos COM-Poisson e Poisson com mesmo preditor linear
respectivamente, se refere ao teste de razão de verossimilhanças para
$H_0: \phi = 0$, ou de forma mais apelativa, se refere ao teste sobre a
equivalência dos modelos COM-Poisson e Poisson.
Para incluir um componente de barreira no modelo COM-Poisson, acomodando
excesso de zeros, partimos da definição em \ref{eqn:pmf-hurdle} adotando
para $Pr(Z = z \mid \Theta_c)$ a distribuição COM-Poisson
(\ref{eqn:pmf-compoisson}) resultando em
\begin{equation}
\label{eqn:pmf-hurdlecmp}
Pr(Y = y \mid \pi, \phi, \lambda) =
\begin{dcases*}
\pi & \text{se } y = 0,\\
(1 - \pi) \frac{\lambda^y}{(y!)^{e^\phi}Z(\lambda,
\phi)}\left (1 - \frac{1}{Z(\lambda, \phi)} \right )^{-1} &
\text{se } y = 1, 2, \dots
\end{dcases*}
\end{equation}
Para modelos de regressão com componente de barreira, incluímos
preditores lineares em $\pi$,
$\underline{\pi}=\frac{\exp(G\gamma)}{1+\exp(G\gamma)}$ e $\lambda$,
$\underline{\lambda}=\exp(X\beta)$ e a verossimilhança desse modelo toma
a forma
\begin{equation}
\label{eqn:loglik-hurdlecmp}
\Ell(\phi, \beta, \gamma \mid \underline{y}) =
\ind [\underline{\pi}] \cdot (1-\ind) \left [
(1-\underline{\pi})\left (
\frac{\underline{\lambda}^y}{(y!)^{e^\phi}
Z(\underline{\lambda}, \phi)}
\right ) \left (
1-\frac{1}{Z(\underline{\lambda}, \phi)}
\right ) \right ]
\end{equation}
\noindent
em que $\ind$ é uma função indicadora para $y = 0$. Os argumentos
$\hat{\phi}$, $\hat{\beta}$ e $\hat{\gamma}$, que maximizam o logarítmo
neperiano da função \ref{eqn:loglik-hurdlecmp} serão as estimativas de
máxima verossimilhança do modelo COM-Poisson com componente de barreira.
Uma outra extensão proposta para o modelo COM-Poisson é a inclusão de
efeitos aleatórios a fim de modelar a estrutura experimental ou
observacional de um conjunto de dados. Nos reestringimos a inclusão de
efeitos aleatórios Normais, ou seja, $b \sim \textrm{Normal}(0,
\Sigma)$, que são incorporados sob a forma $\underline{\lambda} = X\beta
+ Z b$ conforme especificação \ref{eqn:reg-misto}. Assim, considerando a
distribuição COM-Poisson para a variável resposta condicinada as
covariáveis e os eifetos aletórios, podemos escrever a verossimilhança
como
\begin{equation}
\label{eqn:loglik-mixedcmp}
\Ell(\phi, \Sigma, \beta \mid \underline{y}) =
\prod_{i=1}^m \int_{\R^q} \left (
\prod_{j=1}^{n_i} \frac{\underline{\lambda}^y}{(y!)^{e^\phi}
Z(\underline{\lambda}, \phi)}
\right ) \cdot
(2\pi)^{q/2} |\Sigma| \exp \left (
-\frac{1}{2}b^t \Sigma^{-1} b
\right ) db_i
\end{equation}
\noindent
sendo $m$ o número de grupos que compartilham do mesmo efeito aleatório,
$q$ o número de efeitos aleatórios (intercepto aleatório, inclinação e
interecpto aleatórios, etc.) e $n_i$ o número de observações no i-ésimo
grupo. A integração em \ref{eqn:loglik-mixedcmp}, necessária para a
avaliação da verossimilhança não tem forma analítica. Utilizamos a
aproximação de Laplace da forma como apresentada em
\citeonline[pág. 141]{RibeiroJr2012} para aproximação dessa integral. A
estimação dos parâmetros é realizada via maximização de $\log(\Ell(\phi,
\Sigma, \beta \mid \underline{y}))$ com métodos numéricos de
otimização. Ressalta-se que esse é um procedimento computacionalmente
intensivo, pois a cada iteração do algoritmo de maximização, $m$
aproximações de Laplace para integrais de dimensão $q$ são
realizadas. Ainda, quando considerada a distribuição COM-Poisson para a
variável resposta condicionalmente independente, temos também o cálculo
de $n_m$ constantes normalizadoras $Z(\lambda, \phi)$
(\ref{eqn:constante-z}) para cada $m$ grupo em cada iteração do
algoritmo de otimazação. Toda essa estrutura hierárquica com
procedimentos computacionais realizados a cada estágio, são extremamente
sensíveis a aspectos de programação/implementação.
Para comparação entre os modelos COM-Poisson e demais modelos
listados no capítulo \ref{cap:modelos-para-dados-de-contagem} utilizamos
essencialmente o valor maximizado da log-verossimilhança. Critérios
de informação de Akaike (AIC) e Bayesiano (BIC) definidos como
\begin{equation}
\label{eqn:criterios-informacao}
\textrm{AIC} = k2 - 2\ell(\Theta_k, \underline{y}) \qquad \qquad
\textrm{BIC} = k\log(n) - 2\ell(\Theta_k, \underline{y})
\end{equation}
\noindent
sendo $k$ o número de parâmetros, $n$ o número de observações e
$\ell(\Theta_k, \underline{y})$ a log-verossimilhança maximizada do
modelo definido pelo conjunto $\Theta_k$ de parâmetros, também são
utilizados. Nas análises comparamos também os níveis descritivos nos
testes de razão de verossimilhanças entre modelos encaixados. Nos
modelos de regressão de efeitos fixos os valores preditos pelos modelos
COM-Poisson e demais alternativas pertinentes são contrastados
graficamente com bandas de confiança.
Para maximização númerica das log-verossimilhanças dos modelos de
regressão COM-Poisson e suas extensões utilizamos um método de
otimização quasi-Newton bastante popular, denominado \textit{BFGS}. As
informações do vetor gradiente (derivadas de primeira e matriz hessiana
(derivadas de segunda ordem) são obtidos numericamente via aproximação
de diferenças finitas \cite{Nocedal1995}.
@book{Nocedal1995,
abstract = {This is a book for people interested in solving optimization problems. Because of the wide (and growing) use of optimization in science, engineering, economics, and industry, it is essential for students and practitioners alike to develop an understanding of optimization algorithms. Knowledge of the capabilities and limitations of these algorithms leads to a better understanding of their impact on various applications, and points the way to future research on improving and extending optimization algorithms and software. Our goal in this book is to give a comprehensive description of the most powerful, state-of-the-art, techniques for solving continuous optimization problems. By presenting the motivating ideas for each algorithm, we try to stimulate the reader's intuition and make the technical details easier to follow. Formal mathematical requirements are kept to a minimum. Because of our focus on continuous problems, we have omitted discussion of important optimization topics such as discrete and stochastic optimization.},
author = {Nocedal, Jorge and Wright, Stephen J.},
booktitle = {International ADAMS user conference},
doi = {10.1007/BF01068601},
file = {:home/eduardo/Documents/Mendeley Desktop/Numerical{\_}Optimization.pdf:pdf},
isbn = {0387987932},
issn = {0011-4235},
mendeley-groups = {TCC{\_}UFPR{\_}2015},
pages = {636},
pmid = {21384397},
publisher = {Springer},
title = {{Numerical optimization}},
url = {https://books.google.com/books?id=epc5fX0lqRIC{\&}pgis=1},
year = {1995}
}
@phdthesis{Suekane2011,
author = {Suekane, Renato},
file = {:home/eduardo/Documents/Mendeley Desktop/Disserta{\c{c}}{\~{a}}o Renato Suekane.pdf:pdf},
......@@ -83,16 +99,6 @@ url = {http://www.jstor.org/stable/2111071},
volume = {33},
year = {1989}
}
@incollection{Kokonendji2014,
author = {Kokonendji, Celestin C.},
booktitle = {Methods and Applications of Statistics in Clinical Trials: Planning, Analysis, and Inferential Methods},
file = {:home/eduardo/Documents/Mendeley Desktop/ch30{\_}kokonendji2014.pdf:pdf},
mendeley-groups = {TCC{\_}UFPR{\_}2015},
pages = {506--526},
title = {{Over- and Underdisperson Models}},
url = {https://lmb.univ-fcomte.fr/IMG/pdf/ch30{\_}kokonendji2014.pdf},
year = {2014}
}
@article{Ridout1998,
abstract = {We consider the problem of modelling count data with excess zeros and review some possible models. Aspects of model tting and inference are considered. An example from horticultural research is used for illustration.},
author = {Ridout, Martin and Demetrio, Clarice G.B and Hinde, John},
......@@ -105,6 +111,16 @@ pages = {1--13},
title = {{Models for count data with many zeros}},
year = {1998}
}
@incollection{Kokonendji2014,
author = {Kokonendji, Celestin C.},
booktitle = {Methods and Applications of Statistics in Clinical Trials: Planning, Analysis, and Inferential Methods},
file = {:home/eduardo/Documents/Mendeley Desktop/ch30{\_}kokonendji2014.pdf:pdf},
mendeley-groups = {TCC{\_}UFPR{\_}2015},
pages = {506--526},
title = {{Over- and Underdisperson Models}},
url = {https://lmb.univ-fcomte.fr/IMG/pdf/ch30{\_}kokonendji2014.pdf},
year = {2014}
}
@article{Sellers2016,
abstract = {Excess zeroes are often thought of as a cause of data over-dispersion (i.e. when the variance exceeds the mean); this claim is not entirely accurate. In actuality, excess zeroes reduce the mean of a dataset, thus inflating the dispersion index (i.e. the variance divided by the mean). While this results in an increased chance for data over-dispersion, the implication is not guaranteed. Thus, one should consider a flexible distribution that not only can account for excess zeroes, but can also address potential over- or under-dispersion. A zero-inflated Conway-Maxwell-Poisson (ZICMP) regression allows for modeling the relationship between explanatory and response variables, while capturing the effects due to excess zeroes and dispersion. This work derives the ZICMP model and illustrates its flexibility, extrapolates the corresponding likelihood ratio test for the presence of significant data dispersion, and highlights various statistical properties and model fit through several examples.},
author = {Sellers, Kimberly F. and Raim, Andrew},
......@@ -122,13 +138,22 @@ url = {http://dx.doi.org/10.1016/j.csda.2016.01.007 http://linkinghub.elsevier.c
volume = {99},
year = {2016}
}
@phdthesis{Borges2012,
author = {Borges, Patrick},
file = {:home/eduardo/Documents/Mendeley Desktop/4552.pdf:pdf},
@misc{Winkelmann1994,
abstract = {"This paper deals with the estimation of single equation models in which the counts are regressed on a set of observed individual characteristics such as age, gender, or nationality.... We propose a generalized event count model to simultaneously allow for a wide class of count data models and account for over- and underdispersion. This model is successfully applied to German data on fertility, divorces and mobility." (SUMMARY IN FRE)},
author = {Winkelmann, R and Zimmermann, K F},
booktitle = {Mathematical population studies},
doi = {10.1080/08898489409525374},
file = {:home/eduardo/Documents/Mendeley Desktop/41{\_}CountDataModel{\_}MathematicalPopulationStudies{\_}1993.pdf:pdf},
isbn = {9780470510247},
issn = {0889-8480},
keywords = {Demographic Factors,Developed Countries,Divorce,Estimation Technics,Europe,Fertility,Germany,Mathematical Model,Migration,Models,Nuptiality,Population,Population Dynamics,Research Methodology,Theoretical,Western Europe},
mendeley-groups = {TCC{\_}UFPR{\_}2015},
school = {Universidade Federal de S{\~{a}}o Carlos},
title = {{Novos modelos de sobreviv{\^{e}}ncia com fra{\c{c}}{\~{a}}o de cura baseados no processo da carcinog{\^{e}}nese}},
year = {2012}
number = {3},
pages = {205--221, 223},
pmid = {12287090},
title = {{Count data models for demographic data}},
volume = {4},
year = {1994}
}
@phdthesis{Ribeiro2012,
author = {Ribeiro, Ang{\'{e}}lica Maria Tortola},
......@@ -153,23 +178,6 @@ url = {http://www.jstor.org/stable/2334725?origin=crossref},
volume = {61},
year = {1974}
}
@misc{Winkelmann1994,
abstract = {"This paper deals with the estimation of single equation models in which the counts are regressed on a set of observed individual characteristics such as age, gender, or nationality.... We propose a generalized event count model to simultaneously allow for a wide class of count data models and account for over- and underdispersion. This model is successfully applied to German data on fertility, divorces and mobility." (SUMMARY IN FRE)},
author = {Winkelmann, R and Zimmermann, K F},
booktitle = {Mathematical population studies},
doi = {10.1080/08898489409525374},
file = {:home/eduardo/Documents/Mendeley Desktop/41{\_}CountDataModel{\_}MathematicalPopulationStudies{\_}1993.pdf:pdf},
isbn = {9780470510247},
issn = {0889-8480},
keywords = {Demographic Factors,Developed Countries,Divorce,Estimation Technics,Europe,Fertility,Germany,Mathematical Model,Migration,Models,Nuptiality,Population,Population Dynamics,Research Methodology,Theoretical,Western Europe},
mendeley-groups = {TCC{\_}UFPR{\_}2015},
number = {3},
pages = {205--221, 223},
pmid = {12287090},
title = {{Count data models for demographic data}},
volume = {4},
year = {1994}
}
@article{Winkelmann1995,
author = {Winkelmann, Rainer},
doi = {10.1080/07350015.1995.10524620},
......@@ -185,6 +193,14 @@ url = {http://www.tandfonline.com/doi/abs/10.1080/07350015.1995.10524620},
volume = {13},
year = {1995}
}
@phdthesis{Borges2012,
author = {Borges, Patrick},
file = {:home/eduardo/Documents/Mendeley Desktop/4552.pdf:pdf},
mendeley-groups = {TCC{\_}UFPR{\_}2015},
school = {Universidade Federal de S{\~{a}}o Carlos},
title = {{Novos modelos de sobreviv{\^{e}}ncia com fra{\c{c}}{\~{a}}o de cura baseados no processo da carcinog{\^{e}}nese}},
year = {2012}
}
@book{Hilbe2014,
abstract = {This entry-level text offers clear and concise guidelines on how to select, construct, interpret and evaluate count data. Written for researchers with little or no background in advanced statistics, the book presents treatments of all major models using numerous tables, insets, and detailed modeling suggestions. It begins by demonstrating the fundamentals of linear regression and works up to an analysis of the Poisson and negative binomial models, and to the problem of overdispersion. Examples in Stata, R, and SAS code enable readers to adapt models for their own purposes, making the text an ideal resource for researchers working in public health, ecology, econometrics, transportation, and other related fields.},
author = {Hilbe, Joseph M.},
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment