Skip to content
Snippets Groups Projects
Select Git revision
  • 6117f9e4715163f63142aa9d32d46dd9dde3dffe
  • master default protected
  • pnad_continua
  • fix_especial_exclusiva
  • add_serie_ano_id
  • fixed_turma_turno_id
  • docente_new_year
  • update_matricula_2018
  • indicador_financeiro
  • test
  • patio_escola
  • update_escola
  • add_region_ibge_pib
  • pnad_protocol
  • cebtu009t1-update
15 results

matricula.csv

Blame
  • cap01_introducao.Rnw 12.31 KiB
    % ------------------------------------------------------------------------
    % CAPÍTULO 1 - INTRODUÇÃO
    % ------------------------------------------------------------------------
    
    Em diversas áreas do conhecimento é comum o interesse em i) compreender
    o relacionamento entre variáveis de interesse e características de uma
    amostra e ii) realizar predições por meio de modelos estatísticos
    ajustados por dados de uma amostra. A teoria de modelos de regressão
    sustentam muitas das pesquisas na área de Estatística aplicada.
    
    Os modelos de regressão, na sua forma univariada e usual, consistem no
    estabelecimento de uma equação matemática que relaciona a média de uma
    variável aleatória de interesse (variável resposta) com as demais
    variáveis aleatórias observadas (covariáveis). Nesta metodologia
    considera-se uma distribuição de probabilidades para a variável resposta
    condicionada as covariáveis cuja a média está associada a uma preditor
    que acomoda os efeitos das variáveis independentes.
    
    Podemos destacar o modelo linear normal como o modelo predominante
    dentre as análises estatísticas aplicadas. Esse modelo estabelece que a
    variável resposta condicional as covariáveis têm distribuição Normal de
    média descrita por um preditor linear das covariáveis. Todavia, não são
    raras as situações me que a variável resposta se apresenta na forma de
    contagens, assumindo valores inteiros não negativos. Variáveis
    aleatórias de contagem, de forma geral, representam o número de
    ocorrências de um evento em um domínio específico que pode ser contínuo,
    como um intervalo de tempo ou espaço, ou discreto, como indivíduos ou
    grupos.
    
    A análise de dados de contagem pelo modelo linear normal produz
    estimativas que contêm erros padrões inconsistentes e podem produzir
    predições negativas para o número de eventos \cite{King1989}. Uma
    alternativa adotada durante muitos anos, e ainda aplicada, é encontrar
    alguma forma de transformação da variável resposta a fim de atender aos
    pressupostos do modelo de regressão normal. Contudo essa abordagem
    dispõe de resultados insatisfatórios, pois i) dificulta a intepretação
    dos resultados, ii) não contempla a natureza da variável (ainda serão
    valores pontuais, só que em outra escala) iii) não contempla a relação
    média e variância, característica de dados de contagem e iv) no uso da
    transformação logarítmica é problemática quando há contagens nulas.
    
    Diante do problema diferentes abordagens foram propostas, contudo
    destaca-se o trabalho apresentado por \citeonline{Nelder1972} que
    introduz a teoria dos modelos lineares generalizados (MLG's). Esta nova
    classe de modelos flexibilizou a distribuição condicional associada
    permitindo outras distribuições pertencentes à família exponencial de
    distribuições. Tal família contempla as distribuições Poisson, Binomial,
    Gama entre outras bem conhecidas na literatura, além da própria
    distribuição Normal.
    
    Com os MLG's a modelagem de dados passou a ser mais fiel a natureza da
    variável resposta, principalmente no que diz respeito ao seu
    suporte. Neste contexto, a análise de variáveis aleatórias de contagem,
    que têm suporte nos conjunto dos números naturais, foi enriquecida
    expressivamente.
    
    Para análise estatística dessas variáveis, temos o modelo probabilístico
    de Poisson, já consolidado na literatura e amplamente utilizado. Este
    modelo possui apenas um parâmetro, denotado por $\lambda$, que
    representa a média e também a variância, o que implica em uma relação
    identidade ($\lambda = E[Y] = V[Y]$). Essa propriedade, chamada de
    equidispersão, é uma particularidade do modelo Poisson que pode não ser
    adequada a diversas situações. Quando aplicado sob negligência desta
    suposição, o modelo Poisson apresenta erros padrões inconsistentes para
    as estimativas dos parâmentros e por consequência, para toda função
    desses parâmetros \cite{Winkelmann1995, Winkelmann1994}.
    
    O caso de superdispersão, quando a variância é maior que a média, é o
    mais comum e tem uma gama de métodos para análise mais extensa. A
    superdispersão pode ocorrer pela ausência de covariáveis importantes,
    excesso de zeros, diferentes amplitudes de domínio (\textit{offset}) não
    consideradas, heterogeneidade de unidades amostrais, entre outros
    \cite{RibeiroJr2012}. Para tais casos uma abordagem é a adoção de
    modelos com efeitos aleatórios que capturam a variabilidade extra. Um
    caso particular dos modelos Poisson de efeitos aleatórios, muito adotado
    no campo aplicado da Estatística, ocorre quando consideramos
    distribuição Gama para os efeitos aleatórios, nesta situação temos
    expressão fechada para a função de probabilidade marginal, que assume a
    forma Binomial Negativa.
    
    Outra manifestação de fuga da suposição de equidispersão é a
    subdispersão, situação menos comum na literatura. Os processos que
    reduzem a variabilidade das contagens, abaixo do estabalecido pela
    Poisson, não são tão conhecidos quanto os que produzem variabilidade
    extra. Pela mesma razão, são poucas as abordagens descritas na
    literatura que capazes de tratar a subdispersão, uma vez que efeitos
    aleatórios só capturam a variabilidade extra. Podemos citar os modelos
    de quasi-verossimilhança como a abordagem mais utilizada. Todavia não é
    possível recuperar a verdadeira distribuição da variável resposta nessa
    abordagem pois a modelagem é baseada apenas nos dois primeiros momentos
    da distribuição condicional \cite{Paula2013}.
    
    <<processo-pontual, fig.cap="Ilustração de diferentes tipos de processos pontuais. Da direita para esquerda temos processos sob padrões aleatório, aglomerado e uniforme", fig.height=3, fig.width=7>>=
    
    mygrid <- expand.grid(xc = 1:3, yc = 1:3)
    mygrid <- data.frame(mygrid)
    sp::coordinates(mygrid) <- ~xc + yc
    
    set.seed(20124689)
    equi <- sp::spsample(mygrid, n = 100, type = "random")
    over <- sp::spsample(mygrid, n = 100, type = "clustered", nclusters = 20)
    ## unde <- sp::spsample(mygrid, n = 100, type = "aligned")
    unde <- sp::spsample(mygrid, n = 100, type = "stratified")
    
    coords <- sapply(list("equi" = equi, "over" = over, "unde" = unde),
                     function(x) {
                         colnames(x@coords) <- c("x", "y")
                         x@coords
                     })
    da <- plyr::ldply(coords, .id="caso")
    
    library(latticeExtra)
    col <- "gray50"
    xyplot(y ~ x | caso, data = da,
           layout = c(NA, 1),
           as.table = TRUE,
           pch = 19,
           scales = list(draw = FALSE),
           xlab = "",
           ylab = "",
           strip = strip.custom(
               factor.levels = c("Equidispersão",
                                 "Superdispersão",
                                 "Subdispersão")),
           sub = "Fonte: Elaborado pelo autor.",
           panel = function(x, y, subscripts, ...) {
               l <- seq(min(x), max(x), length.out = 10)
               panel.abline(h = l, v = l, col = col, lty = 2)
               panel.xyplot(x, y, ...)
           })
    
    @
    
    A figura \ref{fig:processo-pontual} ilustra, sob um contexto espacial de
    duas dimensões, a ocorrência das características de equi, super e
    subdispersão respectivamente. Nesta figura cada ponto representa a
    ocorrência de uma variável aleatória e cada parcela, delimitada pelas
    linhas pontilhadas, representa o intervalo no espaço cujo contabiliza-se
    as ocorrências.No painel da esquerda temos a representação de dados de
    contagem equidispersos, neste cenário temos que as ocorrências da
    variável aleatória se dispõem aleatoriamente. No painel central o padrão
    já se altera, temos a representação do caso de superdispersão. Note que
    neste cenário formam-se aglomerados que deixam parcelas co contagens
    mutio elevadas e parcelas com contagens baixas. Uma possível causa deste
    padrão se dá pelo processo de contágio (e.g. contagem de casos de uma
    doença contagiosa, contagem de frutos apodrecidos). Na terceiro e último
    painel temos o caso de subdispersão, em que as ocorrências se dispõe
    uniformemente no espaço. Note agora que as contagens de ocorrências nas
    parcelas variam bem pouco. Ao contrário do caso superdisperso uma causa
    provável seria o oposto de contágio, a repulsa, ou seja, uma ocorrência
    causa a repulsa de outras ocorrências em seu redor (e.g. contagem de
    árvores, contagem de animais).
    
    Outra alterativa paramétrica que contempla os casos de equi, super e
    subdispersão é a adoção de uma distribuição mais flexível para a
    variável resposta condicional as covariáveis. A distribuição COM-Poisson
    surgiu anteriormente à formalização dos MLG's, proposta por
    \citeonline{Conway1962} a COM-Poisson (nome em em homenagem aos seus
    autores Richard W. Conway, William L. Maxwell,
    \textbf{Co}nway-\textbf{M}axwell-Poisson) generaliza a distribuição
    Poisson com a adição de mais uma parâmetro, denotado por $\nu$, que
    torna a razão de probabilidades sussecivas não linear contemplando os
    casos de sub e superdispersão \cite{Shmueli2005}.
    
    Uma característica bastante relevante é que a COM-Poisson possui como
    casos particulares as distribuições Poisson, Geométrica e
    Binomial. Portanto, empregando a COM-Poisson como distribuição
    condicional associada, obtemos um modelo de regressão sem a imposição de
    equidispersão. Tal flexibilidade, considerando o amplo uso do modelo
    Poisson, significa que a COM-Poisson pode ser aplicada nessas situações
    e será especialmente importante naquelas onde há fuga da equidispersão.
    
    Pela similaridade da função de distribuição COM-Poisson com a Poisson,
    vários aspectos podem ser estendidos. Por exemplo, há situações em que o
    delineamento do experimento sugere uma estrutura de covariância entre
    observações induzidas por um processo hierárquico de casualização ou
    amostragem. São casos assim os experimentos em parcelas subdivididas e
    experimentos com medidas repetidas ou longitudinais. Tais estruturas
    estabelecem modelos com efeitos não observáveis que agem no nível de
    observação ou unidade experimental e isso pode ser incorporado no modelo
    de regressão COM-Poisson com a inclusão de efeitos aleatórios. Da mesma
    forma, excesso de zeros pode ser introduzido a essa distribuição da
    mesma maneira que ocorre para o modelo Poisson, através de truncamento
    (modelos Hurdle) ou inflação (modelos de mistura)
    \cite{Sellers2016}. Estas extensões para o modelo COM-Poisson ainda não
    são bem consolidadas na literatura e são escassas suas aplicações. Uma
    constatação do fato é que não há implementações destas extensões nos
    principais softwares estatísticos.
    
    Na literatura brasileira, aplicações do modelo COM-Poisson são
    escassas. Foram encontradas apenas aplicações na área de Análise de
    Sobrevivência, mais especificamente em modelos com fração de cura
    \cite{Ribeiro2012, Borges2012}. Portanto, o presente trabalho visa
    colaborar com a literatura estatística brasileira i) apresentando e
    explorando o modelo de regressão COM-Poisson para dados de contagem, ii)
    estendendo as aplicações desse modelo COM-Poisson para situações
    específicas como inclusão de efeitos aleatórios e modelagem de excesso
    de zeros, iii) discutindo os aspectos inferenciais por meio de análise
    de dados reais e iv) disponibilizando os recursos computacionais, em
    formato de pacote R, para ajuste dos modelos apresentados. Nas
    aplicações optou-se também pela análise via modelos já disponíveis para
    as situações estudas.
    
    O trabalho é organizado em cinco capítulos. Esse primeiro capítulo visa
    enfatizar as características das variáveis aleatórias de contagem e suas
    lacunas que podem ser complementadas na análise estatística dessas
    variáveis. O capítulo \ref{cap:modelos-para-dados-de-contagem} é
    dedicado a revisão bibliográfica dos modelos estatísticos empregados a
    análise de dados de contagem, nesse capítulo os modelos Poisson,
    Binomial Negativo, as abordagens para excesso de zeros, a estrutura dos
    modelos de efeitos aleatórios e o modelo COM-Poisson são
    apresentados. No capítulo \ref{cap:material-e-metodos} apresentammos os
    conjuntos de dados a serem analisados e os métodos para ajuste e
    comparação dos modelos. O capítulo \ref{cap:resultados-e-discussao} traz
    os os principais resultados da aplicação e comparação dos modelos
    estatísticos com ênfase nas discussões sob aspectos inferenciais
    empíricos. Finalmente no capítulo \ref{cap:consideracoes-finais} são
    apresentadas as considerações finais obtidas desse trabalho e listados
    algumas possíveis linhas de pesquisa para estudos futuros.