diff --git a/slides/overview.Rmd b/slides/overview.Rmd new file mode 100644 index 0000000000000000000000000000000000000000..68bb0ec9952ed4e18450ae20df4d987c3e1e6537 --- /dev/null +++ b/slides/overview.Rmd @@ -0,0 +1,255 @@ +--- +title: "Inferência via abordagens computacionalmente intensivas" +author: "Walmes Zeviani" +#date: "June 29, 2018" +classoption: "aspectratio=34, serif, professionalfont" +header-includes: | + \let\oldShaded\Shaded + \let\endoldShaded\endShaded + \renewenvironment{Shaded}{\tiny\oldShaded}{\endoldShaded} + \let\oldverbatim\verbatim + \let\endoldverbatim\endverbatim + \renewenvironment{verbatim}{\tiny\oldverbatim}{\endoldverbatim} + \usepackage{palatino} + \usepackage{inconsolata} +output: + beamer_presentation: + highlight: haddock +--- + +```{r setup, include=FALSE} +knitr::opts_chunk$set(echo = TRUE, size = "footnotesize") +``` + +# Introdução + +A lógica dos testes de hipótese frequentistas: + + 1. Definir a **hipótese nula** e hipótese alternativa. + 2. Determinar uma **estatística de teste** calculada a partir dos + dados. + 3. Estabelecer a **região crítica** para tomar decisão. + +A região crítica é baseada na **distribuição amostral** da estatística +de teste sob a hipótese nula. + +# Exemplo + +```{r} +# Tabela. +unstack(sleep, form = extra ~ group) +``` + +--- + +```{r} +# Gráfico. +plot(extra ~ group, data = sleep) +``` + +--- + +```{r} +# Teste de hipótese. +t.test(extra ~ group, data = sleep, var.equal = TRUE) +``` + +--- + +Sob a hipótese nula $H_0: \delta = \mu_1 - \mu_2 = 0$, a estatística +$$ + t = \frac{(\bar{X}_1 - \bar{X}_2) - \delta}{\sqrt{s^2\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}} + \sim t_{\text{Student}}(\nu = n_1 + n_2 - 2) +$$ + +--- + +```{r} +# Simulação. +N <- 1000 +n <- 10 + +t_val <- replicate(N, { + # Amostras independentes da mesma população (H_0 verdadeira). + x_1 <- rnorm(n, mean = 0, sd = 1) + x_2 <- rnorm(n, mean = 0, sd = 1) + # Diferença entre médias (H_0: delta == 0). + d <- mean(x_1) - mean(x_2) + # Variância combinada. + s2 <- ((n - 1) * var(x_1) + (n - 1) * var(x_2))/(2 * n - 2) + # Estatística do teste. + t <- d/sqrt(s2 * (2/n)) + return(t) +}) +``` +```{r den_ecdf, eval = FALSE} +# Distribuição empírica vs distribuição teórica. +par(mfrow = c(2, 1)) +plot(density(t_val), main = NA) +curve(dt(x, df = 2 * n - 2), add = TRUE, col = 2) +plot(ecdf(t_val), main = NULL) +curve(pt(x, df = 2 * n - 2), add = TRUE, col = 2) +layout(1) +``` + +--- + +```{r, eval = TRUE, echo = FALSE, ref.label = "den_ecdf"} +``` + +--- + + * Distribuição amostral é a distribuição de uma estatística (qualquer + função da amostra) ao longo de todas as amostras de mesmo tamanho de + uma população. + * Algumas estatísticas de teste tiveram a distribuição amostral + determinada, e.g., $t$ de Student, $F$ de Snedecor, etc. + * Com a distribuição amostral pode-se fazer: + * Testes de hipótese; + * Intervalos de confiança; + * Determinação de tamanho de amostra; + * A distribuição de uma estatística de teste pode ser exata ou + aproximada. + * Com isso o teste pode ser exato ou aproximado. + +--- + +## Algumas situações + + * Não possuem um teste de hipótese apropriado. + * As suposições para os testes não são atendidas. + * O teste tem aproximação ruim com a amostra pequena. + +## Abordagens consideradas + + * Teste de aleatorização (permutação). + * Jackknife. + * Bootstrap. + * Simulação Monte Carlo. + +# Testes de Aleatorização + + * Abordagem baseada em permutação das observações. + * São considerados testes livre de distribuição. + * Faz suposições sobre o processo gerador dos dados. + * Cálculo da estatística de teste: + * No conjunto de todos os arranjos possíveis (exaustivo): + distribuição amostral exata. + * Amostra do conjunto completo de arranjos (reamostragem sem + reposição). + +# Uma senhora toma chá + + * Aconteceu com Fisher e Muriel Bristol. + * Fisher descreve em seu livro em 1935. + * A senhora declarou saber discriminar bebida conforme a ordem em que + chá e leite eram adicionados à xícara. + * $H_0$: a senhora não sabe distinguir (classifica aleatoriamente). + * Experimento: 8 xícaras, 4 de cada tipo servidas aleatoriamente. + * Resposta: a classificação de 4 xícaras de um tipo. + +--- + +## Perguntas + + * Quantos arranjos possíveis? + * Qual a chance da senhora acertar todas por mero acaso? + * Qual a chance de acertar 3 em 4? + * Qual a região crítica? + +## Respostas + + * $\binom{8}{4} = \frac{8!}{4!(8-4)!} = 70$. + * É 1/70 pois só existe uma forma correta no universo das 70. + * "Arranjos de 3 corretos em 4 selecionados" $\times$ "arranjos de 1 + errado em 4 selecionados": $\binom{4}{3} \cdot \binom{4}{1} = 16$, + então 16/70 $\approx$ 0.23. + * Ao nível de 5%, a hipótese nula será rejeitada apenas se a senhora + acertar as 4 xícaras pois 1/70 $\approx$ 0.14 $<$ 0.05. + +--- + +Mais exemplos nos scripts. + +# Jackknife + + * Jackknife é uma espécie de canivete suiço. + * Equipado com várias ferramentas, fácil transporte. + * Mas ferramentas especializadas são melhores que as desse canivete. + * Proposto por Tukey. + +--- + +## A inspiração para a abordagem + +A ideia é fundamentada no estimador da média +$$ + \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i. +$$ + +A média com a $j$-ésima observação removida, $\bar{X}_{-j}$, é +$$ + \bar{X}_{-j} = \frac{1}{n - 1} + \left[ \left( \sum_{i=1}^{n} X_i \right) - X_j \right]. +$$ + +Combinando as expressões anteriores, pode-se determinar o valor de $X_j$ +por +$$ + X_j = n\bar{X} - (n - 1) \bar{X}_{-j}. +$$ + +Essa expressão não tem valor para o caso da média, que serviu apenas de +inspiração. Mas tem utilidade para outras estatísticas. + +--- + +## O caso geral + +Suponha que $\theta$ seja um parâmetro a ser estimado a partir de uma +função dos dados (amostra de tamanho $n$) +$$ + \hat{\theta} = f(X_1, X_2, \ldots, X_n). +$$ + +A quantidade +$$ + \theta_j^{*} = n \hat{\theta} - (n - 1) \hat{\theta}_{-j} +$$ +é denominada de *pseudo-valor* e se baseia nas diferenças entre a +estimativa com todas as observações ($\hat{\theta}$) e a *estimativa +parcial*, ou seja, aquela sem a $j$-ésima observação +($\hat{\theta}_{-j}$). + +O estimador pontual de Jackknife é definido por +$$ + \hat{\theta}^{*} = \frac{1}{n} \sum_{j = 1}^{n} \theta_j^{*}, +$$ +ou seja, **é a média dos pseudo-valores**. + +--- + +Os valores $\hat{\theta}$ e $\hat{\theta}^{*}$ não são iguais para o +caso da média amostral mas não necessariamente iguais nos casos gerais. + +Se for assumido que os valores $\theta_j^{*}$, $j = 1, \ldots, n$, são +independentes, a variância do estimador de Jackknife (inspirado pelo +caso da média) é dados por +$$ +\text{Var}(\hat{\theta}^{*}) = \frac{S_{\theta^{*}}^2}{n}, + \quad S_{\theta^{*}}^2 = \frac{1}{n - 1} + \sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*})^2. +$$ + +--- + +## Alguns cuidados + + * Os pseudo valores são correlacionados em algum grau, com isso, a + variância do estimador Jackknife é viciada. + * Com isso, cuidado é exigido para a construção de intervalos de confiança. + * TODO; + +# Bootstrap + +# Monte Carlo