diff --git a/slides/overview.Rmd b/slides/overview.Rmd index 68bb0ec9952ed4e18450ae20df4d987c3e1e6537..56d734e88f869bc5da4159ba8da5b8a2a9134850 100644 --- a/slides/overview.Rmd +++ b/slides/overview.Rmd @@ -123,9 +123,9 @@ layout(1) ## Abordagens consideradas * Teste de aleatorização (permutação). - * Jackknife. - * Bootstrap. - * Simulação Monte Carlo. + * Métodos de Jackknife. + * Métodos de Bootstrap. + * Métodos de Monte Carlo. # Testes de Aleatorização @@ -137,6 +137,7 @@ layout(1) distribuição amostral exata. * Amostra do conjunto completo de arranjos (reamostragem sem reposição). + * Sob a hipótese nula os dados são **permutáveis**. # Uma senhora toma chá @@ -167,10 +168,6 @@ layout(1) * Ao nível de 5%, a hipótese nula será rejeitada apenas se a senhora acertar as 4 xícaras pois 1/70 $\approx$ 0.14 $<$ 0.05. ---- - -Mais exemplos nos scripts. - # Jackknife * Jackknife é uma espécie de canivete suiço. @@ -238,18 +235,126 @@ caso da média) é dados por $$ \text{Var}(\hat{\theta}^{*}) = \frac{S_{\theta^{*}}^2}{n}, \quad S_{\theta^{*}}^2 = \frac{1}{n - 1} - \sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*})^2. + \sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*}**^2. $$ --- -## Alguns cuidados +## Informação adicional * Os pseudo valores são correlacionados em algum grau, com isso, a - variância do estimador Jackknife é viciada. - * Com isso, cuidado é exigido para a construção de intervalos de confiança. - * TODO; + variância do estimador Jackknife pode ser viciada. + * É possível usar leave-two-outs, leave-three-outs, mas isso aumenta o + custo. + * Validação cruzada tem relação com Jackknife. # Bootstrap +**Principal objetivo*** + +Determinar as propriedades da distribuição do estimador de certo +parâmetro, mas sem fazer suposições sobre a forma da distribuição dos +dados. + +--- + +## A ideia + +O conjunto de valores observados ($x_1,\ldots,x_n$) é considerado uma +realização de uma amostra aleatória ($X_1,\ldots,X_n$) de uma +distribuição desconhecida $F$. + +Considere que existe interesse no parâmetro $\theta$ que pode ser +estimado pela estatística $T(X_1,\ldots,X_n)$, ou seja, $\hat{\theta} = +T(X_1,\ldots,X_n)$. + + * Qual o vício do estimador $\hat{\theta}$? + * Qual a variância do estimador $\hat{\theta}$? + * Como obter um intervalo de confiança para $\theta$? + * Como testar hipóteses sobre $\theta$ a partir da conhecida amostra? + +--- + +## Distribuição empírica + +Distribuição empírica é a distribuição discreta em que cada ponto +amostral tem o mesmo peso, ou seja, cada $x_i, i = 1,\ldots,n$, tem peso +$1/n$. Essa distribuição de probabilidades é representada por $\hat{F}$ +e é uma estimativa de $F$ baseada na amostra observada. + +Principio plug-in: substituir a $F$ desconhecida por sua estimativa +conhecida $\hat{F}$. +N bootstrap, $\hat{F}$ é considerada como se fosse $F$. + +Tomadas $B$ observações independentes e identicamente distribuídas de +$\hat{F}$ é o mesmo que reamostrar com reposição a amostra original. + + +--- + +### Bootstrap não-paramétrico + +A amostra bootstrap é obtida através de reamostragem aleatória com +reposição da amostra original. + +### Bootstrap paramétrico + +A amostra bootstrap é obtida através de geração de números aleatórios da +distribuição assumida para os dados. Os parâmetros da distribuição são +estimados através da amostra original. + +--- + +## O algorítmo do bootstrap não paramétrico + + 1. Gere uma amostra com reposição da distribuição empírica + dos dados (reamostragem com reposição). + 2. Calcule $\hat\theta = T(x_1, \ldots, x_n)$ que é a estimativa + bootstrap de $\theta$. + 3. Repita os passos 1 e 2 $B$ vezes, onde $B$ é suficientemente + grande. + 4. Resuma ou represente a distribuição formada pelos valores + $\hat{\theta}_i, i = 1,\ldots,B$. + +--- + +```{r, echo = FALSE, out.width = "\\textwidth"} +include_graphics("../img/bootstrap-resampling.png") +``` + +--- + +## Mais detalhes + +Existem muitos aspectos relacionados ao bootstrap que não serão +abordados: + + * Métodos para obtenção de intervalos de confiança. + * Correções para vício de estimadores. + * Inferência boostrap em amostras correlacionadas (séries temporais, dados espaciais). + +Para mais detalhes visite \url{http://conteudo.icmc.usp.br/CMS/Arquivos/arquivos_enviados/SECAO-POSGRAD_87_bootstrap-slides.pdf}. + # Monte Carlo + +A inferência por métodos Monte Carlos é baseada na geração de números +aleatórios do modelo assumido para os dados. Esses métodos são +utilizados para: + + * Avaliar propriedades de um estimador pontual e/ou intervalar. + * Avaliar propriedades de um teste de hipóteses. + * Determinar tamanhos de amostra. + * Solucionar problemas otimização, integração, etc. + +Os testes de aleatorização e boostrap são casos particulares de métodos +Monte Carlo. + +--- + +Nos métodos MC, deve-se **assumir uma distribuição de probabilidades** +para algum componente aleatório do modelo, o que por vezes é considerada +uma desvantagem da abordagem. + +A partir da geração de amostras aleatórias do modelo **sob hipótese +nula** são calculadas as estatísticas de interesse. A **distribuição +amostral** das estatísticas é o ponto de partida para a inferência.