From 2d8830f1a680e7f9caaf80098a12152567791f3e Mon Sep 17 00:00:00 2001
From: Walmes Zeviani <walmes@ufpr.br>
Date: Sat, 30 Jun 2018 13:13:02 -0300
Subject: [PATCH] =?UTF-8?q?Conclui=20slides=20resumo=20dos=20m=C3=A9todos?=
 =?UTF-8?q?=20intensivos.?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 slides/overview.Rmd | 129 +++++++++++++++++++++++++++++++++++++++-----
 1 file changed, 117 insertions(+), 12 deletions(-)

diff --git a/slides/overview.Rmd b/slides/overview.Rmd
index 68bb0ec..56d734e 100644
--- a/slides/overview.Rmd
+++ b/slides/overview.Rmd
@@ -123,9 +123,9 @@ layout(1)
 ## Abordagens consideradas
 
   * Teste de aleatorização (permutação).
-  * Jackknife.
-  * Bootstrap.
-  * Simulação Monte Carlo.
+  * Métodos de Jackknife.
+  * Métodos de Bootstrap.
+  * Métodos de Monte Carlo.
 
 # Testes de Aleatorização
 
@@ -137,6 +137,7 @@ layout(1)
       distribuição amostral exata.
     * Amostra do conjunto completo de arranjos (reamostragem sem
       reposição).
+  * Sob a hipótese nula os dados são **permutáveis**.
 
 # Uma senhora toma chá
 
@@ -167,10 +168,6 @@ layout(1)
   * Ao nível de 5%, a hipótese nula será rejeitada apenas se a senhora
     acertar as 4 xícaras pois 1/70 $\approx$ 0.14 $<$ 0.05.
 
----
-
-Mais exemplos nos scripts.
-
 # Jackknife
 
   * Jackknife é uma espécie de canivete suiço.
@@ -238,18 +235,126 @@ caso da média) é dados por
 $$
 \text{Var}(\hat{\theta}^{*}) = \frac{S_{\theta^{*}}^2}{n},
   \quad S_{\theta^{*}}^2 = \frac{1}{n - 1}
-  \sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*})^2.
+  \sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*}**^2.
 $$
 
 ---
 
-## Alguns cuidados
+## Informação adicional
 
   * Os pseudo valores são correlacionados em algum grau, com isso, a
-    variância do estimador Jackknife é viciada.
-  * Com isso, cuidado é exigido para a construção de intervalos de confiança.
-  * TODO;
+    variância do estimador Jackknife pode ser viciada.
+  * É possível usar leave-two-outs, leave-three-outs, mas isso aumenta o
+    custo.
+  * Validação cruzada tem relação com Jackknife.
 
 # Bootstrap
 
+**Principal objetivo***
+
+Determinar as propriedades da distribuição do estimador de certo
+parâmetro, mas sem fazer suposições sobre a forma da distribuição dos
+dados.
+
+---
+
+## A ideia
+
+O conjunto de valores observados ($x_1,\ldots,x_n$) é considerado uma
+realização de uma amostra aleatória ($X_1,\ldots,X_n$) de uma
+distribuição desconhecida $F$.
+
+Considere que existe interesse no parâmetro $\theta$ que pode ser
+estimado pela estatística $T(X_1,\ldots,X_n)$, ou seja, $\hat{\theta} =
+T(X_1,\ldots,X_n)$.
+
+  * Qual o vício do estimador $\hat{\theta}$?
+  * Qual a variância do estimador $\hat{\theta}$?
+  * Como obter um intervalo de confiança para $\theta$?
+  * Como testar hipóteses sobre $\theta$ a partir da conhecida amostra?
+
+---
+
+## Distribuição empírica
+
+Distribuição empírica é a distribuição discreta em que cada ponto
+amostral tem o mesmo peso, ou seja, cada $x_i, i = 1,\ldots,n$, tem peso
+$1/n$.  Essa distribuição de probabilidades é representada por $\hat{F}$
+e é uma estimativa de $F$ baseada na amostra observada.
+
+Principio plug-in: substituir a $F$ desconhecida por sua estimativa
+conhecida $\hat{F}$.
+N bootstrap, $\hat{F}$ é considerada como se fosse $F$.
+
+Tomadas $B$ observações independentes e identicamente distribuídas de
+$\hat{F}$ é o mesmo que reamostrar com reposição a amostra original.
+
+
+---
+
+### Bootstrap não-paramétrico
+
+A amostra bootstrap é obtida através de reamostragem aleatória com
+reposição da amostra original.
+
+### Bootstrap paramétrico
+
+A amostra bootstrap é obtida através de geração de números aleatórios da
+distribuição assumida para os dados. Os parâmetros da distribuição são
+estimados através da amostra original.
+
+---
+
+## O algorítmo do bootstrap não paramétrico
+
+  1. Gere uma amostra com reposição da distribuição empírica
+     dos dados (reamostragem com reposição).
+  2. Calcule $\hat\theta = T(x_1, \ldots, x_n)$ que é a estimativa
+     bootstrap de $\theta$.
+  3. Repita os passos 1 e 2 $B$ vezes, onde $B$ é suficientemente
+     grande.
+  4. Resuma ou represente a distribuição formada pelos valores
+     $\hat{\theta}_i, i = 1,\ldots,B$.
+
+---
+
+```{r, echo = FALSE, out.width = "\\textwidth"}
+include_graphics("../img/bootstrap-resampling.png")
+```
+
+---
+
+## Mais detalhes
+
+Existem muitos aspectos relacionados ao bootstrap que não serão
+abordados:
+
+  * Métodos para obtenção de intervalos de confiança.
+  * Correções para vício de estimadores.
+  * Inferência boostrap em amostras correlacionadas (séries temporais, dados espaciais).
+
+Para mais detalhes visite \url{http://conteudo.icmc.usp.br/CMS/Arquivos/arquivos_enviados/SECAO-POSGRAD_87_bootstrap-slides.pdf}.
+
 # Monte Carlo
+
+A inferência por métodos Monte Carlos é baseada na geração de números
+aleatórios do modelo assumido para os dados.  Esses métodos são
+utilizados para:
+
+  * Avaliar propriedades de um estimador pontual e/ou intervalar.
+  * Avaliar propriedades de um teste de hipóteses.
+  * Determinar tamanhos de amostra.
+  * Solucionar problemas otimização, integração, etc.
+
+Os testes de aleatorização e boostrap são casos particulares de métodos
+Monte Carlo.
+
+---
+
+Nos métodos MC, deve-se **assumir uma distribuição de probabilidades**
+para algum componente aleatório do modelo, o que por vezes é considerada
+uma desvantagem da abordagem.
+
+A partir da geração de amostras aleatórias do modelo **sob hipótese
+nula** são calculadas as estatísticas de interesse.  A **distribuição
+amostral** das estatísticas é o ponto de partida para a inferência.
-- 
GitLab