Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
ce089
Manage
Activity
Members
Labels
Plan
Issues
Issue boards
Milestones
Wiki
Code
Merge requests
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Harbor Registry
Model registry
Operate
Environments
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
Walmes Marques Zeviani
ce089
Commits
2ba51d8b
Commit
2ba51d8b
authored
6 years ago
by
Walmes Marques Zeviani
Browse files
Options
Downloads
Patches
Plain Diff
Slides de revisão dos métodos.
parent
77dd16e1
No related branches found
No related tags found
No related merge requests found
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
slides/overview.Rmd
+255
-0
255 additions, 0 deletions
slides/overview.Rmd
with
255 additions
and
0 deletions
slides/overview.Rmd
0 → 100644
+
255
−
0
View file @
2ba51d8b
---
title: "Inferência via abordagens computacionalmente intensivas"
author: "Walmes Zeviani"
#date: "June 29, 2018"
classoption: "aspectratio=34, serif, professionalfont"
header-includes: |
\let\oldShaded\Shaded
\let\endoldShaded\endShaded
\renewenvironment{Shaded}{\tiny\oldShaded}{\endoldShaded}
\let\oldverbatim\verbatim
\let\endoldverbatim\endverbatim
\renewenvironment{verbatim}{\tiny\oldverbatim}{\endoldverbatim}
\usepackage{palatino}
\usepackage{inconsolata}
output:
beamer_presentation:
highlight: haddock
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, size = "footnotesize")
```
# Introdução
A lógica dos testes de hipótese frequentistas:
1. Definir a **hipótese nula** e hipótese alternativa.
2. Determinar uma **estatística de teste** calculada a partir dos
dados.
3. Estabelecer a **região crítica** para tomar decisão.
A região crítica é baseada na **distribuição amostral** da estatística
de teste sob a hipótese nula.
# Exemplo
```{r}
# Tabela.
unstack(sleep, form = extra ~ group)
```
---
```{r}
# Gráfico.
plot(extra ~ group, data = sleep)
```
---
```{r}
# Teste de hipótese.
t.test(extra ~ group, data = sleep, var.equal = TRUE)
```
---
Sob a hipótese nula $H_0: \delta = \mu_1 - \mu_2 = 0$, a estatística
$$
t = \frac{(\bar{X}_1 - \bar{X}_2) - \delta}{\sqrt{s^2\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}
\sim t_{\text{Student}}(\nu = n_1 + n_2 - 2)
$$
---
```{r}
# Simulação.
N <- 1000
n <- 10
t_val <- replicate(N, {
# Amostras independentes da mesma população (H_0 verdadeira).
x_1 <- rnorm(n, mean = 0, sd = 1)
x_2 <- rnorm(n, mean = 0, sd = 1)
# Diferença entre médias (H_0: delta == 0).
d <- mean(x_1) - mean(x_2)
# Variância combinada.
s2 <- ((n - 1) * var(x_1) + (n - 1) * var(x_2))/(2 * n - 2)
# Estatística do teste.
t <- d/sqrt(s2 * (2/n))
return(t)
})
```
```{r den_ecdf, eval = FALSE}
# Distribuição empírica vs distribuição teórica.
par(mfrow = c(2, 1))
plot(density(t_val), main = NA)
curve(dt(x, df = 2 * n - 2), add = TRUE, col = 2)
plot(ecdf(t_val), main = NULL)
curve(pt(x, df = 2 * n - 2), add = TRUE, col = 2)
layout(1)
```
---
```{r, eval = TRUE, echo = FALSE, ref.label = "den_ecdf"}
```
---
* Distribuição amostral é a distribuição de uma estatística (qualquer
função da amostra) ao longo de todas as amostras de mesmo tamanho de
uma população.
* Algumas estatísticas de teste tiveram a distribuição amostral
determinada, e.g., $t$ de Student, $F$ de Snedecor, etc.
* Com a distribuição amostral pode-se fazer:
* Testes de hipótese;
* Intervalos de confiança;
* Determinação de tamanho de amostra;
* A distribuição de uma estatística de teste pode ser exata ou
aproximada.
* Com isso o teste pode ser exato ou aproximado.
---
## Algumas situações
* Não possuem um teste de hipótese apropriado.
* As suposições para os testes não são atendidas.
* O teste tem aproximação ruim com a amostra pequena.
## Abordagens consideradas
* Teste de aleatorização (permutação).
* Jackknife.
* Bootstrap.
* Simulação Monte Carlo.
# Testes de Aleatorização
* Abordagem baseada em permutação das observações.
* São considerados testes livre de distribuição.
* Faz suposições sobre o processo gerador dos dados.
* Cálculo da estatística de teste:
* No conjunto de todos os arranjos possíveis (exaustivo):
distribuição amostral exata.
* Amostra do conjunto completo de arranjos (reamostragem sem
reposição).
# Uma senhora toma chá
* Aconteceu com Fisher e Muriel Bristol.
* Fisher descreve em seu livro em 1935.
* A senhora declarou saber discriminar bebida conforme a ordem em que
chá e leite eram adicionados à xícara.
* $H_0$: a senhora não sabe distinguir (classifica aleatoriamente).
* Experimento: 8 xícaras, 4 de cada tipo servidas aleatoriamente.
* Resposta: a classificação de 4 xícaras de um tipo.
---
## Perguntas
* Quantos arranjos possíveis?
* Qual a chance da senhora acertar todas por mero acaso?
* Qual a chance de acertar 3 em 4?
* Qual a região crítica?
## Respostas
* $\binom{8}{4} = \frac{8!}{4!(8-4)!} = 70$.
* É 1/70 pois só existe uma forma correta no universo das 70.
* "Arranjos de 3 corretos em 4 selecionados" $\times$ "arranjos de 1
errado em 4 selecionados": $\binom{4}{3} \cdot \binom{4}{1} = 16$,
então 16/70 $\approx$ 0.23.
* Ao nível de 5%, a hipótese nula será rejeitada apenas se a senhora
acertar as 4 xícaras pois 1/70 $\approx$ 0.14 $<$ 0.05.
---
Mais exemplos nos scripts.
# Jackknife
* Jackknife é uma espécie de canivete suiço.
* Equipado com várias ferramentas, fácil transporte.
* Mas ferramentas especializadas são melhores que as desse canivete.
* Proposto por Tukey.
---
## A inspiração para a abordagem
A ideia é fundamentada no estimador da média
$$
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i.
$$
A média com a $j$-ésima observação removida, $\bar{X}_{-j}$, é
$$
\bar{X}_{-j} = \frac{1}{n - 1}
\left[ \left( \sum_{i=1}^{n} X_i \right) - X_j \right].
$$
Combinando as expressões anteriores, pode-se determinar o valor de $X_j$
por
$$
X_j = n\bar{X} - (n - 1) \bar{X}_{-j}.
$$
Essa expressão não tem valor para o caso da média, que serviu apenas de
inspiração. Mas tem utilidade para outras estatísticas.
---
## O caso geral
Suponha que $\theta$ seja um parâmetro a ser estimado a partir de uma
função dos dados (amostra de tamanho $n$)
$$
\hat{\theta} = f(X_1, X_2, \ldots, X_n).
$$
A quantidade
$$
\theta_j^{*} = n \hat{\theta} - (n - 1) \hat{\theta}_{-j}
$$
é denominada de *pseudo-valor* e se baseia nas diferenças entre a
estimativa com todas as observações ($\hat{\theta}$) e a *estimativa
parcial*, ou seja, aquela sem a $j$-ésima observação
($\hat{\theta}_{-j}$).
O estimador pontual de Jackknife é definido por
$$
\hat{\theta}^{*} = \frac{1}{n} \sum_{j = 1}^{n} \theta_j^{*},
$$
ou seja, **é a média dos pseudo-valores**.
---
Os valores $\hat{\theta}$ e $\hat{\theta}^{*}$ não são iguais para o
caso da média amostral mas não necessariamente iguais nos casos gerais.
Se for assumido que os valores $\theta_j^{*}$, $j = 1, \ldots, n$, são
independentes, a variância do estimador de Jackknife (inspirado pelo
caso da média) é dados por
$$
\text{Var}(\hat{\theta}^{*}) = \frac{S_{\theta^{*}}^2}{n},
\quad S_{\theta^{*}}^2 = \frac{1}{n - 1}
\sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*})^2.
$$
---
## Alguns cuidados
* Os pseudo valores são correlacionados em algum grau, com isso, a
variância do estimador Jackknife é viciada.
* Com isso, cuidado é exigido para a construção de intervalos de confiança.
* TODO;
# Bootstrap
# Monte Carlo
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment