diff --git a/_site.yml b/_site.yml index f06aad3de33a082523c49f3627b86dbdf4507758..3473fc751e39fffeb2261068fe1d54dca1d73b9a 100644 --- a/_site.yml +++ b/_site.yml @@ -41,6 +41,8 @@ navbar: href: tutoriais/04-rel-va.html - text: "GNA para Normal - Box Muller" href: tutoriais/05-box-muller.html + - text: "Jackknife" + href: slides/07-jackknife.pdf - text: "----------" - text: "Arquivos complementares" - text: "GNA Uniformes (2015)" diff --git a/img/swiss-knife.png b/img/swiss-knife.png new file mode 100644 index 0000000000000000000000000000000000000000..94ae8e13a8c08a37f7853c582bf36b1b7db8a5c0 Binary files /dev/null and b/img/swiss-knife.png differ diff --git a/slides/07-jackknife.Rnw b/slides/07-jackknife.Rnw new file mode 100644 index 0000000000000000000000000000000000000000..6190afc62c676b4a5ad1005de3ca041609a95777 --- /dev/null +++ b/slides/07-jackknife.Rnw @@ -0,0 +1,226 @@ +%----------------------------------------------------------------------- + +\documentclass[serif, professionalfont, usenames, dvipsnames]{beamer} +\usepackage[T1]{fontenc} + +% ATTENTION: preamble.tex contains all style definitions. +\input{config/preamble.tex} +% \usepackage[backend=bibtex, style=authoryear]{biblatex} +\addbibresource{config/refs.bib} + +<<include = FALSE>>= +source("config/setup.R") +@ + +%----------------------------------------------------------------------- + +\title{O método Jackknife} +\subtitle{Fundamentos e aplicações} +\date{\small{ \Sexpr{sprintf('Atualizado em %s', Sys.Date())}}} + +%----------------------------------------------------------------------- + +\begin{document} + +{\setbeamertemplate{footline}{} + \frame{\titlepage} %-------------------------------------------------- +} + +\begin{frame}{} + + {\large Justificativas} + + \begin{itemize} + \item Métodos computacionalmente intensivos para inferência + estatÃstica são usados quando as abordagens tradicionais não são + adequadas. + \begin{itemize} + \item Resultados assintóticos em pequenas amostras. + \item Violação de pressupostos. + \item Não existência de mecanÃsmos de inferência especÃficos. + \end{itemize} + \item Tais métodos se baseiam em reamostragem e/ou simulação. + \item Podem ser aplicados em muitos contextos. + \end{itemize} + + {\large Objetivos} + + \begin{itemize} + \item Apresentar a ideia principal sobre o método Jackknife. + \item Ilustrar propriedades com aplicações. + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame} + + \mytwocolumns{0.49}{0.49}{ + \begin{itemize} + \item O método Jackknife foi proposto por \cite{Quenouille1956}. + \item Jackknife refere-se a um canivete suiço, fácil de carregar e de + várias utilidades. + \item Devido a isso, \cite{Tukey1958} cunhou o termo em EstatÃstica + como uma abordagem geral para testar hipóteses e calcular intervalos + de confiança. + \end{itemize} + }{ + \begin{center} + \includegraphics[width=5cm]{../img/swiss-knife.png} + \end{center} + } + +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Amostras Jackknife} + + % TODO: http://csyue.nccu.edu.tw/ch/Jackknife_Notes.pdf + + As amostras Jackknife são definidas por deixar $k$ observações de fora + do conjunto observado $x = \{x_1, x_2, \ldots, x_n\}$ por vez. + + O caso mais prático e comum é quando $k = 1$. Assim a amostra + Jackknife $i$ é definida como + \begin{equation} + x_{(i)} = \{x_1, x_2, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n\}, + \end{equation} + com $i = 1, 2, \ldots, n$. + + \begin{itemize} + \item O tamanho de cada amostra Jackknife é $m = n - k$. + \item O número de amostras distintas é $\binom{n}{k}$. + \item No caso de $k = 1$, denota-se por $\{x_{(i)}\}$ com $i=1, \ldots, n$. + \item As amostras são obtidas de forma sistemática, portanto, trata-se + de uma abordagem determinÃstica. + \end{itemize} + +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{A intuição do método} + + A ideia é fundamentada no estimador da média + \begin{equation} + \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i. + \end{equation} + + A média com a $j$-ésima observação removida é calculada por + \begin{equation} + \bar{X}_{-j} = \frac{1}{n - 1} \left( \sum_{i=1}^{n} X_i \right) - X_j. + \end{equation} + + Combinando as expressões anteriores, pode-se determinar o valor de $X_j$ + por + \begin{equation} + X_j = n\bar{X} - (n - 1) \bar{X}_{-j}. + \end{equation} + + Essa expressão não tem valor prático para o caso da média, porém tem + utilidade para outras estatÃsticas. + +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Definição} + + Suponha que $\theta$ seja um parâmetro a ser estimado a partir de uma + função dos dados + \begin{equation} + \hat{\theta} = f(X_1, X_2, \ldots, X_n). + \end{equation} + + A estimativa em cada amostra Jackknife é aquela obtida deixando $k$ + observações de fora por vez. No caso de $k=1$, é definida por + \begin{equation} + \hat{\theta}_{-i} = f(X_1, X_2, \ldots, X_{i-1}, X_{i+1}, \ldots, X_n) = f(X_{(i)}), + \end{equation} + é chamada de estimativa parcial. + + A quantidade + \begin{equation} + \theta_{(i)} = n \hat{\theta} - (n - 1) \hat{\theta}_{-i} + \end{equation} + é denominada de \hi{pseudo-valor} e se baseia nas diferenças + ponderadas da estimativa com todas as observações ($\hat{\theta}$) e + na \hi{estimativa parcial}, ou seja, aquela sem a $i$-ésima observação + ($\hat{\theta}_{-i}$). + +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Estimativa pontual e variância} + + O estimador pontual de Jackknife é definido por + \begin{equation} + \tilde{\theta} = \frac{1}{n} \sum_{i = 1}^{n} \theta_{(i)}, + \end{equation} + ou seja, é \hi{a média dos pseudo-valores}. + + ATENÇÃO: Os valores $\hat{\theta}$ e $\tilde{\theta}$ não são + necessariamente iguais nos casos gerais. + + Se for assumido que os valores $\theta_{(i)}$, $i = 1, \ldots, n$, são + independentes, a variância do estimador de Jackknife e dada por + + \begin{equation} + \text{Var}(\tilde{\theta}) = \frac{S_{\theta}^2}{n}, + \quad S^2 = \frac{1}{n - 1} + \sum_{i = 1}^n (\theta_{(i)} - \tilde{\theta})^2. + \end{equation} + +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Detalhes} + + De acordo com \cite{efron2016computerage} + + \begin{itemize} + \item É um \hi{procedimento não paramétrico} pois nenhuma suposição é + feita sobre a distribuição dos dados. + \item É facilmente automatizável. Um único algoritmo pode ser escrito + tendo como argumentos a amostra e a estatÃstica de interesse $f(.)$. + \item É determinÃstico, portanto, toda execução do procedimento irá + fornecer os meus resultados. + \item Existe a suposição implicita de comportamento suave da função + $f$ em relação a cada elemento da amostra Jackknife. + \item O erro-padrão de Jackknife é viciado para estimar o verdadeiro + erro padrão, pois os pseudo-valores não são independentes. + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +{ + \usebackgroundtemplate{\includegraphics[height=\paperheight, width=\paperwidth]{../img/looking-ahead.jpg}} + % \setbeamersize{text margin left=30mm} + + \begin{frame}[b]{} + + \hspace*{0.5\linewidth} + \begin{minipage}[t]{0.5\linewidth} + + \hi{Próxima aula} + \begin{itemize} + \item Implementação e aplicações de Jackknife. + \end{itemize} + + \hi{Avisos} + \begin{itemize} + \item Sabatina estará disponÃvel a partir de Qua. + \end{itemize} + + \vspace{3em} + \end{minipage} + +\end{frame} +} + +%----------------------------------------------------------------------- +\begin{frame}[t, fragile, allowframebreaks] + \frametitle{Referências bibliográficas} + + \printbibliography[heading=none] +\end{frame} + +%----------------------------------------------------------------------- +\end{document} diff --git a/slides/config/refs.bib b/slides/config/refs.bib index 4f43e63d6aa993432b6e3847a13ce9a59c8e23a2..d44bd0fce12ff884b06ea9de987f666c3bf5f927 100644 --- a/slides/config/refs.bib +++ b/slides/config/refs.bib @@ -15,3 +15,37 @@ year={2013}, publisher={Editora UFLA} } + +@article{Quenouille1956, + doi = {10.2307/2332914}, + url = {https://doi.org/10.2307/2332914}, + year = {1956}, + month = {dec}, + publisher = {{JSTOR}}, + volume = {43}, + number = {3/4}, + pages = {353}, + author = {M. H. Quenouille}, + title = {Notes on Bias in Estimation}, + journal = {Biometrika} +} + +@article{Tukey1958, + doi = {10.1214/aoms/1177706647}, + year = {1958}, + volume = {2}, + number = {29}, + pages = {614}, + author = {John W. Tukey}, + title = {Bias and confidence in not quite large samples (abstract)}, + journal = {The Annals of Mathematical Statistics} +} + +@Book{efron2016computerage, + Title = {Computer Age Statistical Inference: Algorithms, Evidence, and Data Science (Institute of Mathematical Statistics Monographs)}, + Author = {Bradley Efron and Trevor Hastie}, + Publisher = {Cambridge University Press}, + Year = {2016}, + + Url = {https://www.amazon.com/Computer-Age-Statistical-Inference-Mathematical-ebook/dp/B01L27MR64?SubscriptionId=0JYN1NVW651KCA56C102&tag=techkie-20&linkCode=xm2&camp=2025&creative=165953&creativeASIN=B01L27MR64} +}