diff --git a/_site.yml b/_site.yml index b96c1ddae0b935c47eaf6a9979ec56de77764a90..7b0f17d9ec50c593dff969494b02c62dcbfc7bc7 100644 --- a/_site.yml +++ b/_site.yml @@ -49,6 +49,10 @@ navbar: href: slides/08-aleatorizacao.pdf - text: "Testes de aleatorização (html)" href: tutoriais/09-aleatorizacao.html + - text: "Bootstrap (slides)" + href: slides/09-bootstrap.pdf + - text: "Monte Carlos (slides)" + href: slides/10-monte-carlo.pdf - text: "----------" - text: "Arquivos complementares" - text: "GNA Uniformes (2015)" diff --git a/slides/09-bootstrap.Rnw b/slides/09-bootstrap.Rnw new file mode 100644 index 0000000000000000000000000000000000000000..d4540844a336ed43b9a96d3c204f6daa5a4a8563 --- /dev/null +++ b/slides/09-bootstrap.Rnw @@ -0,0 +1,195 @@ +%----------------------------------------------------------------------- + +\documentclass[serif, professionalfont, usenames, dvipsnames]{beamer} +\usepackage[T1]{fontenc} + +% ATTENTION: preamble.tex contains all style definitions. +\input{config/preamble.tex} +% \usepackage[backend=bibtex, style=authoryear]{biblatex} +\addbibresource{config/refs.bib} +\addbibresource{../config/Refs.bib} + +<<include = FALSE>>= +source("config/setup.R") +@ + +%----------------------------------------------------------------------- + +\title{Testes de aleatorização} +\subtitle{Fundamentos e aplicações} +\date{\small{ \Sexpr{sprintf('Atualizado em %s', Sys.Date())}}} + +%----------------------------------------------------------------------- + +\begin{document} + +{\setbeamertemplate{footline}{} + \frame{\titlepage} %-------------------------------------------------- +} + +\begin{frame}{} + + {\large Justificativas} + + \begin{itemize} + \item Métodos computacionalmente intensivos para inferência + estatÃstica são usados quando as abordagens tradicionais não são + adequadas. + \begin{itemize} + \item Resultados assintóticos em pequenas amostras. + \item Violação de pressupostos. + \item Não existência de mecanÃsmos de inferência especÃficos. + \end{itemize} + \item Tais métodos se baseiam em reamostragem e/ou simulação. + \item Podem ser aplicados em muitos contextos. + \end{itemize} + + {\large Objetivos} + + \begin{itemize} + \item TODO + \end{itemize} +\end{frame} + +\begin{frame}{Bootstrap: visão geral} + + \begin{itemize} + \item Boostrap foi apresentado de forma sistematizada por + \cite{Efron1979}. + \item O termo bootstrap foi usado por \cite{Efron1979} com o mesmo + espÃrito que \cite{Tukey1958} usou Jackknife. + \item O método já havia sido usado em circustâncias anteriores. + \item Bootstrap é um \hi{método de reamostragem} que pode usado para + avaliar propriedades de estimadores e fazer inferência. + \item Bootstrap é um método de Monte Carlo pois usa a \hi{distribuição + empÃrica} dos dados como se fosse a verdadeira distribuição. + \item Principais aplicações de bootstrap: + \begin{itemize} + \item Avaliar propriedades da distribuição de estimadores para + seleção, ajuste de vÃcio, etc. + \item Substituir ou aprimorar a adequação de abordagens assintóticas + em amostras pequenas: intervalos de confiança, testes de hipótese. + \end{itemize} + \end{itemize} + +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Funcionamento} + \begin{itemize} + \item Considere uma amostra de observações iid $x_i$, $i = 1, \ldots, n.$ + \item Usando a distribuição empÃrica, cada valor $x_i$ tem igual + probabilidade de $1/n$ de ocorrer. + \item Considere que $\theta$ seja um parâmetro de interesse que dispõe + de um estimador $\hat{\theta} = f(X_1, \ldots, X_n)$. + \item Uma \hi{amostra bootstrap} é um conjunto de valores extraÃdos ao + acaso \hi{com reposição} da amostra original. + \item A estimativa de $\theta$ na $b$-ésima reamostra bootstrap é + $\hat{\theta}_b^\star$. + \item A estimativa pontual bootstrap é o valor médio + \begin{equation} + \hat{\theta}^\star = \frac{1}{B} \sum_{b = 1}^{B} \hat{\theta}_b^\star + \end{equation} + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}[allowframebreaks]{Intervalos de confiança} + \begin{itemize} + \item O intervalo de confiança padrão bootstrap é calculado por + \begin{eqnarray} + \text{estimativa bootstrap}\!\! &\pm& \!\! \text{quantil}_{\alpha/2}\cdot \text{erro padr\~ao bootstrap}\\ + \hat{\theta}^\star \!\! &\pm& \!\! z_{\alpha/2} \left(\sum_{b = 1}^B \frac{(\hat{\theta}_b^\star - \hat{\theta}^\star)^2}{B - 1} \right). + \end{eqnarray} + \item Assume-se que + \begin{enumerate} + \item $\hat{\theta}$ tem distribuição aproximadamente normal; + \item $\hat{\theta}$ é um estimador não viciado. + \end{enumerate} + \item Este tipo de intervalo não requer um valor alto para $B$. + \item O vÃcio do estimador pode ser determinado pelo próprio procedimento. + + \framebreak + + \item O intervalo de confiança padrão bootstrap (IC-padrão) é válido e + pode ser usado em situações em que inferência assintótica é difÃcil + de aplicar. + \item O IC-padrão é assintoticamente acurado tal como são os + intervalos baseados na distribuição normal. + \item Intervalos feitos usando quantis da distribuição $t$ são mais + acurados para estimadores em amostras pequenas. + \item Muitas variações do IC-padrão foram desenvovidas para produzir + inferência de melhor qualidade. + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Intervalos de confiança} + \begin{itemize} + \item O intervalo de confiança percentil bootstrap é determinado por + \begin{equation} + (\hat{\theta}_{\alpha/2}^\star, \hat{\theta}_{1 - \alpha/2}^\star), + \end{equation} + que correspondem aos percentis $\alpha/2$ e $1 - \alpha/2$. + \item Este intervalo + \begin{enumerate} + \item não faz suposições sobre a distribuição de $\hat{\theta}$; + \item requer maior valor para $B$ que o intervalo de confiança padrão. + \end{enumerate} + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Ajuste de vÃcio} + \begin{itemize} + \item O bootstrap fornece uma abordagem intuitiva + \begin{equation} + \text{E}(\hat{\theta} - \theta) \approx \text{E}_B(\hat{\theta}_j^\star - \hat{\theta}) = \hat{\theta}^\star - \hat{\theta}. + \end{equation} + \item Ou seja, considere a distribuição empÃrica como sendo a + distribuição verdadeira e determine o viés médio usando a média das + amostras bootstrap. + \item Atenção: ao estimar o vÃcio deveria-se adicionar o erro + amostral. + \end{itemize} + + Conteúdo baseado em \url{https://ocw.mit.edu/courses/sloan-school-of-management/15-450-analytics-of-finance-fall-2010/lecture-notes/MIT15_450F10_lec09.pdf}. +\end{frame} + +%----------------------------------------------------------------------- +{ + \usebackgroundtemplate{\includegraphics[height=\paperheight, width=\paperwidth]{../img/looking-ahead.jpg}} + % \setbeamersize{text margin left=30mm} + + \begin{frame}[b]{} + + \hspace*{0.5\linewidth} + \begin{minipage}[t]{0.5\linewidth} + + \hi{Próxima aula} + \begin{itemize} + \item Intervalos de confiança com correção para o vÃcio. + \item Aplicações de bootstrap. + \item Bootstrap paramétrico. + \end{itemize} + + \hi{Avisos} + \begin{itemize} + \item Sabatina estará disponÃvel a partir de Qua. + \end{itemize} + + \vspace{3em} + \end{minipage} + +\end{frame} +} + +%----------------------------------------------------------------------- +\begin{frame}[t, fragile, allowframebreaks] + \frametitle{Referências bibliográficas} + + \printbibliography[heading=none] +\end{frame} + +%----------------------------------------------------------------------- +\end{document} diff --git a/slides/10-monte-carlo.Rnw b/slides/10-monte-carlo.Rnw new file mode 100644 index 0000000000000000000000000000000000000000..1eefd031bacdd58f771df1315523deda844bb13a --- /dev/null +++ b/slides/10-monte-carlo.Rnw @@ -0,0 +1,203 @@ +%----------------------------------------------------------------------- + +\documentclass[serif, professionalfont, usenames, dvipsnames]{beamer} +\usepackage[T1]{fontenc} + +% ATTENTION: preamble.tex contains all style definitions. +\input{config/preamble.tex} +% \usepackage[backend=bibtex, style=authoryear]{biblatex} +\addbibresource{config/refs.bib} +\addbibresource{../config/Refs.bib} + +<<include = FALSE>>= +source("config/setup.R") +@ + +%----------------------------------------------------------------------- + +\title{Inferência por abordagens de Monte Carlo} +\subtitle{Fundamentos e aplicações} +\date{\small{ \Sexpr{sprintf('Atualizado em %s', Sys.Date())}}} + +%----------------------------------------------------------------------- + +\begin{document} + +{\setbeamertemplate{footline}{} + \frame{\titlepage} %-------------------------------------------------- +} + +\begin{frame}{} + + {\large Justificativas} + + \begin{itemize} + \item Métodos computacionalmente intensivos para inferência + estatÃstica são usados quando as abordagens tradicionais não são + adequadas. + \begin{itemize} + \item Resultados assintóticos em pequenas amostras. + \item Violação de pressupostos. + \item Não existência de mecanÃsmos de inferência especÃficos. + \end{itemize} + \item Tais métodos se baseiam em reamostragem e/ou simulação. + \item Podem ser aplicados em muitos contextos. + \end{itemize} + + {\large Objetivos} + + \begin{itemize} + \item Definir o que são os métodos de Monte Carlos. + \item Apresentar aplicações. + \end{itemize} +\end{frame} + +% ATTENTION: Referências. +% TODO: http://www.palisade.com/risk/monte_carlo_simulation.asp + +% ----------------------------------------------------------------------- +\begin{frame}{Questões históricas} + \begin{itemize} + \item Foi um método introduzido durante a II Guerra Mundial. + \item No projeto de construção da bomba atómica, StanisÅ‚aw Ulam, von + Neumann e Fermi consideraram a possibilidade de utilizar o método, + que envolvia a simulação direta de problemas de natureza + probabilÃstica relacionados com o coeficiente de difusão do neutron + em certos materiais. + \item O nome Monte Carlo é uma referência ao resort town (cassino) de + Mônaco por causa da natureza aleatória da abordagem. + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{O que são métodos de Monte de Carlo} + \begin{itemize} + \item Corresponde a métodos baseados em simulação estocástica massiva para: + \begin{itemize} + \item Aproximação de funções e de integrais. + \item Estimação de valores médios ou obtenção de distribuições amostrais. + \item Avaliação de propriedades de um estimador pontual/intervalar. + \item Avaliação de propriedades de testes de hipótese. + \item Determinação de tamanhos amostrais e curvas de poder. + \item Dentre outras várias aplicações. + \end{itemize} + \item Em outras palavras, envolvem a simulação de experimentos ou + sistemas em que pelo menos um componente aleatório esteja presente + \parencite{ferreira2013estcompjava}. + \item É imprescindivel, portanto, recursos para geração de números + aleatórios das distribuições envolvidas no problema. + \item Métodos de bootstrap e de testes de aleatorização são casos + particulares de Monte Carlo. + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +% Método de Monte Carlo para determinar a taxa de erro tipo I de teste. + +\begin{frame}{Exemplo: avaliar a taxa de erro tipo I de um teste de hipótese} + \begin{enumerate} + \item Gerar uma realização do modelo assumido para os dados sob a + hipótese nula. + \item Sob a hipótese nula, delimitar a região de aceitação e rejeição + considerando nÃvel de significância $\alpha$. + \item Aplicar o teste sob os dados simulados. + \item A partir do teste, tomar a decisão correspondente e guardar o resultado. + \item Repetir de 1 a 4 $M$ vezes. + \item Calcular a proporção de vezes em foi feita a rejeição da hipótese nula. + \item Se a proporção for superior a $\alpha$, o teste é liberal, caso + contrário é conservador, para o nÃvel de significância adotado. + \end{enumerate} +\end{frame} + +%----------------------------------------------------------------------- +% Método de Monte Carlo para determinar a taxa de cobertura de IC. + +\begin{frame}{Exemplo: avaliar a taxa de cobertura de um estimador intervalar} + \begin{enumerate} + \item Gerar uma realização do modelo assumido para os dados. + \item Definir o nÃvel de confiança $1 - \alpha$ para obtenção dos + intervalos de confiança. + \item Determinar o intervalo de confiança com os dados simulados. + \item Verificar se o intervalo construÃdo contém o verdadeiro valor do + parâmetro usado para simular os dados e guardar o resultado. + \item Repetir de 1 a 4 $M$ vezes. + \item Calcular a proporção de vezes em que o intervalo conteve o valor do parâmetro. + \item Se a proporção for superior a $1 - \alpha$, o intervalo é conservador, caso + contrário é liberal, para o nÃvel de confiança adotado. + \end{enumerate} +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Exemplo: construção da curva de poder do teste} + Curva de poder sob um tamanho de amostra fixo. + \begin{enumerate} + \item Defina um conjunto de valores + $\Delta = \{0, \delta, 2\delta, \ldots, k\delta\}$ em que $0$ + corresponde à hipótese nula $H_0: \theta = \theta_0$. Os demais + correspondem a incrementos $\delta$ em $\theta_0$ e fazem o + afastamento da $H_0$ com relação ao parâmetro sob hipótese $\theta$. + \item Sob $H_0$, delimitar a região de aceitação e rejeição + considerando nÃvel de significância $\alpha$. + \item Para cada valor em $\Delta$, definir + $\theta_a = \theta_0 + \Delta_i$ ($i = 0, \ldots, k$), então + \begin{enumerate} + \item Gerar uma realização do modelo assumido para os dados usando + $\theta_a$. + \item Aplicar o teste para $H_0$ com os dados simulados. + \item A partir do teste, tomar a decisão correspondente e guardar o + resultado. + \item Repetir de 1 a 3 $M$ vezes. + \item Calcular a proporção de vezes em foi feita a rejeição de $H_0$. + \end{enumerate} + \item Fazer o gráfico da taxa de rejeição de $H_0$ para cada valor em $\Delta$. + \end{enumerate} +\end{frame} + +%----------------------------------------------------------------------- +\begin{frame}{Considerações até aqui} + \begin{itemize} + \item Nos métodos de Monte Carlo deve-se assumir distribuição de + probabilidades para as variáveis aleatórias do modelo/sistema. + \item Essa é uma das principais desvantagens, conforme + \cite{ferreira2013estcompjava}. + \end{itemize} +\end{frame} + +%----------------------------------------------------------------------- +{ + \usebackgroundtemplate{\includegraphics[height=\paperheight, width=\paperwidth]{../img/looking-ahead.jpg}} + % \setbeamersize{text margin left=30mm} + + \begin{frame}[b]{} + + \hspace*{0.5\linewidth} + \begin{minipage}[t]{0.5\linewidth} + + \hi{Próxima aula} + \begin{itemize} + \item Testes de hipótese Monte Carlo. + \item Comparação de testes concorrentes. + \item Avaliação do desempenho de testes com fuga dos pressupostos. + \item Outras aplicações. + \end{itemize} + + \hi{Avisos} + \begin{itemize} + \item Sabatina estará disponÃvel a partir de Amanhã à s 19h. + \end{itemize} + + \vspace{3em} + \end{minipage} + +\end{frame} +} + +%----------------------------------------------------------------------- +\begin{frame}[t, fragile, allowframebreaks] + \frametitle{Referências bibliográficas} + + \printbibliography[heading=none] +\end{frame} + +%----------------------------------------------------------------------- +\end{document} diff --git a/slides/config/refs.bib b/slides/config/refs.bib index d44bd0fce12ff884b06ea9de987f666c3bf5f927..713a6ba99a431c57b707f6cd8dc8d8791bd9b60c 100644 --- a/slides/config/refs.bib +++ b/slides/config/refs.bib @@ -49,3 +49,16 @@ Url = {https://www.amazon.com/Computer-Age-Statistical-Inference-Mathematical-ebook/dp/B01L27MR64?SubscriptionId=0JYN1NVW651KCA56C102&tag=techkie-20&linkCode=xm2&camp=2025&creative=165953&creativeASIN=B01L27MR64} } + +@article{Efron1979, + ISSN = {00905364}, + URL = {http://www.jstor.org/stable/2958830}, + author = {B. Efron}, + journal = {The Annals of Statistics}, + number = {1}, + pages = {1--26}, + publisher = {Institute of Mathematical Statistics}, + title = {Bootstrap Methods: Another Look at the Jackknife}, + volume = {7}, + year = {1979} +}