diff --git a/vignettes/anaRegLin.Rmd b/vignettes/anaRegLin.Rmd new file mode 100644 index 0000000000000000000000000000000000000000..3b597802d3167936504fff829408f0723bafbf36 --- /dev/null +++ b/vignettes/anaRegLin.Rmd @@ -0,0 +1,152 @@ +--- +title: "Análise de Regressão Linear" +author: "PET Estatística UFPR" +vignette: > + %\VignetteIndexEntry{Análise de Regressão Linear} + %\VignetteEngine{knitr::rmarkdown} + %\VignetteEncoding{UTF-8} +--- + +```{r setup, include=FALSE} +source("config/_setup.R") +``` + +## Análise exploratória + +Para ilustrar a análise de regressão linear, vamos considerar os dados +no objeto `PaulaEx2.10.16` que são referentes a fatura de uma amostra de +30 restaurantes e o correspondente gasto com publicidade. + +```{r} +library(lattice) +library(latticeExtra) + +library(labestData) +# Selecione a keyword RL para filtrar os dados de Regressão Linear. +# labestDataView() +``` +```{r, eval=FALSE} +help(PaulaEx2.10.16, help_type = "html") +``` + +Antes de qualquer análise dos dados, é imprescindivel se fazer a +visualização dos dados. A análise exploratória tem como finalidade +exibir os dados para que sejam conhecidos, comparados com padrões +esperados ou pressupostos. Muitas vezes, a análise exploratória indica +formas de analisar os dados ou problemas que podem surgir com certas +análise. + +Para o caso de análise de regressão, pode-se fazer diagramas de +dispersão entre as variáveis. + +```{r} +#----------------------------------------------------------------------- +# Ler a partir do repositório do labestData. + +# url <- paste0("https://gitlab.c3sl.ufpr.br/pet-estatistica", +# "/labestData/raw/devel/data-raw/PaulaEx2.10.16.txt") +# +# PaulaEx2.10.16 <- read.table(file = url, sep = "\t", header = TRUE) + +#----------------------------------------------------------------------- +# Análise exploratória. + +# Estrutura do objeto. +str(PaulaEx2.10.16) + +xyplot(fatura ~ gastos, + data = PaulaEx2.10.16, + type = c("p", "smooth"), + xlab = "Gasto anual com publicidade (x 1000 U$)", + ylab = "Fatura anual (x 1000 U$)") +``` + +Para os dados dos restaurantes, foi usando o diagrama de dispersão do +pacote `lattice`. Com a opção `"smooth"` foi traçada uma linha de +tendência suave entre os dados que auxilia reconhecer a forma da função +a ser usada para a média dos dados no modelo de regressão. + +Como os dados exitem um sinal linear, o modelo linear +$$ + y = \beta_{0} + \beta_{1} x + e +$$ +será usado. Neste modelo, $y$ é a variável resposta (fatura), $x$ é a +variável explicativa (gastos), $\beta_{0}$ é o intercepto da função e +$\beta_{1}$ é a taxa de variação da função. O termo $e$ representa o +erro que é assume-se ter média 0, variância $\sigma^2$ e distribuição +normal. + +Uma das finalidades da análise exploratória, é reconhecer se desvios +dos pressupostos do modelo são verificados nos dados. Por exemplo, +existe alguma evidência visual de afastamento da suposição de variância +constante ao longo do domínio de $x$? Existe evidência de que o modelo +linear não dê um bom ajuste? + +## Ajuste do Modelo + +No R, ajuste de modelo lineares (*linear models*) são feitos com a +função `lm()`. Como nesses modelos, o lado direito da equação contém os +parâmentros multiplicando as variáveis, é exigido a fórmula com o nome +das variáveis. O intercepto está presente por padrão mas pode ser +removido usando o zero na fórmula (e.g. `y ~ 0`). + +```{r} +# Ajuste do modelo linear. +m0 <- lm(fatura ~ gastos, data = PaulaEx2.10.16) + +# Verificação dos pressupostos pelos resíduos. +par(mfrow = c(2, 2)) +plot(m0) +layout(1) +``` + +Antes de fazer inferência com o modelo, é necessário verificar se não +houve afastamento dos pressupostos. Para isso, o R dispõe de um conjunto +com 4 gráficos que dão uma visão panorâmica sobre o atendimento do +pressupostos. Com a análise dos gráficos é possível não só verificar +afastamentos mas ter uma ideia de como proceder caso existam. + +O primeiro gráfico, com título "Residuals vs Fitted", exibe os resíduos +crus em função dos valores ajustados. Ele permite verificar se o modelo +capturou o sinal dos dados. No caso positivo, os resíduos vão se +distribuir em igualmente acima e abaixo da linha horizontal $y = 0$ em +qualquer faixa do eixo $x$. No caso contrário, quando houver falta de +ajuste, haverá faixas de $x$ com mais resíduos positivos que negativos e +vice-versa. + +O segundo gráfico, "Scale-Location", exibe a raíz do módulo dos resíduos +padronizados em função dos valores ajustados. O módulo faz com que todos +sejam positivos e a raíz é só um encurtamento de escala. O fato de usar +os resíduos padronizados não é um simples capricho. Os resíduos +padronizados estão livres da relação média-variância que alguns modelos +tem, como os modelos lineares generalizados. No caso do modelo linear, +os resíduos padronizados são os resíduos cruz dividos por uma mesma +contante. + +O que o gráfico exibe é se existe algum desvio da relação média +variância prevista pelo modelo. O modelo linear com erro normal aqui +usando assume relação média-variância é nula. + +O terceiro... + +O último... + +## Interpretação + +Covariância dos betas. + +## Medidas de influência + +## Predição + +Bandas de confiança e predição. + +## Informações da sessão + +```{r} +sessionInfo() +``` + +<!------------------------------------------- --> + +[**labestData**]: https://gitlab.c3sl.ufpr.br/pet-estatistica/labestData