Skip to content
Snippets Groups Projects
Commit 256b377a authored by Walmes Marques Zeviani's avatar Walmes Marques Zeviani
Browse files

Inicia a vinheta de regressão linear.

parent 0d2231a2
No related branches found
No related tags found
No related merge requests found
Pipeline #
---
title: "Análise de Regressão Linear"
author: "PET Estatística UFPR"
vignette: >
%\VignetteIndexEntry{Análise de Regressão Linear}
%\VignetteEngine{knitr::rmarkdown}
%\VignetteEncoding{UTF-8}
---
```{r setup, include=FALSE}
source("config/_setup.R")
```
## Análise exploratória
Para ilustrar a análise de regressão linear, vamos considerar os dados
no objeto `PaulaEx2.10.16` que são referentes a fatura de uma amostra de
30 restaurantes e o correspondente gasto com publicidade.
```{r}
library(lattice)
library(latticeExtra)
library(labestData)
# Selecione a keyword RL para filtrar os dados de Regressão Linear.
# labestDataView()
```
```{r, eval=FALSE}
help(PaulaEx2.10.16, help_type = "html")
```
Antes de qualquer análise dos dados, é imprescindivel se fazer a
visualização dos dados. A análise exploratória tem como finalidade
exibir os dados para que sejam conhecidos, comparados com padrões
esperados ou pressupostos. Muitas vezes, a análise exploratória indica
formas de analisar os dados ou problemas que podem surgir com certas
análise.
Para o caso de análise de regressão, pode-se fazer diagramas de
dispersão entre as variáveis.
```{r}
#-----------------------------------------------------------------------
# Ler a partir do repositório do labestData.
# url <- paste0("https://gitlab.c3sl.ufpr.br/pet-estatistica",
# "/labestData/raw/devel/data-raw/PaulaEx2.10.16.txt")
#
# PaulaEx2.10.16 <- read.table(file = url, sep = "\t", header = TRUE)
#-----------------------------------------------------------------------
# Análise exploratória.
# Estrutura do objeto.
str(PaulaEx2.10.16)
xyplot(fatura ~ gastos,
data = PaulaEx2.10.16,
type = c("p", "smooth"),
xlab = "Gasto anual com publicidade (x 1000 U$)",
ylab = "Fatura anual (x 1000 U$)")
```
Para os dados dos restaurantes, foi usando o diagrama de dispersão do
pacote `lattice`. Com a opção `"smooth"` foi traçada uma linha de
tendência suave entre os dados que auxilia reconhecer a forma da função
a ser usada para a média dos dados no modelo de regressão.
Como os dados exitem um sinal linear, o modelo linear
$$
y = \beta_{0} + \beta_{1} x + e
$$
será usado. Neste modelo, $y$ é a variável resposta (fatura), $x$ é a
variável explicativa (gastos), $\beta_{0}$ é o intercepto da função e
$\beta_{1}$ é a taxa de variação da função. O termo $e$ representa o
erro que é assume-se ter média 0, variância $\sigma^2$ e distribuição
normal.
Uma das finalidades da análise exploratória, é reconhecer se desvios
dos pressupostos do modelo são verificados nos dados. Por exemplo,
existe alguma evidência visual de afastamento da suposição de variância
constante ao longo do domínio de $x$? Existe evidência de que o modelo
linear não dê um bom ajuste?
## Ajuste do Modelo
No R, ajuste de modelo lineares (*linear models*) são feitos com a
função `lm()`. Como nesses modelos, o lado direito da equação contém os
parâmentros multiplicando as variáveis, é exigido a fórmula com o nome
das variáveis. O intercepto está presente por padrão mas pode ser
removido usando o zero na fórmula (e.g. `y ~ 0`).
```{r}
# Ajuste do modelo linear.
m0 <- lm(fatura ~ gastos, data = PaulaEx2.10.16)
# Verificação dos pressupostos pelos resíduos.
par(mfrow = c(2, 2))
plot(m0)
layout(1)
```
Antes de fazer inferência com o modelo, é necessário verificar se não
houve afastamento dos pressupostos. Para isso, o R dispõe de um conjunto
com 4 gráficos que dão uma visão panorâmica sobre o atendimento do
pressupostos. Com a análise dos gráficos é possível não só verificar
afastamentos mas ter uma ideia de como proceder caso existam.
O primeiro gráfico, com título "Residuals vs Fitted", exibe os resíduos
crus em função dos valores ajustados. Ele permite verificar se o modelo
capturou o sinal dos dados. No caso positivo, os resíduos vão se
distribuir em igualmente acima e abaixo da linha horizontal $y = 0$ em
qualquer faixa do eixo $x$. No caso contrário, quando houver falta de
ajuste, haverá faixas de $x$ com mais resíduos positivos que negativos e
vice-versa.
O segundo gráfico, "Scale-Location", exibe a raíz do módulo dos resíduos
padronizados em função dos valores ajustados. O módulo faz com que todos
sejam positivos e a raíz é só um encurtamento de escala. O fato de usar
os resíduos padronizados não é um simples capricho. Os resíduos
padronizados estão livres da relação média-variância que alguns modelos
tem, como os modelos lineares generalizados. No caso do modelo linear,
os resíduos padronizados são os resíduos cruz dividos por uma mesma
contante.
O que o gráfico exibe é se existe algum desvio da relação média
variância prevista pelo modelo. O modelo linear com erro normal aqui
usando assume relação média-variância é nula.
O terceiro...
O último...
## Interpretação
Covariância dos betas.
## Medidas de influência
## Predição
Bandas de confiança e predição.
## Informações da sessão
```{r}
sessionInfo()
```
<!------------------------------------------- -->
[**labestData**]: https://gitlab.c3sl.ufpr.br/pet-estatistica/labestData
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment