Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- ---
- title: "Taller 3_Modelos I"
- author: "Jorge Moreno, Aarón Calderón"
- output: pdf_document
- ---
- # Ejercicio 2: Dataset: FEV
- La dataset FEV incluye observaciones de 654 niños a los que se les mide el Volumen Espiratorio Forzado (FEV: forced expiratory volume). En este ejercicio estamos interesados en modelar la relación de FEV y las siguientes variables.
- **age**: la edad del niño en años
- **height**: la altura del niño en pulgadas
- Importamos el set de datos:
- ```{r}
- #fev= read.csv("C:/Users/USUARIO/Downloads/fev.txt", sep="")
- fev <- read.csv("D:/Descargas/Modelos I/fev.txt", sep="")
- FEV_subset=fev[,1:3]
- head(FEV_subset)
- attach(FEV_subset)
- ```
- ### Pregunta 1. Realice una exploración gráfica de la relación entre FEV y la edad y la altura del niño. ¿Se ajustaría un modelo aditivo de primer orden o algún orden superior?
- ```{r}
- plot(FEV_subset)
- pairs(FEV_subset)
- ```
- La relación entre FEV y edad y FEV y la altura tiene una cierta curvatura. Por lo tanto, se ajustaría mejor con un modelo de orden superior.
- ### Pregunta 2. Ajuste el siguiente modelo aditivo de primer orden, analice los residuos del modelo y detecte la curvatura y heterocedasticidad en los residuos:
- $$
- FEV_i = \beta_0 + \beta_1 age_i + \beta_2 height_i + \epsilon_i
- $$
- ```{r}
- #modelo aditivo de primer orden
- modelo1=lm(FEV ~ age + height, data=FEV_subset)
- summary(modelo1)
- par(mfrow = c(2, 2))
- plot(modelo1)
- ```
- Vemos que hay simetría, pero con colas pesadas, lo que sugiere que no se cumple el supuesto de normalidad para los residuos. A su vez, se ve que la varianza no es constante, por lo que no se cumple el supuesto de homocedasticidad.
- ### Pregunta 3. Ajuste el siguiente modelo aditivo de segundo orden, analice los residuos del modelo:
- $$
- FEV_i = \beta_0 + \beta_1 age_i + \beta_2 height_i + \beta_3 age^2_i + \beta_4 height^2_i + \epsilon_i
- $$
- ```{r}
- #modelo aditivo de segundo orden
- modelo2=lm(FEV ~ age + height+I((age-mean(age))^2)+I((height-mean(height))^2), data=FEV_subset)
- summary(modelo2)
- par(mfrow = c(2, 2))
- plot(modelo2)
- ```
- Sigue habiendo simetría y con colas pesadas, por lo que no se estaría cumpliendo el supuesto de normalidad. Los residuos quedaron más lineales, pero no se cumple el supuesto de homocedasticidad.
- ### Pregunta 4. Realice una prueba de hipótesis para los efectos cuadráticos de age y height mejoran el ajuste del modelo. Escriba el contraste de hipótesis, el estadístico de prueba, el valor p de la prueba y su conclusión.
- $$
- H_0: \beta_3=\beta_4=0
- \quad \quad \quad \quad \quad \quad \quad \quad \quad H_1:
- \beta_3 \neq 0 \vee \beta_4 \neq 0
- $$
- ```{r}
- #modelo completo
- n=length(FEV)
- p=5
- SCEp=sum((modelo2$residuals)^2)
- MCEp=SCEp/(n-p)
- #modelo reducido
- SCEpq=sum((modelo1$residuals)^2)
- #Estadístico F
- q=2
- F0=((SCEpq-SCEp)/q)/MCEp
- F0
- #Valor p
- valorp=pf(F0, q, n-p, lower.tail=F)
- valorp
- anova(modelo1, modelo2)
- ```
- Si utilizamos un nivel de significancia del 5%, entonces existe evidencia estadística para rechazar la hipótesis que dicta que $\beta_{3}$ y $\beta_{4}$ son iguales a 0.
- ### Pregunta 5. Compare el modelo 1 y 2 en base al coeficiente de determinación ajustado. ¿Qué modelo prefiere?
- ```{r}
- sum1=summary(modelo1)
- sum2=summary(modelo2)
- c(sum1$r.squared, sum2$r.squared)
- c(sum1$adj.r.squared, sum2$adj.r.squared)
- ```
- El modelo que incluye los términos cuadráticos (modelo2) tiene un coeficiente de determinación ajustado superior al del reducido (modelo1). Por tal motivo, se prefiere al modelo 2.
- ### Pregunta 6. Estimemos el modelo 2 usando los mínimos cuadrados ponderados. Analice los residuos $r^{(w)}$
- ```{r}
- re2= modelo2$residuals
- fv2= modelo2$fitted.values
- modelo3 = lm(abs(re2) ~ fv2)
- re3= modelo3$residuals
- fv3= modelo3$fitted.values
- w = 1/(fv3^2)
- modelo4= lm(FEV ~ age + height+I((age-mean(age))^2)+I((height-mean(height))^2),
- data = FEV_subset, weights = w)
- par(mfrow = c(2, 2))
- plot(modelo4)
- ```
- ```{r}
- rw = sqrt(w) * modelo4$residuals
- par(mfrow = c(1, 2))
- plot(modelo4$fitted.values, rw,xlab="Valores ajustados",ylab="Residuos ponderados")
- abline(2.5,0)
- abline(-2.5,0)
- plot(age,rw,xlab="Edad",ylab="Residuos ponderados")
- ```
- Vemos que no hay ningún patrón presente entre los residuos ponderados y los valores ajustados. Lo que sí hay es un gran número de valores aberrantes.
- ### Pregunta 7. Utilice las funciones plot3d() y persp3d() de la librería "rgl" para graficar la superficie de respuesta del último modelo.
- ```{r}
- library(rgl)
- plot3d(modelo4)
- #persp3d(modelo4)
- ```
- ### Pregunta 8. ¿Cuánto sería el FEV de un niño de 5 años y 53 pulgadas? Proporcione un intervalo de predicción e interprételo.
- ```{r}
- predict(object=modelo2,newdata=data.frame(height=53,age=5),interval=c("prediction"),level=0.95,df=n-5)
- ```
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement