Advertisement
kukis03

Taller 4 Modelos

Nov 26th, 2023
211
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
R 8.14 KB | None | 0 0
  1. ---
  2. title: "Taller 4"
  3. author: "Jorge Moreno, Aarón Calderón"
  4. output:
  5.   pdf_document: default
  6.   html_notebook: default
  7. ---
  8.  
  9. # Ejercicio 1: Dataset: cigarrillos - Suma de cuadrados extra y multicolinealidad
  10.  
  11. La dataset “cigarette” contiene información de 25 cigarrillos:
  12.  
  13. **Name:** Marca del cigarillo
  14.  
  15. **Tar:** Contenido de Alquitrán en miligramos
  16.  
  17. **Nicotine:** Contenido de Nicotina en miligramos
  18.  
  19. **Weight:** Peso del cigarrillo en gramos
  20.  
  21. **CO:** Contenido de Monóxido de Carbono en miligramos
  22.  
  23. Queremos modelar el contenido de Monóxido de Carbono como una función de las variables explicativas.
  24.  
  25. ## Pasos introductorios:
  26.  
  27. Importamos el set de datos:
  28.  
  29. ```{r}
  30. #cigarette <- read.csv("C:/Users/USUARIO/Downloads/cigarette.txt", sep="")
  31. cigarette <- read.csv("C:/Users/aleja/Desktop/cigarette.txt", sep="")
  32. attach(cigarette)
  33.  
  34. ```
  35.  
  36. ## Exploración gráfica y estadística descriptiva:
  37.  
  38. La exploración gráfica y la estadística descriptiva del set de datos es el primer paso de la modelación. Con
  39. ello podemos conocer las variables y hacernos una idea de los tipos de relaciones que existen.
  40.  
  41. El histograma de la variable de respuesta Y nos ayuda a saber si el supuesto de normalidad es adecuado o si
  42. deberíamos considerar alguna transformación de Y.
  43.  
  44. ```{r}
  45. hist(CO)
  46. ```
  47.  
  48. En este caso el histograma tiene una forma de campana por lo que no se sospecharía de violación grave del
  49. supuesto de normalidad. Recuerde sin embargo que el supuesto de la normalidad de Y es condicional en los
  50. valores de X, por lo que el histograma de los valores observados de y no es evidencia de cumplimiento del
  51. supuesto. Se deben siempre analizar los residuos.
  52.  
  53. Para graficar la relación de todas las variables de la dataset se puede usar
  54.  
  55. ```{r}
  56. pairs(cigarette[, -1], panel = function(x, y) {
  57.   points(x, y)
  58.   lines(lowess(x, y), col = "red")
  59. })
  60. ```
  61.  
  62. ### Pregunta 1. Estime el siguiente modelo y obtenga el resumen del modelo y la tabla ANOVA con la suma de cuadrados extra. ¿Observa algún resultado extraño en la estimación del modelo? (No centre las variables)
  63.  
  64. $$CO=\beta_0+\beta_1Tar+\beta_2Nicotine+\beta_3Weight+\beta_4Weight^2+\epsilon$$
  65.  
  66. ```{r}
  67. modelo1=lm(CO~Tar+Nicotine+Weight+I((Weight)^2),data=cigarette)
  68.  
  69. summary(modelo1)
  70. ```
  71. En primera instancia, podemos apreciar que el $\beta_2$ corrrespondiente a Nicotina es un valor negativo, o en otras palabras con pendiente negativa, sin embargo, si apreciamos las graficas correspondientes a esta, vemos que contradice dicho resultado.
  72.  
  73. Adicionalmente, la prueba T da un valor p relativamente alto, lo que no nos permitiría rechazar la hipótesis de $\beta_{2}=0$, pero en el gráfico se ve que sí existe una correlación entre Nicontina y Alquitrán.
  74.  
  75.  
  76. ```{r}
  77. anova(modelo1)
  78. ```
  79. Notamos que la suma cuadrática de regresión de Weight da 0, esto ocurre si para cada valor $\hat y_i=\bar y$ lo cual conllevaría que el modelo lineal de Weight con la variable de respuesta es la recta constante $\bar y$, por los gráficos notamos que no es así.
  80.  
  81. Se repiten los resultados con la prueba F para Nicotine, indicando que no existe evidencia estadística para rechazar $\beta_{2}$.
  82.  
  83. Encontramos que con el summary, según la prueba T, para $\beta_{3}$, correspondiente al peso, existe evidencia para rechazar la hipótesis que dice que dice que $\beta_{3}=0$, sin embargo, la prueba F contradice estos resultados.
  84.  
  85. ### Pregunta 2. Estime el siguiente modelo sin Tar y obtenga el resumen del modelo y la tabla ANOVA con la suma de cuadrados extra. ¿Que observa comparando este modelo al modelo de la pregunta 1? ¿Cómo explicaría el cambio? (No centre las variables)
  86.  
  87. $$CO=\beta_0+\beta_2Nicotine+\beta_3Weight+\beta_4Weight^2+\epsilon$$
  88.  
  89. ```{r}
  90. modelo2=lm(CO~Nicotine+Weight+I((Weight)^2),data=cigarette)
  91.  
  92. summary(modelo2)
  93. anova(modelo2)
  94. ```
  95.  
  96. Del nuevo modelo, ahora se obtuvo el $\beta_2$ positivo correspondiente a Nicotina, además, en este modelo solo para Nicotina tenemos evidencia de rechazar la hipotesis nula, la cual indica que el $\beta=0$. Se obtuvo un menor coeficiente de determinación, por lo que explica un poco menos la variabilidad de la variable CO. Esto se debe a que al quitar la variable Tar, la mayor parte de la variabilidad fue absorbida por Nicotina.
  97.  
  98.  
  99.  
  100. ### Pregunta 3. Obtenga los factores de inflación de la varianza para detectar problemas de multicolinealidad en la matriz X del modelo 1. (Puede usar la función vif de la librería car
  101.  
  102. ```{r}
  103. library(car)
  104. vif(modelo1)
  105. ```
  106.  
  107. Por las reglas de thumb, tenemos pruebas evidentes que existe multicolinealidad, ya que al menos uno de los VIF es mayor a 10 y el promedio de los VIF es considerablemente mayor a 1. Obviamente, por los VIF similares, concluimos que las variables Weight y Weight^2 están correlacionadas.
  108.  
  109.  
  110. ### Pregunta 4. Corrija el problema de multicolinealidad, removiendo Nicotine y centrando weight.
  111.  
  112. $$CO=\beta_0+\beta_1Tar+\beta_3Weight+\beta_4Weight^2+\epsilon$$
  113.  
  114. ```{r}
  115. modelo4=lm(CO~Tar+Weight+I((Weight-mean(Weight))^2),data=cigarette)
  116.  
  117. summary(modelo4)
  118. vif(modelo4)
  119. ```
  120.  
  121. Notamos como reducieron considerablemente los VIF, ya no superan a 10 y su promedio ya no es considerablemente mayor a 1.
  122.  
  123. # Ejercicio 2: FEV: Interacciones
  124.  
  125. ```{r}
  126. #fev <- read.csv("C:/Users/USUARIO/Downloads/fev.txt", sep="")
  127. fev<- read.csv("C:/Users/aleja/Desktop/fev.txt", sep="")
  128.  
  129. fev_subset=fev[,1:3]
  130. attach(fev_subset)
  131.  
  132. pairs(fev_subset, panel = function(x, y) {
  133.   points(x, y)
  134.   lines(lowess(x, y), col = "red")
  135. })
  136.  
  137. ```
  138.  
  139. En base a talleres anteriores sabemos que un buen modelo para FEV en base a la edad y a la altura es un
  140. modelo aditivo con efecto cuadrático de altura y estimado por mínimos cuadrados ponderados.
  141.  
  142. ```{r}
  143. modelo0 = lm(FEV ~ age + height + I((height - mean(height))^2), data = fev_subset)
  144. modelo0_ws = lm(abs(residuals(modelo0)) ~ fitted.values(modelo0))
  145. ws = 1/fitted.values(modelo0_ws)^2
  146.  
  147. modelo_1 = lm(FEV ~ age + height + I((height - mean(height))^2), data = fev_subset,
  148. weights = ws)
  149.  
  150. ```
  151.  
  152. ### Pregunta 5. Grafice los residuos ponderados del modelo aditivo anterior vs el efecto interactivo de age y height para detectar si es necesario incluir un efecto de interacción.
  153.  
  154. ```{r}
  155. res_pond=sqrt(ws)*modelo_1$residuals
  156.  
  157. plot((age*height),res_pond)
  158. ```
  159.  
  160. Podemos ver que están distribuidos alrededor del 0, sin patrón aparente. Adicionalmente, los supuestos tienen una gran variabilidad, por lo que es una buena idea incluir el efecto de interacción.
  161.  
  162. ### Pregunta 6. Estime un modelo incluyendo el efecto de interacción entre age y height.
  163.  
  164. $$FEV=\beta_0+\beta_1age+\beta_2height+\beta_3age\hspace{0.05cm}height+\epsilon$$
  165.  
  166. El modelo puede estimarse por:
  167.  
  168. ```{r}
  169. modelo_2=lm(FEV~age+height+age:height,data=fev_subset)
  170. ```
  171.  
  172.  
  173. ### Pregunta 7. Analice los residuos del modelo anterior.
  174.  
  175.  
  176. ```{r}
  177. plot(modelo_2$residuals,ylim=c(-3,3))
  178. abline(2.5,0)
  179. abline(-2.5,0)
  180. ```
  181.  
  182. Como puede verse, los residuos están dsitribuidos de forma aleatoria alrededor del cero. Adicionalmente, no parece haber valores aberrantes.
  183.  
  184. ### Pregunta 8. ¿Es el término de interacción importante para explicar la respuesta?. Responda a esta pregunta utilizando una prueba F parcial.
  185.  
  186. Lo que queremos probar es que:
  187.  
  188. $$H_0: \beta_3=0 \hspace{0.5cm} H_1:\beta_3\neq0$$
  189.  
  190. ```{r}
  191. modelo_red=lm(FEV~age+height,data=fev_subset)
  192. modelo_com=modelo_2
  193.  
  194. anova(modelo_red,modelo_com)
  195. ```
  196.  
  197. Por el valor p de la prueba F parcial podemos rechazar la hipótesis nula, por lo que el término de interacción si es importante para explicar la respuesta.
  198.  
  199.  
  200. ### Pregunta 9. En base al último modelo, ¿A cuánto se estima que cambie el promedio de FEV por un aumento de una pulgada en la altura de los niños?
  201.  
  202. $$FEV=\beta_0+\beta_1age+\beta_2height+\beta_3age\hspace{0.05cm}height+\epsilon$$
  203.  
  204. $$
  205. \begin{aligned}
  206. E\left[FEV|age=age,height=1+height\right]&-E\left[FEV|age=age,height=height\right]\\
  207. \beta_0+\beta_1age+\beta_2(1+height)+\beta_3age\hspace{0.05cm}(1+height)&-\beta_0-\beta_1age-\beta_2height-\beta_3age\hspace{0.05cm}height\\
  208. &\beta_2+\beta_3age
  209. \end{aligned}
  210. $$
  211.  
  212. Por ende, el cambio estimado en promedio de FEV por aumento de una pulgada de altura en los niños es: $\beta_2+\beta_3age$
  213.  
  214.  
  215.  
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement