Skip to content
Snippets Groups Projects
Commit b84da117 authored by Heloise Chevalier's avatar Heloise Chevalier
Browse files

rapport régression fini

parent 7f40f75a
No related branches found
No related tags found
No related merge requests found
--- ---
title: "Projet 1 SY19" title: "Projet 1 SY19"
subtitle: CHEVALIER HÃf©loÃf¯se, JORANDON Guillaume subtitle: CHEVALIER Heloise, JORANDON Guillaume
output: output: html_notebook
html_notebook: default
pdf_document: default
--- ---
...@@ -29,7 +27,7 @@ reg.cor <- cor(reg.data) ...@@ -29,7 +27,7 @@ reg.cor <- cor(reg.data)
corrplot(reg.cor) corrplot(reg.cor)
``` ```
1.2. Recherche du meilleur modèle ##1.2. Recherche du meilleur modèle
Pour rechercher le meilleur modèle, on peut commencer par réaliser une régression linéaire sur l'ensemble du jeu de données, afin de repérer les prédicteurs les plus significatifs. Pour rechercher le meilleur modèle, on peut commencer par réaliser une régression linéaire sur l'ensemble du jeu de données, afin de repérer les prédicteurs les plus significatifs.
...@@ -177,7 +175,7 @@ legend(23,1425,legend = c("lin ...@@ -177,7 +175,7 @@ legend(23,1425,legend = c("lin
On remarque également que la régression ridge obtient globalement de moins bons résultats, quel que soit le sous-ensemble de prédicteurs. On remarque également que la régression ridge obtient globalement de moins bons résultats, quel que soit le sous-ensemble de prédicteurs.
L'espérance de l'erreur quadratique la plus faible est obtenue ici pour 24 prédicteurs, avec la régression lasso, avec une espérance égale à 1272.205. L'espérance de l'erreur quadratique la plus faible est obtenue ici pour 24 prédicteurs, avec la régression lasso.
Il s'agit du sous-ensemble contenant les prédicteurs X1, X2, X3, X9, X10, X14, X16, X17, X18, X19, X24, X27, X28, X32, X34, X35, X37, X38, X39, X40, X41, X43, X46 et X49. Il s'agit du sous-ensemble contenant les prédicteurs X1, X2, X3, X9, X10, X14, X16, X17, X18, X19, X24, X27, X28, X32, X34, X35, X37, X38, X39, X40, X41, X43, X46 et X49.
Ces variables ont une p-value comprise entre 2e-16 et 0.12519. Ces variables ont une p-value comprise entre 2e-16 et 0.12519.
...@@ -371,14 +369,30 @@ for(model in reg.models.subsets) # Pour chaque modele ...@@ -371,14 +369,30 @@ for(model in reg.models.subsets) # Pour chaque modele
models.subsets.error[model,1] <- models.subsets.error[model,1]/(reg.n_folds*reg.trials) models.subsets.error[model,1] <- models.subsets.error[model,1]/(reg.n_folds*reg.trials)
} }
print(models.subsets.error)
min(models.subsets.error)
``` ```
```{r} ```{r}
plot(x = c(1:16), y = models.subsets.error, xlab = "modèle", ylab = "espérance de l'erreur quadratique") #plot(x = c(1:16), y = models.subsets.error, xlab = "modèle", ylab = "espérance de l'erreur quadratique")
``` ```
espérance
lm13 1539.681
lasso13 1541.783
lm18 1348.237
lasso18 1345.840
lmAIC 1347.019
lassoAIC 1367.446
lmBIC 1298.314
lassoBIC 1620.786
lm23 1274.732
lasso23 1292.388
lm24 1273.862
lasso24 1266.733
lm25 1276.925
lasso25 1277.970
lm26 1274.081
lasso26 1283.311
On remarque que la plus faible valeur de l'espérance est obtenue cette fois encore pour le modèle de régression lasso avec un sous-ensemble de 24 prédicteurs. On remarque que la plus faible valeur de l'espérance est obtenue cette fois encore pour le modèle de régression lasso avec un sous-ensemble de 24 prédicteurs.
On peut noter cependant que l'écart entre les plus faibles valeurs de l'espérance est toujours de + ou - 10 (valeurs comprises entre 1266 et 1277), les valeurs minimum étant obtenues pour les sous-ensembles à 23, 24, 25 et 26 prédicteurs. De plus, étant donné que les résultats de ces modèles sont proches, et que les valeurs de l'espérance varient d'une exécution à l'autre, le modèle obtenant le meilleur résultat varie également d'une exécution à l'autre. On peut noter cependant que l'écart entre les plus faibles valeurs de l'espérance est toujours de + ou - 10 (valeurs comprises entre 1266 et 1277), les valeurs minimum étant obtenues pour les sous-ensembles à 23, 24, 25 et 26 prédicteurs. De plus, étant donné que les résultats de ces modèles sont proches, et que les valeurs de l'espérance varient d'une exécution à l'autre, le modèle obtenant le meilleur résultat varie également d'une exécution à l'autre.
...@@ -497,13 +511,23 @@ for(model in reg.models.subsets.best) # Pour chaque modele ...@@ -497,13 +511,23 @@ for(model in reg.models.subsets.best) # Pour chaque modele
print(models.subsets.error.best) print(models.subsets.error.best)
``` ```
Le meilleur modèle est ici la régression linéaire à 24 prédicteurs, avec une espérance d'erreur quadratique égale à 1264.330. espérance
lm23 1275.108
lasso23 1273.076
lm24 1264.330
lasso24 1269.377
lm25 1274.778
lasso25 1271.424
lm26 1280.144
lasso26 1280.023
Le meilleur modèle est ici la régression linéaire à 24 prédicteurs, bien que l'espérance de la régression lasso avec les mêmes prédicteurs soit très proche.
On choisit donc le modèle suivant : régression linéaire avec les 24 prédicteurs : X1, X2, X3, X9, X10, X14, X16, X17, X18, X19, X24, X27, X28, X32, X34, X35, X37, X38, X39, X40, X41, X43, X46 et X49. On choisit donc le modèle suivant : régression linéaire avec les 24 prédicteurs : X1, X2, X3, X9, X10, X14, X16, X17, X18, X19, X24, X27, X28, X32, X34, X35, X37, X38, X39, X40, X41, X43, X46 et X49.
1.3. Analyse du modèle sélectionné ##1.3. Analyse du modèle sélectionné
Analyse des résidus : ###Analyse des résidus :
```{r} ```{r}
model.fit <- lm(y ~ X1 + X2 + X3 + X9 + X10 + X14 + X16 + X17 + X18 + X19 + X24 + X27 + X28 + X32 + X34 + X35 + X37 + X38 + X39 + X40 + X41 + X43 + X46 + X49, data = reg.data) model.fit <- lm(y ~ X1 + X2 + X3 + X9 + X10 + X14 + X16 + X17 + X18 + X19 + X24 + X27 + X28 + X32 + X34 + X35 + X37 + X38 + X39 + X40 + X41 + X43 + X46 + X49, data = reg.data)
...@@ -540,7 +564,7 @@ De m ...@@ -540,7 +564,7 @@ De m
On pourrait également envisager une régression non linéaire, mais l'analyse des résidus en fonction de chacun des prédicteurs du modèle ne montre aucune variation du bruit en fonction d'un prédicteur, ce qui ne nous incite pas à complexifier le modèle. On pourrait également envisager une régression non linéaire, mais l'analyse des résidus en fonction de chacun des prédicteurs du modèle ne montre aucune variation du bruit en fonction d'un prédicteur, ce qui ne nous incite pas à complexifier le modèle.
Analyse de la stabilité : ###Analyse de la stabilité :
```{r} ```{r}
#influence globale #influence globale
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment