Loading...

Analyse Approfondie de la Régression Logistique : Histoire, Concepts et Applications

La régression logistique est une technique statistique essentielle pour modéliser la relation entre une variable dépendante catégorique et une ou plusieurs variables indépendantes. Elle est particulièrement utile lorsque la variable dépendante est binaire, c'est-à-dire qu'elle peut prendre deux résultats discrets ou plus. Cet article explore en profondeur la régression logistique, en abordant son histoire, ses concepts clés, ses types, ses hypothèses, ses applications avancées et les défis courants associés à son utilisation.

I. Analyse Tabulaire Multivariée : Une Approche Préliminaire

Avant d'aborder la régression logistique, il est utile de considérer une méthode plus simple et plus ancienne pour traiter des questions similaires : l'analyse tabulaire multivariée. Cette technique consiste à croiser les données dans des tableaux pour examiner l'effet de plusieurs variables sur une variable à expliquer.

Exemple : Adoption du Nouveau Style Éducatif

Prenons l'exemple de l'adoption d'un nouveau style éducatif, en tenant compte du sexe de l'enfant et du niveau d'étude du père. On peut organiser les données dans un tableau croisant ces variables avec la variable à expliquer (l'adoption du nouveau style éducatif).

Tableau 1 : Analyse Multivariée

Nouveau style éducatifOuiNonTotal
Masculin NivInf.18117135
13,33%86,67%100
Féminin NivInf.28115143
19,58%80,42%100
Masculin NivSup.2386109
21,10%78,90%100
Féminin NivSup.3194125
24,80%75,20%100
Total100412512
19,53%80,47%100

Le plus bas niveau de choix du nouveau style éducatif se trouve dans la première ligne : pour des garçons de la part d’un père de niveau d’étude inférieur, avec une proportion de 13,33 %.

Neutralisation des Effets

Pour comprendre l'effet propre de chaque variable, on peut neutraliser successivement l'effet du sexe et du niveau d'étude.

Lire aussi: Tout savoir sur la Galette des Rois

  1. Effet du sexe : En comparant les lignes avec le même niveau d'étude (inférieur ou supérieur), on peut calculer la différence de proportion d'adoption du nouveau style éducatif entre les garçons et les filles. La moyenne de ces différences donne une estimation de l'effet propre du sexe.
  2. Effet du niveau d'étude : De même, en comparant les lignes avec le même sexe (masculin ou féminin), on peut calculer la différence de proportion d'adoption du nouveau style éducatif entre les pères de niveau inférieur et supérieur. La moyenne de ces différences donne une estimation de l'effet propre du niveau d'étude.

Présentation des Données "Toutes Choses Égales Par Ailleurs"

En utilisant ces effets moyens, il devient possible de présenter les données d’une manière spécifique à l’analyse « toutes choses égales par ailleurs » : par rapport à la situation masculin et niveau inférieur, de 13,3, l’effet féminin ajoute + 5,0 et indépendamment, l’effet niveau supérieur ajoute + 6,5. On résume l’information en donnant la situation d’où l’on est parti comme référence et l’on donne séparément les deux effets.

Situation de référence : masculin niveau inf. 13,3

Effet féminin + 5,0

Effet niveau supérieur + 6,5

Limites de l'Analyse Tabulaire

Bien que simple et intuitive, l'analyse tabulaire a des limites. Elle ne permet pas de modéliser des relations complexes entre les variables et ne tient pas compte de l'interaction entre les variables. De plus, elle peut être difficile à appliquer lorsque le nombre de variables est élevé.

Lire aussi: Offrez l'aventure et l'éveil : Box Histoire et Magazines Jeunesse

II. La Régression Multiple : Une Approche Modélisée

La régression multiple, qu'elle soit linéaire ou logistique, offre une approche plus sophistiquée pour analyser l'effet de plusieurs variables sur une variable à expliquer.

Principe de la Régression Multiple

L’idée de la régression multiple (linéaire aussi bien que logistique) est d’avoir une variable à expliquer (y de y = ax + b de l’équation ordinaire d’une droite) et plusieurs variables explicatives (x1, x2, xn pour une régression multiple de la forme y = a1 x1 + a2 x2 + … + an xn + b) où les x sont la présence (notée 1) ou l’absence (notée 0) d’une modalité explicative (dans l’exemple précédent, le fait d’être de sexe féminin ou de niveau supérieur) et où les a sont des coefficients numériques qui vont être calculés. Le coefficient b est appelé l’ordonnée à l’origine (en anglais intercept).

Codage des Variables

Dans le cas d'une question à deux modalités, définir l’effet féminin, c’est rendre compte de la question en entier car la deuxième modalité a servi de repère, de référence. Quand nous aurons une question à trois modalités (ou davantage), une seule servira de référence et les autres seront toutes un effet spécifique. Si l’on veut utiliser une variable reflétant une orientation politique en droite/centre/gauche, il faudra par exemple choisir le centre comme référence et l’on aura un effet gauche et un effet droite. On prend souvent une modalité intermédiaire comme référence (par exemple pour les tranches d’âge) mais ce n’est pas une obligation : le but du choix est de rendre l’interprétation plus aisée. Il faut prendre une situation de référence pour chaque question mais on a le choix.

Prendre une modalité comme référence, c’est ne pas l’utiliser dans les données car on utilise toutes les autres modalités de la même question qui suffisent donc à l’information. Pour reprendre le codage d’une affiliation politique en trois modalités et qu’on prenne le centre comme référence, si un individu n’est ni de gauche ni de droite, c’est qu’il est du centre, même si cette modalité n’est pas indiquée, l’information qu’elle comporte est portée par les deux autres.

Les données qui sont traitées sont un tableau où, en ligne, se trouvent tous les individus de l’enquête et où, à chaque colonne, correspond une modalité (qui n’est pas la référence). Chaque modalité est codée en présence/absence, c’est-à-dire en 0/1. Pour l’exemple précédent, les trois cas possibles sont codés de la manière suivante :

Lire aussi: Histoires pour enfants de 6 ans : un monde de découvertes.

Tableau 2 : Exemple de Codage

IndividusGaucheDroite
De gauche10
De droite01
Du centre00

Si on veut garder la possibilité de non-réponse, il faut créer une modalité supplémentaire et on aurait alors le codage suivant (en conservant le centre comme référence).

Tableau 3 : Ajout de la Modalité de Non-Réponse

IndividusGaucheDroiteNon-réponse
De gauche100
De droite010
Du centre000
Non-rép.001

Régression Linéaire vs. Régression Logistique

Pour mieux comprendre prenons le cas de la régression linéaire appliqué aux trois variables précédentes : la variable à expliquer (Y) est le Nouveau style éducatif, les variables explicatives sont l’effet féminin (X1) et l’effet niveau supérieur d’éducation (X2). La manière linéaire d’écrire l’équation de régression multiple Y = a1 X1 + a2 X2 + b devient :

NouvStyle = a1 Féminin + a2 NivSup. + b.

En régression linéaire, les coefficients ont les valeurs suivantes (entre parenthèses, les valeurs correspondantes de l’analyse tabulaire avec pondération).

a1 = 5,2 (5,1) effet féminin

a2 = 6,6 (6,4) effet niveau supérieur

b = 13,8 (13,3) situation de la référence (masc., inf.).

Finalement l’équation de régression s’écrit :

NS = 5,2 Féminin + 6,6 NivSup. + 13,8

où NS désigne le Nouveau style

Selon qu’on donne la valeur 0 ou 1 à chaque modalité, selon qu’elle est présente ou absente, le modèle linéaire conduit ici à quatre situations :

Si Fém. = 1 et NivSup. = 1 NS = 5,2 + 6,6 + 13,8 = 25,6 %

Si Fém. = 1 et NivSup. = 0 NS = 5,2 + 13,8 = 19,0 %

Si Fém. = 0 et NivSup. = 1 NS = 6,6 + 13,8 = 20,4 %

Si Fém. = 0 et NivSup. = 0 NS = 13,8 = 13,8 %

En régression logistique, ce n’est plus la simple proportion p qui est estimée mais le rapport p / (1 - p) appelé en anglais odds, que l’on peut traduire par chances (on utilisera toujours le mot risques si le contexte le nécessite : on parle des chances d’avoir un examen, du risque d’être malade).

III. Chances et Rapport des Chances : Les Fondements de la Régression Logistique

En anglais, odd, sans s, désigne « la petite chose qui s’ajoute » : soit au nombre pair (even) et c’est alors le nombre impair, soit à un nombre quelconque : odd désigne alors ce qui est en plus du nombre rond (odd change désigne la monnaie faite à partir d’un billet), d’où par extension, ce qui est dépareillé ou non usuel. Passant de l’adjectif au nom au pluriel, odds passe de l’idée d’imparité à la désignation de l’inégalité, des avantages, des chances. L’usage le plus connu du mot est celui utilisé par les turfistes pour parler des chances d’un cheval, de sa cote : quand on dit que tel cheval est coté à 3 contre 1, cela signifie que sa probabilité de gagner est 3 fois plus grande que sa probabilité de perdre et donc, par conséquent, si l’on parie sur lui (et qu’il gagne) on obtiendra 3 fois la somme pariée alors que s’il perd, on perdra la mise. Les odds, les chances, mettent en rapport une situation dissymétrique : au numérateur on a la probabilité de la réussite, et, plus largement de la « bonne situation » et au dénominateur, la probabilité de l’échec, de la mauvais issue. Évidemment, la relation entre la probabilité de la réussite et celle de l’échec est la complémentarité à l’unité. Si la probabilité pour un cheval d’arriver gagnant est de 0,75, celle de son échec est de (1 - 0,75) = 0,25

et sa cote est de p / (1 - p) soit 0,75 / 0,25

c’est à dire 3 contre 1.

Une difficulté de vocabulaire vient du fait que l’on parle aussi de chances pour désigner simplement la probabilité : ce qui lève l’ambigüité est le fait que les chances au sens de cote sont toujours suivies de la mention de contre.

Ceci s’applique aussi dans le cas des cotes inférieures à 1 (car des chances supérieures à l’unité ne peuvent être confondues avec des probabilités toujours comprises entre 0 et 1). Par exemple si nous reprenons la première ligne du tableau 11 qui croise le choix d’un nouveau style éducatif avec la situation de l’élève, on a :

Tableau 4 : Nouveau Style Éducatif

Nouveau style éducatifOuiNonTotal
Masculin NivInf.18117135
13,33%86,67%100

Les chances de recevoir un nouveau style éducatif sont le rapport de la probabilité de l’avoir (18 / 135) = 0,1333 rapporté à son complément, la probabilité de ne pas l’avoir (117 / 135) = 0,8667 = (1 - 0,1333). Ces chances sont de 0,13333 / 0,8667 = 0,154 contre 1. Chances qui peuvent être calculées plus simplement en faisant le rapport des effectifs : 18 / 117 = 0,154.

Plutôt que le rapport 0,154 / 1 qui ne parle pas à l’imagination, on le multipliera par 10 (ou par 100) et l’on dira que les chances de recevoir un nouveau style d’éducation pour ces garçons de faible niveau est de 1,54 contre 10 (de ne pas le recevoir) ou de 15,4 contre 100. Évidemment si l’on considérait les risques plutôt que les chances, ils seraient de l’inverse soit 117 / 18 = 6,5 de ne pas recevoir un nouveau style éducatif contre 1 (de le recevoir).

Le tableau suivant nous donne le calcul pour les quatre situations :

Tableau 5 : Chances du Nouveau Style Éducatif

Chances du nouveau style éducatifEffectif ouiEffectif nonChances = Oui/Non
Masculin NivInf.181170,1538
Féminin NivInf.281150,2435
Masculin NivSup.23860,2674
Féminin NivSup.31940,3298

IV. Comprendre la Régression Logistique

La régression logistique est une méthode d'analyse statistique fondamentale utilisée pour comprendre la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Elle est particulièrement utile lorsque la variable dépendante est catégorique, c'est-à-dire qu'elle peut prendre deux résultats discrets ou plus. Cela fait de la régression logistique un outil essentiel dans des domaines allant de la médecine au marketing, où il est essentiel de prédire des résultats binaires tels que "malade ou en bonne santé" ou "acheter ou ne pas acheter".

Qu'est-ce que la Régression Logistique ?

À la base, la régression logistique est une analyse prédictive. Elle estime la probabilité d'un résultat binaire en fonction d'une ou plusieurs variables indépendantes. Par exemple, elle peut prédire si un étudiant réussira ou échouera à un examen en fonction des heures étudiées, des notes obtenues aux examens précédents et d'autres facteurs pertinents. Contrairement à la régression linéaire, qui prédit des résultats continus, la régression logistique traite des probabilités et est classée dans les modèles de régression binomiale.

Concepts Clés de la Formule de Régression Logistique

Il est essentiel de comprendre la formule de régression logistique pour saisir comment les prédictions sont faites. La formule incorpore le concept des cotes et des rapports de cotes, qui expriment la probabilité qu'un événement se produise ou ne se produise pas. L'essentiel du pouvoir prédictif de la régression logistique réside dans la fonction logistique, également connue sous le nom de fonction sigmoïde, qui associe toute entrée à une valeur comprise entre 0 et 1, représentant une probabilité.

La fonction logistique est représentée par :

[\frac{1}{1+e^{-z}}]

où e est la base du logarithme naturel, et z est la combinaison linéaire des variables indépendantes, donnée par :

[z = b0 + b1x1 + b2x2 + … + bnx_n]

  • b0 est l'ordonnée à l'origine de l'équation de régression.
  • b1, b2, …, bn sont les coefficients des variables indépendantes x1, x2, …, xn.

Faire la Différence entre la Régression Linéaire et la Régression Logistique

La principale différence entre la régression linéaire et la régression logistique réside dans la nature de la variable dépendante. La régression linéaire est utilisée lorsque la variable dépendante est continue, ce qui signifie qu'elle peut prendre n'importe quelle valeur dans une fourchette. À l'inverse, la régression logistique est employée lorsque la variable dépendante est catégorique, en particulier binaire. Cette différence fondamentale conditionne le choix du modèle, l'interprétation des coefficients et le type de prédictions que chaque modèle peut fournir.

En outre, l'approche mathématique de chaque modèle diffère considérablement. La régression linéaire utilise une ligne droite (équation linéaire) pour modéliser la relation entre les variables, tandis que la régression logistique utilise la fonction logistique (sigmoïde) pour encapsuler la probabilité du résultat binaire. Cette différence entraîne des méthodes distinctes pour l'estimation des paramètres du modèle et l'interprétation des résultats.

V. Types de Régression Logistique

La régression logistique est une méthode puissante pour modéliser et prédire des résultats catégoriels. Elle s'adapte principalement aux scénarios dans lesquels la variable dépendante est binaire, multinomiale ou ordinale. Chaque type de régression logistique répond à des types distincts de problèmes prédictifs, ce qui la rend extrêmement polyvalente dans diverses applications.

Régression Logistique Binaire

La régression logistique binaire est la forme la plus courante de régression logistique. Elle est utilisée lorsque la variable dépendante est dichotomique, c'est-à-dire qu'elle ne peut prendre qu'une des deux valeurs possibles. En général, ces valeurs représentent des résultats tels que succès/échec, oui/non ou 1/0.

Le cœur de la régression logistique binaire consiste à prédire la probabilité qu'une entrée donnée appartienne à une catégorie spécifique (souvent étiquetée comme 1). Cette probabilité est ensuite utilisée pour classer l'entrée dans la catégorie 1 ou 0 en fonction d'un seuil prédéfini, généralement 0,5.

tags: #histoire #de #la #régression #logistique

Articles populaires:

Share: