Différence entre la régression linéaire et la régression logistique

Table des matières:

Anonim

Les différence principale entre la régression linéaire et la régression logistique est que le la régression linéaire est utilisée pour prédire une valeur continue tandis que la régression logistique est utilisée pour prédire une valeur discrète.

Les systèmes d'apprentissage automatique peuvent prédire les résultats futurs en fonction de la formation des entrées passées. Il existe deux principaux types d'apprentissage automatique appelés apprentissage supervisé et apprentissage non supervisé. La régression et la classification relèvent de l'apprentissage supervisé, tandis que le clustering relève de l'apprentissage non supervisé. Les algorithmes d'apprentissage supervisé utilisent des données étiquetées pour entraîner l'ensemble de données. La régression linéaire et la régression logistique sont deux types d'algorithmes d'apprentissage supervisé. La régression linéaire est utilisée lorsque la variable dépendante est continue et que le modèle est linéaire. La régression logistique est utilisée lorsque la variable dépendante est discrète et que le modèle est non linéaire.

Régression linéaire, régression logistique, apprentissage automatique

Qu'est-ce que la régression linéaire

La régression linéaire trouve la relation entre les variables indépendantes et dépendantes. Les deux sont contigus. La variable indépendante est la variable qui n'est pas modifiée par les autres variables. Il est noté x. Il peut également y avoir plusieurs variables indépendantes telles que x1, x2, x3, etc. La variable dépendante change en fonction de la variable indépendante et est désignée par y.

Lorsqu'il y a une variable indépendante, l'équation de régression est la suivante.

y = b0+ b1x

Par exemple, supposons que x représente les précipitations et y représente le rendement des cultures.

Figure 1: Régression linéaire

L'ensemble de données ressemblera à ci-dessus. Ensuite, une ligne qui couvre la plupart des points de données est sélectionnée. Cette ligne représente les valeurs prédites.

Figure 2: Distance entre les points de données réels et les valeurs prédites

Ensuite, la distance entre chaque point de données et la ligne est trouvée comme indiqué dans le graphique ci-dessus. Il s'agit de la distance entre la valeur réelle et la valeur prédite. Cette distance est également connue sous le nom d'erreur ou de résidus. La ligne la mieux ajustée doit avoir la plus petite somme de carrés d'erreurs. Lorsqu'une nouvelle valeur de précipitation est donnée (x), il est possible de trouver le rendement de culture correspondant (y) en utilisant cette ligne.

Dans le monde réel, il peut y avoir plusieurs variables indépendantes (x1, x2, x3…). C'est ce qu'on appelle la régression linéaire multiple. L'équation de régression linéaire multiple est la suivante.

Qu'est-ce que la régression logistique

La régression logistique peut être utilisée pour classer deux classes. Il est également connu sous le nom classement binaire. Vérifier si un e-mail est un spam ou non, prédire si un client achètera un produit ou non, prédire s'il est possible d'obtenir une promotion ou non sont d'autres exemples de régression logistique.

Figure 3: Régression logistique

Supposons que le nombre d'heures qu'un étudiant a étudié par jour est la variable indépendante. En fonction de cela, la probabilité de réussir un examen est calculée. La valeur 0.5 considérée comme seuil. Lorsque le nouveau nombre d'heures est donné, il est possible de trouver la probabilité correspondante de réussir l'examen à l'aide de ce graphique. Si la probabilité est supérieure à 0,5, elle est considérée comme 1 ou passe. Si la probabilité est inférieure à 0,5, alors elle est considérée comme 0 ou échoue.

L'application de l'équation de régression linéaire à la fonction sigmoïde donnera l'équation de régression logistique.

La fonction sigmoïde est

Un autre point important à noter est que la régression logistique n'est applicable que pour classer 2 classes. Il n'est pas utilisé pour la classification multiclasse.

Différence entre la régression linéaire et la régression logistique

Définition

La régression linéaire est une approche linéaire qui modélise la relation entre une variable dépendante et une ou plusieurs variables indépendantes. En revanche, la régression logistique est un modèle statistique qui prédit la probabilité d'un résultat qui ne peut avoir que deux valeurs.

Usage

Alors que la régression linéaire est utilisée pour résoudre les problèmes de régression, la régression logistique est utilisée pour résoudre les problèmes de classification (classification binaire).

Méthodologie

La régression linéaire estime la variable dépendante lorsqu'il y a un changement dans la variable indépendante. La régression logistique calcule la possibilité qu'un événement se produise. C'est une différence importante entre la régression linéaire et la régression logistique.

Valeur de sortie

De plus, dans la régression linéaire, la valeur de sortie est continue. Dans la régression logistique, la valeur de sortie est discrète.

Modèle

Bien que la régression linéaire utilise une ligne droite, la régression logistique utilise une courbe en S ou une fonction sigmoïde. C'est une autre différence importante entre la régression linéaire et la régression logistique.

Exemples

Prédire le PIB d'un pays, prédire le prix d'un produit, prédire le prix de vente d'une maison, prédire le score sont quelques exemples de régression linéaire. Prédire si un e-mail est un spam ou non, prédire si la transaction par carte de crédit est frauduleuse ou non, prédire si un client contractera ou non un prêt sont quelques exemples de régression logistique.

Conclusion

La différence entre la régression linéaire et la régression logistique est que la régression linéaire est utilisée pour prédire une valeur continue tandis que la régression logistique est utilisée pour prédire une valeur discrète. En bref, la régression linéaire est utilisée pour la régression tandis que la régression logistique est utilisée pour la classification.

Référence:

1. Analyse de régression linéaire | Régression linéaire en Python | Algorithmes d'apprentissage automatique | Simplilearn, 26 mars 2018, disponible ici.2. Régression logistique | Régression logistique en Python | Algorithmes d'apprentissage automatique | Simplilearn, 22 mars 2018, disponible ici.

Image de courtoisie:

1. «Régression linéaire» de Sewaqu - Travail personnel, domaine public) via Commons Wikimedia2. «Résidus pour l'ajustement par régression linéaire» de Thomas.haslwanter - Travail personnel (CC BY-SA 3.0) via Commons Wikimedia3. "Courbe logistique" de Qef (discussion) - Créé à partir de zéro avec gnuplot (domaine public) via Commons Wikimedia

Différence entre la régression linéaire et la régression logistique