Différence entre l'arbre de décision et la forêt aléatoire

Table des matières:

Qu'est-ce que l'arbre de décision
Qu'est-ce que la forêt aléatoire
Différence entre l'arbre de décision et la forêt aléatoire

Les différence principale entre l'arbre de décision et la forêt aléatoire est que un arbre de décision est un graphique qui utilise une méthode de branchement pour illustrer chaque résultat possible d'une décision tandis qu'une forêt aléatoire est un ensemble d'arbres de décision qui donne le résultat final en fonction des sorties de tous ses arbres de décision.

L'apprentissage automatique est une application de l'intelligence artificielle, qui donne à un système la capacité d'apprendre et de s'améliorer en fonction de l'expérience passée. L'arbre de décision et la forêt aléatoire sont deux techniques d'apprentissage automatique. Un arbre de décision cartographie les résultats possibles d'une série de choix liés. Il est populaire parce qu'il est simple et plus facile à comprendre. Lorsque l'ensemble de données devient beaucoup plus volumineux, un seul arbre de décision ne suffit pas pour trouver la prédiction. Une forêt aléatoire, qui est une collection d'arbres de décision, est une alternative à ce problème. La sortie de la forêt aléatoire est basée sur les sorties de tous ses arbres de décision.

Arbre de décision, Machine Learning, Forêt aléatoire

Qu'est-ce que l'arbre de décision

Un arbre de décision est un diagramme en forme d'arbre qui est utilisé pour déterminer un plan d'action. Chaque branche de l'arbre représente une décision, une occurrence ou une réaction possible.

Plusieurs termes sont associés à un arbre de décision. L'entropie est la mesure de l'imprévisibilité dans l'ensemble de données. Après avoir divisé l'ensemble de données, le niveau d'entropie diminue à mesure que l'imprévisibilité diminue. Le gain d'information est la diminution de l'entropie après avoir craché l'ensemble de données. Il est important de diviser les données de manière à ce que le gain d'informations soit plus élevé. Les décisions finales ou les classifications sont appelées les nœuds feuilles. Le nœud le plus haut ou le nœud principal est appelé nœud racine. L'ensemble de données doit être divisé jusqu'à ce que l'entropie finale devienne zéro.

Un arbre de décision simple est le suivant.

Figure 1: Arbre de décision

L'arbre de décision ci-dessus classe un ensemble de fruits. Il y a 4 raisins, 2 pommes et 2 oranges. Lorsque l'on considère le diamètre inférieur à 5, les raisins sont classés d'un côté tandis que les oranges et les pommes de l'autre côté. Les raisins ne peuvent pas être classés davantage car ils ont une entropie nulle. Lors de la catégorisation en fonction de la couleur, c'est-à-dire que le fruit soit rouge ou non, les pommes sont classées d'un côté tandis que les oranges sont classées de l'autre. Ainsi, cet arbre de décision classe une pomme, un raisin ou une orange avec une précision de 100 %.

Dans l'ensemble, un arbre de décision est simple à comprendre, plus facile à interpréter et à visualiser. Il ne nécessite pas beaucoup de préparation des données. Il peut gérer à la fois des données numériques et catégorielles. D'autre part, le bruit dans les données peut provoquer un surapprentissage. De plus, le modèle peut également devenir instable en raison de petites variations.

Qu'est-ce que la forêt aléatoire

La forêt aléatoire est une méthode qui fonctionne en construisant plusieurs arbres de décision pendant la phase d'apprentissage. Les décisions de la majorité des arbres sont la décision finale de la forêt aléatoire. Un exemple simple est le suivant.

Supposons qu'il y ait un ensemble de fruits (cerises, pommes et oranges). Voici les trois arbres de décision qui catégorisent ces trois types de fruits.

Figure 2: Arbre de décision 1

Figure 3: Arbre de décision 2

Figure 4: Arbre de décision 3

Un nouveau fruit dont le diamètre est de 3 est donné au modèle. Ce fruit est de couleur orange et pousse en été. Le premier arbre de décision le classera comme orange. Le deuxième arbre de décision le classera comme une cerise tandis que le troisième arbre de décision le classera comme une orange. Lorsque l'on considère les trois arbres, il y a deux sorties pour l'orange. Par conséquent, la sortie finale de la forêt aléatoire est une orange.

Dans l'ensemble, la forêt aléatoire fournit des résultats précis sur un ensemble de données plus important. Il réduit également le risque de surajustement.

Différence entre l'arbre de décision et la forêt aléatoire

Définition

Un arbre de décision est un outil d'aide à la décision qui utilise un graphique ou un modèle arborescent de décisions et de leurs conséquences possibles, y compris les résultats d'événements aléatoires, les coûts des ressources et l'utilité. Les forêts aléatoires sont une méthode d'apprentissage d'ensemble qui fonctionne en construisant une multitude d'arbres de décision au moment de la formation et en produisant la classe en fonction des arbres individuels.

Surapprentissage

Il existe une possibilité de surapprentissage dans un arbre de décision. L'utilisation de plusieurs arbres dans la forêt aléatoire réduit le risque de surapprentissage.

Précision

Une forêt aléatoire donne des résultats plus précis qu'un arbre de décision.

Complexité

Un arbre de décision est plus simple et plus facile à comprendre, à interpréter et à visualiser qu'une forêt aléatoire, qui est comparativement plus complexe.

Conclusion

La différence entre un arbre de décision et une forêt aléatoire est qu'un arbre de décision est un graphique qui utilise une méthode de branchement pour illustrer chaque résultat possible d'une décision, tandis qu'une forêt aléatoire est un ensemble d'arbres de décision qui donne le résultat final basé sur les sorties de tous ses arbres de décision.