Exploration de données - Classification bayésienne

La classification bayésienne est basée sur le théorème de Bayes. Les classificateurs bayésiens sont les classificateurs statistiques. Les classificateurs bayésiens peuvent prédire les probabilités d'appartenance à une classe, telles que la probabilité qu'un tuple donné appartienne à une classe particulière.

Théorème de Baye

Le théorème de Bayes porte le nom de Thomas Bayes. Il existe deux types de probabilités -

  • Probabilité postérieure [P (H / X)]
  • Probabilité antérieure [P (H)]

où X est un tuple de données et H est une hypothèse.

Selon le théorème de Bayes,

P (H / X) = P (X / H) P (H) / P (X)

Réseau de croyances bayésiennes

Les réseaux de croyances bayésiennes spécifient des distributions de probabilité conditionnelles conjointes. Ils sont également connus sous le nom de réseaux de croyances, de réseaux bayésiens ou de réseaux probabilistes.

  • Un réseau de croyances permet de définir des indépendances conditionnelles de classe entre des sous-ensembles de variables.

  • Il fournit un modèle graphique de relation causale sur lequel l'apprentissage peut être effectué.

  • Nous pouvons utiliser un réseau bayésien qualifié pour la classification.

Il y a deux composants qui définissent un réseau de croyances bayésiennes -

  • Graphe acyclique dirigé
  • Un ensemble de tables de probabilités conditionnelles

Graphe acyclique dirigé

  • Chaque nœud d'un graphe acyclique dirigé représente une variable aléatoire.
  • Ces variables peuvent être discrètes ou évaluées en continu.
  • Ces variables peuvent correspondre à l'attribut réel donné dans les données.

Représentation de graphe acyclique dirigée

Le diagramme suivant montre un graphe acyclique dirigé pour six variables booléennes.

L'arc dans le diagramme permet de représenter la connaissance causale. Par exemple, le cancer du poumon est influencé par les antécédents familiaux de cancer du poumon d'une personne, ainsi que par le fait que la personne fume ou non. Il est à noter que la variable PositiveXray est indépendante du fait que le patient a des antécédents familiaux de cancer du poumon ou que le patient est un fumeur, étant donné que nous savons que le patient a un cancer du poumon.

Table de probabilité conditionnelle

La table de probabilité conditionnelle pour les valeurs de la variable LungCancer (LC) montrant chaque combinaison possible des valeurs de ses nœuds parents, FamilyHistory (FH) et Smoker (S) est la suivante -