Statistiques - Qualité de l'ajustement

le Goodness of Fittest est utilisé pour vérifier les données de l'échantillon si elles correspondent à une distribution d'une population. La population peut avoir une distribution normale ou une distribution de Weibull. En termes simples, cela signifie que les données d'échantillon représentent correctement les données que nous nous attendons à trouver dans la population réelle. Les tests suivants sont généralement utilisés par les statisticiens:

  • Chi-square

  • Kolmogorov-Smirnov

  • Anderson-Darling

  • Shipiro-Wilk

Test du chi carré

Le test du chi carré est le plus couramment utilisé pour tester la qualité des tests d'ajustement et est utilisé pour les distributions discrètes comme la distribution binomiale et la distribution de Poisson, tandis que les tests d'ajustement de Kolmogorov-Smirnov et Anderson-Darling sont utilisés pour les distributions continues. .

Formule

$ {X ^ 2 = \ sum {[\ frac {(O_i - E_i) ^ 2} {E_i}]}} $

Où -

  • $ {O_i} $ = valeur observée du i ème niveau de variable.

  • $ {E_i} $ = valeur attendue du i ème niveau de variable.

  • $ {X ^ 2} $ = variable aléatoire chi-carré.

Exemple

Une entreprise de jouets fabrique des jouets pour joueurs de football. Il affirme que 30% des cartes sont des joueurs de milieu de terrain, 60% des défenseurs et 10% des attaquants. En considérant un échantillon aléatoire de 100 jouets, 50 joueurs de milieu de terrain, 45 défenseurs et 5 attaquants. Étant donné le niveau de signification de 0,05, pouvez-vous justifier l'affirmation de l'entreprise?

Solution:

Déterminer les hypothèses

  • Null hypothesis $ H_0 $ - La proportion de milieu de terrain, défenseurs et attaquants est respectivement de 30%, 60% et 10%.

  • Alternative hypothesis $ H_1 $ - Au moins une des proportions de l'hypothèse nulle est fausse.

Déterminer le degré de liberté

Les degrés de liberté, DF est égal au nombre de niveaux (k) de la variable catégorielle moins 1: DF = k - 1. Ici les niveaux sont 3. Ainsi

$ {DF = k - 1 \\ [7pt] \, = 3 -1 = 2} $

Déterminer la statistique du test du chi carré

$ {X ^ 2 = \ sum {[\ frac {(O_i - E_i) ^ 2} {E_i}]} \\ [7pt] \, = [\ frac {(50-30) ^ 2} {30}] + [\ frac {(45-60) ^ 2} {60}] + [\ frac {(5-10) ^ 2} {10}] \\ [7pt] \, = \ frac {400} {30} + \ frac {225} {60} + \ frac {25} {10} \\ [7pt] \, = 13,33 + 3,75 + 2,50 \\ [7pt] \, = 19,58} $

Déterminer la valeur p

La valeur P est la probabilité qu'une statistique du chi carré, $ X ^ 2 $ ayant 2 degrés de liberté soit plus extrême que 19,58. Utilisez le calculateur de distribution du chi carré pour trouver $ {P (X ^ 2 \ gt 19,58) = 0,0001} $.

Interpréter les résultats

Comme la valeur P (0,0001) est bien inférieure au niveau de signification (0,05), l'hypothèse nulle ne peut être acceptée. Ainsi, la réclamation de la société est invalide.