Techniques de régression

La régression est une technique statistique qui aide à qualifier la relation entre les variables économiques interdépendantes. La première étape consiste à estimer le coefficient de la variable indépendante puis à mesurer la fiabilité du coefficient estimé. Cela nécessite de formuler une hypothèse, et sur la base de l'hypothèse, nous pouvons créer une fonction.

Si un dirigeant souhaite déterminer la relation entre les dépenses publicitaires de l'entreprise et ses revenus de vente, il subira le test d'hypothèse. En supposant que des dépenses publicitaires plus élevées conduisent à des ventes plus élevées pour une entreprise. Le gestionnaire recueille des données sur les dépenses publicitaires et sur les revenus des ventes sur une période donnée. Cette hypothèse peut être traduite en fonction mathématique, où elle conduit à -

Y = A + Bx

Y est les ventes, x est la dépense publicitaire, A et B sont constants.

Après avoir traduit l'hypothèse en fonction, la base pour cela est de trouver la relation entre les variables dépendantes et indépendantes. La valeur de la variable dépendante est la plus importante pour les chercheurs et dépend de la valeur d'autres variables. Une variable indépendante est utilisée pour expliquer la variation de la variable dépendante. Il peut être classé en deux types -

  • Simple regression - Une variable indépendante

  • Multiple regression - Plusieurs variables indépendantes

Régression simple

Voici les étapes pour construire une analyse de régression -

  • Spécifiez le modèle de régression
  • Obtenir des données sur les variables
  • Estimer les relations quantitatives
  • Tester la signification statistique des résultats
  • Utilisation des résultats dans la prise de décision

La formule de la régression simple est -

Y = a + bX + u

Y= variable dépendante

X= variable indépendante

a= intercepter

b= pente

u= facteur aléatoire

Les données transversales fournissent des informations sur un groupe d'entités à un moment donné, tandis que les données de séries chronologiques fournissent des informations sur une entité au fil du temps. Lorsque nous estimons l'équation de régression, cela implique le processus de recherche de la meilleure relation linéaire entre les variables dépendantes et indépendantes.

Méthode des moindres carrés ordinaires (MCO)

La méthode des moindres carrés ordinaires est conçue pour ajuster une ligne à travers une dispersion de points de telle sorte que la somme des écarts au carré des points par rapport à la ligne soit minimisée. C'est une méthode statistique. Habituellement, les progiciels effectuent une estimation OLS.

Y = a + bX

Coefficient de détermination (R 2 )

Le coefficient de détermination est une mesure qui indique que le pourcentage de variation de la variable dépendante est dû aux variations des variables indépendantes. R 2 est une mesure de la qualité du modèle d'ajustement. Voici les méthodes -

Somme totale des carrés (TSS)

Somme des écarts au carré des valeurs d'échantillon de Y par rapport à la moyenne de Y.

TSS = SUM ( Yi − Y)2

Yi = variables dépendantes

Y = moyenne des variables dépendantes

i = nombre d'observations

Régression Somme des carrés (RSS)

Somme des écarts au carré des valeurs estimées de Y par rapport à la moyenne de Y.

RSS = SUM ( Ỷi − uY)2

i = valeur estimée de Y

Y = moyenne des variables dépendantes

i = nombre de variations

Somme des carrés d'erreur (ESS)

Somme des écarts au carré des valeurs d'échantillon de Y par rapport aux valeurs estimées de Y.

ESS = SUM ( Yi − Ỷi)2

i = valeur estimée de Y

Yi = variables dépendantes

i = nombre d'observations

R2 =
RSS / TSS
= 1 -
ESS / TSS

R 2 mesure la proportion de l'écart total de Y par rapport à sa moyenne qui est expliquée par le modèle de régression. Plus le R 2 est proche de l' unité, plus le pouvoir explicatif de l'équation de régression est grand. Un R 2 proche de 0 indique que l'équation de régression aura très peu de pouvoir explicatif.

Pour évaluer les coefficients de régression, un échantillon de la population est utilisé plutôt que l'ensemble de la population. Il est important de formuler des hypothèses sur la population sur la base de l'échantillon et de juger de la qualité de ces hypothèses.

Évaluation des coefficients de régression

Chaque échantillon de la population génère sa propre interception. Pour calculer la différence statistique, les méthodes suivantes peuvent être utilisées -

Two tailed test −

Hypothèse nulle: H 0 : b = 0

Hypothèse alternative: H a : b ≠ 0

One tailed test −

Hypothèse nulle: H 0 : b> 0 (ou b <0)

Hypothèse alternative: H a : b <0 (ou b> 0)

Statistic Test −

t =
(b - E (b)) / SE b

b = coefficient estimé

E (b) = b = 0 (hypothèse nulle)

SE b = Erreur type du coefficient

.

Valeur de tdépend du degré de liberté, d'un ou deux tests échoués et du niveau de signification. Pour déterminer la valeur critique det, la table en t peut être utilisée. Vient ensuite la comparaison de la valeur t avec la valeur critique. Il faut rejeter l'hypothèse nulle si la valeur absolue du test statistique est supérieure ou égale à la valeur t critique. Ne rejetez pas l'hypothèse nulle, I la valeur absolue du test statistique est inférieure à la valeur t critique.

Analyse de régression multiple

Contrairement à la régression simple dans l'analyse de régression multiple, les coefficients indiquent le changement des variables dépendantes en supposant que les valeurs des autres variables sont constantes.

Le test de signification statistique est appelé F-test. Le test F est utile car il mesure la signification statistique de l'équation de régression dans son ensemble plutôt que pour un individu uniquement. Ici En hypothèse nulle, il n'y a pas de relation entre la variable dépendante et les variables indépendantes de la population.

La formule est - H 0 : b1 = b2 = b3 =…. = bk = 0

Aucune relation n'existe entre la variable dépendante et le k variables indépendantes pour la population.

F-test static −

$$ F \: = \: \ frac {\ left (\ frac {R ^ 2} {K} \ right)} {\ frac {(1-R ^ 2)} {(nk-1)}} $$

Valeur critique de Fdépend du degré de liberté et du niveau de signification du numérateur et du dénominateur. La table F peut être utilisée pour déterminer la valeur F critique. Par rapport à la valeur F avec la valeur critique (F *) -

Si F> F *, nous devons rejeter l'hypothèse nulle.

Si F <F *, ne rejetez pas l'hypothèse nulle car il n'y a pas de relation significative entre la variable dépendante et toutes les variables indépendantes.