Big Data Analytics - Méthodologie

En termes de méthodologie, l'analyse des mégadonnées diffère considérablement de l'approche statistique traditionnelle de la conception expérimentale. L'analyse commence par les données. Normalement, nous modélisons les données de manière à expliquer une réponse. Les objectifs de cette approche sont de prédire le comportement de la réponse ou de comprendre comment les variables d'entrée sont liées à une réponse. Normalement, dans les modèles expérimentaux statistiques, une expérience est développée et les données sont récupérées en conséquence. Cela permet de générer des données d'une manière qui peut être utilisée par un modèle statistique, où certaines hypothèses sont valables telles que l'indépendance, la normalité et la randomisation.

Dans l'analyse de Big Data, nous sommes présentés avec les données. Nous ne pouvons pas concevoir une expérience qui réponde à notre modèle statistique préféré. Dans les applications d'analyse à grande échelle, une grande quantité de travail (normalement 80% de l'effort) est nécessaire uniquement pour nettoyer les données, afin qu'elles puissent être utilisées par un modèle d'apprentissage automatique.

Nous n'avons pas de méthodologie unique à suivre dans de vraies applications à grande échelle. Normalement, une fois le problème commercial défini, une étape de recherche est nécessaire pour concevoir la méthodologie à utiliser. Cependant, des directives générales sont pertinentes pour être mentionnées et s'appliquent à presque tous les problèmes.

L'une des tâches les plus importantes de l'analyse du Big Data est statistical modeling, ce qui signifie des problèmes de classification ou de régression supervisés et non supervisés. Une fois que les données sont nettoyées et prétraitées, disponibles pour la modélisation, il faut prendre soin d'évaluer différents modèles avec des métriques de perte raisonnables, puis une fois le modèle mis en œuvre, une évaluation plus approfondie et des résultats doivent être rapportés. Un piège courant dans la modélisation prédictive est de simplement implémenter le modèle et de ne jamais mesurer ses performances.