PySpark - Présentation

Dans ce chapitre, nous allons nous familiariser avec ce qu'est Apache Spark et comment PySpark a été développé.

Spark - Présentation

Apache Spark est un cadre de traitement en temps réel ultra-rapide. Il effectue des calculs en mémoire pour analyser les données en temps réel. Il est entré en image commeApache Hadoop MapReduceeffectuait uniquement un traitement par lots et ne disposait pas d'une fonction de traitement en temps réel. Par conséquent, Apache Spark a été introduit car il peut effectuer le traitement de flux en temps réel et peut également prendre en charge le traitement par lots.

Outre le traitement en temps réel et par lots, Apache Spark prend également en charge les requêtes interactives et les algorithmes itératifs. Apache Spark possède son propre gestionnaire de cluster, où il peut héberger son application. Il exploite Apache Hadoop pour le stockage et le traitement. Il utiliseHDFS (Système de fichiers distribués Hadoop) pour le stockage et il peut exécuter des applications Spark sur YARN ainsi que.