Extraction de fonctionnalités avec PySpark

Dans ce chapitre, nous allons découvrir l'application des fonctionnalités d'extraction avec PySpark dans Agile Data Science.

Présentation de Spark

Apache Spark peut être défini comme une infrastructure de traitement en temps réel rapide. Il effectue des calculs pour analyser les données en temps réel. Apache Spark est présenté comme un système de traitement de flux en temps réel et peut également prendre en charge le traitement par lots. Apache Spark prend en charge les requêtes interactives et les algorithmes itératifs.

Spark est écrit en «langage de programmation Scala».

PySpark peut être considéré comme une combinaison de Python avec Spark. PySpark propose le shell PySpark, qui relie l'API Python au cœur Spark et initialise le contexte Spark. La plupart des spécialistes des données utilisent PySpark pour suivre les fonctionnalités, comme indiqué dans le chapitre précédent.

Dans cet exemple, nous nous concentrerons sur les transformations pour créer un ensemble de données appelé count et l'enregistrer dans un fichier particulier.

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

En utilisant PySpark, un utilisateur peut travailler avec des RDD en langage de programmation python. La bibliothèque intégrée, qui couvre les bases des documents et des composants basés sur les données, y contribue.