Tutoriel PySpark

Apache Spark est écrit en langage de programmation Scala. Pour prendre en charge Python avec Spark, la communauté Apache Spark a publié un outil, PySpark. En utilisant PySpark, vous pouvez également travailler avec des RDD en langage de programmation Python. C'est grâce à une bibliothèque appelée Py4j qu'ils peuvent y parvenir. Il s'agit d'un didacticiel d'introduction qui couvre les bases des documents pilotés par les données et explique comment gérer ses divers composants et sous-composants.

Ce tutoriel est préparé pour les professionnels qui aspirent à faire carrière dans le langage de programmation et le cadre de traitement en temps réel. Ce tutoriel est destiné à rendre les lecteurs à l'aise pour démarrer avec PySpark avec ses différents modules et sous-modules.

Avant de passer aux différents concepts donnés dans ce didacticiel, on suppose que les lecteurs sont déjà conscients de ce qu'est un langage de programmation et un cadre. En plus de cela, cela sera très utile si les lecteurs ont une bonne connaissance d'Apache Spark, d'Apache Hadoop, du langage de programmation Scala, du système de fichiers distribués Hadoop (HDFS) et de Python.