PySpark - Configuration de l'environnement

Dans ce chapitre, nous allons comprendre la configuration de l'environnement de PySpark.

Note - Cela tient compte du fait que Java et Scala sont installés sur votre ordinateur.

Laissez-nous maintenant télécharger et configurer PySpark avec les étapes suivantes.

Step 1- Accédez à la page de téléchargement officielle d'Apache Spark et téléchargez la dernière version d'Apache Spark disponible. Dans ce tutoriel, nous utilisonsspark-2.1.0-bin-hadoop2.7.

Step 2- Maintenant, extrayez le fichier tar Spark téléchargé. Par défaut, il sera téléchargé dans le répertoire Téléchargements.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

Cela créera un répertoire spark-2.1.0-bin-hadoop2.7. Avant de démarrer PySpark, vous devez définir les environnements suivants pour définir le chemin Spark et lePy4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

Ou, pour définir globalement les environnements ci-dessus, placez-les dans le .bashrc file. Exécutez ensuite la commande suivante pour que les environnements fonctionnent.

# source .bashrc

Maintenant que tous les environnements sont définis, allons dans le répertoire Spark et appelons le shell PySpark en exécutant la commande suivante -

# ./bin/pyspark

Cela démarrera votre shell PySpark.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<