Apache Spark - Guide rapide

Vous trouverez ci-dessous une liste des transformations RDD.

S.Non	Transformations et signification
1	map(func) Renvoie un nouvel ensemble de données distribué, formé en passant chaque élément de la source via une fonction func.
2	filter(func) Renvoie un nouvel ensemble de données formé en sélectionnant les éléments de la source sur lesquels func renvoie vrai.
3	flatMap(func) Similaire à map, mais chaque élément d'entrée peut être mappé à 0 ou plusieurs éléments de sortie (donc func doit renvoyer un Seq plutôt qu'un seul élément).
4	mapPartitions(func) Similaire à map, mais s'exécute séparément sur chaque partition (bloc) du RDD, donc func doit être de type Iterator <T> ⇒ Iterator <U> lors de l'exécution sur un RDD de type T.
5	mapPartitionsWithIndex(func) Similaire à la carte des partitions, mais fournit également func avec une valeur entière représentant l'index de la partition, donc func doit être de type (Int, Iterator <T>) ⇒ Iterator <U> lors de l'exécution sur un RDD de type T.
6	sample(withReplacement, fraction, seed) Échantillon d'un fraction des données, avec ou sans remplacement, en utilisant une graine de générateur de nombres aléatoires donnée.
sept	union(otherDataset) Renvoie un nouvel ensemble de données qui contient l'union des éléments de l'ensemble de données source et de l'argument.
8	intersection(otherDataset) Renvoie un nouveau RDD contenant l'intersection des éléments du jeu de données source et de l'argument.
9	distinct([numTasks]) Renvoie un nouvel ensemble de données qui contient les éléments distincts de l'ensemble de données source.
dix	groupByKey([numTasks]) Lorsqu'il est appelé sur un ensemble de données de paires (K, V), renvoie un ensemble de données de paires (K, Iterable <V>). Note - Si vous groupez afin d'effectuer une agrégation (telle qu'une somme ou une moyenne) sur chaque clé, l'utilisation de reductionByKey ou aggregateByKey donnera de bien meilleures performances.
11	reduceByKey(func, [numTasks]) Lorsqu'il est appelé sur un ensemble de données de paires (K, V), renvoie un ensemble de données de paires (K, V) où les valeurs de chaque clé sont agrégées en utilisant la fonction de réduction donnée func , qui doit être de type (V, V) ⇒ V Comme dans groupByKey, le nombre de tâches de réduction est configurable via un deuxième argument facultatif.
12	aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) Lorsqu'il est appelé sur un ensemble de données de paires (K, V), renvoie un ensemble de données de paires (K, U) où les valeurs de chaque clé sont agrégées à l'aide des fonctions de combinaison données et d'une valeur neutre "zéro". Permet un type de valeur agrégée différent du type de valeur d'entrée, tout en évitant les allocations inutiles. Comme dans groupByKey, le nombre de tâches de réduction est configurable via un deuxième argument facultatif.
13	sortByKey([ascending], [numTasks]) Lorsqu'il est appelé sur un ensemble de données de paires (K, V) où K implémente Ordered, renvoie un ensemble de données de paires (K, V) triées par clés dans l'ordre croissant ou décroissant, comme spécifié dans l'argument ascendant booléen.
14	join(otherDataset, [numTasks]) Lorsqu'il est appelé sur des ensembles de données de type (K, V) et (K, W), renvoie un ensemble de données de paires (K, (V, W)) avec toutes les paires d'éléments pour chaque clé. Les jointures externes sont prises en charge via leftOuterJoin, rightOuterJoin et fullOuterJoin.
15	cogroup(otherDataset, [numTasks]) Lorsqu'il est appelé sur des ensembles de données de type (K, V) et (K, W), renvoie un ensemble de données de tuples (K, (Iterable <V>, Iterable <W>)). Cette opération est également appelée groupe avec.
16	cartesian(otherDataset) Lorsqu'il est appelé sur des ensembles de données de types T et U, renvoie un ensemble de données de paires (T, U) (toutes les paires d'éléments).
17	pipe(command, [envVars]) Dirigez chaque partition du RDD via une commande shell, par exemple un script Perl ou bash. Les éléments RDD sont écrits dans le stdin du processus et les lignes sorties vers son stdout sont renvoyées sous la forme d'un RDD de chaînes.
18	coalesce(numPartitions) Diminuez le nombre de partitions dans le RDD à numPartitions. Utile pour exécuter des opérations plus efficacement après avoir filtré un grand ensemble de données.
19	repartition(numPartitions) Remaniez les données du RDD de manière aléatoire pour créer plus ou moins de partitions et les équilibrer entre elles. Cela mélange toujours toutes les données sur le réseau.
20	repartitionAndSortWithinPartitions(partitioner) Repartitionnez le RDD selon le partitionneur donné et, dans chaque partition résultante, triez les enregistrements par leurs clés. C'est plus efficace que d'appeler la répartition puis de trier dans chaque partition, car cela peut pousser le tri vers le bas dans la machine de mélange.

Le tableau suivant donne une liste d'actions, qui renvoient des valeurs.

S.Non	Action et signification
1	reduce(func) Agréger les éléments de l'ensemble de données à l'aide d'une fonction func(qui prend deux arguments et en renvoie un). La fonction doit être commutative et associative pour pouvoir être calculée correctement en parallèle.
2	collect() Renvoie tous les éléments de l'ensemble de données sous forme de tableau dans le programme pilote. Cela est généralement utile après un filtre ou une autre opération qui renvoie un sous-ensemble suffisamment petit des données.
3	count() Renvoie le nombre d'éléments dans l'ensemble de données.
4	first() Renvoie le premier élément de l'ensemble de données (similaire à take (1)).
5	take(n) Renvoie un tableau avec le premier n éléments de l'ensemble de données.
6	takeSample (withReplacement,num, [seed]) Renvoie un tableau avec un échantillon aléatoire de num éléments de l'ensemble de données, avec ou sans remplacement, spécifiant éventuellement une graine de générateur de nombres aléatoires.
sept	takeOrdered(n, [ordering]) Renvoie le premier n éléments du RDD en utilisant soit leur ordre naturel, soit un comparateur personnalisé.
8	saveAsTextFile(path) Écrit les éléments de l'ensemble de données sous forme de fichier texte (ou ensemble de fichiers texte) dans un répertoire donné du système de fichiers local, HDFS ou tout autre système de fichiers pris en charge par Hadoop. Spark appelle toString sur chaque élément pour le convertir en une ligne de texte dans le fichier.
9	saveAsSequenceFile(path) (Java and Scala) Écrit les éléments de l'ensemble de données en tant que fichier de séquence Hadoop dans un chemin donné dans le système de fichiers local, HDFS ou tout autre système de fichiers pris en charge par Hadoop. Ceci est disponible sur les RDD de paires clé-valeur qui implémentent l'interface Writable de Hadoop. Dans Scala, il est également disponible sur les types qui sont implicitement convertibles en Writable (Spark inclut des conversions pour les types de base comme Int, Double, String, etc.).
dix	saveAsObjectFile(path) (Java and Scala) Écrit les éléments de l'ensemble de données dans un format simple à l'aide de la sérialisation Java, qui peut ensuite être chargée à l'aide de SparkContext.objectFile ().
11	countByKey() Uniquement disponible sur les RDD de type (K, V). Renvoie une table de hachage de paires (K, Int) avec le nombre de chaque clé.
12	foreach(func) Exécute une fonction funcsur chaque élément de l'ensemble de données. Ceci est généralement effectué pour des effets secondaires tels que la mise à jour d'un accumulateur ou l'interaction avec des systèmes de stockage externes. Note- la modification de variables autres que les accumulateurs en dehors de foreach () peut entraîner un comportement indéfini. Voir Comprendre les fermetures pour plus de détails.

Le tableau ci-dessous décrit une liste de options -

S.Non	Option	La description
1	--Maître	spark: // hôte: port, mesos: // hôte: port, fil ou local.
2	--deploy-mode	S'il faut lancer le programme pilote localement ("client") ou sur l'une des machines de travail à l'intérieur du cluster ("cluster") (par défaut: client).
3	--classe	Classe principale de votre application (pour les applications Java / Scala).
4	--Nom	Un nom de votre application.
5	- bocaux	Liste des fichiers JAR locaux séparés par des virgules à inclure dans les chemins de classe du pilote et de l'exécuteur.
6	--paquets	Liste séparée par des virgules des coordonnées maven des fichiers JAR à inclure dans les chemins de classe du pilote et de l'exécuteur.
sept	- référentiels	Liste séparée par des virgules de référentiels distants supplémentaires pour rechercher les coordonnées maven données avec --packages.
8	--py-fichiers	Liste de fichiers .zip, .egg ou .py séparés par des virgules à placer sur le PATH PYTHON pour les applications Python.
9	--des dossiers	Liste de fichiers séparés par des virgules à placer dans le répertoire de travail de chaque exécuteur.
dix	--conf (prop = val)	Propriété de configuration Spark arbitraire.
11	--properties-fichier	Chemin vers un fichier à partir duquel charger des propriétés supplémentaires. S'il n'est pas spécifié, cela recherchera les valeurs par défaut de conf / spark.
12	--mémoire-pilote	Mémoire pour le pilote (par exemple 1000M, 2G) (par défaut: 512M).
13	--driver-java-options	Options Java supplémentaires à transmettre au pilote.
14	--driver-library-path	Entrées de chemin de bibliothèque supplémentaires à transmettre au pilote.
15	- chemin-classe-pilote	Entrées de chemin de classe supplémentaires à transmettre au pilote. Notez que les fichiers jars ajoutés avec --jars sont automatiquement inclus dans le chemin de classe.
16	- mémoire-exécuteur	Mémoire par exécuteur (par exemple 1000M, 2G) (par défaut: 1G).
17	--proxy-utilisateur	Utilisateur à emprunter l'identité lors de la soumission de la candidature.
18	--help, -h	Affichez ce message d'aide et quittez.
19	--verbose, -v	Imprimer une sortie de débogage supplémentaire.
20	--version	Imprimez la version actuelle de Spark.
21	--driver-cœurs NUM	Cœurs pour le pilote (par défaut: 1).
22	--superviser	Le cas échéant, redémarre le pilote en cas d'échec.
23	--tuer	S'il est donné, tue le pilote spécifié.
24	--statut	S'il est donné, demande le statut du pilote spécifié.
25	--total-executor-cores	Nombre total de cœurs pour tous les exécuteurs.
26	--executor-cores	Nombre de cœurs par exécuteur. (Par défaut: 1 en mode YARN, ou tous les cœurs disponibles sur le worker en mode autonome).

Voici une liste des méthodes numériques disponibles dans StatusCounter.

S.Non	Méthodes et signification
1	count() Nombre d'éléments dans le RDD.
2	Mean() Moyenne des éléments du RDD.
3	Sum() Valeur totale des éléments dans le RDD.
4	Max() Valeur maximale parmi tous les éléments du RDD.
5	Min() Valeur minimale parmi tous les éléments du RDD.
6	Variance() Variance des éléments.
sept	Stdev() Écart-type.

Tutoriel Apache Spark

Ressources utiles Apache Spark