S.Non Transformations et signification
1

map(func)

Renvoie un nouvel ensemble de données distribué, formé en passant chaque élément de la source via une fonction func.

2

filter(func)

Renvoie un nouvel ensemble de données formé en sélectionnant les éléments de la source sur lesquels func renvoie vrai.

3

flatMap(func)

Similaire à map, mais chaque élément d'entrée peut être mappé à 0 ou plusieurs éléments de sortie (donc func doit renvoyer un Seq plutôt qu'un seul élément).

4

mapPartitions(func)

Similaire à map, mais s'exécute séparément sur chaque partition (bloc) du RDD, donc func doit être de type Iterator <T> ⇒ Iterator <U> lors de l'exécution sur un RDD de type T.

5

mapPartitionsWithIndex(func)

Similaire à la carte des partitions, mais fournit également func avec une valeur entière représentant l'index de la partition, donc func doit être de type (Int, Iterator <T>) ⇒ Iterator <U> lors de l'exécution sur un RDD de type T.

6

sample(withReplacement, fraction, seed)

Échantillon d'un fraction des données, avec ou sans remplacement, en utilisant une graine de générateur de nombres aléatoires donnée.

sept

union(otherDataset)

Renvoie un nouvel ensemble de données qui contient l'union des éléments de l'ensemble de données source et de l'argument.

8

intersection(otherDataset)

Renvoie un nouveau RDD contenant l'intersection des éléments du jeu de données source et de l'argument.

9

distinct([numTasks])

Renvoie un nouvel ensemble de données qui contient les éléments distincts de l'ensemble de données source.

dix

groupByKey([numTasks])

Lorsqu'il est appelé sur un ensemble de données de paires (K, V), renvoie un ensemble de données de paires (K, Iterable <V>).

Note - Si vous groupez afin d'effectuer une agrégation (telle qu'une somme ou une moyenne) sur chaque clé, l'utilisation de reductionByKey ou aggregateByKey donnera de bien meilleures performances.

11

reduceByKey(func, [numTasks])

Lorsqu'il est appelé sur un ensemble de données de paires (K, V), renvoie un ensemble de données de paires (K, V) où les valeurs de chaque clé sont agrégées en utilisant la fonction de réduction donnée func , qui doit être de type (V, V) ⇒ V Comme dans groupByKey, le nombre de tâches de réduction est configurable via un deuxième argument facultatif.

12

aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])

Lorsqu'il est appelé sur un ensemble de données de paires (K, V), renvoie un ensemble de données de paires (K, U) où les valeurs de chaque clé sont agrégées à l'aide des fonctions de combinaison données et d'une valeur neutre "zéro". Permet un type de valeur agrégée différent du type de valeur d'entrée, tout en évitant les allocations inutiles. Comme dans groupByKey, le nombre de tâches de réduction est configurable via un deuxième argument facultatif.

13

sortByKey([ascending], [numTasks])

Lorsqu'il est appelé sur un ensemble de données de paires (K, V) où K implémente Ordered, renvoie un ensemble de données de paires (K, V) triées par clés dans l'ordre croissant ou décroissant, comme spécifié dans l'argument ascendant booléen.

14

join(otherDataset, [numTasks])

Lorsqu'il est appelé sur des ensembles de données de type (K, V) et (K, W), renvoie un ensemble de données de paires (K, (V, W)) avec toutes les paires d'éléments pour chaque clé. Les jointures externes sont prises en charge via leftOuterJoin, rightOuterJoin et fullOuterJoin.

15

cogroup(otherDataset, [numTasks])

Lorsqu'il est appelé sur des ensembles de données de type (K, V) et (K, W), renvoie un ensemble de données de tuples (K, (Iterable <V>, Iterable <W>)). Cette opération est également appelée groupe avec.

16

cartesian(otherDataset)

Lorsqu'il est appelé sur des ensembles de données de types T et U, renvoie un ensemble de données de paires (T, U) (toutes les paires d'éléments).

17

pipe(command, [envVars])

Dirigez chaque partition du RDD via une commande shell, par exemple un script Perl ou bash. Les éléments RDD sont écrits dans le stdin du processus et les lignes sorties vers son stdout sont renvoyées sous la forme d'un RDD de chaînes.

18

coalesce(numPartitions)

Diminuez le nombre de partitions dans le RDD à numPartitions. Utile pour exécuter des opérations plus efficacement après avoir filtré un grand ensemble de données.

19

repartition(numPartitions)

Remaniez les données du RDD de manière aléatoire pour créer plus ou moins de partitions et les équilibrer entre elles. Cela mélange toujours toutes les données sur le réseau.

20

repartitionAndSortWithinPartitions(partitioner)

Repartitionnez le RDD selon le partitionneur donné et, dans chaque partition résultante, triez les enregistrements par leurs clés. C'est plus efficace que d'appeler la répartition puis de trier dans chaque partition, car cela peut pousser le tri vers le bas dans la machine de mélange.

S.Non Action et signification
1

reduce(func)

Agréger les éléments de l'ensemble de données à l'aide d'une fonction func(qui prend deux arguments et en renvoie un). La fonction doit être commutative et associative pour pouvoir être calculée correctement en parallèle.

2

collect()

Renvoie tous les éléments de l'ensemble de données sous forme de tableau dans le programme pilote. Cela est généralement utile après un filtre ou une autre opération qui renvoie un sous-ensemble suffisamment petit des données.

3

count()

Renvoie le nombre d'éléments dans l'ensemble de données.

4

first()

Renvoie le premier élément de l'ensemble de données (similaire à take (1)).

5

take(n)

Renvoie un tableau avec le premier n éléments de l'ensemble de données.

6

takeSample (withReplacement,num, [seed])

Renvoie un tableau avec un échantillon aléatoire de num éléments de l'ensemble de données, avec ou sans remplacement, spécifiant éventuellement une graine de générateur de nombres aléatoires.

sept

takeOrdered(n, [ordering])

Renvoie le premier n éléments du RDD en utilisant soit leur ordre naturel, soit un comparateur personnalisé.

8

saveAsTextFile(path)

Écrit les éléments de l'ensemble de données sous forme de fichier texte (ou ensemble de fichiers texte) dans un répertoire donné du système de fichiers local, HDFS ou tout autre système de fichiers pris en charge par Hadoop. Spark appelle toString sur chaque élément pour le convertir en une ligne de texte dans le fichier.

9

saveAsSequenceFile(path) (Java and Scala)

Écrit les éléments de l'ensemble de données en tant que fichier de séquence Hadoop dans un chemin donné dans le système de fichiers local, HDFS ou tout autre système de fichiers pris en charge par Hadoop. Ceci est disponible sur les RDD de paires clé-valeur qui implémentent l'interface Writable de Hadoop. Dans Scala, il est également disponible sur les types qui sont implicitement convertibles en Writable (Spark inclut des conversions pour les types de base comme Int, Double, String, etc.).

dix

saveAsObjectFile(path) (Java and Scala)

Écrit les éléments de l'ensemble de données dans un format simple à l'aide de la sérialisation Java, qui peut ensuite être chargée à l'aide de SparkContext.objectFile ().

11

countByKey()

Uniquement disponible sur les RDD de type (K, V). Renvoie une table de hachage de paires (K, Int) avec le nombre de chaque clé.

12

foreach(func)

Exécute une fonction funcsur chaque élément de l'ensemble de données. Ceci est généralement effectué pour des effets secondaires tels que la mise à jour d'un accumulateur ou l'interaction avec des systèmes de stockage externes.

Note- la modification de variables autres que les accumulateurs en dehors de foreach () peut entraîner un comportement indéfini. Voir Comprendre les fermetures pour plus de détails.

S.Non Option La description
1 --Maître spark: // hôte: port, mesos: // hôte: port, fil ou local.
2 --deploy-mode S'il faut lancer le programme pilote localement ("client") ou sur l'une des machines de travail à l'intérieur du cluster ("cluster") (par défaut: client).
3 --classe Classe principale de votre application (pour les applications Java / Scala).
4 --Nom Un nom de votre application.
5 - bocaux Liste des fichiers JAR locaux séparés par des virgules à inclure dans les chemins de classe du pilote et de l'exécuteur.
6 --paquets Liste séparée par des virgules des coordonnées maven des fichiers JAR à inclure dans les chemins de classe du pilote et de l'exécuteur.
sept - référentiels Liste séparée par des virgules de référentiels distants supplémentaires pour rechercher les coordonnées maven données avec --packages.
8 --py-fichiers Liste de fichiers .zip, .egg ou .py séparés par des virgules à placer sur le PATH PYTHON pour les applications Python.
9 --des dossiers Liste de fichiers séparés par des virgules à placer dans le répertoire de travail de chaque exécuteur.
dix --conf (prop = val) Propriété de configuration Spark arbitraire.
11 --properties-fichier Chemin vers un fichier à partir duquel charger des propriétés supplémentaires. S'il n'est pas spécifié, cela recherchera les valeurs par défaut de conf / spark.
12 --mémoire-pilote Mémoire pour le pilote (par exemple 1000M, 2G) (par défaut: 512M).
13 --driver-java-options Options Java supplémentaires à transmettre au pilote.
14 --driver-library-path Entrées de chemin de bibliothèque supplémentaires à transmettre au pilote.
15 - chemin-classe-pilote

Entrées de chemin de classe supplémentaires à transmettre au pilote.

Notez que les fichiers jars ajoutés avec --jars sont automatiquement inclus dans le chemin de classe.

16 - mémoire-exécuteur Mémoire par exécuteur (par exemple 1000M, 2G) (par défaut: 1G).
17 --proxy-utilisateur Utilisateur à emprunter l'identité lors de la soumission de la candidature.
18 --help, -h Affichez ce message d'aide et quittez.
19 --verbose, -v Imprimer une sortie de débogage supplémentaire.
20 --version Imprimez la version actuelle de Spark.
21 --driver-cœurs NUM Cœurs pour le pilote (par défaut: 1).
22 --superviser Le cas échéant, redémarre le pilote en cas d'échec.
23 --tuer S'il est donné, tue le pilote spécifié.
24 --statut S'il est donné, demande le statut du pilote spécifié.
25 --total-executor-cores Nombre total de cœurs pour tous les exécuteurs.
26 --executor-cores Nombre de cœurs par exécuteur. (Par défaut: 1 en mode YARN, ou tous les cœurs disponibles sur le worker en mode autonome).
S.Non Méthodes et signification
1

count()

Nombre d'éléments dans le RDD.

2

Mean()

Moyenne des éléments du RDD.

3

Sum()

Valeur totale des éléments dans le RDD.

4

Max()

Valeur maximale parmi tous les éléments du RDD.

5

Min()

Valeur minimale parmi tous les éléments du RDD.

6

Variance()

Variance des éléments.

sept

Stdev()

Écart-type.