Spark SQL - Sources de données

Une interface DataFrame permet à différentes DataSources de fonctionner sur Spark SQL. Il s'agit d'une table temporaire et peut être utilisée comme un RDD normal. L'enregistrement d'un DataFrame en tant que table vous permet d'exécuter des requêtes SQL sur ses données.

Dans ce chapitre, nous décrirons les méthodes générales de chargement et d'enregistrement de données à l'aide de différentes sources de données Spark. Par la suite, nous discuterons en détail des options spécifiques disponibles pour les sources de données intégrées.

Il existe différents types de sources de données disponibles dans SparkSQL, dont certaines sont répertoriées ci-dessous -

Sr. Non Les sources de données
1 Ensembles de données JSON

Spark SQL peut capturer automatiquement le schéma d'un ensemble de données JSON et le charger en tant que DataFrame.

2 Tables de ruche

Hive est fourni avec la bibliothèque Spark sous le nom de HiveContext, qui hérite de SQLContext.

3 Dossiers de parquet

Parquet est un format en colonnes, pris en charge par de nombreux systèmes de traitement de données.