Scrapy - Exportations d'aliments

La description

Les exportations de flux sont une méthode de stockage des données extraites des sites, qui génère un "export file".

Formats de sérialisation

À l'aide de plusieurs formats de sérialisation et de backends de stockage, les exportations de flux utilisent des exportateurs d'articles et génèrent un flux avec des éléments supprimés.

Le tableau suivant montre les formats pris en charge -

Sr. Non Format et description
1

JSON

FEED_FORMAT est json

L'exportateur utilisé est la classe scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT est jsonlines

L'exportateur utilisé est la classe scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT est CSV

L'exportateur utilisé est la classe scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT est xml

L'exportateur utilisé est la classe scrapy.exporters.XmlItemExporter

En utilisant FEED_EXPORTERS paramètres, les formats pris en charge peuvent également être étendus -

Sr. Non Format et description
1

Pickle

FEED_FORMAT est pickel

L'exportateur utilisé est la classe scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT est maréchal

L'exportateur utilisé est la classe scrapy.exporters.MarshalItemExporter

Backends de stockage

Le backend de stockage définit où stocker le flux à l'aide de l'URI.

Le tableau suivant montre les backends de stockage pris en charge -

Sr. Non Backend de stockage et description
1

Local filesystem

Le schéma d'URI est un fichier et il est utilisé pour stocker les flux.

2

FTP

Le schéma d'URI est ftp et il est utilisé pour stocker les flux.

3

S3

Le schéma d'URI est S3 et les flux sont stockés sur Amazon S3. Les bibliothèques externes botocore ou boto sont requises.

4

Standard output

Le schéma d'URI est stdout et les flux sont stockés dans la sortie standard.

Paramètres d'URI de stockage

Voici les paramètres de l'URL de stockage, qui est remplacée lors de la création du flux -

  • % (time) s: ce paramètre est remplacé par un horodatage.
  • % (nom) s: ce paramètre est remplacé par le nom de l'araignée.

Réglages

Le tableau suivant montre les paramètres à l'aide desquels les exportations de flux peuvent être configurées -

Sr. Non Réglage et description
1

FEED_URI

Il s'agit de l'URI du flux d'exportation utilisé pour activer les exportations de flux.

2

FEED_FORMAT

Il s'agit d'un format de sérialisation utilisé pour le flux.

3

FEED_EXPORT_FIELDS

Il est utilisé pour définir les champs qui doivent être exportés.

4

FEED_STORE_EMPTY

Il définit s'il faut exporter les flux sans éléments.

5

FEED_STORAGES

C'est un dictionnaire avec des backends de stockage de flux supplémentaires.

6

FEED_STORAGES_BASE

C'est un dictionnaire avec des backends de stockage de flux intégrés.

sept

FEED_EXPORTERS

C'est un dictionnaire avec des exportateurs de flux supplémentaires.

8

FEED_EXPORTERS_BASE

C'est un dictionnaire avec des exportateurs de flux intégrés.