Scrapy - Exportations d'aliments
La description
Les exportations de flux sont une méthode de stockage des données extraites des sites, qui génère un "export file".
Formats de sérialisation
À l'aide de plusieurs formats de sérialisation et de backends de stockage, les exportations de flux utilisent des exportateurs d'articles et génèrent un flux avec des éléments supprimés.
Le tableau suivant montre les formats pris en charge -
Sr. Non | Format et description |
---|---|
1 | JSON FEED_FORMAT est json L'exportateur utilisé est la classe scrapy.exporters.JsonItemExporter |
2 | JSON lines FEED_FROMAT est jsonlines L'exportateur utilisé est la classe scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT est CSV L'exportateur utilisé est la classe scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT est xml L'exportateur utilisé est la classe scrapy.exporters.XmlItemExporter |
En utilisant FEED_EXPORTERS paramètres, les formats pris en charge peuvent également être étendus -
Sr. Non | Format et description |
---|---|
1 | Pickle FEED_FORMAT est pickel L'exportateur utilisé est la classe scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT est maréchal L'exportateur utilisé est la classe scrapy.exporters.MarshalItemExporter |
Backends de stockage
Le backend de stockage définit où stocker le flux à l'aide de l'URI.
Le tableau suivant montre les backends de stockage pris en charge -
Sr. Non | Backend de stockage et description |
---|---|
1 | Local filesystem Le schéma d'URI est un fichier et il est utilisé pour stocker les flux. |
2 | FTP Le schéma d'URI est ftp et il est utilisé pour stocker les flux. |
3 | S3 Le schéma d'URI est S3 et les flux sont stockés sur Amazon S3. Les bibliothèques externes botocore ou boto sont requises. |
4 | Standard output Le schéma d'URI est stdout et les flux sont stockés dans la sortie standard. |
Paramètres d'URI de stockage
Voici les paramètres de l'URL de stockage, qui est remplacée lors de la création du flux -
- % (time) s: ce paramètre est remplacé par un horodatage.
- % (nom) s: ce paramètre est remplacé par le nom de l'araignée.
Réglages
Le tableau suivant montre les paramètres à l'aide desquels les exportations de flux peuvent être configurées -
Sr. Non | Réglage et description |
---|---|
1 | FEED_URI Il s'agit de l'URI du flux d'exportation utilisé pour activer les exportations de flux. |
2 | FEED_FORMAT Il s'agit d'un format de sérialisation utilisé pour le flux. |
3 | FEED_EXPORT_FIELDS Il est utilisé pour définir les champs qui doivent être exportés. |
4 | FEED_STORE_EMPTY Il définit s'il faut exporter les flux sans éléments. |
5 | FEED_STORAGES C'est un dictionnaire avec des backends de stockage de flux supplémentaires. |
6 | FEED_STORAGES_BASE C'est un dictionnaire avec des backends de stockage de flux intégrés. |
sept | FEED_EXPORTERS C'est un dictionnaire avec des exportateurs de flux supplémentaires. |
8 | FEED_EXPORTERS_BASE C'est un dictionnaire avec des exportateurs de flux intégrés. |