Scrapy - Autres paramètres

Le tableau suivant montre d'autres paramètres de Scrapy -

Sr. Non Réglage et description
1

AJAXCRAWL_ENABLED

Il est utilisé pour activer les grandes analyses.

Valeur par défaut: False

2

AUTOTHROTTLE_DEBUG

Il est activé pour voir comment les paramètres de limitation sont ajustés en temps réel, ce qui affiche des statistiques sur chaque réponse reçue.

Valeur par défaut: False

3

AUTOTHROTTLE_ENABLED

Il est utilisé pour activer l'extension AutoThrottle.

Valeur par défaut: False

4

AUTOTHROTTLE_MAX_DELAY

Il est utilisé pour définir le délai maximum de téléchargement en cas de latences élevées.

Valeur par défaut: 60,0

5

AUTOTHROTTLE_START_DELAY

Il est utilisé pour définir le délai initial de téléchargement.

Valeur par défaut: 5,0

6

AUTOTHROTTLE_TARGET_CONCURRENCY

Il définit le nombre moyen de demandes pour un Scrapy à envoyer parallèlement à des sites distants.

Valeur par défaut: 1.0

sept

CLOSESPIDER_ERRORCOUNT

Il définit le nombre total d'erreurs qui doivent être reçues avant la fermeture de l'araignée.

Valeur par défaut: 0

8

CLOSESPIDER_ITEMCOUNT

Il définit un nombre total d'éléments avant de fermer l'araignée.

Valeur par défaut: 0

9

CLOSESPIDER_PAGECOUNT

Il définit le nombre maximum de réponses à analyser avant la fermeture de l'araignée.

Valeur par défaut: 0

dix

CLOSESPIDER_TIMEOUT

Il définit la durée (en secondes) d'une araignée pour se fermer.

Valeur par défaut: 0

11

COMMANDS_MODULE

Il est utilisé lorsque vous souhaitez ajouter des commandes personnalisées dans votre projet.

Valeur par défaut: ''

12

COMPRESSION_ENABLED

Il indique que le middleware de compression est activé.

Valeur par défaut: True

13

COOKIES_DEBUG

S'il est défini sur true, tous les cookies envoyés dans les demandes et reçus dans les réponses sont enregistrés.

Valeur par défaut: False

14

COOKIES_ENABLED

Il indique que le middleware des cookies est activé et envoyé aux serveurs Web.

Valeur par défaut: True

15

FILES_EXPIRES

Il définit le délai d'expiration du fichier.

Valeur par défaut: 90 jours

16

FILES_RESULT_FIELD

Il est défini lorsque vous souhaitez utiliser d'autres noms de champ pour vos fichiers traités.

17

FILES_STORE

Il est utilisé pour stocker les fichiers téléchargés en le définissant sur une valeur valide.

18

FILES_STORE_S3_ACL

Il est utilisé pour modifier la stratégie ACL pour les fichiers stockés dans le compartiment Amazon S3.

Valeur par défaut: privé

19

FILES_URLS_FIELD

Il est défini lorsque vous souhaitez utiliser un autre nom de champ pour les URL de vos fichiers.

20

HTTPCACHE_ALWAYS_STORE

Spider mettra complètement les pages en cache si ce paramètre est activé.

Valeur par défaut: False

21

HTTPCACHE_DBM_MODULE

Il s'agit d'un module de base de données utilisé dans le backend de stockage DBM.

Valeur par défaut: 'anydbm'

22

HTTPCACHE_DIR

C'est un répertoire utilisé pour activer et stocker le cache HTTP.

Valeur par défaut: 'httpcache'

23

HTTPCACHE_ENABLED

Cela indique que le cache HTTP est activé.

Valeur par défaut: False

24

HTTPCACHE_EXPIRATION_SECS

Il est utilisé pour définir le délai d'expiration du cache HTTP.

Valeur par défaut: 0

25

HTTPCACHE_GZIP

Ce paramètre s'il est défini sur true, toutes les données mises en cache seront compressées avec gzip.

Valeur par défaut: False

26

HTTPCACHE_IGNORE_HTTP_CODES

Il indique que les réponses HTTP ne doivent pas être mises en cache avec des codes HTTP.

Valeur par défaut: []

27

HTTPCACHE_IGNORE_MISSING

Ce paramètre s'il est activé, les demandes seront ignorées si elles ne sont pas trouvées dans le cache.

Valeur par défaut: False

28

HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS

C'est une liste contenant des contrôles de cache à ignorer.

Valeur par défaut: []

29

HTTPCACHE_IGNORE_SCHEME

Il indique que les réponses HTTP ne doivent pas être mises en cache avec des schémas d'URI.

Valeur par défaut: ['file']

30

HTTPCACHE_POLICY

Il définit une classe mettant en œuvre la politique de cache.

Valeur par défaut: 'scrapy.extensions.httpcache.DummyPolicy'

31

HTTPCACHE_STORAGE

C'est une classe implémentant le stockage du cache.

Valeur par défaut: 'scrapy.extensions.httpcache.FilesystemCacheStorage'

32

HTTPERROR_ALLOWED_CODES

C'est une liste dans laquelle toutes les réponses sont passées avec des codes de statut non 200.

Valeur par défaut: []

33

HTTPERROR_ALLOW_ALL

Ce paramètre lorsqu'il est activé, toutes les réponses sont passées malgré ses codes d'état.

Valeur par défaut: False

34

HTTPPROXY_AUTH_ENCODING

Il est utilisé pour authentifier le proxy sur HttpProxyMiddleware .

Valeur par défaut: "latin-1"

35

IMAGES_EXPIRES

Il définit le délai d'expiration des images.

Valeur par défaut: 90 jours

36

IMAGES_MIN_HEIGHT

Il est utilisé pour déposer des images trop petites en utilisant une taille minimale.

37

IMAGES_MIN_WIDTH

Il est utilisé pour déposer des images trop petites en utilisant une taille minimale.

38

IMAGES_RESULT_FIELD

Il est défini lorsque vous souhaitez utiliser un autre nom de champ pour vos images traitées.

39

IMAGES_STORE

Il est utilisé pour stocker les images téléchargées en le définissant sur une valeur valide.

40

IMAGES_STORE_S3_ACL

Il est utilisé pour modifier la stratégie ACL pour les images stockées dans le compartiment Amazon S3.

Valeur par défaut: privé

41

IMAGES_THUMBS

Il est configuré pour créer les vignettes des images téléchargées.

42

IMAGES_URLS_FIELD

Il est défini lorsque vous souhaitez utiliser un autre nom de champ pour les URL de vos images.

43

MAIL_FROM

L'expéditeur utilise ce paramètre pour envoyer les e-mails.

Valeur par défaut: 'scrapy @ localhost'

44

MAIL_HOST

C'est un hôte SMTP utilisé pour envoyer des e-mails.

Valeur par défaut: 'localhost'

45

MAIL_PASS

C'est un mot de passe utilisé pour authentifier SMTP.

Valeur par défaut: aucune

46

MAIL_PORT

C'est un port SMTP utilisé pour envoyer des e-mails.

Valeur par défaut: 25

47

MAIL_SSL

Il est utilisé pour implémenter une connexion à l'aide d'une connexion cryptée SSL.

Valeur par défaut: False

48

MAIL_TLS

Lorsqu'il est activé, il force la connexion à l'aide de STARTTLS.

Valeur par défaut: False

49

MAIL_USER

Il définit un utilisateur pour authentifier SMTP.

Valeur par défaut: aucune

50

METAREFRESH_ENABLED

Il indique que le middleware de rafraîchissement meta est activé.

Valeur par défaut: True

51

METAREFRESH_MAXDELAY

Il s'agit d'un délai maximum pour une méta-actualisation pour rediriger.

Valeur par défaut: 100

52

REDIRECT_ENABLED

Il indique que le middleware de redirection est activé.

Valeur par défaut: True

53

REDIRECT_MAX_TIMES

Il définit le nombre maximum de fois qu'une requête est redirigée.

Valeur par défaut: 20

54

REFERER_ENABLED

Cela indique que le middleware référent est activé.

Valeur par défaut: True

55

RETRY_ENABLED

Il indique que le middleware de nouvelle tentative est activé.

Valeur par défaut: True

56

RETRY_HTTP_CODES

Il définit les codes HTTP à réessayer.

Valeur par défaut: [500, 502, 503, 504, 408]

57

RETRY_TIMES

Il définit le nombre maximal de tentatives de relance.

Valeur par défaut: 2

58

TELNETCONSOLE_HOST

Il définit une interface sur laquelle la console telnet doit écouter.

Valeur par défaut: '127.0.0.1'

59

TELNETCONSOLE_PORT

Il définit un port à utiliser pour la console telnet.

Valeur par défaut: [6023, 6073]