Scrapy - Aperçu
Scrapy est un framework d'exploration Web rapide et open-source écrit en Python, utilisé pour extraire les données de la page Web à l'aide de sélecteurs basés sur XPath.
Scrapy a été publié pour la première fois le 26 juin 2008 sous licence BSD, avec un jalon 1.0 publié en juin 2015.
Pourquoi utiliser Scrapy?
Il est plus facile de créer et de mettre à l'échelle de grands projets d'exploration.
Il dispose d'un mécanisme intégré appelé sélecteurs, pour extraire les données des sites Web.
Il gère les demandes de manière asynchrone et c'est rapide.
Il ajuste automatiquement la vitesse d'exploration à l'aide du mécanisme d'auto-étranglement .
Assure l'accessibilité des développeurs.
Caractéristiques de Scrapy
Scrapy est un framework d'exploration Web open source et gratuit.
Scrapy génère des exportations de flux dans des formats tels que JSON, CSV et XML.
Scrapy a un support intégré pour la sélection et l'extraction de données à partir de sources soit par XPath ou expressions CSS.
Scrapy basé sur un robot d'exploration, permet d'extraire automatiquement les données des pages Web.
Avantages
Scrapy est facilement extensible, rapide et puissant.
Il s'agit d'un cadre d'application multiplateforme (Windows, Linux, Mac OS et BSD).
Les demandes Scrapy sont planifiées et traitées de manière asynchrone.
Scrapy est livré avec un service intégré appelé Scrapyd qui permet de télécharger des projets et de contrôler les araignées à l'aide du service Web JSON.
Il est possible de supprimer n'importe quel site Web, bien que ce site Web ne dispose pas d'API pour l'accès aux données brutes.
Désavantages
Scrapy est uniquement pour Python 2.7. +
L'installation est différente pour différents systèmes d'exploitation.