Scrapy - Aperçu

Scrapy est un framework d'exploration Web rapide et open-source écrit en Python, utilisé pour extraire les données de la page Web à l'aide de sélecteurs basés sur XPath.

Scrapy a été publié pour la première fois le 26 juin 2008 sous licence BSD, avec un jalon 1.0 publié en juin 2015.

Pourquoi utiliser Scrapy?

  • Il est plus facile de créer et de mettre à l'échelle de grands projets d'exploration.

  • Il dispose d'un mécanisme intégré appelé sélecteurs, pour extraire les données des sites Web.

  • Il gère les demandes de manière asynchrone et c'est rapide.

  • Il ajuste automatiquement la vitesse d'exploration à l'aide du mécanisme d'auto-étranglement .

  • Assure l'accessibilité des développeurs.

Caractéristiques de Scrapy

  • Scrapy est un framework d'exploration Web open source et gratuit.

  • Scrapy génère des exportations de flux dans des formats tels que JSON, CSV et XML.

  • Scrapy a un support intégré pour la sélection et l'extraction de données à partir de sources soit par XPath ou expressions CSS.

  • Scrapy basé sur un robot d'exploration, permet d'extraire automatiquement les données des pages Web.

Avantages

  • Scrapy est facilement extensible, rapide et puissant.

  • Il s'agit d'un cadre d'application multiplateforme (Windows, Linux, Mac OS et BSD).

  • Les demandes Scrapy sont planifiées et traitées de manière asynchrone.

  • Scrapy est livré avec un service intégré appelé Scrapyd qui permet de télécharger des projets et de contrôler les araignées à l'aide du service Web JSON.

  • Il est possible de supprimer n'importe quel site Web, bien que ce site Web ne dispose pas d'API pour l'accès aux données brutes.

Désavantages

  • Scrapy est uniquement pour Python 2.7. +

  • L'installation est différente pour différents systèmes d'exploitation.