Scrapy - Première araignée

La description

Spider est une classe qui définit l'URL initiale à partir de laquelle extraire les données, comment suivre les liens de pagination et comment extraire et analyser les champs définis dans le items.py. Scrapy fournit différents types d'araignées dont chacun donne un but spécifique.

Créez un fichier appelé "first_spider.py"sous le répertoire first_scrapy / spiders, où nous pouvons dire à Scrapy comment trouver les données exactes que nous recherchons. Pour cela, vous devez définir certains attributs -

  • name - Il définit le nom unique de l'araignée.

  • allowed_domains - Il contient les URL de base que l'araignée doit explorer.

  • start-urls − A list of URLs from where the spider starts crawling.

  • parse() − It is a method that extracts and parses the scraped data.

The following code demonstrates how a spider code looks like −

import scrapy  

class firstSpider(scrapy.Spider): 
   name = "first" 
   allowed_domains = ["dmoz.org"] 
   
   start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
   ]  
   def parse(self, response): 
      filename = response.url.split("/")[-2] + '.html' 
      with open(filename, 'wb') as f: 
         f.write(response.body)