Scrapy - Ramper
La description
Pour exécuter votre spider, exécutez la commande suivante dans votre répertoire first_scrapy -
scrapy crawl first
Où, first est le nom de l'araignée spécifié lors de la création de l'araignée.
Une fois que l'araignée parcourt, vous pouvez voir la sortie suivante -
2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)
Comme vous pouvez le voir dans la sortie, pour chaque URL, il y a une ligne de journal qui (référent: Aucun) indique que les URL sont des URL de démarrage et qu'elles n'ont pas de référents. Ensuite, vous devriez voir deux nouveaux fichiers nommés Books.html et Resources.html sont créés dans votre répertoire first_scrapy .