Scrapy 爬虫攻略

303次阅读

Scrapy是一个应用程序框架,用于对网站进行爬行和提取结构化数据,这些结构化数据可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。

安装指南

Scrapy需要python3.6+,CPython或pypy7.2.0+

pip install Scrapy

Scrapy 是用纯python编写的,它依赖于几个关键的python包(以及其他包):

  • lxml 一个高效的XML和HTML解析器
  • parsel ,一个写在lxml上面的html/xml数据提取库,
  • w3lib ,用于处理URL和网页编码的多用途帮助程序
  • twisted 异步网络框架
  • cryptography 和 pyOpenSSL ,处理各种网络级安全需求

Scrapy测试的最小版本是:

  • Twisted 14.0
  • lxml 3.4
  • pyOpenSSL 0.14

Scrapy可以与这些软件包的旧版本一起工作,但不能保证它会继续工作,因为它没有针对它们进行测试。

其中一些软件包本身依赖于非python软件包,这些软件包可能需要依赖于您的平台的其他安装步骤。请检查 platform-specific guides below .

如果与这些依赖项相关的任何问题,请参阅它们各自的安装说明:

正文完