Scrapy是一个应用程序框架,用于对网站进行爬行和提取结构化数据,这些结构化数据可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。
安装指南
Scrapy需要python3.6+,CPython或pypy7.2.0+
pip install Scrapy
Scrapy 是用纯python编写的,它依赖于几个关键的python包(以及其他包):
- lxml 一个高效的XML和HTML解析器
- parsel ,一个写在lxml上面的html/xml数据提取库,
- w3lib ,用于处理URL和网页编码的多用途帮助程序
- twisted 异步网络框架
- cryptography 和 pyOpenSSL ,处理各种网络级安全需求
Scrapy测试的最小版本是:
- Twisted 14.0
- lxml 3.4
- pyOpenSSL 0.14
Scrapy可以与这些软件包的旧版本一起工作,但不能保证它会继续工作,因为它没有针对它们进行测试。
其中一些软件包本身依赖于非python软件包,这些软件包可能需要依赖于您的平台的其他安装步骤。请检查 platform-specific guides below .
如果与这些依赖项相关的任何问题,请参阅它们各自的安装说明:
正文完