简介
在边学边做中完成了第一个Python爬虫项目,成功使用scrapy框架抓取国外电商网站的商品信息。
scrapy安装
服务器系统环境
- Mac OS
- Python3.5(已安装pip)
安装scrapy
1 | # 使用pip安装scrapy |
scrapy入门
创建项目
1 | cd /指定目录的路径/ |
项目主要文件介绍
项目目录下面,我们主要关注这三个文件:
- items.py: 定义item类,也就是我们抓取的商品需要包含哪些属性
1 | from scrapy.item import Item, Field |
- spider.py: 引用items.py定义的item类,编写爬取程序提取item,最后返回item结果
1 | # 以下只是代码的部分主体,后文会详细说明 |
- pipelines.py:针对spider.py返回的item结果进行转换、存储等操作
1 | # 例: |
运行爬虫
1 | # 此处的'freepeopleSpider'是spider.py文件内定义的爬虫类得名字,而不是项目的名字test0 |
That’s all.
Happy writing!