Brook.Xi


  • 首页

  • 分类

  • 标签

  • 归档

Scrapy入门(2):编写spider.py

发表于 2016-10-31   |   分类于 Python

简介

spider.py: 引用items.py定义的item类,编写爬取程序提取item,最后返回item数据。

引用Spider类

为了创建一个spider,我们需要继承scrapy中的Spider类,并定义相应的属性和方法。

除了Spider这个最基础的类以外,scrapy还包含了CrawlSpider,XMLFeedSpider,CSVFeedSpider,SitemapSpider等几种爬虫类。

阅读全文 »

Scrapy入门(1):安装及简介

发表于 2016-10-25   |   分类于 Python

简介

在边学边做中完成了第一个Python爬虫项目,成功使用scrapy框架抓取国外电商网站的商品信息。


scrapy安装

服务器系统环境

  • Mac OS
  • Python3.5(已安装pip)

安装scrapy

1
2
# 使用pip安装scrapy
pip3.5 install scrapy
阅读全文 »

Python常用语句

发表于 2016-10-24   |   分类于 Python

简介

常见语句:import,赋值,if,while,for,try,with。

import

1
2
3
4
5
6
7
8
9
10
11
#导入re模块
import re

# 导入pandas模块并赋值为变量pd
import pandas as pd

# 导入user_agents包中的parse模块
from user_agents import parse

# 导入re模块的findall方法
from re import findall
阅读全文 »

Python中使用正则表达式:re模块

发表于 2016-10-23   |   分类于 Python

简介

正则表达式可以按照一定的规则(模式)对文本进行处理,Python中可以通过自带的re模块使用正则表达式。re模块无需安装直接import re。

阅读全文 »

pip管理Python包

发表于 2016-10-22   |   分类于 Python

简介

Python有非常多很好用的包,使用pip管理这些包,进行安装、更新或者删除。

阅读全文 »

Python常见数据类型

发表于 2016-10-21   |   分类于 Python

简介

Python最常见的数据类型分为序列与映射两大类。
常见的序列有列表list[]、元组tupple()、字符串str三种,常见的映射为字典{}。

阅读全文 »

我的第一个H5项目(微信活动)

发表于 2016-09-19   |   分类于 Web开发

前言

整个项目开发过程中遇到了很多的问题,包括页面样式、页面布局、背景音乐、图片预加载、页面交互(touch和shake)、微信自定义分享等等。下面将会一一阐述。

阅读全文 »

Centos下安装Node.js

发表于 2016-09-01   |   分类于 Web开发

前言

初衷是为了搭建一个简单的后台管理系统, 而选择Node.js也是因为其轻便、简单、上手快。

阅读全文 »

Excel感观

发表于 2016-08-31   |   分类于 Excel

前言

细数所有可用于数据分析的软件, Excel应该是其中使用最广、上手最快的一款了。

Excel有三点是我最喜欢的:

  • 大量的公式函数, 可以非常快速的进行数据处理;
  • 数据透视表/图, 可以很方便的对数据进行不同维度的交叉透视计算, 展现乃至发散我们的分析想法;
  • 画图功能, 诸如折线图、柱形图、饼图等简单的图形都可以一键搞定, 同时还可以发挥想象进行各种自定义的组合。
    阅读全文 »

我对数据分析的理解

发表于 2016-08-30   |   分类于 数据分析

人人都是数据分析师

在现在这样一个用数据说话, 靠数据竞争的时代, 人人都应该懂一点数据分析。
而顶着数据分析师的名头靠数据分析吃饭的我们, 更需要比别人做的更好。
吃的透业务、搞的定技术、玩的转数据、写的好报告, 这些技能我们每一项都必不可少。

阅读全文 »

123
Brook.Xi

Brook.Xi

毋意, 毋必, 毋固, 毋我

21 文章
6 分类
15 标签
GitHub
© 2019 Brook.Xi
Hexo
主题 - NexT.Pisces